MiniMax M2.7 Membawa Model AI 230Miliar Parameter ke Infrastruktur NVIDIA

robot
Pembuatan abstrak sedang berlangsung

Ted Hisokawa

12 Apr 2026 01:37

MiniMax merilis M2.7, sebuah model campuran ahli dengan 230 miliar parameter yang dioptimalkan untuk GPU NVIDIA dengan peningkatan throughput hingga 2,7x pada perangkat keras Blackwell.

MiniMax telah merilis M2.7, sebuah model AI open-weights dengan 230 miliar parameter yang dirancang khusus untuk alur kerja agen otonom, kini tersedia di seluruh ekosistem inferensi NVIDIA termasuk GPU Blackwell Ultra terbaru dari perusahaan.

Model ini mewakili langkah efisiensi yang signifikan dalam AI perusahaan. Meskipun memiliki total 230B parameter besar, M2.7 hanya mengaktifkan 10B parameter per token—tingkat aktivasi 4,3% yang dicapai melalui arsitektur campuran ahli (MoE) dengan 256 ahli lokal. Ini menjaga biaya inferensi tetap terjangkau sambil mempertahankan kapasitas penalaran dari model yang jauh lebih besar.

Angka Kinerja di Blackwell

NVIDIA bekerja sama dengan komunitas sumber terbuka untuk mengoptimalkan M2.7 untuk beban kerja produksi. Dua optimasi utama—kernel RMS Norm QK yang digabungkan dan integrasi FP8 MoE dari TensorRT-LLM—memberikan peningkatan throughput yang signifikan pada GPU Blackwell Ultra.

Pengujian dengan dataset panjang urutan input/output 1K/1K menunjukkan vLLM mencapai peningkatan throughput hingga 2,5x, sementara SGLang mencapai 2,7x. Kedua optimasi ini diterapkan dalam waktu satu bulan, menunjukkan masih ada ruang performa lebih lanjut.

Arsitektur Teknis

M2.7 mendukung panjang konteks input hingga 200K di 62 lapisan, menggunakan perhatian otomatis multi-kepala dengan Rotary Position Embeddings (RoPE). Mekanisme routing ahli top-k mengaktifkan hanya 8 dari 256 ahli untuk setiap input, yang merupakan cara model menjaga biaya inferensi tetap rendah meskipun skalanya besar.

Arsitektur ini menargetkan tantangan pengkodean dan tugas agen yang kompleks—alur kerja di mana sistem AI perlu merencanakan, mengeksekusi, dan mengulangi secara otonom daripada merespons prompt tunggal.

Opsi Penempatan

Pengembang dapat mengakses M2.7 melalui berbagai saluran. Stack referensi NVIDIA’s NemoClaw menyediakan penempatan satu klik untuk menjalankan agen otonom dengan runtime OpenShell. Model ini juga tersedia melalui layanan mikro berbasis kontainer NVIDIA NIM untuk penempatan di tempat, cloud, atau hibrid.

Untuk tim yang ingin menyesuaikan model, perpustakaan NeMo AutoModel dari NVIDIA mendukung fine-tuning dengan resep yang dipublikasikan. Alur kerja pembelajaran penguatan tersedia melalui NeMo RL dengan konfigurasi contoh untuk panjang urutan 8K dan 16K.

Endpoint GPU-accelerated gratis di build.nvidia.com memungkinkan pengujian sebelum berkomitmen pada infrastruktur. Bobot terbuka ini juga tersedia di Hugging Face untuk penempatan mandiri.

Rilis ini menempatkan MiniMax sebagai alternatif yang kredibel terhadap model tertutup dari OpenAI dan Anthropic untuk perusahaan yang membangun sistem AI otonom, terutama yang sudah berinvestasi dalam infrastruktur NVIDIA.

Sumber gambar: Shutterstock

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan