MiniMax M2.7が2300億パラメータのAIモデルをNVIDIAインフラに導入

robot
概要作成中

Ted Hisokawa

2026年4月12日 01:37

MiniMaxは、NVIDIAのGPU向けに最適化された2300億パラメータのミクスチャー・オブ・エキスパートモデル「M2.7」をリリースし、Blackwellハードウェア上で最大2.7倍のスループット向上を実現。

MiniMaxは、特に自律エージェントのワークフロー向けに設計された2300億パラメータのオープンウェイトAIモデル「M2.7」をリリースし、NVIDIAの推論エコシステム全体で利用可能となった。最新のBlackwell Ultra GPUもサポート。

このモデルは、エンタープライズAIにおける大きな効率化を示すものだ。総パラメータ数は巨大な2300億にもかかわらず、M2.7は1トークンあたりわずか10億パラメータを活性化—これは256のローカルエキスパートを持つミクスチャー・オブ・エキスパート(MoE)アーキテクチャによる4.3%の活性化率によるものだ。これにより推論コストを抑えつつ、はるかに大きなモデルの推論能力を維持している。

Blackwellでのパフォーマンス数値

NVIDIAは、オープンソースコミュニティと協力してM2.7を実運用ワークロード向けに最適化した。二つの主要な最適化—融合されたQK RMS NormカーネルとTensorRT-LLMによるFP8 MoE統合—により、Blackwell Ultra GPU上で大幅なスループット向上を実現した。

1K/1Kの入力/出力シーケンス長データセットでのテストでは、vLLMは最大2.5倍のスループット改善を達成し、SGLangは2.7倍の向上を記録した。これらの最適化はわずか一ヶ月で実施されており、さらなる性能向上の余地も示唆されている。

技術アーキテクチャ

M2.7は、62層にわたる200Kの入力コンテキスト長をサポートし、ロータリー位置埋め込みを用いたマルチヘッド因果自己注意((RoPE))を採用している。トップ-kエキスパートルーティングにより、任意の入力に対して256のエキスパートのうち8つだけを活性化し、モデルの規模にもかかわらず低コストの推論を維持している。

このアーキテクチャは、コーディングの課題や複雑なエージェントタスクをターゲットとしており、AIシステムが単一のプロンプトに反応するのではなく、自律的に計画・実行・反復を行うワークフローに適している。

展開オプション

開発者は複数のチャネルを通じてM2.7にアクセスできる。NVIDIAのNemoClawリファレンススタックは、OpenShellランタイムを用いた自律エージェントのワンクリック展開を提供。モデルはまた、NVIDIA NIMコンテナ化マイクロサービスを通じて、オンプレミス、クラウド、ハイブリッド展開にも対応している。

モデルのカスタマイズを希望するチーム向けには、NVIDIAのNeMo AutoModelライブラリが公開レシピとともにファインチューニングをサポート。強化学習ワークフローもNeMo RLを通じて利用可能で、8Kおよび16Kシーケンス長のサンプル設定が用意されている。

build.nvidia.comの無料GPUアクセラレーテッドエンドポイントで事前にテストでき、インフラ導入前の検証も可能。オープンウェイトはHugging Faceでも公開されており、セルフホスト型の展開も可能だ。

このリリースにより、MiniMaxはOpenAIやAnthropicのクローズドモデルに対する信頼できる代替案として位置付けられ、特にNVIDIAインフラに既に投資しているエンタープライズにとって魅力的な選択肢となる。

画像出典:Shutterstock

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン