Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
MiniMax M2.7 apporte un modèle d'IA de 230 milliards de paramètres à l'infrastructure NVIDIA
Ted Hisokawa
12 avril 2026 01:37
MiniMax publie M2.7, un modèle d’experts mélangés de 230 milliards de paramètres optimisé pour les GPU NVIDIA avec jusqu’à 2,7x de gains de débit sur le matériel Blackwell.
MiniMax a lancé M2.7, un modèle d’IA à 230 milliards de paramètres à poids ouverts conçu spécifiquement pour les flux de travail d’agents autonomes, désormais disponible dans l’écosystème d’inférence de NVIDIA, y compris les derniers GPU Blackwell Ultra.
Le modèle représente une avancée significative en termes d’efficacité dans l’IA d’entreprise. Malgré ses 230 milliards de paramètres au total, M2.7 n’active que 10 milliards de paramètres par jeton — un taux d’activation de 4,3 % obtenu grâce à une architecture (MoE) de mélange d’experts avec 256 experts locaux. Cela permet de maintenir des coûts d’inférence gérables tout en conservant la capacité de raisonnement d’un modèle beaucoup plus grand.
Chiffres de performance sur Blackwell
NVIDIA a collaboré avec des communautés open source pour optimiser M2.7 pour les charges de travail en production. Deux optimisations clés — un noyau RMS Norm fusionné QK et l’intégration FP8 MoE de TensorRT-LLM — ont permis d’obtenir des améliorations substantielles du débit sur les GPU Blackwell Ultra.
Les tests avec un jeu de données de séquences d’entrée/sortie de 1K/1K ont montré que vLLM atteignait jusqu’à 2,5x d’amélioration du débit, tandis que SGLang a atteint 2,7x. Ces deux optimisations ont été mises en œuvre en un seul mois, ce qui suggère qu’il existe encore un potentiel d’amélioration des performances.
Architecture technique
M2.7 supporte une longueur de contexte d’entrée de 200 000 sur 62 couches, utilisant une auto-attention causale multi-tête avec des Embeddings de Position Rotary (RoPE). Un mécanisme de routage d’experts top-k n’active que 8 des 256 experts pour chaque entrée, ce qui permet au modèle de maintenir des coûts d’inférence faibles malgré son échelle.
L’architecture cible les défis de codage et les tâches complexes d’agents — des flux de travail où les systèmes d’IA doivent planifier, exécuter et itérer de manière autonome plutôt que de répondre à des prompts uniques.
Options de déploiement
Les développeurs peuvent accéder à M2.7 via plusieurs canaux. La pile de référence NemoClaw de NVIDIA offre un déploiement en un clic pour exécuter des agents autonomes avec le runtime OpenShell. Le modèle est également disponible via des microservices conteneurisés NIM de NVIDIA pour des déploiements sur site, dans le cloud ou hybrides.
Pour les équipes souhaitant personnaliser le modèle, la bibliothèque NeMo AutoModel de NVIDIA supporte le fine-tuning avec des recettes publiées. Des flux de travail d’apprentissage par renforcement sont disponibles via NeMo RL avec des configurations d’exemple pour des longueurs de séquence de 8K et 16K.
Des points de terminaison GPU gratuits et accélérés sur build.nvidia.com permettent de tester avant de s’engager dans l’infrastructure. Les poids ouverts sont également disponibles sur Hugging Face pour des déploiements en auto-hébergement.
Cette sortie positionne MiniMax comme une alternative crédible aux modèles fermés d’OpenAI et d’Anthropic pour les entreprises construisant des systèmes d’IA autonomes, en particulier celles déjà investies dans l’infrastructure NVIDIA.
Source de l’image : Shutterstock