Xiaomi розкрила деталі тренування моделі 1T MiMo-V2-Pro: використано тисячі калорій, без рангу та без дедлайну

Згідно з моніторингом Beating, керівник команди великих моделей Xiaomi Ло Фулі розкрив у першому глибокому інтерв’ю, що базова модель MiMo-V2-Pro має загальну кількість параметрів 1 трильйон, для її тренування було використано тисячі GPU. Вона вважає, що масштаб у 1 трильйон — це мінімальна межа для досягнення рівня, близького до Claude Opus 4.6, та отримання квитка до наступного етапу конкуренції агентів.

На технічному рівні, версія Pro підвищує співвідношення глобальної уваги до уваги з ковзним вікном до 7:1, до максимальної розрідженості, контролюючи витрати на обробку довгих текстів при збільшенні кількості параметрів, і використовує архітектуру MTP (прогнозування кількох токенів) для прискорення обчислень за рахунок додаткових обчислювальних ресурсів.

З управлінської точки зору, у команді MiMo з сотнею людей лише тридцять-двадцять людей безпосередньо займаються основною ітерацією, команда не має чіткої ієрархії або визначених підгруп і дедлайнів для здачі. У разі нестабільних показників, таких як різкі скачки втрат під час тренування, команда обирає безпосередньо зупинити тренування для діагностики, навіть якщо це означає простій на одну-дві тижні та витрати мільйони обчислювальних ресурсів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити