Згідно з моніторингом Beating, керівник команди великих моделей Xiaomi Ло Фулі розкрив у першому глибокому інтерв’ю, що базова модель MiMo-V2-Pro має загальну кількість параметрів 1 трильйон, для її тренування було використано тисячі GPU. Вона вважає, що масштаб у 1 трильйон — це мінімальна межа для досягнення рівня, близького до Claude Opus 4.6, та отримання квитка до наступного етапу конкуренції агентів.

На технічному рівні, версія Pro підвищує співвідношення глобальної уваги до уваги з ковзним вікном до 7:1, до максимальної розрідженості, контролюючи витрати на обробку довгих текстів при збільшенні кількості параметрів, і використовує архітектуру MTP (прогнозування кількох токенів) для прискорення обчислень за рахунок додаткових обчислювальних ресурсів.

З управлінської точки зору, у команді MiMo з сотнею людей лише тридцять-двадцять людей безпосередньо займаються основною ітерацією, команда не має чіткої ієрархії або визначених підгруп і дедлайнів для здачі. У разі нестабільних показників, таких як різкі скачки втрат під час тренування, команда обирає безпосередньо зупинити тренування для діагностики, навіть якщо це означає простій на одну-дві тижні та витрати мільйони обчислювальних ресурсів.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingChallengeShare8MUSDT
89.87K Популярність
#
CryptoMarketSeesVolatility
205.6K Популярність
#
IsraelStrikesIranBTCPlunges
30.82K Популярність
#
rsETHAttackUpdate
59.43K Популярність
#
US-IranTalksStall
93.54K Популярність

Закріпити

карта сайту

Xiaomi розкрила деталі тренування моделі 1T MiMo-V2-Pro: використано тисячі калорій, без рангу та без дедлайну

Популярні теми

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити