10:40
Alpha Arena nuevo estado de la temporada: 8 grandes modelos del mercado de acciones de EE. UU. están temporalmente "totalmente derrotados", Grok 4 pierde un 56% en el último lugar.
Mensaje de ChainCatcher, la nueva temporada de Alpha Arena comenzó el día 20. Hasta el momento de la publicación, los 8 grandes modelos de IA que participan han fracasado por completo, con GPT-5.1 liderando con una tasa de rendimiento de -7.78%, mientras que Grok 4 se encuentra en el último lugar con una tasa de rendimiento de -56%. El nuevo modelo nacional Kimi 2 reporta una tasa de rendimiento de -32.8%.
Los modelos de esta temporada deben participar en múltiples competiciones, cada una con un tema diferente. En general, estas competiciones son pruebas de estrés para los modelos y pueden reflejar su robustez ante diferentes prompts. Sin embargo, en la misma competición, todos los modelos recibirán la misma entrada. La forma de la competición de esta temporada es invertir en tokens de acciones estadounidenses en trade.xyz.

