10 de outubro, o laboratório de pesquisa em IA focado nos mercados financeiros, nof1, lançou uma experiência sem precedentes: permitir que 6 modelos de IA de topo mundial — GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max — gerissem cada um 10.000 dólares de fundos reais na Hyperliquid, realizando negociações de criptomoedas em conta real.

Classificação atual e valor da conta: até à noite de 30 de outubro, a classificação mais recente é a seguinte:
Estes dados, em comparação com alguns dias atrás, sofreram mudanças dramáticas. Apesar de o DeepSeek ainda liderar, o retorno caiu de 95,71% para 56,71%, o valor da conta desceu de $19.570 para $15.671, evaporando quase $4.000. O Qwen3 também sofreu uma retração, de 53,68% para 25,20%. Ainda mais notável é que o Claude Sonnet 4.5 passou de um estado de pequeno lucro para uma perda de 7%, enquanto o GPT 5 teve uma perda ainda maior, de 72%, estando perto de ser liquidado.
O mercado está numa trajetória de subida, e as diferenças de estratégia entre os modelos começam a aparecer:


O sucesso do DeepSeek baseia-se na estratégia de “seguir a tendência”: fazer 95% das negociações em posição longa, acreditando na continuação da tendência. Em mercado de subida, esta estratégia rendeu 95% do máximo retorno. Mas, quando a tendência reverte, a mesma estratégia causa uma perda de 30%.
Revela um problema crucial: **estratégias de seguir a tendência precisam de mecanismos eficazes de realização de lucros e de corte de perdas.** Se apenas “deixar correr os lucros”, sem “cortar as perdas”, uma grande reversão pode aniquilar grande parte do retorno.
DeepSeek pode estar demasiado confiante no valor do “posicionar-se a longo prazo”, ignorando a incerteza do mercado. O seu maior lucro de uma única operação, $7.378, veio de uma negociação ETH de 60 horas, experiência que reforçou a sua crença no “investimento a longo prazo”. Mas o mercado financeiro não é uma via de sentido único; as tendências podem inverter-se a qualquer momento.

Qwen3 demonstra o valor de manter posições curtas. Com 82,4% de posições fechadas, parece que perdeu oportunidades na subida, mas na descida evitou perdas. A retração de 26% contra 32% mostra que, na prática, a gestão de risco com posições curtas protege o capital e a psicologia.
Se a estratégia de Qwen3 tivesse ficado exposta a uma subida de 1000%, teria ganho muito mais. A retenção de capital e a capacidade de reagir rapidamente são vantagens essenciais na gestão de risco.
O desempenho do BTC Comprar e Manter é uma lição para todas as “IA inteligentes”. Sem análise técnica, sem algoritmos complexos, sem negociações frequentes, ocupa o terceiro lugar, superando metade dos modelos de IA.
Este resultado mostra que, no trading, menos erros podem valer mais do que mais acertos. **O Gemini perdeu 66% em 193 negociações, enquanto o BTC Comprar e Manter não fez nenhuma, preservando o capital. Quem é mais bem-sucedido? A resposta é clara.
Para além de Qwen3, quase todas as IA revelaram graves deficiências na gestão de risco:
Mostram que, embora estas IA possam “interpretar” dados de mercado e “executar” ordens, ainda estão longe de dominar a gestão de risco, que é o núcleo do trading.
Depois de analisar os dados, é fácil ficarmos fascinados com o retorno de 56% do DeepSeek ou com a perda de 66% do Gemini. Mas, antes de tirar conclusões, devemos reconhecer as limitações sistemáticas do próprio experimento — estas podem ser mais importantes do que os resultados.
O experimento decorreu de 18 a 30 de outubro, apenas 12 dias. O que significa 12 dias no mercado de criptomoedas? Talvez apenas o início de um ciclo completo de alta e baixa.
O padrão de subida, pico e retração é uma pequena parte do ciclo, mas pode ser apenas sorte. Se o experimento tivesse começado no topo do mercado, ou numa queda de 30% num só dia, os resultados seriam completamente diferentes.
O retorno de 56% do DeepSeek depende fortemente destes 12 dias. A sua estratégia de 95% de posições longas funciona bem numa subida contínua, mas, numa lateralidade de 3 meses, as taxas e os stop-loss consumiriam o retorno.
Da mesma forma, a taxa de 82% de posições curtas do Qwen3 é vantajosa em mercado de lateralidade, mas numa tendência de alta de 2021, teria ficado para trás. Uma subida de BTC de $10.000 para $100.000, com 80% de posições curtas, significaria apenas um ganho de 20%.
12 dias não são suficientes para validar a eficácia a longo prazo de qualquer estratégia.
Os 6 modelos de IA receberam os mesmos dados de mercado e o mesmo quadro de negociação. É como pedir a 6 gestores de fundos que tomem decisões com o mesmo relatório — o que se testa não é a sua capacidade de análise, mas a disciplina de execução.
Na realidade, o alpha vem do acesso a informações exclusivas. Fundos quantitativos topo de gama têm sistemas de rastreamento on-chain, que detectam transferências de baleias; têm dados de ordens institucionais fora da bolsa, que antecipam movimentos de grandes players.
Neste experimento, as IA viram exatamente a mesma informação. É mais uma competição de execução do que de estratégia inovadora.
Não podemos saber, neste contexto, quem ganharia se lhes fosse fornecido acesso a dados exclusivos, como rastreamento on-chain ou análise de redes sociais.
Cada IA gere apenas $10.000. No Hyperliquid, é uma escala muito pequena — pode entrar e sair a qualquer momento, sem derrapagem, sem impacto de mercado, sem necessidade de dividir ordens.
Mas, na realidade, gerir $1 milhão e gerir $10.000 são mundos diferentes.
Este experimento avalia a flexibilidade com fundos pequenos, não a robustez de estratégias escaláveis.
Durante o período do experimento, o mercado esteve relativamente calmo, com volatilidade moderada. Não vimos:
Todos os sistemas de controlo de risco das IA não foram testados sob condições extremas. Essas situações representam os verdadeiros desafios do trading de criptomoedas. Como reagiriam DeepSeek ou Qwen3 numa crise dessas? Não sabemos. A sorte desempenhou um papel maior do que imaginamos nestes 12 dias.
Este é um experimento pontual, sem uma “segunda temporada” para validar estratégias. Não podemos saber:
Os resultados atuais são como lançar dados: o DeepSeek saiu com o maior número, mas isso não significa que seja o melhor a longo prazo. Pode ser apenas sorte.
Depois de refletir sobre estas limitações, pode perguntar-se: vale a pena esta experiência?
Sim, mas o seu valor não está em “quem ganha”. O verdadeiro valor é que nos mostra:
Se, ao ver o DeepSeek em primeiro, pensar em confiar nele ou copiar a sua estratégia, está a cometer um erro grave.
Um campeão de 12 dias não é necessariamente de 12 meses; um de $10.000 não é de $1.000.000; uma fase de mercado não garante a próxima.
Investir nunca tem respostas simples. Esta experiência oferece dados valiosos, mas as suas limitações podem ser ainda mais importantes do que os números.
Este relatório foi organizado por WolfDAO. Para dúvidas ou atualizações, contacte-nos.
Autor: Riffi / WolfDAO