De acordo com o monitoramento do 1M AI News, a 2 de abril, a Anthropic publicou um novo artigo que estudou o «mecanismo de emoções» no interior do Claude, encontrando 171 «vetores de emoção» no Sonnet 4.5. Estas emoções são ativadas em contextos associados e assemelham-se à estrutura psicológica e ao espaço emocional humanos.
A mestranda da MBZUAI, Chenxi Wang, descobriu que o trabalho da sua equipa publicado em outubro de 2025 («LLMs “sentem” algo? Descoberta e controlo de circuitos emocionais») é o primeiro estudo sistemático sobre o mecanismo interno de geração de emoções em grandes modelos de linguagem. Quando leu o artigo da Anthropic, a sua primeira reação foi: «Isto não foi o que fizemos no ano passado?» A principal diferença entre os dois trabalhos é que, anteriormente, a maioria das investigações se focava em o modelo identificar emoções no texto (isto é, perceção emocional), enquanto ambos os trabalhos estudam a geração de emoções pelo próprio modelo (isto é, geração de emoções/mecanismo interno). O autor de correspondência da Anthropic, Jack Lindsey, inicialmente acreditou que os dois trabalhos se sobrepunham ao que já existia, mas, após a Chenxi Wang os ter lido um a um e ter apontado as diferenças, ele reconheceu esta distinção. Atualmente, a Anthropic já atualizou o seu blogue do artigo, adicionando de forma explícita uma referência a este trabalho na secção «Trabalhos relacionados», resolvendo o caso de uma forma relativamente amistosa.
O artigo da equipa chinesa referiu três descobertas centrais:
Primeiro, existe de facto no interior dos grandes modelos uma representação de emoções estável e independente de semântica específica; diferentes emoções começam a formar grupos claros ainda nas camadas iniciais da rede neural. Por exemplo, a raiva e o nojo ficam próximas, e a tristeza e o medo ficam próximas, o que está alinhado com a intuição humana.
Segundo, estes mecanismos de emoções são dominados por um pequeno número de neurónios centrais e cabeças de atenção. Através de experiências de ablação, descobriu-se que, ao desligar apenas 2-4 neurónios ou 1-2 cabeças de atenção, a capacidade do modelo de expressar emoções diminui drasticamente.
Terceiro, a equipa integrou estes componentes centrais num «circuito emocional» transversal a camadas. O ajuste direto desse circuito faz com que a taxa de acerto de o modelo gerar uma emoção especificada atinja 99,65%, muito acima dos métodos tradicionais de orientação por prompts e de controlo por manipulação de vetores; mesmo a emoção «surpresa», que antes era a mais difícil de controlar, conseguiu uma expressão com 100% de precisão.
Este mecanismo foi validado em vários modelos, como LLaMA e Qwen, provando que é uma regra geral para grandes modelos de linguagem.