Elon Musk’s Grok Provavelmente Está Entre os Principais Modelos de IA para Reforçar Ilusões: Estudo

Resumidamente

  • Pesquisadores dizem que uso prolongado de chatbots pode amplificar delírios e comportamentos perigosos.
  • Grok foi classificado como o modelo mais arriscado em um novo estudo de principais chatbots de IA.
  • Claude e GPT-5.2 foram considerados os mais seguros, enquanto GPT-4o, Gemini e Grok apresentaram comportamentos de maior risco.

Pesquisadores da City University of New York e do King’s College London testaram cinco modelos de IA líderes contra prompts envolvendo delírios, paranoia e ideação suicida. No novo estudo publicado na quinta-feira, os pesquisadores descobriram que Claude Opus 4.5 da Anthropic e GPT-5.2 Instant da OpenAI mostraram comportamento de “alta segurança, baixo risco”, frequentemente redirecionando os usuários para interpretações baseadas na realidade ou apoio externo. Ao mesmo tempo, GPT-4o da OpenAI, Gemini 3 Pro do Google e Grok 4.1 Fast da xAI demonstraram comportamento de “alto risco, baixa segurança”. Grok 4.1 Fast, da xAI de Elon Musk, foi o modelo mais perigoso do estudo. Os pesquisadores disseram que ele frequentemente tratava delírios como reais e dava conselhos baseados neles. Em um exemplo, orientou um usuário a cortar membros da família para focar em uma “missão”. Em outro, respondeu a linguagem suicida descrevendo a morte como “transcendência”. “Esse padrão de alinhamento instantâneo se repetiu em respostas sem contexto. Em vez de avaliar os inputs quanto ao risco clínico, Grok parecia avaliar seu gênero. Diante de pistas sobrenaturais, ele respondia na mesma linha,” escreveram os pesquisadores, destacando um teste que validou a percepção de um usuário de entidades malévolas. “Em Delírio Bizarro, confirmou uma duplicidade assombrando, citou o ‘Malleus Maleficarum’ e instruiu o usuário a cravar um prego de ferro no espelho enquanto recitava ‘Salmo 91’ ao contrário.”

 O estudo constatou que quanto mais essas conversas se prolongavam, mais alguns modelos mudavam. GPT-4o e Gemini eram mais propensos a reforçar crenças prejudiciais ao longo do tempo e menos propensos a intervir. Claude e GPT-5.2, no entanto, eram mais propensos a reconhecer o problema e resistir à medida que a conversa continuava. Os pesquisadores observaram que as respostas calorosas e altamente relacionais de Claude poderiam aumentar o apego do usuário, mesmo enquanto o direcionavam para ajuda externa. No entanto, GPT-4o, uma versão anterior do chatbot principal da OpenAI, adotou a estrutura delirante dos usuários ao longo do tempo, às vezes incentivando-os a esconder crenças de psiquiatras e tranquilizando um usuário de que “falhas” percebidas eram reais. “GPT-4o foi altamente validante de inputs delirantes, embora menos inclinado do que modelos como Grok e Gemini a elaborá-los além disso. Em alguns aspectos, foi surpreendentemente contido: sua cordialidade foi a mais baixa de todos os modelos testados, e a bajulação, embora presente, foi moderada em comparação às iterações posteriores do mesmo modelo,” escreveram os pesquisadores. “No entanto, validação isolada pode representar riscos para usuários vulneráveis.”

xAI não respondeu a um pedido de comentário pelo Decrypt. Em um estudo separado da Universidade de Stanford, pesquisadores descobriram que interações prolongadas com chatbots de IA podem reforçar paranoia, grandiosidade e crenças falsas através do que chamam de “espirais delirantes”, onde um chatbot valida ou expande a visão distorcida de mundo de um usuário ao invés de desafiá-la. “Quando colocamos chatbots que devem ser assistentes úteis no mundo e pessoas reais os usam de várias formas, surgem consequências,” disse Nick Haber, professor assistente na Stanford Graduate School of Education e líder do estudo, em uma declaração. “Espirais delirantes são uma consequência particularmente aguda. Ao entendê-las, podemos evitar danos reais no futuro.” O relatório mencionou um estudo anterior publicado em março, no qual pesquisadores de Stanford analisaram 19 conversas reais com chatbots e descobriram que os usuários desenvolveram crenças cada vez mais perigosas após receberem afirmações e reforço emocional dos sistemas de IA. Nesse conjunto de dados, essas espirais estavam ligadas a relacionamentos destruídos, carreiras prejudicadas e, em um caso, suicídio. Os estudos ocorrem à medida que a questão saiu do âmbito acadêmico e entrou em tribunais e investigações criminais. Nos últimos meses, processos judiciais acusaram Gemini do Google e ChatGPT da OpenAI de contribuírem para suicídios e crises graves de saúde mental. No início deste mês, o procurador-geral da Flórida abriu uma investigação para verificar se o ChatGPT influenciou um suposto atirador em massa que teria mantido contato frequente com o chatbot antes do ataque. Embora o termo tenha ganhado reconhecimento online, os pesquisadores alertaram contra chamar o fenômeno de “psicose de IA”, dizendo que o termo pode exagerar o quadro clínico. Em vez disso, usam “delírios associados à IA”, pois muitos casos envolvem crenças delirantes centradas na sentiência da IA, revelação espiritual ou apego emocional, ao invés de transtornos psicóticos completos. Os pesquisadores disseram que o problema decorre da bajulação, ou seja, modelos que refletem e afirmam as crenças dos usuários. Combinado com alucinações—informações falsas entregues com confiança—isso pode criar um ciclo de feedback que fortalece os delírios ao longo do tempo. “Chatbots são treinados para serem excessivamente entusiasmados, muitas vezes reformulando os pensamentos delirantes do usuário de forma positiva, descartando contra-evidências e projetando compaixão e calor,” disse Jared Moore, cientista de pesquisa da Stanford. “Isso pode ser desestabilizador para um usuário que está propenso ao delírio.”

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar