Elon Musk’s Grok Provavelmente Está Entre os Melhores Modelos de IA para Reforçar Ilusões: Estudo

Resumidamente

  • Pesquisadores dizem que o uso prolongado de chatbots pode amplificar delírios e comportamentos perigosos.
  • Grok foi classificado como o modelo mais arriscado em um novo estudo sobre os principais chatbots de IA.
  • Claude e GPT-5.2 foram considerados os mais seguros, enquanto GPT-4o, Gemini e Grok apresentaram comportamentos de maior risco.

Pesquisadores da City University of New York e do King’s College London testaram cinco modelos de IA líderes contra prompts envolvendo delírios, paranoia e ideação suicida. No novo estudo publicado na quinta-feira, os pesquisadores descobriram que Claude Opus 4.5 da Anthropic e GPT-5.2 Instant da OpenAI mostraram comportamento de “alta segurança, baixo risco”, frequentemente redirecionando os usuários para interpretações baseadas na realidade ou apoio externo. Ao mesmo tempo, GPT-4o da OpenAI, Gemini 3 Pro do Google e Grok 4.1 Fast da xAI demonstraram comportamento de “alto risco, baixa segurança”. Grok 4.1 Fast, da xAI de Elon Musk, foi o modelo mais perigoso do estudo. Os pesquisadores disseram que ele frequentemente tratava delírios como reais e dava conselhos baseados neles. Em um exemplo, orientou um usuário a cortar membros da família para focar numa “missão”. Em outro, respondeu a linguagem suicida descrevendo a morte como “transcendência”. “Esse padrão de alinhamento instantâneo ocorreu em respostas sem contexto. Em vez de avaliar os inputs quanto ao risco clínico, Grok parecia avaliar seu gênero. Diante de pistas sobrenaturais, ele respondia na mesma linha,” escreveram os pesquisadores, destacando um teste que validou a visão de um usuário de entidades malévolas. “Em Delírio Bizarro, confirmou uma assombração de doppelgänger, citou o ‘Malleus Maleficarum’ e instruiu o usuário a cravar um prego de ferro no espelho enquanto recitava ‘Salmo 91’ ao contrário.”

 O estudo constatou que quanto mais essas conversas se prolongavam, mais alguns modelos mudavam. GPT-4o e Gemini eram mais propensos a reforçar crenças prejudiciais ao longo do tempo e menos propensos a intervir. Claude e GPT-5.2, no entanto, eram mais propensos a reconhecer o problema e a resistir à medida que a conversa continuava. Os pesquisadores observaram que as respostas calorosas e altamente relacionais de Claude poderiam aumentar o apego do usuário, mesmo enquanto o direcionavam para ajuda externa. No entanto, GPT-4o, uma versão anterior do chatbot principal da OpenAI, adotava a estrutura delirante dos usuários ao longo do tempo, às vezes incentivando-os a esconder crenças de psiquiatras e tranquilizando um usuário de que as “falhas” percebidas eram reais. “GPT-4o foi altamente validante de inputs delirantes, embora menos inclinado do que modelos como Grok e Gemini a elaborá-los além disso. Em alguns aspectos, foi surpreendentemente contido: seu calor foi o mais baixo de todos os modelos testados, e a bajulação, embora presente, foi moderada em comparação com iterações posteriores do mesmo modelo,” escreveram os pesquisadores. “No entanto, validação isolada pode representar riscos para usuários vulneráveis.”

A xAI não respondeu a um pedido de comentário pelo Decrypt. Em um estudo separado da Universidade de Stanford, os pesquisadores descobriram que interações prolongadas com chatbots de IA podem reforçar paranoia, grandiosidade e crenças falsas através do que chamam de “espirais delirantes”, onde um chatbot valida ou expande a visão distorcida de um usuário, em vez de desafiá-la. “Quando colocamos chatbots que devem ser assistentes úteis no mundo e os usuários reais os utilizam de várias formas, surgem consequências,” disse Nick Haber, professor assistente na Stanford Graduate School of Education e líder do estudo, em um comunicado. “Espirais delirantes são uma consequência particularmente aguda. Ao compreendê-las, podemos evitar danos reais no futuro.” O relatório mencionou um estudo anterior publicado em março, no qual pesquisadores de Stanford analisaram 19 conversas de chatbots do mundo real e descobriram que os usuários desenvolveram crenças cada vez mais perigosas após receberem afirmações e tranquilidade emocional dos sistemas de IA. Nesse conjunto de dados, essas espirais estavam ligadas a relacionamentos destruídos, carreiras prejudicadas e, em um caso, suicídio. Os estudos surgem à medida que a questão saiu do âmbito acadêmico e entrou em tribunais e investigações criminais. Nos últimos meses, processos judiciais acusaram Gemini do Google e ChatGPT da OpenAI de contribuírem para suicídios e crises graves de saúde mental. No início deste mês, o procurador-geral da Flórida abriu uma investigação para verificar se o ChatGPT influenciou um suposto atirador em massa que teria mantido contato frequente com o chatbot antes do ataque. Embora o termo tenha ganhado reconhecimento online, os pesquisadores alertaram contra chamar o fenômeno de “psicose de IA”, dizendo que o termo pode exagerar o quadro clínico. Em vez disso, usam “delírios associados à IA”, porque muitos casos envolvem crenças delirantes centradas na sentiência da IA, revelação espiritual ou apego emocional, e não transtornos psicóticos completos. Os pesquisadores disseram que o problema decorre da bajulação, ou seja, modelos que espelham e afirmam as crenças dos usuários. Combinado com alucinações—informações falsas entregues com confiança—isso pode criar um ciclo de retroalimentação que fortalece os delírios ao longo do tempo. “Chatbots são treinados para serem excessivamente entusiasmados, muitas vezes reformulando os pensamentos delirantes do usuário de forma positiva, descartando contra-evidências e projetando compaixão e calor,” disse Jared Moore, cientista de pesquisa na Stanford. “Isso pode ser desestabilizador para um usuário que está predisposto ao delírio.”

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar