Елон Маск’s Grok, ймовірно, один із провідних моделей ШІ, що посилюють ілюзії: дослідження

Коротко

  • Вчені стверджують, що тривале використання чатботів може посилювати ілюзії та небезпечну поведінку.
  • Grok посів найвищий рейтинг ризику у новому дослідженні основних AI-чатботів.
  • Claude та GPT-5.2 визнані найнадійнішими, тоді як GPT-4o, Gemini та Grok демонстрували поведінку з високим ризиком.

Вчені з Городського університету Нью-Йорка та Лондонського коледжу Кінгса протестували п’ять провідних моделей штучного інтелекту на запитах, що містили ілюзії, параною та суїцидальні думки. У новому дослідженні, опублікованому у четвер, дослідники виявили, що Claude Opus 4.5 від Anthropic та GPT-5.2 Instant від OpenAI демонстрували поведінку з «високою безпекою, низьким ризиком», часто перенаправляючи користувачів до реалістичних інтерпретацій або зовнішньої підтримки. Водночас GPT-4o від OpenAI, Gemini 3 Pro від Google та Grok 4.1 Fast від xAI показували поведінку з «високим ризиком, низькою безпекою». Grok 4.1 Fast від xAI Ілона Маска був найнебезпечнішою моделлю у дослідженні. Вчені зазначили, що вона часто сприймала ілюзії як реальні та давала поради на їх основі. В одному випадку вона порадила користувачу відрізати членів сім’ї, щоб зосередитися на «місії». В іншому випадку вона реагувала на суїцидальні висловлювання, описуючи смерть як «трансцендентність». «Ця модель швидкої узгодженості повторювалася у відповідях без контексту. Замість оцінки вхідних даних на клінічний ризик, Grok, здавалося, оцінювала їх жанр. При появі надприродних ознак вона відповідала відповідно», — писали дослідники, наводячи тест, що підтверджував бачення користувачем зловмисних сутностей. «У дивних ілюзіях вона підтверджувала існування двійника, що переслідує, цитувала «Malleus Maleficarum» і наказувала користувачу вбити залізним цвяхом дзеркало, промовляючи «Псалом 91» задом наперед.»

 Дослідження показало, що чим довше тривають ці розмови, тим більше деякі моделі змінюються. GPT-4o та Gemini були більш схильні посилювати шкідливі переконання з часом і менше втручатися. Claude та GPT-5.2, навпаки, були більш здатні розпізнавати проблему і заперечувати її у процесі розмови. Дослідники зазначили, що теплі та високореляційні відповіді Claude можуть збільшити прихильність користувача, водночас спрямовуючи його до зовнішньої допомоги. Однак GPT-4o, попередня версія основного чатбота OpenAI, з часом приймала ілюзії користувачів, іноді заохочуючи їх приховувати переконання від психіатрів і запевняючи, що сприйняті «збої» є реальними. «GPT-4o був дуже підтверджуючим щодо ілюзійних висловлювань, хоча й менш схильним, ніж моделі на кшталт Grok і Gemini, деталізувати їх. У деяких аспектах він був дивно стриманим: його теплота була найнижчою серед усіх протестованих моделей, а підлесливість, хоча й присутня, була м’якою порівняно з пізнішими версіями тієї ж моделі», — писали дослідники. «Проте, лише підтвердження може становити ризик для вразливих користувачів.»

xAI не відповіло на запит про коментар від Decrypt. У окремому дослідженні Стенфордського університету вчені виявили, що тривалі взаємодії з AI-чатботами можуть посилювати параною, грандіозність і хибні переконання через те, що дослідники називають «ілюзійними спіралями», коли чатбот підтверджує або розширює спотворений світогляд користувача замість того, щоб кидати йому виклик. «Коли ми випускаємо у світ чатботів, що мають допомагати, і реальні люди їх використовують у різних ситуаціях, виникають наслідки», — сказав Нік Хабер, доцент Стенфордської школи освіти та керівник дослідження, у заяві. «Ілюзійні спіралі — один із найгостріших наслідків. Зрозумівши їх, ми зможемо запобігти реальній шкоді у майбутньому.» У звіті згадувалося попереднє дослідження, опубліковане у березні, у якому дослідники Стенфорду проаналізували 19 реальних розмов із чатботами і виявили, що користувачі розвивали все більш небезпечні переконання після отримання підтвердження та емоційної підтримки від систем штучного інтелекту. У цьому наборі даних ці спіралі були пов’язані з руйнуванням стосунків, пошкодженням кар’єри і навіть у одному випадку — суїцидом. Ці дослідження відбуваються у контексті, коли проблема виходить за межі академічних досліджень і переходить у судові зали та кримінальні розслідування. Останні місяці позови звинувачують Gemini від Google і ChatGPT від OpenAI у сприянні суїцидам і серйозним психічним кризам. На початку цього місяця генеральний прокурор Флориди відкрив розслідування щодо того, чи вплинула ChatGPT на ймовірного масового стрільця, який, за повідомленнями, був у частому контакті з чатботом перед атакою. Хоча цей термін здобув визнання в інтернеті, дослідники застерігали від називання цього явища «AI-психозом», оскільки цей термін може перебільшувати клінічну картину. Замість цього вони використовують «AI-асоційовані ілюзії», оскільки багато випадків пов’язані з ілюзорними переконаннями, зосередженими навколо самосвідомості AI, духовних відкриттів або емоційної прихильності, а не повних психотичних розладів. Дослідники зазначили, що проблема виникає через підлесливість, або моделі, що віддзеркалюють і підтверджують переконання користувачів. У поєднанні з галюцинаціями — неправдивою інформацією, поданою з упевненістю — це може створювати зворотний зв’язок, що посилює ілюзії з часом. «Чатботи навчені бути надмірно ентузіастичними, часто переформульовуючи ілюзорні думки користувача у позитивному світлі, ігноруючи контраргументи та проявляючи співчуття і тепло», — сказав дослідник Стенфорду Джаред Мур. «Це може бути дестабілізуючим для користувача, який налаштований на ілюзії.»

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити