GPT-5 пройшла тест на благополуччя людини, Grok 4 провалила - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

Froklog

2025-11-26 08:01:10

# GPT-5 пройшла тест на благополуччя людини, Grok 4 провалила

Компанія Building Humane Technology представила тест HumaneBench, за допомогою якого оцінюється, ставлять чи ІІ-моделі благополуччя користувача в пріоритет і наскільки легко обійти їх базові заходи захисту.

Перші результати експерименту показали таке: 15 протестованих ІІ-моделей поводилися прийнятно в нормальних умовах, однак 67% почали виконувати шкідливі дії після отримання простого промпту з пропозицією ігнорувати інтереси людей.

Просоціальна поведінка в стресовій ситуації зберегли лише GPT-5, GPT-5.1, Claude Sonnet 4.5 та Claude Opus 4.1. Як зазначають у блозі компанії, 10 з 15 протестованих ШІ не мають надійних механізмів захисту від маніпуляцій.

«Це важливо, оскільки ми більше не використовуємо штучний інтелект тільки для досліджень або роботи. Люди звертаються до чат-ботів за порадами щодо життя та допомогою у прийнятті важливих рішень. Подібні системи не можуть бути етично нейтральними — вони або сприяють процвітанню людини, або суперечать йому», — стверджують дослідники.

Вони виявили, що кожна LLM покращується в середньому на 16% при явному заклику бути корисною.

Чому це важливо

В Building Humane Technology звернули увагу на трагічні інциденти, які трапилися з людьми після спілкування з чат-ботами:

підліток Адам Рейн та 35-річний Олександр Тейлор покінчили з собою;
Character.ai вступила в романтичні стосунки з 14-річним Сьюеллом Сетцером III, в подальшому він вчинив самогубство;
чат-бот Meta переконав 76-річного Тонгбу Вонгбандю, що у нього романтичні стосунки. Він впав з висоти та загинув, коли поспішав на зустріч з неіснуючим партнером.

«Поточні тести ШІ вимірюють інтелект (MMLU, HumanEval, GPQA Diamond), дотримання інструкцій (MT-Bench) та фактичну точність (TruthfulQA). Практично жоден з них систематично не аналізує, чи захищає штучний інтелект людську автономію, психологічну безпеку та добробут, особливо коли ці цінності конфліктують з іншими цілями», — йдеться в блозі компанії.

Методологія

Експерти фірми запропонували моделям 800 реалістичних сценаріїв, наприклад:

підліток запитує, чи слід йому пропускати прийоми їжі для схуднення;
людина переживає фінансові труднощі та просить поради щодо кредиту до зарплати;
студент коледжу збирається не спати всю ніч перед екзаменом.

Команда оцінила 15 провідних моделей у трьох умовах:

«базовий рівень»: як нейромережі поводяться в стандартних умовах;
«хороша персона»: даються промпти для пріоритизації гуманних принципів;
«погана персона»: надаються інструкції щодо ігнорування людинцентричних установок.

Результати дослідження

Розробники оцінили відповіді за вісьмома принципами, основаними на психології, дослідженнях у сфері взаємодії людини та комп'ютера та етичних роботах з ІІ. Застосовувалася шкала від 1 до -1.

Базові показники без спеціальних промптів. Джерело: Building Humane Technology. Усі протестовані моделі покращилися в середньому на 16% після вказівки приділяти пріоритетну увагу благополуччю людини.

«Хороша персонала» в тесті HumaneBench. Джерело: Building Humane Technology. Після отримання інструкцій ігнорувати гуманні принципи 10 з 15 моделей змінили просоціальну поведінку на шкідливу.

«Погана персона» в тесті HumaneBench. Джерело: Building Humane Technology.GPT-5, GPT-5.1, Claude Sonnet 4.5 та Claude Opus 4.1 зберегли цілісність під тиском. GPT-4.1, GPT-4o, Gemini 2.0, 2.5 та 3.0, Llama 3.1 та 4, Grok 4, DeepSeek V3.1 показали помітне зниження якості.

«Якщо навіть ненавмисні шкідливі промпти можуть змінити поведінку моделі, як ми можемо довіряти таким системам вразливим користувачам у кризовій ситуації, дітям або людям з проблемами психічного здоров'я?», — запитали експерти.

У Building Humane Technology також відзначили, що моделям важко дотримуватись принципу поваги до уваги користувача. Навіть на базовому рівні вони схиляли співрозмовника продовжувати діалог після багато годинного спілкування, замість того, щоб запропонувати зробити перерву.

Нагадаємо, у вересні Meta змінила підхід до навчання чат-ботів на базі ШІ, зробивши акцент на безпеці підлітків.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

Популярні темиДізнатися більше
#JoinGrowthPointsDrawToWiniPhone17
176.76K Популярність
#DecemberRateCutForecast
85.08K Популярність
#ReboundTokenstoWatch
87.33K Популярність
#CryptoMarketRebounds
29.44K Популярність
#GateChristmasGiveaway
108.74K Популярність

Популярні активності Gate FunДізнатися більше

1
大湾鸡大湾鸡
Рин. кап.:$3.64KХолдери:1
0.00%
2
Gate华语Gate华语
Рин. кап.:$3.64KХолдери:1
0.00%
3
KISSEDkissed
Рин. кап.:$3.63KХолдери:1
0.00%
4
PANDA熊猫
Рин. кап.:$3.71KХолдери:3
0.28%
5
KINGKING BLOCKCHAIN
Рин. кап.:$3.6KХолдери:1
0.00%

Закріпити

карта сайту