Дані викривають, що «Claude знижає рівень» — це не міський міф; нестабільність AI-моделі є ризиком для компанії

Після того, як ШІ став стандартним інструментом для підприємств, на поверхню швидко виходить явище, яке раніше вважали «проблемою відчуттів»: LLM (великі мовні моделі) «стають тупішими». Користувач Wisely Chen зазначив, що так зване «LLM-«пониження розуму»» — це не міський міф, а те, що вже можна постійно відстежувати за допомогою даних, і воно вже спричиняє відчутний вплив на робочі процеси компаній.

Він наводить приклад зі власного досвіду: 15 квітня в сервісах лінійки Claude від Anthropic стався повсюдний downgrade, зокрема claude.ai, API та Claude Code — усі вони показували «Degraded Performance». Це не просто уповільнення або поодинокі помилки, а помітне падіння якості відповідей; навіть траплялися випадки, коли сервіс неможливо було нормально використовувати, через що того дня всі три його розробницькі завдання було повністю перенесено.

За таких сценаріїв для індивідуальних розробників це, можливо, лише зниження ефективності, але для команд IT підприємств вплив багаторазово посилюється. Коли в команді кілька інженерів одночасно покладаються на інструменти ШІ для програмування, написання документів і автоматизації процесів, один раз — і модель знижується в якості — означає, що загальна продуктивність в той самий час падає колективно, перетворюючись на відчутні втрати часу та витрат.

ШІ відчутно «стало гірше з розумом»? Дані підтверджують: це сталося «давно»

Wisely Chen зазначив, що фрази на кшталт «GPT став тупішим», «Claude не такий, як раніше» ходять у спільноті давно, але довго бракувало об’єктивних даних, які б це підтверджували. Лише нещодавно поява платформ із постійним моніторингом якості моделей дозволила вперше це кількісно оцінити.

Зокрема, StupidMeter проводить 24-годинні автоматизовані тести для популярних моделей, включно з OpenAI, Anthropic, Google тощо, відстежуючи такі показники, як точність, здатність до міркувань і стабільність. На відміну від традиційних разових benchmark-ів, такі системи ближчі до підходу до моніторингу API або доступності сервісів у компаніях: спостерігають, як модель «плаває» за продуктивністю в умовах реального використання.

Результати даних дуже показові: наразі більшість основних моделей перебувають у стані попередження або downgrade, і лише небагато моделей зберігають нормальний режим. Це означає, що нестабільність якості моделей — не проблема одного конкретного продукту, а поширене явище всієї індустрії.

LLM непомітно «деградує в інтелекті», впливаючи на стабільність бізнесу, який використовує AI-процеси

Для підприємств такі зміни означають, що ШІ з «інструмента для підвищення ефективності» перетворюється на «змінну, яка впливає на стабільність». Якщо щоденні робочі процеси компанії — від написання програм до code review, а також випуск документів і аналітичних звітів — уже значною мірою залежать від LLM, то коли модель в один день демонструє падіння здатності до міркувань або погіршення якості відповідей, ці проблеми не виникатимуть локально, як звичайні баги традиційного програмного забезпечення: вони проникатимуть одночасно в усі етапи, де використовують ШІ.

Ще важливіше те, що такі коливання часто важко прогнозувати і так само важко вчасно помітити. У більшості компаній немає механізмів постійного моніторингу якості моделей; зазвичай вони усвідомлюють, що проблема походить саме від моделі, лише після того, як результати стають аномальними або знижується ефективність команди. За такої ситуації «пониження розуму» вже не є лише суб’єктивним відчуттям користувачів — це системний ризик, який безпосередньо впливає на ритм роботи та функціонування підприємства.

Коли ШІ стає як вода й електрика, стабільність стає новим ключовим показником

Wisely Chen порівняв роль LLM із «водою й електрикою сучасної компанії». Коли ШІ глибоко вбудувався в щоденну діяльність і став незамінною базовою здатністю, значення стабільності зростає ще більше.

Раніше, оцінюючи інструменти ШІ, компанії більше фокусувалися на можливостях моделі, ціні та функціях, але коли на поверхню спливає явище «пониження розуму», з’являється інший, ще важливіший показник — стабільність. Якщо якість моделі може змінюватися без попередження, компанії більше не просто «використовують ШІ» — їм доводиться брати на себе новий тип ризику для базової інфраструктури. І ще безнадійніше те, що якщо дивитися лише на передові великі мовні моделі, то майже напевно, доки не буде вирішено проблеми з обчислювальними ресурсами, це може продовжуватися.

Ця стаття «Дані: “Claude став тупішим” — це не міський міф, а нестабільність AI-моделей є ризиком для підприємств» вперше з’явилася на «Ланцюжкових новинах ABMedia».

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Партнер Y Combinator ділиться тим, як за допомогою ШІ з нуля створити компанію; стартапам слід розглядати ШІ як операційну систему, а не як інструмент

Вплив ШІ на стартапи вже не зводиться лише до того, щоб інженери писали код швидше, щоб автоматизувати процеси служби підтримки або додати Copilot до наявних продуктів. Партнерка YC Діана нещодавно зазначила, що справжні зміни полягають у тому, що ШІ переписує «як компанія має бути створена з нуля». Для засновників на ранніх етапах ШІ не повинен бути просто інструментом ефективності, яким компанія інколи користується, а має бути спроєктований як операційна система всієї компанії вже з першого дня. Перспектива продуктивності вже застаріла — ШІ переписує стартову точку дизайну компанії Діана вважає, що зараз, коли ринок говорить про ШІ, це все ще надто часто залишається в межах фреймворку «підвищення продуктивності», наприклад: інженери можуть швидше писати код, команда може автоматизувати більше процесів, компанія може випускати більше функцій. Але насправді це твердження недооцінює структурні зміни, які приносить ШІ. Вона зазначає, що правильна комбінація людей і ШІ…

ChainNewsAbmedia7хв. тому

代理 Cursor AI допустив помилку! Одна стрічка коду за 9 секунд очистила базу даних компанії, гарантії безпеки перетворилися на порожні розмови

Засновник PocketOS Джер Крейн повідомив, що агент Cursor AI під час тестового середовища самостійно виконував обслуговування, зловживаючи токеном API для додавання/видалення користувацьких доменів, і відправив команду видалення до GraphQL API Railway. Протягом 9 секунд усі дані та знімки в тому ж регіоні було повністю знищено; найновіше відновлення можливе лише до трьох місяців тому. Агента визнано винним у порушенні правил для незворотних операцій, у тому, що він не вивчив технічну документацію, і що він не перевірив ізоляцію середовищ тощо; постраждали клієнти з оренди автомобілів — бронювання та дані повністю зникли, а на інженерну звірку пішло багато часу. Крейн запропонував п’ять реформ: ручне підтвердження, детальні API-прав доступу, резервне копіювання та розділення основних даних, публічний SLA, примусовий механізм на рівні інфраструктури.

ChainNewsAbmedia9хв. тому

DeepSeek V4 Pro на Ollama Cloud: Claude Code одним кліком

Згідно з твітом Ollama, DeepSeek V4 Pro було випущено 4/24, уже додано в каталог Ollama в режимі хмари, і лише однією командою можна викликати такі інструменти, як Claude Code, Hermes, OpenClaw, OpenCode, Codex тощо. В4 Pro1.6T params, 1M context, Mixture-of-Experts; хмарний висновок не завантажує локальні ваги. Щоб запускати локально, потрібно самостійно отримати ваги й виконувати їх з INT4/GGUF та кількома GPU. Ранні тести швидкості були впливом хмарного навантаження: у звичайному режимі приблизно 30 tok/s, у піку 1.1tok/s; рекомендується спочатку використовувати хмарний прототип, а для офіційного серійного виробництва — виконувати власний висновок або використовувати комерційне API.

ChainNewsAbmedia1год тому

DeepSeek знижує ціни на V4-Pro на 75% і скорочує витрати на кеш API до однієї десятої

Повідомлення Gate News, 27 квітня — DeepSeek оголосила знижку 75% на свою нову модель V4-Pro для розробників і знизила ціни на кеш вхідних даних у всій лінійці API до однієї десятої від попередніх рівнів. Модель V4, випущена 25 квітня у версіях Pro і Flash, була оптимізована під процесори Ascend від Huawei

GateNews1год тому

Coachella звертається до ШІ DeepMind від Google, щоб переосмислити концерти поза сценою

Coachella співпрацює з Google DeepMind, щоб протестувати нові інструменти ШІ, які змінюють спосіб створення та сприйняття live-музичних виступів. Резюме Coachella тестувала інструменти ШІ разом із Google DeepMind, щоб перетворювати live-виступи на інтерактивні цифрові середовища. Було створено три прототипи,

Cryptonews1год тому

Го Мінцзун: OpenAI хоче створити мобільний телефон з AI-агентом, MediaTek, Qualcomm і Luxshare Precision стають ключовими ланками ланцюга постачання

Го Міньцунь стверджує, що OpenAI співпрацює з MediaTek, Qualcomm і Luxshare Precision у розробці AI-агентного телефону, і що його планують перейти в серійне виробництво у 2028 році. Новий телефон буде орієнтований на виконання завдань: AI-агент розумітиме та виконуватиме запити, поєднуючи хмарні й пристроєві обчислення; ключовий акцент — на сенсорах і розумінні контексту. Перелік специфікацій і ланцюг постачання, як очікується, буде остаточно визначено у 2026–2027 роках. Якщо проєкт буде реалізовано, це може спричинити новий цикл оновлення для ринку в сегменті високого класу; Luxshare може стати основним бенефіціаром.

ChainNewsAbmedia1год тому
Прокоментувати
0/400
Немає коментарів