Данные раскрывают, что «Claude деградирует в плане интеллекта» — это не городской миф; нестабильность AI-моделей представляет риск для бизнеса

После того как ИИ стал стандартным инструментом для компаний, на поверхность быстро всплывает явление, которое раньше считалось «вопросом ощущений»: LLM (крупные языковые модели) «становятся тупее». Пользователь Wisely Chen указывает, что так называемое «снижение интеллекта LLM» — не городской миф, а уже можно непрерывно отслеживать по данным, и это уже оказывает реальное влияние на рабочие процессы предприятий.

Он приводит пример из собственного опыта: 15 апреля в сервисах серии Claude от Anthropic произошло всеобъемлющее ухудшение, включая claude.ai, API и Claude Code — везде отображалось «Degraded Performance». Это не просто замедление или разовые ошибки: качество ответов явно рухнуло, а иногда возникали ситуации, когда сервис невозможно было нормально использовать, из-за чего в тот день все три его задачи разработки были сорваны.

Для индивидуальных разработчиков такие сценарии, возможно, означают лишь снижение эффективности, но для команд IT предприятий эффект многократно усиливается. Когда в команде несколько инженеров одновременно полагаются на ИИ-инструменты для кодинга, написания документов и автоматизации процессов, одно снижение уровня модели означает, что общая производительность одновременно уходит вниз, превращаясь затем в заметные потери времени и затрат.

ИИ кажется «тупее»? Данные подтверждают: «давно произошло снижение»

Wisely Chen отмечает, что разговоры вроде «GPT стал тупее», «Claude не тот, что раньше» ходят в сообществе уже давно, но долгое время не хватало объективных данных для подтверждения. Лишь в последнее время появились платформы, ведущие постоянный мониторинг качества моделей — и только тогда это явление впервые удалось количественно оценить.

В частности, StupidMeter проводит круглосуточное автоматизированное тестирование популярных моделей, включая OpenAI, Anthropic, Google и др., отслеживая показатели точности, способности к рассуждению и стабильности. В отличие от традиционных разовых benchmark-ов, такие системы ближе к корпоративному мониторингу API или доступности сервисов — они наблюдают колебания производительности модели в реальной среде использования.

Результаты данных довольно наглядны: сейчас большинство основных моделей находятся в состоянии предупреждения или деградации, и лишь немногие поддерживают нормальный режим. Это означает нестабильность качества моделей: это не проблема одного продукта, а распространённое явление во всей отрасли.

LLM «тихо» снижает интеллект, влияя на стабильность рабочих процессов с ИИ на предприятиях

Для компаний такие изменения означают, что ИИ уже вышел из роли «инструмента для повышения эффективности» и превратился в «переменную, влияющую на стабильность». Если повседневные рабочие процессы предприятия — от написания кода и code review до выпуска документов и аналитических отчётов — уже сильно зависят от LLM, то если в какой-то день у модели снижается способность к рассуждению или падает качество ответов, эти проблемы не будут проявляться точечно, как обычные баги в традиционном ПО: они одновременно проникнут во все этапы, где используется ИИ.

Ключевее всего то, что такие колебания часто трудно предсказать и сложно вовремя заметить. У большинства компаний нет механизмов постоянного мониторинга качества моделей: обычно они понимают, что проблема — в самой модели, только после того как результаты становятся аномальными или после снижения эффективности команды. В такой ситуации «снижение интеллекта» больше не просто субъективное ощущение пользователей — это системный риск, который напрямую влияет на ритм работы предприятия.

Когда ИИ становится «водой и электричеством», стабильность становится новым ключевым показателем

Wisely Chen сравнивает роль LLM с «водой и электричеством современного предприятия». Когда ИИ глубоко встраивается в повседневную операционную деятельность и становится незаменимой базовой способностью, важность стабильности растёт.

Раньше при оценке ИИ-инструментов компании в основном концентрировались на мощности модели, цене и функциональности. Но по мере того как проявляется явление «снижения интеллекта», на первый план выходит ещё один, более критичный показатель — стабильность. Когда качество модели может меняться без уведомления, компаниям приходится не просто «использовать ИИ», а начинать нести риск нового типа инфраструктуры. И ещё безнадёжнее то, что если судить только о передовых крупных языковых моделях, то, пока не решены проблемы с вычислительными мощностями, в основном может продолжаться то же самое.

Эта статья Данные раскрывают, что «Claude снижает интеллект» — это не городской миф, нестабильность ИИ-моделей становится риском для предприятий Самое раннее появление: в цепных новостях ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Генеральный директор Google Cloud: Gemini будет обеспечивать запуск персонализированной Siri от Apple в 2026 году

Резюме: Gemini будет поддерживать персонализированную Apple Siri в 2026 году, созданную на основе моделей Apple Foundation Models и сотрудничества с Gemini; Apple тестирует чатоподобную Siri в iOS 27/macOS 27, которая запланирована к показу на WWDC 2026. Аннотация: Google Cloud's Gemini должен обеспечивать персонализированную Apple Siri к 2026 году, сочетая Gemini с Apple's Foundation Models в рамках сотрудничества примерно на $1 миллиардов. Apple тестирует переработанную, чатоподобную Siri в iOS 27/macOS 27, с интерфейсом Dynamic Island и новыми функциями, до запланированного на WWDC 2026 анонса 8 июня.

GateNews1м назад

Сделка SpaceX-Cursor $60B предоставляет новые доказательства в поддержку аргументов СБФ о помиловании

Аннотация SpaceX объявляет партнерство $60 миллиарда с Cursor с опционом на приобретение, формируя ходатайство СБФ о помиловании, поскольку ранняя доля Cursor у Alameda сегодня могла бы стоить примерно $3 миллиарда. Материал рассматривает утверждения СБФ о неплатежеспособности, публичные действия его родителей, возражения кредиторов и крайне малые шансы на помилование. Краткое содержание Сделка SpaceX-Cursor подпитывает ходатайство СБФ о помиловании; доля Alameda $200k составила бы ~ $3B сегодня (15,000x). СБФ утверждает о неплатежеспособности FTX; рынки показывают низкие шансы на помилование; Трамп вряд ли помилует.

GateNews9м назад

Акции Chegg обрушились на 99%, поскольку ИИ нарушает рынок Edtech

Кратко: Chegg взлетела на фоне спроса на онлайн-образование, затем инструменты на базе ИИ нарушили ее модель, что привело к массовым увольнениям и падению ниже $2, при этом более широкие изменения, обусловленные ИИ, ударили по майнерам криптовалют и финтех-компаниям. Аннотация: В этой статье рассматривается рост Chegg как любимца edtech в эпоху пандемии и ее последующее падение на фоне быстрого внедрения генеративного ИИ, который дает быстрые ответы и подрывает ценностное предложение Chegg. В ней описываются увольнения в 2025 году и обвал акций до уровня, близкого к исключению из листинга, а также опыт Chegg вписывается в более широкий контекст сбоя, вызванного ИИ и меняющего технологический сектор и криптоиндустрию: майнеры Bitcoin переходят к операциям на базе ИИ, а AI-ориентированные стратегии заново определяют конкурентоспособность в финтехе и за его пределами.

CryptoFrontier19м назад

OpenAI выпустила модель с открытым исходным кодом для обнаружения и редактирования ПДн

Аннотация: Фильтр конфиденциальности OpenAI — это модель с открытым исходным кодом, выполняемая локально, которая обнаруживает и редактирует ПДн (персональные данные) в тексте. Она поддерживает большие контексты, выявляет множество категорий ПДн и предназначена для рабочих процессов с сохранением конфиденциальности, таких как подготовка данных, индексация, логирование и модерация. Фильтр конфиденциальности OpenAI — это локально запускаемая модель с открытым исходным кодом (128k-token context), которая обнаруживает и редактирует ПДн (персональные данные) в тексте, охватывая контактные, финансовые и учетные данные для рабочих процессов по защите конфиденциальности.

GateNews59м назад

OpenAI планирует развернуть 30 ГВт вычислительных мощностей к 2030 году

OpenAI планирует обеспечить 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, при этом уже завершено 8 ГВт из целевых 10 ГВт на 2025 год. Расширение сигнализирует о стратегии наращивания инфраструктуры для разработки и развертывания ИИ следующего поколения. OpenAI намерена достичь 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, уже завершив 8 ГВт из целевого показателя 10 ГВт на 2025 год. Действие отражает стратегическое расширение инфраструктуры для поддержки разработки и развертывания ИИ следующего поколения.

GateNews1ч назад

Агент 360 для обнаружения уязвимостей на базе ИИ находит почти 1 000 нулевых дней с эксплойтом, конкурируя с Mythos

Агент на базе ИИ от 360 Digital Security утверждает, что нашёл около 1 000 новых уязвимостей, включая в Office и OpenClaw; сейчас ИИ является ключевым для обнаружения и подготовки цепочек эксплуатации, соперничая с Mythos. Абстракт: В отчёте, на который ссылается Bloomberg, говорится, что Vulnerability Discovery Agent компании 360 Digital Security на базе ИИ выявил почти 1 000 ранее неизвестных уязвимостей за последние месяцы, включая уязвимости в Microsoft Office и в фреймворке OpenClaw. Компания заявляет, что ИИ стал основным движком для обнаружения уязвимостей, и объявила об инструменте на базе ИИ, который ускорит построение цепочек эксплуатации. Бенинкаса описывает 360 как конкурента Mythos от Anthropic на основе обзора китайскоязычных анонсов компании, сделанного Natto Thoughts.

GateNews1ч назад
комментарий
0/400
Нет комментариев