Anthropic は4/23に Claude Code の品質事故の検討を公開し、過去2か月ほどの間に重なって発生した3つのエンジニアリング上の誤りが Claude Code の利用品質を低下させたことを公に認め、同時にその影響が Claude Agent SDK と Claude Cowork にも波及することを示した。会社は「当社はモデルの劣化に関するフィードバックを非常に重視しており、故意にモデル能力を引き下げたことはない」と述べ、4/23にすべての加入者の利用上限をリセットして補償した。
3つの bug のタイムラインと技術的な根因
問題 発効期間 根因 修復バージョン 推論予算の降級 3/4–4/7 reasoning effort デフォルトが high から medium に下がり、ユーザーはモデルが「より賢くなくなった」と感じる 4/7 ロールバック キャッシュクリーニング bug 3/26–4/10 1時間超のアイドル状態の session の thinking キャッシュが、最後に1回だけではなく毎回クリアされる v2.1.101 簡潔プロンプトの反噬 4/16–4/20 「ツール呼び出し間の文字 ≤25字」というシステム指示を追加し、ablation テストで全体のインテリジェンスが3%低下した v2.1.116
推論降級:遅延を減らす代償
3/4 Anthropic は Claude Code の reasoning effort のデフォルトを high から medium に調整した。目的は応答遅延を短縮することだった。しかしこの変更により、モデルはコード推論やデバッグのタスクで「賢くなくなった」と感じられるようになった。4/7 にロールバックした後は、現在 Opus 4.7 はデフォルトで xhigh、その他のモデルは high を維持している。同社は認めた:変更前の社内評価では、この劣化を検知できなかった。
キャッシュクリーニング bug:システム境界をまたぐ暗黙の誤り
3/26 Anthropic は、アイドルが1時間を超えた session に対して prompt caching の最適化を導入した。元の設計は「アイドルが満1時間になったら thinking キャッシュを1回クリアする」だったが、実装上は「アイドル発生後は毎ラウンドでクリアする」になってしまい、その結果 Claude は長い session の中で「物忘れしがちで、繰り返しが多い」ように振る舞い、さらに毎ラウンドでキャッシュミスが起きてユーザーの利用量が急速に消費されることになった。Anthropic は、この bug が「Claude Code のコンテキスト管理、Anthropic API、extended thinking の3つの交差点に存在する」ことを指摘しており、複数のシステム境界にまたがるため、単体テストだけで捕捉するのが難しい暗黙の誤りだという。修復は 4/10 に v2.1.101 としてリリースされた。
25字の簡潔指示:ablation で初めてインテリジェンス低下を発見
4/16 Anthropic はシステム指示を1つ追加した:「ツール呼び出し間の文字出力は 25 字以内に保つ」。意図は、モデルの冗長な説明を減らし、体験をよりすっきりさせることだった。当時の社内テストでは劣化は見つからなかったが、より厳密な ablation による対照実験の後、同社はこの指示が Opus 4.6 と 4.7 の両モデルでそれぞれ約3%の全体インテリジェンス低下を引き起こしたことを突き止めた。4/20 に v2.1.116 でロールバックした。この出来事は、システムプロンプトのわずかな言い回しが、モデルの振る舞いに未予期の構造的影響をもたらし得ることを浮き彫りにした。
影響範囲
製品層:Claude Code(3つの問題すべてが影響)、Claude Agent SDK(①②)、Claude Cowork(すべて)
モデル層:Sonnet 4.6、Opus 4.6、Opus 4.7
API基盤施設:影響なし
ユーザー体感の面では次のように表れた:応答品質と「インテリジェンス」が低下、遅延の上昇、conversation context の途中での喪失、利用量が予想より速く燃え尽きる。
補償とプロセス改善
Anthropic は 4/23 にすべての加入者の利用上限をリセットして直接補償した。同時に約束したプロセス改善には以下が含まれる:
system prompt の変更に対して、より広い評価スイート(evaluation suite)を実施する
Code Review ツールで回帰を早期に検知するよう改善
社内テスト基準を公開 build に標準化し、「社内バージョン」と「対外バージョン」の挙動の相違を避ける
モデルのインテリジェンスに影響し得る変更に soak period と段階的ロールアウトを追加する
ユーザーへの示唆
日常の開発や研究で Claude Code に依存しているユーザーにとって、この postmortem には3つの持ち帰りポイントがある。第一に、あなたが 3月中旬から 4月20日までに Claude モデルが「賢くなくなった」と感じたり、Claude Code が長い session で異常に物忘れするのなら、それはあなたの錯覚や prompt の不適切さではない。第二に、この期間に利用上限が素早く食い尽くされてしまったユーザーは、4/23 後に Anthropic が自動で利用上限をリセットしたかどうかを確認できる。第三に、「25字以内」の prompt 微調整であっても、モデルの全域の振る舞いにシステム的な影響を与える可能性がある――これは LLM 製品エンジニアリングに共通するリスクだ。
同業他社が沈黙するか、あるいは「ユーザーの操作が不適切」だとしてモデルの劣化への疑問に応えることが多いのに対し、Anthropic は今回、積極的に開示し技術的な透明性を示した。これは AI 製品事故の検討における、参照可能なサンプルを示すものだ。
この記事は、Anthropic が Claude Code の3つの bug の重なり――推論降級、キャッシュの忘却、25字指示の反噬――を自ら明かしたもので、最初に 鏈新聞 ABMedia に掲載された。
関連記事
Judge Dismisses Fraud Claims in Elon Musk's OpenAI Lawsuit; Case Advances to Trial with Two Remaining Allegations