ステガノグラフィーとは、正常に見えるコンテンツに情報を隠すことを指す。このメカニズムの巧妙(また陰険とも言える)な点は、中国のタイムゾーンを検出すると、システムプロンプトの「Today’s date is」行の日付区切り文字がハイフン「-」からスラッシュ「/」にこっそり変更されることだ。例えば2026-06-30が2026/06/30になる。同時に、「Today’s date」のアポストロフィは、視覚的にほぼ同一だがエンコーディングが異なる3つのUnicode文字の間で切り替えられ、プロキシが中国のドメインと一致するか、中国のAIラボを参照するか、またはその両方を示す。
Claude Codeは中国ユーザーに対して「スパイコード」を埋め込み、水売りや蒸留を防止していたことを認め、暴露されてようやく削除した。
「安全とアライメント」を看板とするAnthropicのClaude CodeチームエンジニアThariq氏は、先日大騒動を引き起こした「スパイコード法」の暴露に対して公に回答し、同社が今年3月に製品に実験的メカニズムを組み込んだことを認めた。このメカニズムは、システムのタイムゾーンがAsia/ShanghaiまたはAsia/Urumqiであるか、プロキシホスト名が中国関連の再販業者と一致するかを検出し、特殊な句読点を用いてステガノグラフィー(隠し書き)の方法で、人間には見えないがサーバーが解析できるマーカーをシステムプロンプトにこっそり注入するものだ。目的は「不正な再販業者によるアカウントの悪用とモデル蒸留の防止」であり、すでに迅速に廃止し、以降のバージョンで完全にロールバックしたと強調した。 (前回のあらすじ:Claude Sonnet 5リリース:Anthropic、多くのパフォーマンスがOpusに迫ると発表、価格はより安価) (背景補足:Fable 5、Mythos 5が戻ってくる!Anthropic、明日再リリースを正式発表)
注目ポイント
「安全とアライメント」を看板とするAnthropic自身が、反蒸留の手法を認めた。Claude CodeチームエンジニアThariq氏は、先日大騒動を引き起こした「スパイ暗号」の暴露に対して公に回答し、同社が今年3月に製品に実験的メカニズムを組み込み、ユーザーに知られずに中国関連ユーザーの環境フィンガープリンティングを行ったことを認めた。
Thariq氏の説明と暴露内容によると、このメカニズムは3つのことを検出する。システムのタイムゾーンがAsia/ShanghaiまたはAsia/Urumqiであるか、ネットワークプロキシホスト名が中国関連の再販業者リストと一致するか、特定のAIラボのキーワードにヒットするか。判断結果は明示的に書かれず、特殊な句読点を用いて「ステガノグラフィー」(隠し書き)の方法で、システムプロンプトに隠しマーカーをこっそり注入する。
隠された識別可能な暗号
ステガノグラフィーとは、正常に見えるコンテンツに情報を隠すことを指す。このメカニズムの巧妙(また陰険とも言える)な点は、中国のタイムゾーンを検出すると、システムプロンプトの「Today’s date is」行の日付区切り文字がハイフン「-」からスラッシュ「/」にこっそり変更されることだ。例えば2026-06-30が2026/06/30になる。同時に、「Today’s date」のアポストロフィは、視覚的にほぼ同一だがエンコーディングが異なる3つのUnicode文字の間で切り替えられ、プロキシが中国のドメインと一致するか、中国のAIラボを参照するか、またはその両方を示す。
最も重要なのは、これらの変更は人間のユーザーには完全に見えず、おそらくAIモデル自体にも気づかれないが、Anthropicのサーバーは容易に解析できることだ。外国メディアによると、関連する動作はClaude Codeバージョン2.1.193から2.1.196で出現し、類似のロジックは4月初めの2.1.91バージョンまで遡ることができる。
Anthropicは反蒸留だと言うが、コミュニティはこっそり監視していると言う
Thariq氏が挙げた理由は防御的なものだ。彼は、このメカニズムは「不正な再販業者によるアカウントの悪用とモデル蒸留の防止」を目的としており、チームはその後、より強力な防御策を実施し、「常に廃止するつもりだった」と強調した。関連PRはマージ済みで、明日のバージョン(2.1.197)リリースで完全にロールバックされる予定だ。
今年2月、Anthropic、OpenAI、Googleは同時に産業規模のモデル蒸留攻撃を開示し、Anthropicはさらに具体的にDeepSeek、Moonshot AI、MiniMaxを非難し、24,000以上の不正アカウントを使用し、1,600万回以上の対話を生成して競合モデルを訓練したと述べた。これらのAI大手にとって、蒸留と不正使用の防止は実際の課題である。
問題は、今回の暴露がセキュリティアカウント@IntCyberDigestによって6月30日に公開され、さらに2枚のコードスクリーンショットが添付され、「ユーザーが全く知らされていなかった」という点を直接裏付けたことだ。Thariq氏の回答は公に認めたものの、「3月に実装され、暴露後に初めて迅速に撤回された」というタイムラインは、コミュニティの広範な疑問を引き起こした。
反蒸留はすでに米中両方のAI陣営の主要な攻防テーマとなっている。対応する手段を完全に公開する必要があるのか?ビジネス論理から言えば不可能である。
よくある質問
Claude Codeの「スパイコード」は実際に何をしたのか?
暴露とエンジニアThariq氏の認証によると、Claude Codeは実験的メカニズムを組み込んでいた。ユーザーのタイムゾーンが中国(Asia/Shanghai、Asia/Urumqi)であるか、プロキシホスト名が中国の再販業者と一致するかを検出し、特殊なUnicode句読点を用いてステガノグラフィー方式で、システムプロンプトに人間には見えないがサーバーが解析できるマーカーを注入していた。
Anthropicはなぜそうしたのか?現在は削除されたのか?
Thariq氏は、目的は不正な再販業者によるアカウントの悪用とモデル蒸留の防止であると述べた。今年2月、AnthropicはDeepSeekなどの中国AI企業が大量の不正アカウントで自社モデルを蒸留したと非難した。関連PRはマージ済みで、明日のバージョン(2.1.197)でこのメカニズムを完全にロールバックすると述べている。