「安全とアライメント」を看板とするAnthropicのClaude CodeチームエンジニアThariq氏は、先日大騒動を引き起こした「スパイコード法」の暴露に対して公に回答し、同社が今年3月に製品に実験的メカニズムを組み込んだことを認めた。このメカニズムは、システムのタイムゾーンがAsia/ShanghaiまたはAsia/Urumqiであるか、プロキシホスト名が中国関連の再販業者と一致するかを検出し、特殊な句読点を用いてステガノグラフィー（隠し書き）の方法で、人間には見えないがサーバーが解析できるマーカーをシステムプロンプトにこっそり注入するものだ。目的は「不正な再販業者によるアカウントの悪用とモデル蒸留の防止」であり、すでに迅速に廃止し、以降のバージョンで完全にロールバックしたと強調した。（前回のあらすじ：Claude Sonnet 5リリース：Anthropic、多くのパフォーマンスがOpusに迫ると発表、価格はより安価）（背景補足：Fable 5、Mythos 5が戻ってくる！Anthropic、明日再リリースを正式発表）

注目ポイント

Claude CodeエンジニアのThariq氏は、今年3月に実験的メカニズムを組み込んだことを認めた。中国のタイムゾーンとプロキシホスト名を検出し、ステガノグラフィーを用いてシステムプロンプトに隠しマーカーを注入した。
メカニズムの詳細：タイムゾーンがAsia/ShanghaiまたはAsia/Urumqiの場合、日付の区切り文字を「-」から「/」に変更し、「Today’s date」のアポストロフィを視覚的に同じUnicode文字エンコーディングに置き換える。
Thariq氏は、目的は不正な再販業者の悪用とモデル蒸留の防止であり、明日のバージョン（2.1.197）で完全にロールバックすると述べた。しかしコミュニティは「見つかってから初めて削除した、ユーザーに通知しない」と批判し、信頼は大きく損なわれた。

「安全とアライメント」を看板とするAnthropic自身が、反蒸留の手法を認めた。Claude CodeチームエンジニアThariq氏は、先日大騒動を引き起こした「スパイ暗号」の暴露に対して公に回答し、同社が今年3月に製品に実験的メカニズムを組み込み、ユーザーに知られずに中国関連ユーザーの環境フィンガープリンティングを行ったことを認めた。

Thariq氏の説明と暴露内容によると、このメカニズムは3つのことを検出する。システムのタイムゾーンがAsia/ShanghaiまたはAsia/Urumqiであるか、ネットワークプロキシホスト名が中国関連の再販業者リストと一致するか、特定のAIラボのキーワードにヒットするか。判断結果は明示的に書かれず、特殊な句読点を用いて「ステガノグラフィー」（隠し書き）の方法で、システムプロンプトに隠しマーカーをこっそり注入する。

隠された識別可能な暗号

ステガノグラフィーとは、正常に見えるコンテンツに情報を隠すことを指す。このメカニズムの巧妙（また陰険とも言える）な点は、中国のタイムゾーンを検出すると、システムプロンプトの「Today’s date is」行の日付区切り文字がハイフン「-」からスラッシュ「/」にこっそり変更されることだ。例えば2026-06-30が2026/06/30になる。同時に、「Today’s date」のアポストロフィは、視覚的にほぼ同一だがエンコーディングが異なる3つのUnicode文字の間で切り替えられ、プロキシが中国のドメインと一致するか、中国のAIラボを参照するか、またはその両方を示す。

最も重要なのは、これらの変更は人間のユーザーには完全に見えず、おそらくAIモデル自体にも気づかれないが、Anthropicのサーバーは容易に解析できることだ。外国メディアによると、関連する動作はClaude Codeバージョン2.1.193から2.1.196で出現し、類似のロジックは4月初めの2.1.91バージョンまで遡ることができる。

Anthropicは反蒸留だと言うが、コミュニティはこっそり監視していると言う

Thariq氏が挙げた理由は防御的なものだ。彼は、このメカニズムは「不正な再販業者によるアカウントの悪用とモデル蒸留の防止」を目的としており、チームはその後、より強力な防御策を実施し、「常に廃止するつもりだった」と強調した。関連PRはマージ済みで、明日のバージョン（2.1.197）リリースで完全にロールバックされる予定だ。

今年2月、Anthropic、OpenAI、Googleは同時に産業規模のモデル蒸留攻撃を開示し、Anthropicはさらに具体的にDeepSeek、Moonshot AI、MiniMaxを非難し、24,000以上の不正アカウントを使用し、1,600万回以上の対話を生成して競合モデルを訓練したと述べた。これらのAI大手にとって、蒸留と不正使用の防止は実際の課題である。

問題は、今回の暴露がセキュリティアカウント@IntCyberDigestによって6月30日に公開され、さらに2枚のコードスクリーンショットが添付され、「ユーザーが全く知らされていなかった」という点を直接裏付けたことだ。Thariq氏の回答は公に認めたものの、「3月に実装され、暴露後に初めて迅速に撤回された」というタイムラインは、コミュニティの広範な疑問を引き起こした。

コメント欄ではほぼ一貫してAnthropicを批判し、「見つかってから削除すると言い出した」「ユーザーに通知せずにこっそり監視した」と非難し、長年「安全性と倫理を最も重視する」と自称してきた企業イメージは、深刻な信頼の打撃を受けた。

反蒸留はすでに米中両方のAI陣営の主要な攻防テーマとなっている。対応する手段を完全に公開する必要があるのか？ビジネス論理から言えば不可能である。

よくある質問

Claude Codeの「スパイコード」は実際に何をしたのか？

暴露とエンジニアThariq氏の認証によると、Claude Codeは実験的メカニズムを組み込んでいた。ユーザーのタイムゾーンが中国（Asia/Shanghai、Asia/Urumqi）であるか、プロキシホスト名が中国の再販業者と一致するかを検出し、特殊なUnicode句読点を用いてステガノグラフィー方式で、システムプロンプトに人間には見えないがサーバーが解析できるマーカーを注入していた。

Anthropicはなぜそうしたのか？現在は削除されたのか？

Thariq氏は、目的は不正な再販業者によるアカウントの悪用とモデル蒸留の防止であると述べた。今年2月、AnthropicはDeepSeekなどの中国AI企業が大量の不正アカウントで自社モデルを蒸留したと非難した。関連PRはマージ済みで、明日のバージョン（2.1.197）でこのメカニズムを完全にロールバックすると述べている。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateCompletesDividendDistribution
142.98K 人気度
#
StrategyBuybackSurges12%
1.36M 人気度
#
IsraelStrikesIranBTCPlunges
67.31K 人気度
#
PredictWorldCupShare20000U
568.66K 人気度
#
TrumpDisclosesOver100MBTCETH
3.83M 人気度

ピン留め

サイトマップ

Claude Codeは中国ユーザーに対して「スパイコード」を埋め込み、水売りや蒸留を防止していたことを認め、暴露されてようやく削除した。

隠された識別可能な暗号

Anthropicは反蒸留だと言うが、コミュニティはこっそり監視していると言う

人気の話題

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

ピン留め