私たちは最近、Claude Opus 4.6による脆弱性が原因で177万ドルの攻撃を目撃しました。


cbETHは$$1 ではなく、$2,000で価格設定されていました。
その後すぐに@OpenAIがEVMbenchをリリースしました。簡単に言えば、これはAIエージェントがスマートコントラクトとやり取りする能力を評価するベンチマークです。

主な評価モードは3つあります:
> Detect:脆弱性を検出するエージェントの能力を分析
> Patch:脆弱性を修正するエージェントの能力を分析
> Exploit:脆弱性を悪用するエージェントの能力を分析
彼らの分析によると、最近のモデル(Opus 4.6、GPT-5.3-Codexなど)は、脆弱性を悪用するのに非常に優れている一方で、検出と修正は弱いことがわかりました。
これはまさに私が最新モデルで自分のエージェントを動かして観察していることと一致します。私のエージェントチームでは、常に完全なコンテキストを得る監査エージェントを含めており、主な目的は脆弱性を見つけることです。
脆弱性を見つけると、開発者エージェントが簡単に修正します。
しかし問題は、10個の脆弱性のうち、3つしか見つけられないことです。現時点では、エージェントに脆弱性を適切に検出させることはできません。
このベンチマークをリリースするのは非常に強力な動きです。私も自分のエージェントで試すのを楽しみにしています。
はっきりさせておくと、これはセキュリティスキャナーや本番運用向けの監査ツールではありません。主にAIの能力を測定し、モデルを比較し、この分野でのAIの進展を示す指標を提供することを目的としています。
要するに、AIを評価し、この分野での改善を促すツールであり、正直なところ、私たちにはそれが本当に必要です。
原文表示
post-image
post-image
post-image
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン