AI2がオープンソースウェブエージェント「MolmoWeb」をリリース:"ビジョン"だけでWebページを制御可能

robot
概要作成中

アレン人工知能研究所(AI2)は、最近、画期的な完全オープンソースのウェブプロキシ「MolmoWeb」を発表しました。従来のウェブ底層コード(DOM)に依存するプロキシとは異なり、MolmoWebはスクリーンショットを読み取るだけで意思決定を行い、「視覚駆動」のウェブナビゲーション技術において大きな飛躍を遂げました。

核心技術:人間のように「見る」ウェブページ

MolmoWebの動作原理は非常に直感的です。現在のブラウザウィンドウのスクリーンショットをキャプチャし、視覚分析によって次の操作(クリック、スクロール、ページめくりなど)を決定し、それを実行して繰り返します。この「見たまま」のモードは、従来のプロキシよりも堅牢性が高くなります。なぜなら、ウェブページの視覚的レイアウトは通常、底層コードよりも安定しており、その意思決定過程も人間のユーザーにとって完全に透明で説明可能だからです。

性能の飛躍:小規模モデルが大手を凌駕

MolmoWebのパラメータ規模は4Bと8Bに過ぎませんが、性能面では「小さくても大きな力を持つ」実力を示しています。

ランキングトップ:WebVoyagerのテストでは、8Bバージョンのスコアが78.2%に達し、オープンソースモデルの中でトップクラスを誇るだけでなく、OpenAIの独自モデルo3(79.3%)に迫っています。

潜在能力:研究により、複数回のタスク実行と最良結果の選別によって、その成功率はさらに94.7%に向上することが判明しました。

精度の高さ:UI要素の位置特定のベンチマークテストでは、AnthropicのClaude3.7をも超えました。

データの裏付け:史上最大のオープンデータセット

AI2は今回、モデルの重みだけでなく、「MolmoWebMix」と名付けられた巨大なデータセットも公開しました。このデータセットには、

人間のボランティアによる36,000回の実際の閲覧タスク。

220万以上のスクリーンショットと質問応答ペア。

GPT-4oによる自動合成データ。

のほか、合成データは「最適経路」を探索するエージェントの誘導において、人間の軌跡を超える効果を示しています。

オープンソース精神と今後の課題

現在、MolmoWebはHugging FaceとGitHub上でApache2.0ライセンスのもと完全に公開されています。複雑な指示処理やログイン認証、法的コンプライアンス(利用規約など)には依然課題がありますが、AI2は、完全な透明性とコミュニティの協力を通じてこそ、大手テック企業のデータ独占に真正面から対抗できると信じています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン