アレン人工知能研究所(AI2)は、最近、画期的な完全オープンソースのウェブプロキシ「MolmoWeb」を発表しました。従来のウェブ底層コード(DOM)に依存するプロキシとは異なり、MolmoWebはスクリーンショットを読み取るだけで意思決定を行い、「視覚駆動」のウェブナビゲーション技術において大きな飛躍を遂げました。核心技術:人間のように「見る」ウェブページMolmoWebの動作原理は非常に直感的です。現在のブラウザウィンドウのスクリーンショットをキャプチャし、視覚分析によって次の操作(クリック、スクロール、ページめくりなど)を決定し、それを実行して繰り返します。この「見たまま」のモードは、従来のプロキシよりも堅牢性が高くなります。なぜなら、ウェブページの視覚的レイアウトは通常、底層コードよりも安定しており、その意思決定過程も人間のユーザーにとって完全に透明で説明可能だからです。性能の飛躍:小規模モデルが大手を凌駕MolmoWebのパラメータ規模は4Bと8Bに過ぎませんが、性能面では「小さくても大きな力を持つ」実力を示しています。ランキングトップ:WebVoyagerのテストでは、8Bバージョンのスコアが78.2%に達し、オープンソースモデルの中でトップクラスを誇るだけでなく、OpenAIの独自モデルo3(79.3%)に迫っています。潜在能力:研究により、複数回のタスク実行と最良結果の選別によって、その成功率はさらに94.7%に向上することが判明しました。精度の高さ:UI要素の位置特定のベンチマークテストでは、AnthropicのClaude3.7をも超えました。データの裏付け:史上最大のオープンデータセットAI2は今回、モデルの重みだけでなく、「MolmoWebMix」と名付けられた巨大なデータセットも公開しました。このデータセットには、人間のボランティアによる36,000回の実際の閲覧タスク。220万以上のスクリーンショットと質問応答ペア。GPT-4oによる自動合成データ。のほか、合成データは「最適経路」を探索するエージェントの誘導において、人間の軌跡を超える効果を示しています。オープンソース精神と今後の課題現在、MolmoWebはHugging FaceとGitHub上でApache2.0ライセンスのもと完全に公開されています。複雑な指示処理やログイン認証、法的コンプライアンス(利用規約など)には依然課題がありますが、AI2は、完全な透明性とコミュニティの協力を通じてこそ、大手テック企業のデータ独占に真正面から対抗できると信じています。
AI2がオープンソースウェブエージェント「MolmoWeb」をリリース:"ビジョン"だけでWebページを制御可能
アレン人工知能研究所(AI2)は、最近、画期的な完全オープンソースのウェブプロキシ「MolmoWeb」を発表しました。従来のウェブ底層コード(DOM)に依存するプロキシとは異なり、MolmoWebはスクリーンショットを読み取るだけで意思決定を行い、「視覚駆動」のウェブナビゲーション技術において大きな飛躍を遂げました。
核心技術:人間のように「見る」ウェブページ
MolmoWebの動作原理は非常に直感的です。現在のブラウザウィンドウのスクリーンショットをキャプチャし、視覚分析によって次の操作(クリック、スクロール、ページめくりなど)を決定し、それを実行して繰り返します。この「見たまま」のモードは、従来のプロキシよりも堅牢性が高くなります。なぜなら、ウェブページの視覚的レイアウトは通常、底層コードよりも安定しており、その意思決定過程も人間のユーザーにとって完全に透明で説明可能だからです。
性能の飛躍:小規模モデルが大手を凌駕
MolmoWebのパラメータ規模は4Bと8Bに過ぎませんが、性能面では「小さくても大きな力を持つ」実力を示しています。
ランキングトップ:WebVoyagerのテストでは、8Bバージョンのスコアが78.2%に達し、オープンソースモデルの中でトップクラスを誇るだけでなく、OpenAIの独自モデルo3(79.3%)に迫っています。
潜在能力:研究により、複数回のタスク実行と最良結果の選別によって、その成功率はさらに94.7%に向上することが判明しました。
精度の高さ:UI要素の位置特定のベンチマークテストでは、AnthropicのClaude3.7をも超えました。
データの裏付け:史上最大のオープンデータセット
AI2は今回、モデルの重みだけでなく、「MolmoWebMix」と名付けられた巨大なデータセットも公開しました。このデータセットには、
人間のボランティアによる36,000回の実際の閲覧タスク。
220万以上のスクリーンショットと質問応答ペア。
GPT-4oによる自動合成データ。
のほか、合成データは「最適経路」を探索するエージェントの誘導において、人間の軌跡を超える効果を示しています。
オープンソース精神と今後の課題
現在、MolmoWebはHugging FaceとGitHub上でApache2.0ライセンスのもと完全に公開されています。複雑な指示処理やログイン認証、法的コンプライアンス(利用規約など)には依然課題がありますが、AI2は、完全な透明性とコミュニティの協力を通じてこそ、大手テック企業のデータ独占に真正面から対抗できると信じています。