Ai2(Allen Institute for AI)が2026年3月24日に公開したMolmoWebは、スクリーンショットだけを使ってWebブラウザを自律操作できるオープンウェイトのWebエージェントだ。
正直、これは驚いた。GPT-4oやClaude、Geminiといったプロプライエタリな巨大モデルに依存したエージェントを、8Bパラメータのオープンウェイトモデルが複数のベンチマークで上回った。しかも、HTMLやアクセシビリティツリーを読まずに、人間と同じスクリーンショットだけで。
この記事では、MolmoWebの技術的な仕組み、ベンチマーク結果、そして開発者が実際に試す方法を解説する。
何が発表されたのか
Ai2は3月24日、以下を一斉公開した。
- MolmoWeb-4B / 8B:Molmo 2ベースのWebエージェントモデル(HuggingFace公開)
- MolmoWebMix:3万件の人間タスク軌跡、59万件のサブタスクデモ、220万件のスクリーンショットQ&Aペアを含む学習データセット
- トレーニングコード一式:学習から評価まで再現可能なフルスタック
- デモ:サポート対象サイトでのライブテスト環境
MolmoWebMixは「公開されている人間のWebタスク実行データセットとして過去最大規模」とAi2は説明している(参照日: 2026-03-24)。
技術的に見ると
MolmoWebの仕組みは「見る → 考える → 実行」のシンプルなループだ。
従来のWebエージェントの多くはHTMLのDOM構造やアクセシビリティツリーを読み取る。MolmoWebはそれをしない。スクリーンショット画像だけを入力として、クリック、テキスト入力、スクロール、タブ操作などのアクションを決定する。
アーキテクチャ
MolmoWebはMolmo 2をベースとしている。Molmo 2は2025年12月にAi2が公開したマルチモーダルモデルファミリーで、動画理解・ポインティング・トラッキングに強みを持つ。
- 4B版:Qwen 3ベースの言語モデル + SigLIP2ビジョンエンコーダ
- 8B版:同上(パラメータ数が倍)
ビジョンエンコーダSigLIP2が正確な視覚的グラウンディング(UI要素の位置特定)を担い、Qwen 3がタスク推論と行動決定を行う構成だ。
ビジュアルグラウンディングの独立モデル
MolmoWebは本体モデルとは別に、画面上のUI要素を正確に特定するためのグラウンディング専用8Bモデルも学習・公開している。このモデルはScreenSpotおよびScreenSpot v2ベンチマークで、Fara-7Bなどのオープンウェイトモデルを上回るだけでなく、Claude 3.7やOpenAI CUAも超えたと報告されている。
ベンチマーク結果
MolmoWeb 8Bが公開されているベンチマークでの結果は以下の通り(Ai2公式ブログ、参照日: 2026-03-24)。
| ベンチマーク | MolmoWeb 8B(1回実行) | MolmoWeb 8B(pass@4) |
|---|---|---|
| WebVoyager | 78.2% | 94.7% |
| DeepShop | 42.3% | — |
| WebTailBench | 49.5% | — |
| Online-Mind2Web | 35.3% | 60.5% |
pass@4はテスト時スケーリング(4回の独立した実行から最良を選択)を使った場合の数値。WebVoyager 94.7%は、同ベンチマークでGPT-4oベースのエージェントを上回るSOTA(オープンウェイト)と報告されている。
注意点がある。これらは公式発表の数値であり、独立した再現検証はまだ十分ではない。タスクの難易度やドメイン依存性もある。「SOTAだから万能」と考えると痛い目を見る。
オープンソースがWebエージェント競争に与える影響
OpenAI Operator、Google Project Mariner、Anthropicのコンピュータ使用(Claude CUA)はいずれもAPIを通じてのみアクセスできる。Ai2の戦略はその対極だ。
「クローズドシステムは結果を見せてくれる。だが何が起きているかはわからない。オープンなシステムはすべてを見せてくれる」——Ai2 CEO ピーター・ウォルシュ(GeekWire、2026-03-24)
MolmoWebの公開が意味するのは次の3点だ。
- ローカル実行が可能:4B/8Bは一般的なGPU環境で動かせる。外部APIへの依存がない
- カスタマイズができる:MolmoWebMixを使って自社ドメインに特化したファインチューニングが可能
- 透明性がある:どのデータで学習したか、どう判断しているかを検証できる
AIエージェントの基本概念や構築パターンについては、AIエージェント構築完全ガイドで体系的にまとめている。
開発者が今週やるべき3つのこと
MolmoWebを試してみたい開発者向けに、具体的なアクションを整理した。
1. Hugging Faceでモデルを確認する
MolmoWeb-8Bはallenai/MolmoWeb-8Bとして公開されている。以下のコードでロードできる(動作環境: Python 3.10+, transformers 4.40+, torch 2.0+)。
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 動作環境: Python 3.10+, transformers>=4.40.0, torch>=2.0
from transformers import AutoModelForCausalLM, AutoProcessor
import torch
model_name = "allenai/MolmoWeb-8B"
# モデルとプロセッサの読み込み(初回は数GBのダウンロードが発生)
processor = AutoProcessor.from_pretrained(
model_name,
trust_remote_code=True # Ai2のカスタムコード含むため必要
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
trust_remote_code=True,
torch_dtype=torch.float16,
device_map="auto" # 利用可能なGPUに自動割り当て
)
print(f"モデルロード完了: {model_name}")
2. Ai2のデモで動作を確認する
Ai2はサポート対象サイト向けのライブデモを公開している。コードを書く前に、実際に動いているWebエージェントを見てみるのがわかりやすい。
3. MolmoWebMixデータセットを確認する
# MolmoWebMixデータセットの確認
from datasets import load_dataset
# HuggingFaceから学習データをダウンロード
dataset = load_dataset("allenai/MolmoWebMix", split="train")
print(f"データ件数: {len(dataset)}")
# サンプルを1件確認
sample = dataset[0]
print("キー一覧:", list(sample.keys()))
3万件の人間タスク軌跡のうち、自社が使うドメインに近いものを選んでファインチューニングするというアプローチが有効になりそうだ。
【要注意】現時点での限界と懸念点
正直にお伝えすると、MolmoWebはまだ発展途上のシステムだ。いくつかの点に注意が必要。
❌ 全てのサイトで動くわけではない
デモは「サポート対象サイト」に限定されている。一般的なサイトでの動作は保証されない。
⭕ まず対応サイトでの動作確認から始める
Ai2のデモ環境で動作が確認できているサイトを足がかりに、段階的に適用範囲を広げていくのが現実的だ。
❌ HTMLベースのエージェントとの直接比較は難しい
スクリーンショットのみのアプローチはシンプルだが、DOM操作ができないため、JavaScriptレンダリング後の動的要素への対応は課題になりうる。
⭕ 用途を絞って評価する
情報収集タスク(検索・フォーム入力・ページナビゲーション)に絞って評価するとポテンシャルが見えやすい。
❌ ベンチマーク結果の独立検証がまだ薄い
公式発表の数値はインパクトがあるが、2026年4月時点では独立した再現検証が限られている。これから精査されていく数字だ。
この先どうなるか
MolmoWebの登場でWebエージェントのオープンソース化が一気に加速する可能性がある。数十億ドルを投じて作られた閉じたシステムを、小規模チームがファインチューニングで超えられるとしたら、業界の勢力図は大きく変わる。
AIエージェントのセキュリティと安全運用については、AIエージェントのセキュリティ検証レポートも参考にしてほしい。
Ai2はMolmo 2の後継モデルの研究も継続しており、MolmoWebの精度向上は今後も続くとみられる。特に、現在の限界であるJavaScript動的サイトへの対応と、マルチタブ・マルチウィンドウ操作の改善が注目点だ。
参考・出典
- MolmoWeb: An open agent for automating web tasks — Allen Institute for AI(参照日: 2026-03-24)
- Ai2 releases open-source web agent to rival closed systems — GeekWire(参照日: 2026-03-24)
- Ai2 releases MolmoWeb, an open-weight visual web agent with 30K human task trajectories — VentureBeat(参照日: 2026-03-24)
- AI2’s fully open web agent MolmoWeb navigates the web using only screenshots — The Decoder(参照日: 2026-03-24)
- Molmo 2: State-of-the-art video understanding, pointing, and tracking — Allen Institute for AI(参照日: 2026-03-24)
あわせて読みたい:
- GPT-5/4 ThinkingのOSWorld自律エージェント解説 — コンピュータ操作エージェントの最前線
- AIエージェントのセキュリティ検証フレームワーク — 本番運用前に確認すべきポイント
- AIエージェントとセキュリティの最新動向 — エージェント時代のリスク管理
この記事はAIgent Lab編集部がお届けしました。