ニュース

MolmoWeb｜オープンウェイトWebエージェント

2026.04.07 公開 8分で読める

この記事の結論

Ai2がMolmoWebを公開。4B/8Bモデルでブラウザ自律操作、WebVoyager 78.2%でSOTA達成。

Ai2（Allen Institute for AI）が2026年3月24日に公開したMolmoWebは、スクリーンショットだけを使ってWebブラウザを自律操作できるオープンウェイトのWebエージェントだ。

正直、これは驚いた。GPT-4oやClaude、Geminiといったプロプライエタリな巨大モデルに依存したエージェントを、8Bパラメータのオープンウェイトモデルが複数のベンチマークで上回った。しかも、HTMLやアクセシビリティツリーを読まずに、人間と同じスクリーンショットだけで。

この記事では、MolmoWebの技術的な仕組み、ベンチマーク結果、そして開発者が実際に試す方法を解説する。

何が発表されたのか

Ai2は3月24日、以下を一斉公開した。

MolmoWeb-4B / 8B：Molmo 2ベースのWebエージェントモデル（HuggingFace公開）
MolmoWebMix：3万件の人間タスク軌跡、59万件のサブタスクデモ、220万件のスクリーンショットQ&Aペアを含む学習データセット
トレーニングコード一式：学習から評価まで再現可能なフルスタック
デモ：サポート対象サイトでのライブテスト環境

MolmoWebMixは「公開されている人間のWebタスク実行データセットとして過去最大規模」とAi2は説明している（参照日: 2026-03-24）。

技術的に見ると

MolmoWebの仕組みは「見る → 考える → 実行」のシンプルなループだ。

従来のWebエージェントの多くはHTMLのDOM構造やアクセシビリティツリーを読み取る。MolmoWebはそれをしない。スクリーンショット画像だけを入力として、クリック、テキスト入力、スクロール、タブ操作などのアクションを決定する。

アーキテクチャ

MolmoWebはMolmo 2をベースとしている。Molmo 2は2025年12月にAi2が公開したマルチモーダルモデルファミリーで、動画理解・ポインティング・トラッキングに強みを持つ。

4B版：Qwen 3ベースの言語モデル + SigLIP2ビジョンエンコーダ
8B版：同上（パラメータ数が倍）

ビジョンエンコーダSigLIP2が正確な視覚的グラウンディング（UI要素の位置特定）を担い、Qwen 3がタスク推論と行動決定を行う構成だ。

ビジュアルグラウンディングの独立モデル

MolmoWebは本体モデルとは別に、画面上のUI要素を正確に特定するためのグラウンディング専用8Bモデルも学習・公開している。このモデルはScreenSpotおよびScreenSpot v2ベンチマークで、Fara-7Bなどのオープンウェイトモデルを上回るだけでなく、Claude 3.7やOpenAI CUAも超えたと報告されている。

ベンチマーク結果

MolmoWeb 8Bが公開されているベンチマークでの結果は以下の通り（Ai2公式ブログ、参照日: 2026-03-24）。

ベンチマーク	MolmoWeb 8B（1回実行）	MolmoWeb 8B（pass@4）
WebVoyager	78.2%	94.7%
DeepShop	42.3%	—
WebTailBench	49.5%	—
Online-Mind2Web	35.3%	60.5%

pass@4はテスト時スケーリング（4回の独立した実行から最良を選択）を使った場合の数値。WebVoyager 94.7%は、同ベンチマークでGPT-4oベースのエージェントを上回るSOTA（オープンウェイト）と報告されている。

注意点がある。これらは公式発表の数値であり、独立した再現検証はまだ十分ではない。タスクの難易度やドメイン依存性もある。「SOTAだから万能」と考えると痛い目を見る。

オープンソースがWebエージェント競争に与える影響

OpenAI Operator、Google Project Mariner、Anthropicのコンピュータ使用（Claude CUA）はいずれもAPIを通じてのみアクセスできる。Ai2の戦略はその対極だ。

「クローズドシステムは結果を見せてくれる。だが何が起きているかはわからない。オープンなシステムはすべてを見せてくれる」——Ai2 CEO ピーター・ウォルシュ（GeekWire、2026-03-24）

MolmoWebの公開が意味するのは次の3点だ。

ローカル実行が可能：4B/8Bは一般的なGPU環境で動かせる。外部APIへの依存がない
カスタマイズができる：MolmoWebMixを使って自社ドメインに特化したファインチューニングが可能
透明性がある：どのデータで学習したか、どう判断しているかを検証できる

AIエージェントの基本概念や構築パターンについては、AIエージェント構築完全ガイドで体系的にまとめている。

開発者が今週やるべき3つのこと

MolmoWebを試してみたい開発者向けに、具体的なアクションを整理した。

1. Hugging Faceでモデルを確認する

MolmoWeb-8Bはallenai/MolmoWeb-8Bとして公開されている。以下のコードでロードできる（動作環境: Python 3.10+, transformers 4.40+, torch 2.0+）。

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 動作環境: Python 3.10+, transformers>=4.40.0, torch>=2.0
from transformers import AutoModelForCausalLM, AutoProcessor
import torch

model_name = "allenai/MolmoWeb-8B"

# モデルとプロセッサの読み込み（初回は数GBのダウンロードが発生）
processor = AutoProcessor.from_pretrained(
    model_name,
    trust_remote_code=True  # Ai2のカスタムコード含むため必要
)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    torch_dtype=torch.float16,
    device_map="auto"  # 利用可能なGPUに自動割り当て
)

print(f"モデルロード完了: {model_name}")

2. Ai2のデモで動作を確認する

Ai2はサポート対象サイト向けのライブデモを公開している。コードを書く前に、実際に動いているWebエージェントを見てみるのがわかりやすい。

3. MolmoWebMixデータセットを確認する

# MolmoWebMixデータセットの確認
from datasets import load_dataset

# HuggingFaceから学習データをダウンロード
dataset = load_dataset("allenai/MolmoWebMix", split="train")
print(f"データ件数: {len(dataset)}")

# サンプルを1件確認
sample = dataset[0]
print("キー一覧:", list(sample.keys()))

3万件の人間タスク軌跡のうち、自社が使うドメインに近いものを選んでファインチューニングするというアプローチが有効になりそうだ。

【要注意】現時点での限界と懸念点

正直にお伝えすると、MolmoWebはまだ発展途上のシステムだ。いくつかの点に注意が必要。

❌ 全てのサイトで動くわけではない
デモは「サポート対象サイト」に限定されている。一般的なサイトでの動作は保証されない。

⭕ まず対応サイトでの動作確認から始める
Ai2のデモ環境で動作が確認できているサイトを足がかりに、段階的に適用範囲を広げていくのが現実的だ。

❌ HTMLベースのエージェントとの直接比較は難しい
スクリーンショットのみのアプローチはシンプルだが、DOM操作ができないため、JavaScriptレンダリング後の動的要素への対応は課題になりうる。

⭕ 用途を絞って評価する
情報収集タスク（検索・フォーム入力・ページナビゲーション）に絞って評価するとポテンシャルが見えやすい。

❌ ベンチマーク結果の独立検証がまだ薄い
公式発表の数値はインパクトがあるが、2026年4月時点では独立した再現検証が限られている。これから精査されていく数字だ。

この先どうなるか

MolmoWebの登場でWebエージェントのオープンソース化が一気に加速する可能性がある。数十億ドルを投じて作られた閉じたシステムを、小規模チームがファインチューニングで超えられるとしたら、業界の勢力図は大きく変わる。

AIエージェントのセキュリティと安全運用については、AIエージェントのセキュリティ検証レポートも参考にしてほしい。

Ai2はMolmo 2の後継モデルの研究も継続しており、MolmoWebの精度向上は今後も続くとみられる。特に、現在の限界であるJavaScript動的サイトへの対応と、マルチタブ・マルチウィンドウ操作の改善が注目点だ。

参考・出典

MolmoWeb: An open agent for automating web tasks — Allen Institute for AI（参照日: 2026-03-24）
Ai2 releases open-source web agent to rival closed systems — GeekWire（参照日: 2026-03-24）
Ai2 releases MolmoWeb, an open-weight visual web agent with 30K human task trajectories — VentureBeat（参照日: 2026-03-24）
AI2’s fully open web agent MolmoWeb navigates the web using only screenshots — The Decoder（参照日: 2026-03-24）
Molmo 2: State-of-the-art video understanding, pointing, and tracking — Allen Institute for AI（参照日: 2026-03-24）

あわせて読みたい:

GPT-5/4 ThinkingのOSWorld自律エージェント解説 — コンピュータ操作エージェントの最前線
AIエージェントのセキュリティ検証フレームワーク — 本番運用前に確認すべきポイント
AIエージェントとセキュリティの最新動向 — エージェント時代のリスク管理

この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

30分無料相談を予約支援実績を見る

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。