ニュース

MolmoWeb|オープンウェイトWebエージェント

この記事の結論

Ai2がMolmoWebを公開。4B/8Bモデルでブラウザ自律操作、WebVoyager 78.2%でSOTA達成。

Ai2(Allen Institute for AI)が2026年3月24日に公開したMolmoWebは、スクリーンショットだけを使ってWebブラウザを自律操作できるオープンウェイトのWebエージェントだ。

正直、これは驚いた。GPT-4oやClaude、Geminiといったプロプライエタリな巨大モデルに依存したエージェントを、8Bパラメータのオープンウェイトモデルが複数のベンチマークで上回った。しかも、HTMLやアクセシビリティツリーを読まずに、人間と同じスクリーンショットだけで。

この記事では、MolmoWebの技術的な仕組み、ベンチマーク結果、そして開発者が実際に試す方法を解説する。


何が発表されたのか

Ai2は3月24日、以下を一斉公開した。

  • MolmoWeb-4B / 8B:Molmo 2ベースのWebエージェントモデル(HuggingFace公開)
  • MolmoWebMix:3万件の人間タスク軌跡、59万件のサブタスクデモ、220万件のスクリーンショットQ&Aペアを含む学習データセット
  • トレーニングコード一式:学習から評価まで再現可能なフルスタック
  • デモ:サポート対象サイトでのライブテスト環境

MolmoWebMixは「公開されている人間のWebタスク実行データセットとして過去最大規模」とAi2は説明している(参照日: 2026-03-24)。

技術的に見ると

MolmoWebの仕組みは「見る → 考える → 実行」のシンプルなループだ。

従来のWebエージェントの多くはHTMLのDOM構造やアクセシビリティツリーを読み取る。MolmoWebはそれをしない。スクリーンショット画像だけを入力として、クリック、テキスト入力、スクロール、タブ操作などのアクションを決定する。

アーキテクチャ

MolmoWebはMolmo 2をベースとしている。Molmo 2は2025年12月にAi2が公開したマルチモーダルモデルファミリーで、動画理解・ポインティング・トラッキングに強みを持つ。

  • 4B版:Qwen 3ベースの言語モデル + SigLIP2ビジョンエンコーダ
  • 8B版:同上(パラメータ数が倍)

ビジョンエンコーダSigLIP2が正確な視覚的グラウンディング(UI要素の位置特定)を担い、Qwen 3がタスク推論と行動決定を行う構成だ。

ビジュアルグラウンディングの独立モデル

MolmoWebは本体モデルとは別に、画面上のUI要素を正確に特定するためのグラウンディング専用8Bモデルも学習・公開している。このモデルはScreenSpotおよびScreenSpot v2ベンチマークで、Fara-7Bなどのオープンウェイトモデルを上回るだけでなく、Claude 3.7やOpenAI CUAも超えたと報告されている。

ベンチマーク結果

MolmoWeb 8Bが公開されているベンチマークでの結果は以下の通り(Ai2公式ブログ、参照日: 2026-03-24)。

ベンチマーク MolmoWeb 8B(1回実行) MolmoWeb 8B(pass@4)
WebVoyager 78.2% 94.7%
DeepShop 42.3%
WebTailBench 49.5%
Online-Mind2Web 35.3% 60.5%

pass@4はテスト時スケーリング(4回の独立した実行から最良を選択)を使った場合の数値。WebVoyager 94.7%は、同ベンチマークでGPT-4oベースのエージェントを上回るSOTA(オープンウェイト)と報告されている。

注意点がある。これらは公式発表の数値であり、独立した再現検証はまだ十分ではない。タスクの難易度やドメイン依存性もある。「SOTAだから万能」と考えると痛い目を見る。

オープンソースがWebエージェント競争に与える影響

OpenAI Operator、Google Project Mariner、Anthropicのコンピュータ使用(Claude CUA)はいずれもAPIを通じてのみアクセスできる。Ai2の戦略はその対極だ。

「クローズドシステムは結果を見せてくれる。だが何が起きているかはわからない。オープンなシステムはすべてを見せてくれる」——Ai2 CEO ピーター・ウォルシュ(GeekWire、2026-03-24)

MolmoWebの公開が意味するのは次の3点だ。

  1. ローカル実行が可能:4B/8Bは一般的なGPU環境で動かせる。外部APIへの依存がない
  2. カスタマイズができる:MolmoWebMixを使って自社ドメインに特化したファインチューニングが可能
  3. 透明性がある:どのデータで学習したか、どう判断しているかを検証できる

AIエージェントの基本概念や構築パターンについては、AIエージェント構築完全ガイドで体系的にまとめている。

開発者が今週やるべき3つのこと

MolmoWebを試してみたい開発者向けに、具体的なアクションを整理した。

1. Hugging Faceでモデルを確認する

MolmoWeb-8Bはallenai/MolmoWeb-8Bとして公開されている。以下のコードでロードできる(動作環境: Python 3.10+, transformers 4.40+, torch 2.0+)。

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 動作環境: Python 3.10+, transformers>=4.40.0, torch>=2.0
from transformers import AutoModelForCausalLM, AutoProcessor
import torch

model_name = "allenai/MolmoWeb-8B"

# モデルとプロセッサの読み込み(初回は数GBのダウンロードが発生)
processor = AutoProcessor.from_pretrained(
    model_name,
    trust_remote_code=True  # Ai2のカスタムコード含むため必要
)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    torch_dtype=torch.float16,
    device_map="auto"  # 利用可能なGPUに自動割り当て
)

print(f"モデルロード完了: {model_name}")

2. Ai2のデモで動作を確認する

Ai2はサポート対象サイト向けのライブデモを公開している。コードを書く前に、実際に動いているWebエージェントを見てみるのがわかりやすい。

3. MolmoWebMixデータセットを確認する

# MolmoWebMixデータセットの確認
from datasets import load_dataset

# HuggingFaceから学習データをダウンロード
dataset = load_dataset("allenai/MolmoWebMix", split="train")
print(f"データ件数: {len(dataset)}")

# サンプルを1件確認
sample = dataset[0]
print("キー一覧:", list(sample.keys()))

3万件の人間タスク軌跡のうち、自社が使うドメインに近いものを選んでファインチューニングするというアプローチが有効になりそうだ。

【要注意】現時点での限界と懸念点

正直にお伝えすると、MolmoWebはまだ発展途上のシステムだ。いくつかの点に注意が必要。

❌ 全てのサイトで動くわけではない
デモは「サポート対象サイト」に限定されている。一般的なサイトでの動作は保証されない。

⭕ まず対応サイトでの動作確認から始める
Ai2のデモ環境で動作が確認できているサイトを足がかりに、段階的に適用範囲を広げていくのが現実的だ。

❌ HTMLベースのエージェントとの直接比較は難しい
スクリーンショットのみのアプローチはシンプルだが、DOM操作ができないため、JavaScriptレンダリング後の動的要素への対応は課題になりうる。

⭕ 用途を絞って評価する
情報収集タスク(検索・フォーム入力・ページナビゲーション)に絞って評価するとポテンシャルが見えやすい。

❌ ベンチマーク結果の独立検証がまだ薄い
公式発表の数値はインパクトがあるが、2026年4月時点では独立した再現検証が限られている。これから精査されていく数字だ。

この先どうなるか

MolmoWebの登場でWebエージェントのオープンソース化が一気に加速する可能性がある。数十億ドルを投じて作られた閉じたシステムを、小規模チームがファインチューニングで超えられるとしたら、業界の勢力図は大きく変わる。

AIエージェントのセキュリティと安全運用については、AIエージェントのセキュリティ検証レポートも参考にしてほしい。

Ai2はMolmo 2の後継モデルの研究も継続しており、MolmoWebの精度向上は今後も続くとみられる。特に、現在の限界であるJavaScript動的サイトへの対応と、マルチタブ・マルチウィンドウ操作の改善が注目点だ。

参考・出典


あわせて読みたい:


この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事