AIエージェント入門

Qwen3.5-Omni APIガイド — 音声・映像処理を今日から始める

Qwen3.5-Omni APIガイド — 音声・映像処理を今日から始める

この記事の結論

2026年3月30日リリースのQwen3.5-OmniはネイティブOmniモーダルモデル。OpenAI互換DashScope APIで音声・映像処理を実装する手順とGemini Flash-Liteとの使い分けを解説。

「LLMにテキストだけ渡す時代は終わりつつある」と感じているが、音声や映像を扱うAPIはOpenAIとGoogleの寡占だと思っていた。Qwen3.5-Omniが2026年3月30日にリリースされるまでは、その認識はだいたい正しかった。

AlibabのQwenチームが開発したQwen3.5-Omniは、テキスト・音声・映像・画像を単一の推論パイプラインで処理するネイティブマルチモーダルモデルだ。256Kトークンのコンテキストウィンドウに10時間超の音声、あるいは400秒の720p映像をそのまま流し込める。OpenAI互換のAPIで使えるため、既存コードの書き換えは最小限で済む。

この記事では、Qwen3.5-Omniの技術的な特徴をまとめ、DashScope APIを使った音声・映像入力の実装例を動作環境付きで紹介する。Gemini Flash-LiteやGemma 4との使い分け判断の参考にもなるよう整理した。


まず5分で試せる: テキスト入出力のクイックスタート

最初は一番シンプルな使い方から。OpenAI SDKを使い、ベースURLとAPIキーを変えるだけでQwen3.5-Omniに接続できる。DashScope APIはOpenAI互換エンドポイントを提供しているため、移行コストがほとんどかからない。

# 動作環境: Python 3.11+, openai>=1.30.0
# インストール: pip install openai python-dotenv

import os
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv()

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    # 国際リージョン(Singapore)エンドポイント
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

response = client.chat.completions.create(
    model="qwen3.5-omni-plus",   # Plus: 最高精度 / Flash: 低レイテンシ / Light: 軽量
    messages=[
        {"role": "system", "content": "あなたは技術的な質問に正確に答えるアシスタントです。"},
        {"role": "user", "content": "マルチモーダルAIエージェントの設計で注意すべき点を3つ挙げてください。"}
    ]
)

print(response.choices[0].message.content)
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

DashScope APIキーはAlibaba Cloud Model Studioのダッシュボードで発行する。現在(2026年4月時点)、Qwen3.5-Omni-Realtimeモデルは一時的に無料で試せる状態になっている(ただしtool calling呼び出しは有料)。

Qwen3.5-Omniの技術的な特徴 — 3つのモデルバリアント

Qwen3.5-Omniはリリース時点でPlus・Flash・Lightの3バリアントが提供されている。

バリアント 特徴 推奨ユースケース
Qwen3.5-Omni-Plus 最高精度。215のベンチマークでSOTA達成。音声理解で Gemini 3.1 Proを上回る(MMAU: 82.2 vs 81.1) 高精度が必要な音声・映像解析、複雑なマルチモーダル推論
Qwen3.5-Omni-Flash 低レイテンシ重視。精度とコストのバランス リアルタイム会話、チャットボット、レスポンス速度が重要な用途
Qwen3.5-Omni-Light 軽量。低コスト運用向け 大量バッチ処理、シンプルな音声認識タスク

アーキテクチャ面での特徴は「Thinker-Talker」構造だ。Thinkerが内部で推論を実行し、Talkerがその出力を音声波形に変換する。推論プロセスと音声生成を分離することで、テキスト・音声・映像の同時処理が現実的な速度で動く。

音声入力→テキスト出力: 実装ガイド

Qwen3.5-OmniはBase64エンコードした音声ファイルを直接リクエストに含めることができる。MP3・WAV・FLACなど主要フォーマットに対応している。

# 動作環境: Python 3.11+, openai>=1.30.0
# 音声ファイル(MP3/WAV)をテキストに変換する例

import os
import base64
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

# 音声ファイルをBase64に変換
audio_file_path = "input_audio.mp3"  # 変換したいファイルパス
with open(audio_file_path, "rb") as f:
    audio_data = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="qwen3.5-omni-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_data,
                        "format": "mp3"   # または "wav", "flac"
                    }
                },
                {
                    "type": "text",
                    "text": "この音声の内容を日本語で要約してください。"
                }
            ]
        }
    ]
)

print("音声内容の要約:")
print(response.choices[0].message.content)
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

音声認識の精度については公開ベンチマークが参考になる。seed-hard(難易度の高い音声認識テストセット)でのWord Error Rate(WER)は、Qwen3.5-Omni-Plusが6.24で、GPT-Audioの8.19を下回っている(最終確認日: 2026-04-14)。日本語音声の認識精度については独自の検証が推奨されるが、113言語・方言に対応していることは公式に確認されている。

映像入力→テキスト出力: 映像解析の実装例

映像入力もBase64エンコードでリクエストに含める。約400秒(約7分)の720p映像を256Kトークンのコンテキスト内に収められる。

# 動作環境: Python 3.11+, openai>=1.30.0
# 映像ファイル(MP4)を解析してバグを特定する例(Audio-Visual Vibe Coding活用)

import os
import base64
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

# MP4ファイルをBase64エンコード(ファイルサイズに注意: 25MB以下推奨)
video_file_path = "bug_screen_recording.mp4"
with open(video_file_path, "rb") as f:
    video_data = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="qwen3.5-omni-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "video",
                    "video": {
                        "data": video_data,
                        "format": "mp4"
                    }
                },
                {
                    "type": "text",
                    "text": "この画面録画で発生しているUIのバグを特定し、修正のためのコードを提案してください。"
                }
            ]
        }
    ]
)

print("バグ解析結果:")
print(response.choices[0].message.content)
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

Qwen3.5-Omniの公式発表では「Audio-Visual Vibe Coding」という機能が紹介されている。映像を見ながら音声で「このUIのここを直して」と指示し、モデルが直接コードを生成するという使い方だ。これはモデルが「訓練なしで」映像解析とコード生成を組み合わせることができると確認されている(The-Decoder、2026-04-14参照)。

Gemini Flash-Lite / Gemma 4との使い分け判断

Qwen3.5-Omniが登場したことで、マルチモーダル処理のAPI選択肢が増えた。使い分けの判断軸をまとめる。

判断軸 Qwen3.5-Omni-Plus Gemini Flash-Lite Gemma 4(ローカル)
音声精度 高(MMAU 82.2、WER 6.24) 中(MMAU 未公開) 低(音声非対応)
映像入力 対応(400秒/720p) 対応(Google Cloud連携) 画像のみ
コスト 中(Flashで低コスト化可) 低(Google最安クラス) ゼロ(GPU必要)
データ主権 Alibaba Cloudに依存 Google Cloudに依存 ローカル完結可能
API互換性 OpenAI互換(移行容易) Gemini SDK必要 Ollama/llama.cpp

「音声処理の精度が最優先でクラウドが許容できる」ならQwen3.5-Omni-Plus。「コスト最小化が最優先でマルチモーダル機能が必要」ならGemini Flash-Lite。「データをローカルから出したくない・音声は不要」ならGemma 4のローカル実行が最善の選択だ。

【要注意】実装でよくある落とし穴

❌ 大容量映像をそのままリクエストに含める
⭕ 25MB超のファイルはAPI側でエラーになる可能性が高い。映像は圧縮またはURLパスでの参照(Alibaba Cloud OSS経由)を使うこと

❌ Realtimeモデルで通常の/v1/chat/completionsエンドポイントを使う
⭕ Qwen3.5-Omni-Realtimeは専用のリアルタイムAPIエンドポイントが別途用意されている。通常のエンドポイントではtool callingに別途料金が発生するため、ユースケースに応じて使い分けること

❌ 音声出力のmodality設定を省略する
⭕ テキスト入力→音声出力の場合、modalities=["audio", "text"]を明示的に指定する必要がある。省略するとテキスト応答のみが返る

❌ DASHSCOPE_API_KEYをコードにハードコードする
⭕ 必ず環境変数で管理する。python-dotenv.envファイルに DASHSCOPE_API_KEY=your_key と記載し、load_dotenv()で読み込む

今後の展望 — まだ明らかでない点も含めて

Qwen3.5-Omniはネイティブマルチモーダルの技術水準を引き上げた。音声理解のベンチマークでGemini 3.1 Proを超えたことは確認されているが、日本語音声・映像での実際の精度は環境依存の部分が大きく、独自検証が必要だ。

Alibaba Cloudへのデータ依存リスクは、中国企業のクラウドを使うことに対する規制・コンプライアンス上の懸念がある組織では無視できない。GitHubでモデルウェイトが公開されているため、ローカル実行(vLLM、llama.cpp)も選択肢に入るが、大規模モデルのため現実的なハードウェア要件が高い。この点はまだ筆者も判断がつかない部分がある。

エコシステムとしての成熟度はOpenAI・Google比でまだ低い。サードパーティの統合ライブラリやドキュメントの充実に時間が必要で、トラブルシューティング情報も相対的に少ない。実験的な用途では今すぐ試す価値があるが、ミッションクリティカルな本番環境への導入は、公式ドキュメントの整備とコミュニティの成熟を待つのが現実的かもしれない。

参考・出典


あわせて読みたい:


マルチモーダルAIエージェントの開発・導入についてご相談がある方は、株式会社Uravation お問い合わせフォームからお気軽にどうぞ。

この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事