ベンチマーク
25件の記事
SWE-bench 93.9%達成|Claude Mythosが変える開発AI
Claude Mythos PreviewがSWE-bench Verified...
Meta Muse Spark解剖|AIインデックス4位の技術を読む
Meta Superintelligence Labsが開発したMuse Spa...
攻撃AIと防御AIの最前線:エージェント同士が戦う時代へ
自律型AIエージェントが攻撃側・防御側の両方に使われ始めた。CVE-Benchで...
GPT-5.4 vs Claude|Computer Use選定ガイド
GPT-5.4とClaude Computer Useはどちらを選ぶべきか。OS...
GPT-5.4 Thinking|人間超え自律AI検証
GPT-5.4 ThinkingがOSWorldで人間超え75%を記録。デスクト...
GLM-5.1コーディング性能検証|Claude Opus 94.6%をHuawei半導体で達成した衝撃
Zhipu AIのGLM-5.1がClaude Opus 4.6のコーディング性...
GPT-5.4 Thinking完全解説|100万トークン対応フラッグシップ
GPT-5.4 Thinkingとは?100万トークン、ネイティブPC操作、思考...
GPT-5.4 mini/nano比較|サブエージェント最適モデル選定
OpenAIが2026年3月17日リリースのGPT-5.4 mini($0.75...
Gemini 3.1 Flash-Lite解説|APIコストと他モデルの使い分け
Googleが2026年3月3日に公開したGemini 3.1 Flash-Li...
【2026年最新】Claude SonnetとOpusの違い|用途別完全比較
Claude Sonnet 4.6とOpus 4.6を用途別に徹底比較。コーディ...