ベンチマーク

25件の記事

SWE-bench 93.9%達成|Claude Mythosが変える開発AI ベンチマーク

SWE-bench 93.9%達成|Claude Mythosが変える開発AI

Claude Mythos PreviewがSWE-bench Verified...

12分で読める
Meta Muse Spark解剖|AIインデックス4位の技術を読む ベンチマーク

Meta Muse Spark解剖|AIインデックス4位の技術を読む

Meta Superintelligence Labsが開発したMuse Spa...

6分で読める
攻撃AIと防御AIの最前線:エージェント同士が戦う時代へ ベンチマーク

攻撃AIと防御AIの最前線:エージェント同士が戦う時代へ

自律型AIエージェントが攻撃側・防御側の両方に使われ始めた。CVE-Benchで...

10分で読める
GPT-5.4 vs Claude|Computer Use選定ガイド ベンチマーク

GPT-5.4 vs Claude|Computer Use選定ガイド

GPT-5.4とClaude Computer Useはどちらを選ぶべきか。OS...

14分で読める
ベンチマーク

GPT-5.4 Thinking|人間超え自律AI検証

GPT-5.4 ThinkingがOSWorldで人間超え75%を記録。デスクト...

3分で読める
GLM-5.1コーディング性能検証|Claude Opus 94.6%をHuawei半導体で達成した衝撃 ベンチマーク

GLM-5.1コーディング性能検証|Claude Opus 94.6%をHuawei半導体で達成した衝撃

Zhipu AIのGLM-5.1がClaude Opus 4.6のコーディング性...

5分で読める
GPT-5.4 Thinking完全解説|100万トークン対応フラッグシップ ベンチマーク

GPT-5.4 Thinking完全解説|100万トークン対応フラッグシップ

GPT-5.4 Thinkingとは?100万トークン、ネイティブPC操作、思考...

15分で読める
GPT-5.4 mini/nano比較|サブエージェント最適モデル選定 ベンチマーク

GPT-5.4 mini/nano比較|サブエージェント最適モデル選定

OpenAIが2026年3月17日リリースのGPT-5.4 mini($0.75...

9分で読める
Gemini 3.1 Flash-Lite解説|APIコストと他モデルの使い分け ベンチマーク

Gemini 3.1 Flash-Lite解説|APIコストと他モデルの使い分け

Googleが2026年3月3日に公開したGemini 3.1 Flash-Li...

9分で読める
【2026年最新】Claude SonnetとOpusの違い|用途別完全比較 ベンチマーク

【2026年最新】Claude SonnetとOpusの違い|用途別完全比較

Claude Sonnet 4.6とOpus 4.6を用途別に徹底比較。コーディ...

16分で読める