ベンチマーク

25件の記事

すべて 2 3 56 7 AIエージェント入門 AIエージェント開発 AIツール比較コラムニュースベンチマーク導入事例職種別AI活用

SWE-bench 93.9%達成｜Claude Mythosが変える開発AI

ベンチマーク

SWE-bench 93.9%達成｜Claude Mythosが変える開発AI

Claude Mythos PreviewがSWE-bench Verified...

12分で読める 2026.04.09

Meta Muse Spark解剖｜AIインデックス4位の技術を読む

ベンチマーク

Meta Muse Spark解剖｜AIインデックス4位の技術を読む

Meta Superintelligence Labsが開発したMuse Spa...

6分で読める 2026.04.09

攻撃AIと防御AIの最前線：エージェント同士が戦う時代へ

ベンチマーク

攻撃AIと防御AIの最前線：エージェント同士が戦う時代へ

自律型AIエージェントが攻撃側・防御側の両方に使われ始めた。CVE-Benchで...

10分で読める 2026.04.08

GPT-5.4 vs Claude｜Computer Use選定ガイド

ベンチマーク

GPT-5.4 vs Claude｜Computer Use選定ガイド

GPT-5.4とClaude Computer Useはどちらを選ぶべきか。OS...

14分で読める 2026.04.07

ベンチマーク

GPT-5.4 Thinking｜人間超え自律AI検証

GPT-5.4 ThinkingがOSWorldで人間超え75%を記録。デスクト...

3分で読める 2026.04.07

GLM-5.1コーディング性能検証｜Claude Opus 94.6%をHuawei半導体で達成した衝撃

ベンチマーク

GLM-5.1コーディング性能検証｜Claude Opus 94.6%をHuawei半導体で達成した衝撃

Zhipu AIのGLM-5.1がClaude Opus 4.6のコーディング性...

5分で読める 2026.04.05

GPT-5.4 Thinking完全解説｜100万トークン対応フラッグシップ

ベンチマーク

GPT-5.4 Thinking完全解説｜100万トークン対応フラッグシップ

GPT-5.4 Thinkingとは？100万トークン、ネイティブPC操作、思考...

15分で読める 2026.03.23

GPT-5.4 mini/nano比較｜サブエージェント最適モデル選定

ベンチマーク

GPT-5.4 mini/nano比較｜サブエージェント最適モデル選定

OpenAIが2026年3月17日リリースのGPT-5.4 mini（$0.75...

9分で読める 2026.03.22

Gemini 3.1 Flash-Lite解説｜APIコストと他モデルの使い分け

ベンチマーク

Gemini 3.1 Flash-Lite解説｜APIコストと他モデルの使い分け

Googleが2026年3月3日に公開したGemini 3.1 Flash-Li...

9分で読める 2026.03.21

【2026年最新】Claude SonnetとOpusの違い｜用途別完全比較

ベンチマーク

【2026年最新】Claude SonnetとOpusの違い｜用途別完全比較

Claude Sonnet 4.6とOpus 4.6を用途別に徹底比較。コーディ...

16分で読める 2026.03.14