AI基礎

AIベンチマーク

読み方: エーアイベンチマーク

AIベンチマーク とは

AIモデルの性能を標準化された課題・データセットで評価する仕組み。MMLU(一般知識)・HumanEval(コード生成)・GSM8K(数学)・MT-Bench(対話品質)などが代表的。モデル選定の客観指標となるが、ベンチマーク最適化と実用性の乖離(Goodhartの法則)も指摘されている。
用語集一覧に戻る

無料診断

あなたに合ったAIツールを今すぐ見つけよう

1,200以上のAIツールから、課題・業界・予算で絞り込み。資料請求不要。

AIツール診断をはじめる