AI基礎

AIベンチマーク

読み方: エーアイベンチマーク

AIベンチマーク とは

AIモデルの性能を標準化された課題・データセットで評価する仕組み。MMLU(一般知識)・HumanEval(コード生成)・GSM8K(数学)・MT-Bench(対話品質)などが代表的。モデル選定の客観指標となるが、ベンチマーク最適化と実用性の乖離(Goodhartの法則)も指摘されている。
用語集一覧に戻る