開発

推論コスト

読み方: すいろんコスト

推論コスト とは

LLMやAIモデルが入力を受けて出力を生成する際に必要なGPU計算資源・電力・APIコストの総称。入力トークン数×単価+出力トークン数×単価で計算されるのが一般的。モデルサイズが大きいほど推論コストが高く、量子化・蒸留・キャッシュ機構などで削減する技術が重要視されている。
用語集一覧に戻る

無料診断

あなたに合ったAIツールを今すぐ見つけよう

1,200以上のAIツールから、課題・業界・予算で絞り込み。資料請求不要。

AIツール診断をはじめる