開発

推論コスト

読み方: すいろんコスト

推論コスト とは

LLMやAIモデルが入力を受けて出力を生成する際に必要なGPU計算資源・電力・APIコストの総称。入力トークン数×単価+出力トークン数×単価で計算されるのが一般的。モデルサイズが大きいほど推論コストが高く、量子化・蒸留・キャッシュ機構などで削減する技術が重要視されている。
用語集一覧に戻る