機械学習

DPO(直接選好最適化)

読み方: ディーピーオー

DPO(直接選好最適化) とは

Direct Preference Optimizationの略。RLHFの報酬モデル学習ステップを省略し、人間の選好データから直接LLMを最適化する手法。報酬モデルの学習が不要なため実装が簡便でコストが低い。2023年に提案されて以降、LLaMA・Mistralなどオープンソースモデルのアラインメントに広く採用されている。
用語集一覧に戻る

無料診断

あなたに合ったAIツールを今すぐ見つけよう

1,200以上のAIツールから、課題・業界・予算で絞り込み。資料請求不要。

AIツール診断をはじめる