機械学習

DPO(直接選好最適化)

読み方: ディーピーオー

DPO(直接選好最適化) とは

Direct Preference Optimizationの略。RLHFの報酬モデル学習ステップを省略し、人間の選好データから直接LLMを最適化する手法。報酬モデルの学習が不要なため実装が簡便でコストが低い。2023年に提案されて以降、LLaMA・Mistralなどオープンソースモデルのアラインメントに広く採用されている。
用語集一覧に戻る