機械学習DPO(直接選好最適化)読み方: ディーピーオーDPO(直接選好最適化) とはDirect Preference Optimizationの略。RLHFの報酬モデル学習ステップを省略し、人間の選好データから直接LLMを最適化する手法。報酬モデルの学習が不要なため実装が簡便でコストが低い。2023年に提案されて以降、LLaMA・Mistralなどオープンソースモデルのアラインメントに広く採用されている。関連用語RLHF(人間フィードバックからの強化学習)機械学習強化学習機械学習ファインチューニング自然言語処理Constitutional AI(憲法AI)AI基礎DPO(直接選好最適化)に関連するAIツールHireVueAIを活用した動画面接・採用選考プラットフォーム。候補者の動画面接をAIが分析し、スキル・適性・文化的フィットを評価。大...HERP採用管理に特化した日本製ATSにAI機能を統合したサービス。書類選考の自動化・候補者スコアリング・採用活動の進捗管理を一...PymetricsゲームベースのAI採用アセスメントプラットフォーム(現Harver傘下)。神経科学に基づくゲームで候補者の認知・行動特性...Eightfold AIAIタレントインテリジェンスプラットフォーム。10億以上のプロファイルを学習したAIが採用・社内異動・リテンション・スキ...機械学習の他の用語機械学習ディープラーニング(深層学習)ニューラルネットワーク教師あり学習教師なし学習強化学習用語集一覧に戻る