機械学習

RLHF(人間フィードバックからの強化学習)

読み方: アールエルエイチエフ

RLHF(人間フィードバックからの強化学習) とは

Reinforcement Learning from Human Feedbackの略。人間の評価者が生成物の優劣を判断し、そのフィードバックを報酬信号として言語モデルを強化学習でチューニングする手法。ChatGPTの人間らしい応答品質を実現した重要技術。有害出力の抑制にも効果を発揮する。
用語集一覧に戻る