機械学習

RLHF(人間フィードバックからの強化学習)

読み方: アールエルエイチエフ

RLHF(人間フィードバックからの強化学習) とは

Reinforcement Learning from Human Feedbackの略。人間の評価者が生成物の優劣を判断し、そのフィードバックを報酬信号として言語モデルを強化学習でチューニングする手法。ChatGPTの人間らしい応答品質を実現した重要技術。有害出力の抑制にも効果を発揮する。
用語集一覧に戻る

無料診断

あなたに合ったAIツールを今すぐ見つけよう

1,200以上のAIツールから、課題・業界・予算で絞り込み。資料請求不要。

AIツール診断をはじめる