機械学習

RLHF（人間フィードバックからの強化学習）

読み方: アールエルエイチエフ

RLHF（人間フィードバックからの強化学習）とは

Reinforcement Learning from Human Feedbackの略。人間の評価者が生成物の優劣を判断し、そのフィードバックを報酬信号として言語モデルを強化学習でチューニングする手法。ChatGPTの人間らしい応答品質を実現した重要技術。有害出力の抑制にも効果を発揮する。

グラスプ

Glasp Chrome Extensionは、ウェブページ上の重要な情報をハイライトし、整理・共有するためのツールです...

Quizlet AI

Quizletは、インタラクティブな単語カード、模擬テスト、学習アクティビティを提供し、学習者が様々な科目を習得するのを...

Scale AI

Scale AIは、AIモデルのトレーニングと評価に必要な高品質なデータを提供します。アノテーション、データ収集、モデル...