Ouyang+, "Training Language Models to Follow Instructions with Human Feedback" よみました
遅くなりましたが、次も読みました。InstructGPT. これでChatGPTにむけての部品が全部そろったってことですね。いよいよ。
技術的な部分、とくにRLHFについては中で引用されているNIPS2017の論文のほうが数段わかりやすかったです。のでそちらもおすすめ。
Deep Reinforcement Learning from Human Preferences