遅くなりましたが、次も読みました。InstructGPT. これでChatGPTにむけての部品が全部そろったってことですね。いよいよ。
技術的な部分、とくにRLHFについては中で引用されているNIPS2017の論文のほうが数段わかりやすかったです。のでそちらもおすすめ。
Deep Reinforcement Learning from Human Preferences
遅くなりましたが、次も読みました。InstructGPT. これでChatGPTにむけての部品が全部そろったってことですね。いよいよ。
技術的な部分、とくにRLHFについては中で引用されているNIPS2017の論文のほうが数段わかりやすかったです。のでそちらもおすすめ。
Deep Reinforcement Learning from Human Preferences