Bag of ML Words

ML = Machine Learning, Music Love, and Miscellaneous things in daily Livings

Ouyang+, "Training Language Models to Follow Instructions with Human Feedback" よみました

遅くなりましたが、次も読みました。InstructGPT. これでChatGPTにむけての部品が全部そろったってことですね。いよいよ。

Ouyang+, "Training Language Models to Follow Instructions with Human Feedback", arxiv 2022 · Issue #12 · k-ishiguro/Papers-metome · GitHub

 

技術的な部分、とくにRLHFについては中で引用されているNIPS2017の論文のほうが数段わかりやすかったです。のでそちらもおすすめ。

 

Deep Reinforcement Learning from Human Preferences