안녕하세요, PR12의 멤버 이준호입니다.
LLM(Large Language Model)의 답변이 사용자가 한 질문의 의도를 잘 따르도록 하기 위해서 다양한 instruction tuning 방법과 RLHF 방법이 활용됩니다. 특히 RLHF는 ChatGPT, Claude, Llama 2 등의 LLM에서 human preference를 supervision signal로 하여 학습된 reward model을 활용하여 놀라운 결과를 보여주고 있습니다. 그러나, RLHF를 수행하기 위해서는 1개 이상의 reward model과 policy model을 학습해야 하고 on-policy 샘플링을 통해 policy optimization을 수행해야 하기 때문에, 지도학습 기반의 instruction tuning 보다 더 복잡한 과정을 거쳐야 하고 계산비용이 현저히 많이 드는 단점이 있습니다.
오늘 453번째 Paper Review에서는 RLHF를 대체할 수 있는 방법으로 제시된 Direct Preference Optimization(DPO)을 다뤄 보았습니다. DPO는 reward modeling 과정을 생략하고 human preference dataset으로 LM policy를 직접 지도학습으로 최적화하는 방법으로, RLHF보다 더 간단하면서도 안정적인 학습을 가능하게 합니다. 또한 소규모 실험이지만, RLHF와 비슷하거나 더 나은 결과를 보여주었습니다. 앞으로가 기대되는 주목할만한 연구인 것 같습니다.
영상 재미있게 보시길 바랍니다~!
논문 링크: https://arxiv.org/abs/2305.18290
영상 링크: https://youtu.be/NLU2hIbIDbA