PR-464: OpenChat: Advancing Open-Source Language Models with Mixed-Quality Data

Name: PR-464: OpenChat: Advancing Open-Source Language Models with Mixed-Quality Data
Uploaded: Dec 3, 2023
Duration: 1813 s

JoonHo LEE1.15K subscribers

456 views

Dec 3, 2023

30:13

안녕하세요, PR12의 멤버 이준호입니다. 이번 464번째 Paper Review에서는 OpenChat 모델 학습에 사용된 Class-Conditioned RLFT, 줄여서 C-RLFT를 다뤄 보았습니다. 저자들은 LLM(Large Language Model)이 사용자 의도를 잘 파악하여 응답하는 능력을 갖도록 하기 위해서 C-RLFT라는 방법을 사용합니다. C-RLFT는 이름에 RL(강화학습)이 들어가긴 하지만, 제가 지난 453번째 PR에서 다뤘던 DPO(Direct Preference Optimization)처럼 강화학습의 Policy Optimization에서 유도된 지도학습 Objective로 모델을 학습시키는 방법입니다. 쉽게 구할 수 있지만 품질이 제각각인 단순 대화 데이터만으로, 게다가 Preference Dataset도 없이 LLM을 강화학습과 유사하게 미세튜닝(Fine-tuning) 하는 방법을 제시하고 결과적으로 Reasoning 능력도 끌어올리는 흥미로운 실험 결과를 보여주고 있습니다. 영상 재미있게 보시길 바랍니다~! 논문 링크: https://arxiv.org/abs/2309.11235 영상 링크: https://youtu.be/n0SUIJWO2ek

Download

0 formats

No download links available.