Lec 60 Reinforcement Learning for Aligning Large Language Models

Name: Lec 60 Reinforcement Learning for Aligning Large Language Models
Uploaded: Feb 23, 2026
Duration: 1579 s
Description: RLHF, PPO, DPO, preference learning