Après avoir vu les algorithmes de Monte-Carlo (MC) et TD(0)/SARSA (ainsi que n-step TD), on s'attaque maintenant au fameux Q-learning ! Il est très différent de MC et TD, puisqu'il s'agit d'un algorithme off-policy. On voit ce que ça veut dire dans la vidéo, ainsi que les origines de cette différence.
0:00 : Ce qui a été vu
1:06 : On-policy / off-policy
3:16 : Lien partie I et II
5:02 : Q-learning
10:06 : Conclusion
Rejoindre la communauté Machine Learning FR : https://discord.gg/97j8ymj2kA
Me suivre :
Github : https://github.com/Procuste34
Twitter : https://twitter.com/AlexandreTL2