Dépôt du code et de la documentation du projet muZero pour l'in-depth SDD 2024 en RL.
Expliquer et illustrer les principes généraux de muZero [1].
Expérimenter l'implémentation de muZero afin de fournir un retour d'expérience sur les difficultés de compréhension, d'implémentation, de réglages et les différentes options envisagées pour les résoudre.
Démontrer le fonctionnement de muZero.
Permettre à un auditoire de comprendre le fonctionnement général de muZero (modalité d'évaluation : binaire, oui ou non).
Répondre aux questions de l'auditoire pour clarifier ce qui demeurerait flou après une présentation (modalité d'évaluation : binaire, oui ou non).
Rendre l'auditoire autonome dans sa compréhension (modalité d'évaluation : quiz d'auto-contrôle des connaissances pour l'auditoire).
Elaborer et exprimer un regard critique sur les résultats obtenus, les problèmes rencontrés et les perspectives (modalité d'évaluation : échelle graduée par exemple de 0 à 4).
Séance 1 : échauffement, définition des objectifs, découverte de muZero, planification du reste des séances.
Séance 2 : rédaction d'un pseudo-code générique pour un muZero tabulaire et un muZero "complet", définition du squelette d'une implémentation et distribution des tâches (MCTS, losses, environnements, version tabulaire, etc.).
Séance 3 : travail en petits groupes sur les différentes tâches d'implémentation.
Séance 4 : suite de la séance 3 et assemblage du code.
Séance 5 : préparation de la restitution puis restitution.
[1] Schrittwieser, J., Antonoglou, I., Hubert, T., Simonyan, K., Sifre, L., Schmitt, S., Guez, A., Lockhart, E., Hassabis, D., Graepel, T. and Lillicrap, T., 2020. Mastering atari, go, chess and shogi by planning with a learned model. Nature, 588(7839), pp.604-609. [arXiv] [Nature]
https://www.furidamu.org/blog/2020/12/22/muzero-intuition/
https://jyopari.github.io/MCTS.html
https://medium.com/applied-data-science/how-to-build-your-own-muzero-in-python-f77d5718061a