Skip to content

Latest commit

 

History

History
35 lines (23 loc) · 2.26 KB

README.md

File metadata and controls

35 lines (23 loc) · 2.26 KB

muZero

Dépôt du code et de la documentation du projet muZero pour l'in-depth SDD 2024 en RL.

Objectifs du projet

Expliquer et illustrer les principes généraux de muZero [1].
Expérimenter l'implémentation de muZero afin de fournir un retour d'expérience sur les difficultés de compréhension, d'implémentation, de réglages et les différentes options envisagées pour les résoudre.
Démontrer le fonctionnement de muZero.

Critères de succès

Permettre à un auditoire de comprendre le fonctionnement général de muZero (modalité d'évaluation : binaire, oui ou non).
Répondre aux questions de l'auditoire pour clarifier ce qui demeurerait flou après une présentation (modalité d'évaluation : binaire, oui ou non).
Rendre l'auditoire autonome dans sa compréhension (modalité d'évaluation : quiz d'auto-contrôle des connaissances pour l'auditoire).
Elaborer et exprimer un regard critique sur les résultats obtenus, les problèmes rencontrés et les perspectives (modalité d'évaluation : échelle graduée par exemple de 0 à 4).

Planification des séances

Séance 1 : échauffement, définition des objectifs, découverte de muZero, planification du reste des séances.
Séance 2 : rédaction d'un pseudo-code générique pour un muZero tabulaire et un muZero "complet", définition du squelette d'une implémentation et distribution des tâches (MCTS, losses, environnements, version tabulaire, etc.).
Séance 3 : travail en petits groupes sur les différentes tâches d'implémentation.
Séance 4 : suite de la séance 3 et assemblage du code.
Séance 5 : préparation de la restitution puis restitution.

Références

[1] Schrittwieser, J., Antonoglou, I., Hubert, T., Simonyan, K., Sifre, L., Schmitt, S., Guez, A., Lockhart, E., Hassabis, D., Graepel, T. and Lillicrap, T., 2020. Mastering atari, go, chess and shogi by planning with a learned model. Nature, 588(7839), pp.604-609. [arXiv] [Nature]

Cool links

https://www.furidamu.org/blog/2020/12/22/muzero-intuition/
https://jyopari.github.io/MCTS.html
https://medium.com/applied-data-science/how-to-build-your-own-muzero-in-python-f77d5718061a