Skip to content

SuReLI/muZero

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

67 Commits
 
 
 
 
 
 
 
 

Repository files navigation

muZero

Dépôt du code et de la documentation du projet muZero pour l'in-depth SDD 2024 en RL.

Objectifs du projet

Expliquer et illustrer les principes généraux de muZero [1].
Expérimenter l'implémentation de muZero afin de fournir un retour d'expérience sur les difficultés de compréhension, d'implémentation, de réglages et les différentes options envisagées pour les résoudre.
Démontrer le fonctionnement de muZero.

Critères de succès

Permettre à un auditoire de comprendre le fonctionnement général de muZero (modalité d'évaluation : binaire, oui ou non).
Répondre aux questions de l'auditoire pour clarifier ce qui demeurerait flou après une présentation (modalité d'évaluation : binaire, oui ou non).
Rendre l'auditoire autonome dans sa compréhension (modalité d'évaluation : quiz d'auto-contrôle des connaissances pour l'auditoire).
Elaborer et exprimer un regard critique sur les résultats obtenus, les problèmes rencontrés et les perspectives (modalité d'évaluation : échelle graduée par exemple de 0 à 4).

Planification des séances

Séance 1 : échauffement, définition des objectifs, découverte de muZero, planification du reste des séances.
Séance 2 : rédaction d'un pseudo-code générique pour un muZero tabulaire et un muZero "complet", définition du squelette d'une implémentation et distribution des tâches (MCTS, losses, environnements, version tabulaire, etc.).
Séance 3 : travail en petits groupes sur les différentes tâches d'implémentation.
Séance 4 : suite de la séance 3 et assemblage du code.
Séance 5 : préparation de la restitution puis restitution.

Références

[1] Schrittwieser, J., Antonoglou, I., Hubert, T., Simonyan, K., Sifre, L., Schmitt, S., Guez, A., Lockhart, E., Hassabis, D., Graepel, T. and Lillicrap, T., 2020. Mastering atari, go, chess and shogi by planning with a learned model. Nature, 588(7839), pp.604-609. [arXiv] [Nature]

Cool links

https://www.furidamu.org/blog/2020/12/22/muzero-intuition/
https://jyopari.github.io/MCTS.html
https://medium.com/applied-data-science/how-to-build-your-own-muzero-in-python-f77d5718061a

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages