Ce projet nécessite d'avoir assimilé l'ensemble des notions des trois premiers modules du cours de science des données biologiques 3. Il correspond au dépôt GitHub https://github.com/BioDataScience-Course/C03Ia_cardiovascular.
Ce projet est court, individuel et cadré. Il vise à compléter votre apprentissage dans la réalisation, l'interprétation et l'évaluation des performances de classifieurs machine. Dans ce projet, vous devez :
-
Appréhender un jeu de données et y effectuer des transformations en vue de classification supervisée (feature engineering)
-
Modifier les proportions des classes dans un set d'apprentissage pour optimiser un classifieur, tout en prenant soin de calculer des métriques non biaisées grâce à la correction des probabilités a priori
-
Entraîner et optimiser quatre classifieurs différents (forêt aléatoire et machine à vecteurs supports) entre les deux documents à compléter
-
Étudier les performances de classifieurs binaires hors choix du seuil de détection grâce aux courbes ROC
-
Comparer des classifieurs et choisir le meilleur
Complétez les zones manquantes dans le fichier cardio_proportions.qmd
. Ensuite, complétez le fichier cardio_roc.qmd
.
Les données employées (data/cardio.rds
) sont un sous-ensemble de 3000 items issus d'un jeu de données nommé cardio_train.csv
qui reprend 70.000 observations. Les données originales complètes proviennent du site Kaggle sous le nom Cardiovascular Disease dataset. Dans cet exercice, la taille du jeu de données a été réduite pour diminuer le temps de calcul et vous permettre d'expérimenter différentes options dans un délais raisonnable dans votre machine virtuelle Saturn Cloud.
Des métadonnées sont mises à disposition dans la page Kaggle (prenez toujours bien connaissance des informations disponibles avant de commencer à analyser un jeu de données).