Contenu du cours
Voici la liste des sujets et concepts qui pourront faire l'objet de questions
dans l'examen intra.
Pour toute question concernant ces sujets, n'hésitez pas à poser une question
sur le forum de discussion du cours!
Concepts fondamentaux
- Qu'est-ce qu'un algorithme d'apprentissage ?
- Qu'est-ce que la généralisation ?
- Notions d'entrée, cible, exemple, ensemble d'entraînement et ensemble de test.
- Qu'est-ce qu'un modèle ?
- Apprentissage supervisé vs. non-supervisé.
- Classification vs. régression.
- Fonction de perte (erreur, coût).
- Qu'est-ce que le sous-apprentissage ? Qu'est-ce que le sur-apprentissage ?
- Qu'est-ce que la capacité d'un algorithme ou modèle ?
- Relation entre la capacité et l'erreur d'entraînement vs. de généralisation.
- Relation entre la quantitié de données d'entraînement et l'erreur d'entraînement vs. de généralisation.
- Qu'est-ce que la régularisation (telle la régularisation de la norme Euclidienne au carré) ?
- Qu'est-ce qu'un hyper-paramètre ?
- Qu'est-ce que la sélection de modèle ?
- Comment on utilise un ensemble de validation pour faire de la sélection de modèle.
- Qu'est-ce que la S-fold cross-validation.
- Qu'est-ce que la recherche sur grille.
- Qu'est-ce que la malédiction de la dimensionnalité ?
Formulation probabiliste
- Variables aléatoires continues: fonction de densité (jointe, marginale, conditionnelle), fonction de répartition.
- Variables aléatoires multidimensionnelles.
- Calcul et propriétés de l'espérance, de la variance et de la matrice de covariance.
- Définition et propriétés de la loi gaussienne, lien entre la forme de la fonction de densité et ses paramètres.
- Hypothèse i.i.d.
- Principe du maximum de vraisemblance.
- Principe du maximum a posteriori (loi a priori, loi a posteriori)
- Lien entre le maximum a posteriori et l'utilisation de régularisation.
- Entropie, information, loi d'entropie maximale vs. minimale, entropie conditionnelle, entropie différentielle.
- Divergence de Kullback-Leibler.
- Information mutuelle.
Régression linéaire
- Modèle de régression linéaire et lien entre ses paramètres et la forme du modèle.
- Utilité des fonctions de base, fonctions de base polynomiales et gaussiennes.
- Hypothèses probabilistes de la régression linéaire.
- Solution du maximum de vraisemblance en régression.
- Solution du maximum a posteriori en régression.
- Hypothèses probabilistes du maximum de vraisemblance en prédictions multiples.
- Principe général de la théorie de la décision.
- Liens entre la notion de capacité et les notions de biais et de variance.
- Lien entre l'hyper-paramètre de la régression et la capacité.
Classification linéaire
- Notions de régions de décision, surfaces de décision, fonction discriminante.
- Classification binaire vs. à multiples classes.
- Qu'est-ce qu'un problème linéairement séparable ?
- Théorème sur la séparabilité linéaire.
- Paramétrisation des modèles de classification linéaire et lien avec la forme de la surface de décision.
- Calcul de la distance avec la surface de décision.
- Pourquoi existe-t-il plusieurs algorithmes de classification linéaire ?
- Description de l'algorithme des moindres carrés.
- Principe derrière l'analyse discriminante linéaire et son lien avec les notions de variances intra-classe et inter-classe.
- Hypothèses probabilistes derrière l'approche probabiliste générative.
- Solution du maximum de vraisemblance et formulation sous la forme d'un classifieur linéaire.
- Règle de Bayes.
- Hypothèses probabilistes derrière l'approche probabiliste discriminante (régression logistique).
- Cross-entropie binaire.
- Algorithme de la descente de gradient.
- Comment convertir la classification à multiples classes en problèmes de classification binaire ?
- Lien entre les hyper-paramètres des algorithmes de classification et la capacité.
Formulation probabiliste (2)
- Prétraitement de données catégoriques, vecteur one-hot.
- Adaptation au cas de données manquantes.
- Normalisation de données réelles.
- Calcul d'intervalles de confiance.
Méthodes à noyau
- Motivation derrière la formualtion d'un algorithme sous une représentation duale.
- Notions de noyau et matrice de Gram.
- Formulation à noyau de la régression (entraînement et prédiction).
- Description de l'astuce du noyau et de son utilité.
- Définition d'un noyau valide et construction de noyaux valides.
- Noyaux polynomial et gaussien, lien entre leurs hyper-paramètres et la capacité du modèle à noyau.
Machine à vecteurs de support (SVM)
- Avantage du SVM par rapport à d'autres méthodes à noyau.
- Notion de marge et de distance signée avec la surface de décision.
- Principe de la classification à marge maximale.
- Formulation de l'entraînement d'un SVM par programmation quadratique.
- Notion de vecteurs de support et lien avec la représentation duale du SVM.
- Utilisation de variables de ressort pour le traitement du chevauchement de classes et programme quadratique adapté.
- Lien entre la hinge loss et les variables de ressort.
- Différence entre les pertes de différents algorithmes de classification.
- Lien entre les hyper-paramètres du SVM et la capacité.