Contenu du cours

Voici la liste des sujets et concepts qui pourront faire l'objet de questions dans l'examen intra.

Pour toute question concernant ces sujets, n'hésitez pas à poser une question sur le forum de discussion du cours!

Concepts fondamentaux
  • Qu'est-ce qu'un algorithme d'apprentissage ?
  • Qu'est-ce que la généralisation ?
  • Notions d'entrée, cible, exemple, ensemble d'entraînement et ensemble de test.
  • Qu'est-ce qu'un modèle ?
  • Apprentissage supervisé vs. non-supervisé.
  • Classification vs. régression.
  • Fonction de perte (erreur, coût).
  • Qu'est-ce que le sous-apprentissage ? Qu'est-ce que le sur-apprentissage ?
  • Qu'est-ce que la capacité d'un algorithme ou modèle ?
  • Relation entre la capacité et l'erreur d'entraînement vs. de généralisation.
  • Relation entre la quantitié de données d'entraînement et l'erreur d'entraînement vs. de généralisation.
  • Qu'est-ce que la régularisation (telle la régularisation de la norme Euclidienne au carré) ?
  • Qu'est-ce qu'un hyper-paramètre ?
  • Qu'est-ce que la sélection de modèle ?
  • Comment on utilise un ensemble de validation pour faire de la sélection de modèle.
  • Qu'est-ce que la S-fold cross-validation.
  • Qu'est-ce que la recherche sur grille.
  • Qu'est-ce que la malédiction de la dimensionnalité ?

Formulation probabiliste
  • Variables aléatoires continues: fonction de densité (jointe, marginale, conditionnelle), fonction de répartition.
  • Variables aléatoires multidimensionnelles.
  • Calcul et propriétés de l'espérance, de la variance et de la matrice de covariance.
  • Définition et propriétés de la loi gaussienne, lien entre la forme de la fonction de densité et ses paramètres.
  • Hypothèse i.i.d.
  • Principe du maximum de vraisemblance.
  • Principe du maximum a posteriori (loi a priori, loi a posteriori)
  • Lien entre le maximum a posteriori et l'utilisation de régularisation.
  • Entropie, information, loi d'entropie maximale vs. minimale, entropie conditionnelle, entropie différentielle.
  • Divergence de Kullback-Leibler.
  • Information mutuelle.

Régression linéaire
  • Modèle de régression linéaire et lien entre ses paramètres et la forme du modèle.
  • Utilité des fonctions de base, fonctions de base polynomiales et gaussiennes.
  • Hypothèses probabilistes de la régression linéaire.
  • Solution du maximum de vraisemblance en régression.
  • Solution du maximum a posteriori en régression.
  • Hypothèses probabilistes du maximum de vraisemblance en prédictions multiples.
  • Principe général de la théorie de la décision.
  • Liens entre la notion de capacité et les notions de biais et de variance.
  • Lien entre l'hyper-paramètre de la régression et la capacité.

Classification linéaire
  • Notions de régions de décision, surfaces de décision, fonction discriminante.
  • Classification binaire vs. à multiples classes.
  • Qu'est-ce qu'un problème linéairement séparable ?
  • Théorème sur la séparabilité linéaire.
  • Paramétrisation des modèles de classification linéaire et lien avec la forme de la surface de décision.
  • Calcul de la distance avec la surface de décision.
  • Pourquoi existe-t-il plusieurs algorithmes de classification linéaire ?
  • Description de l'algorithme des moindres carrés.
  • Principe derrière l'analyse discriminante linéaire et son lien avec les notions de variances intra-classe et inter-classe.
  • Hypothèses probabilistes derrière l'approche probabiliste générative.
  • Solution du maximum de vraisemblance et formulation sous la forme d'un classifieur linéaire.
  • Règle de Bayes.
  • Hypothèses probabilistes derrière l'approche probabiliste discriminante (régression logistique).
  • Cross-entropie binaire.
  • Algorithme de la descente de gradient.
  • Comment convertir la classification à multiples classes en problèmes de classification binaire ?
  • Lien entre les hyper-paramètres des algorithmes de classification et la capacité.

Formulation probabiliste (2)
  • Prétraitement de données catégoriques, vecteur one-hot.
  • Adaptation au cas de données manquantes.
  • Normalisation de données réelles.
  • Calcul d'intervalles de confiance.

Méthodes à noyau
  • Motivation derrière la formualtion d'un algorithme sous une représentation duale.
  • Notions de noyau et matrice de Gram.
  • Formulation à noyau de la régression (entraînement et prédiction).
  • Description de l'astuce du noyau et de son utilité.
  • Définition d'un noyau valide et construction de noyaux valides.
  • Noyaux polynomial et gaussien, lien entre leurs hyper-paramètres et la capacité du modèle à noyau.

Machine à vecteurs de support (SVM)
  • Avantage du SVM par rapport à d'autres méthodes à noyau.
  • Notion de marge et de distance signée avec la surface de décision.
  • Principe de la classification à marge maximale.
  • Formulation de l'entraînement d'un SVM par programmation quadratique.
  • Notion de vecteurs de support et lien avec la représentation duale du SVM.
  • Utilisation de variables de ressort pour le traitement du chevauchement de classes et programme quadratique adapté.
  • Lien entre la hinge loss et les variables de ressort.
  • Différence entre les pertes de différents algorithmes de classification.
  • Lien entre les hyper-paramètres du SVM et la capacité.