Généralités sur les différentes méthodes d'analyses multidimensionnelles
- Limites des statistiques classiques
- Champs d'application des différentes méthodes d'analyses multidimensionnelles
- Introduction sur le data mining - Les objectifs
- Objectifs de description
- Objectifs de prédiction
- Structure des jeux de données
- Présentation de l'éventail des méthodes
- Analyse en composantes principales
- Analyse factorielle des correspondances simples et multiples
- Analyse canonique des corrélations
- Analyse factorielle discriminante
- Méthodes de classification : classification ascendante hiérarchique, k-means
- Principes généraux des différentes méthodes - Notions de :
- Distance,
- Inertie et variance
- Axes factoriels
Notion de corrélation
- Définition du coefficient de corrélation
- Interprétation de la valeur du coefficient de corrélation
- Les confusions : corrélation, causalité, pente…
- Les différents coefficients de corrélation
- Coefficient de Pearson
- Coefficient de Spearman
Mise en œuvre d'une analyse en composante principales (ACP)
- Structure du jeu de données et contexte d'application
- Objectifs détaillés de l'ACP
- Choix des axes de représentation (choix du nombre de composantes principales)
- Interprétation des sorties graphiques : cercle factoriel et graphique des individus
- Interprétation des axes factoriels
- Contribution des individus et des variables aux axes
- Qualité de représentation des individus et des variables sur les axes : les cosinus carrés
- Les différentes ACP :
- ACP normée et non normée
- ACP non paramétrique
- Positionnement d'une variable illustrative catégorielle
- Les confusions et erreurs à ne pas commettre
- Présentation rapide des Analyses des correspondances simple et multiple si souhaité
- Différences entre ACP et AFC
Mise en œuvre d'une analyse factorielle des correspondances (AFC)
- Structure du jeu de données : tableau de contingence, données individuelles (variables qualitatives)
- Contexte d'application et objectifs détaillés de l'AFC
- Différence entre ACP et AFC
- Méthodologie de l'AFC
- Distance du Chi²
- Profils lignes
- Profils colonnes
- Choix des axes de représentation (choix du nombre d'axes)
- Interprétation des sorties graphiques : graphique des modalités
- Contributions et cosinus carrés des modalités aux axes
- Les confusions et erreurs à ne pas commettre
Mise en œuvre d'une analyse des correspondances multiples (ACM ou AFCM)
- Structure du jeu de données
- Contexte d'application et objectifs détaillés de l'AFCM
- Différence entre AFC et AFCM
- Méthodologie de l'AFCM
- Choix des axes de représentation (choix du nombre d'axes)
- Correction de Benzecri : valeurs propres et taux d'inertie expliquée corrigés
- Interprétation des sorties graphiques :
- Graphique des modalités
- Graphique des variables
- Contributions et cosinus carrés des modalités aux axes
- Les confusions et erreurs à ne pas commettre
Mise en œuvre d'une classification par une classification ascendante hiérarchique (CAH)
- Structure du jeu de données
- Contexte d'application et objectifs détaillés de la CAH
- Lecture d'un dendrogramme
- Choix du nombre de classes
- Classification sur les individus
- Classification sur les variables
- Classification sur les modalités
- Choix de la distance selon le contexte : classification sur les individus, les variables ou les modalités
- Choix du linkage (saut, critère de « rapprochement » entre les classes) : méthode de Ward, lien simple, lien complet…
- Interprétation des sorties logiciel
Mise en œuvre d'une classification par une k-means
- Présentation des objectifs de la méthode des k-means
- Avantages et inconvénients de la CAH et des k-means
- Détermination des clusters
- Présentation des différentes versions de l'algorithme
- Utilisation de la k-means en complément de l'ACP
- Classification sur grand jeu de données
- Conseils de mise en œuvre
- Interprétation des sorties logiciel
Mise en œuvre d'une analyse factorielle discriminante (AFD)
- Structure du jeu de données et contexte d'application
- Objectifs détaillés de l'AFD
- Notions de classement et de discrimination
- Méthodologie de l'AFD
- Comparaison avec l'ACP
- Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
- Qualité de l'AFD (de la discrimination obtenue)
- Tests univariés et multivariés (lambda de Wilks)
- Graphique des individus
- Matrice de confusion (et éventuellement courbe ROC)
- Les confusions et erreurs à ne pas commettre