LA FORMATION EN QUELQUES MOTS
Cette formation s'adresse à des personnes souhaitant mettre en œuvre des modèles prédictifs.
La particularité de cette formation réside dans le fait qu'elle va mixer deux approches :
- L'approche statistique classique basée sur les méthodes de régression type régression via les modèles linéaires généraux et généralisés.
- L'approche Machine Learning basée sur les méthodes d'apprentissage type knn, Svm, Arbres de décisions, …
L'intérêt de cette double approche est de sensibiliser les apprenants aux problématiques liées aux surajustement ou sous ajustements inhérents à ces méthodes.
Il permet aussi d'effectuer parfois pour les apprenants une première approche dans le monde du machine Learning, une des composantes utilisées en IA.
La finalité des modèles prédictifs sera appliquée sur la prédiction de variables quantitatives mais aussi de variables qualitatives. Globalement, l'accent sera plutôt mis sur la prédiction de variables quantitatives.
L'idée est de passer en revue un certain nombre de méthodes permettant aux apprenants d'aller ensuite plus loin dans leur modélisation.
Deux compétences distinctes seront abordées lors de cette formation :
- Comment fait-on pour prédire ?
Un passage en revue de différentes méthodes de prédictions sera réalisé 'régression, régression logistique, régression de Poisson, knn, …)
- Comment s'assurer que l'on prédit bien ?
La mise en place d'une stratégie permettant de valider les prédictions effectués (que l'on prédise des variables quantitatives ou qualitatives).
Thèmes principaux
- Contexte et objectifs des différentes méthodes
- Qualité d'ajustement et qualité d'estimation des coefficients du modèle (qualité de prédictions)
- Sous et sur ajustement
- Régression linéaire
- Régression de Poisson
- Régression Zip
- Régression logistique
- Problématique des multi colinéarités
- Conditions d'utilisation des différentes méthodes
- Prédictions via les approches de machine Learning (Knn, Svm, Arbres de décisions, …)
- …
Jeux de données
Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Cet élément est un facteur de réussite pour la formation. Elle permet aux apprenants de :
- Se "reconnaitre" dans les thèmes abordés,
- Mieux percevoir l'intérêt des notions étudiées
- S'approprier le contenu de la formation
Il sera donc pertinent que les apprenants puissent réfléchir en amont de la formation à des problématiques, jeux de données ou documents susceptibles d'être utilisés en support lors de la formation.
Outil logiciel
Cette formation n'est pas dédiée à la pratique d'un logiciel particulier. Les exercices et les illustrations se feront autour de R.
Jamovi ou Jasp, produits libres fréquemment utilisés au sein de la communauté scientifique seront également sollicités pour les personnes peu à l'aise avec R.
Le logiciel retenu sera choisi en accord avec celui utilisé par le plus grand nombre des stagiaires.
PROGRAMME
Rappels sur les outils statistiques de base
- Grandeurs de position
- Grandeurs de dispersion
- Grandeurs de corrélation
- Intervalles de confiance
- Tests d'hypothèses (H0, p value)
- …
Modélisation de type régression linéaire simple
- Principes et concepts mathématiques inhérents à la régression linéaire simple
- Tests d'hypothèse de significativité du modèle
- Utilisation du modèle
- Prédiction de valeurs individuelles
- Intervalles de confiance des prédictions
- Traitement graphique des résultats
- Principes et concepts mathématiques inhérents à la régression linéaire multiple
- Inférence du modèle, inférence des variables (statistique de Fisher)
- Analyse des résidus
- Calculs des résidus
- Sens physique et statistique
- Homogénéité
- Distribution, Normalité
- Valeurs suspectes
- Analyses graphiques
- Valeurs suspectes et points influents
- Résidus : résidus studentisés
- Effet leviers
- Distance de Cook
Validation d'un modèle
- Qualité du modèle
- Qualité d'ajustement, coefficient de détermination R², R² ajusté, R² prev
- Qualité de prédiction, erreur d'estimation
- Utilisation du modèle
- Prédiction (prévision) de valeurs individuelles
- Intervalles de confiance des prédictions (prévisions)
- Illustration graphique des résultats
- Appliquer la validation croisée à un modèle de régression croisée
- Méthode du leave one out
- Méthode du k fold
- Méthode de la séparation entre data d'entrainement et data de test
Le modèle de régression multiple
- De la régression simple à la régression multiple
- Significativité des coefficients
- Hiérarchie des coefficients
- Problèmes liés à la multi-colinéarité
- Mesures des colinéarités
- Coefficient de corrélation
- Vifs
Analyse des problèmes de multi colinéarités à travers la sélection des variables
- Détection de la multi colinéarité
- Effets nocifs de la colinéarité entre variables explicatives
- Outils de détection : corrélation, VIF, cohérence des signes des coefficients
- Traitement de la colinéarité
- Les solutions proposées
- Expérimentations structurée (type matrices plans d'expériences)
- Sélection de variables
Régression de Poisson & Régression Zip
- Le cadre des modèles linéaires Généralisés
- Différences entre modèles linéaires généraux et généralisés
- Identification d'une variable réponse Y à expliquer comme mesure de comptage
- Estimations des effets
- Lire et comprendre les coefficients
- Choix des variables
- Choix du modèle
- Diagnostic
- Problème de la surdispersion et des zéros
- ZIP, Zero Inflated Poisson
- Variable de réponse comme mesure de comptage avec présence de zéro importante
- Modélisation différenciée : Y=0 et Y> 0
- Lire et comprendre les coefficients
- Choix des variables
- Choix du modèle
- Diagnostic
- Régression sur Y en proportion
Approches prédictives par les méthodes type Machine Learning
- Démarche des algorithmes de classifications :
- La méthode des knn
- Applications à la prédiction d'une variable quantitative
Modélisation de variables qualitatives par la régression logistique
- Variable explicative et variable expliquée (continue / binaire)
- Différences entre la régression linéaire classique et la régression logistique
- Variables explicatives qualitatives, variables explicatives quantitatives
- Objectifs de la régression logistique
- Définition du modèle Logit (courbe sigmoïde)
- Conditions d'utilisation à respecter
- Estimation et interprétation des coefficients du modèle
- Test de significativité du modèle (validation du modèle)
- Tests d'apport d'une variable (test de Wald, tests sur les rapports de vraisemblance)
- Interprétation du Khi² de Wald
- Odds-ratios
- Parallèle odds ratios et risques relatifs
- Mise en œuvre et analyse des résultats d'un modèle de régression logistique multiple
- Estimation et interprétation des coefficients du modèle multiple
Les approches Machine Learning pour les variables qualitatives
- La méthode knn
- Principe de la méthode des plus proches voisins
- Algorithme de calcul
- Distances entre individus
- Choix des proximités
- Définition du paramètre k
- Ouverture sur les Svm
- Démarche des svm
- Notions de marge
- Séparation linéaire
- Séparation non linéaire
- Fonction noyau
- Autres approches…