Informatique décisionnelle (INFO831_IDU)

Volume horaire

CM : 9h / TD : 9h / TP : 12h

Présentation

Ce cours présente les méthodes statistiques exploitées en analyse de données (analyse factorielle) ou en modélisation de la relation explicative d'une variable (régression) et positionne leur utilisation dans la pyramide de l’informatique décisionnelle moderne.

La première partie du cours est consacrée à l’analyse factorielle qui, par confrontation des espaces d’individus et de variables, enrichit l‘interprétation et permet d’exhiber la structure interne des données. La nature et le codage des données conduisent à deux variantes essentielles des méthodes factorielles, à savoir l’analyse en composantes principales (ACP) et l’analyse des correspondances multiples (ACM), combinées dans l’analyse factorielle multiple (AFM).

La seconde partie présente différents modèles de régression et les méthodes d’estimation de leurs paramètres, du modèle linéaire aux modèles plus complexes, de structure éventuellement mal connue, adaptés à différentes hypothèses sur la distribution des données.

Objectifs

- définir une modélisation adaptée à un jeu de données en se basant sur une analyse de données préliminaire

- estimer un modèle statistique linéaire et interpréter les résultats obtenus

- utiliser un modèle à des fins explicatives ou prédictives

Compétences acquises

A l'issue de ce cours, l'étudiant sera capable :

- de réaliser une analyse factorielle de données avec variables quantitatives et/ou qualitatives

- de proposer une éventuelle réduction de dimensions en assurant une perte minimale d'informations

- d'obtenir des facteurs non corrélés utilisables en modélisation

- de transformer des connaissances théoriques en une pratique de la modélisation de données réelles et de l'estimation de modèles

- d'utiliser efficacement des outils logiciels de statistiques (R packages)

- de tester la pertinence statistique du modèle de régression et d'évaluer la qualité de description et de prédiction

- de développer un sens critique en prenant en compte le risque de toute décision statistique

Pré-requis

MATH741 Probabilités Statistiques

DATA732 Analyse et visualisation de données

ISOC631 Logique et programmation

PROJ632 Projet Data Science

Plan du cours

  1. La suite décisionnelle et l'analyse de données
  2. Les méthodes d'analyse exploratoire des données multidimensionnelles
    1. ACP : Analyse en Composantes Principales (variables quantitatives)
    2. ACM : Analyse des Correspondances Multiples (variables qualitatives)
    3. AFM : Analyse Factorielle Multiple (groupes de variables quantitatives et/ou qualitatives)
  3. Les régressions
    1. Régression linéaire (simple, multiple)
    2. Régression polynomiale
    3. Régression quantile
    4. Régression logistique
    5. Modèle linéaire généralisé
    6. Régression non paramétrique
    7. Régression en grande dimension (ridge, lasso)

Diplômes intégrant ce cours

En bref

Langue d'enseignement
Français

Contact(s)

UFR, Écoles, Instituts

Lieu(x)

  • Annecy-le-Vieux (74)