Projet Data Science (PROJ932_IDU)

Volume horaire

TP : 40h

Présentation

Les précédents projets (PROJ 631, 831, 931) visaient un développement et une exploitation sur un ordinateur personnel. Dans ce projet, il s'agira de dépasser les limites d'une unique machine et de considérer une approche Big Data et ses 3V : Volume, Vitesse et Variété. Sur ce projet, les étudiants devront fournir un système clé en main (par l'intermédiaire d'une machine virtuelle ou d'un conteneur Docker) répondant au problème posé. Ils devront donc trouver l'architecture nécessaire à mettre en place, les outils à utiliser ou créer et les bases de données à définir, tout cela dans le cadre d'un Cloud.

This final project builds on previous projects (PROJ 631, 831, 931) and considers developing a complete process and system, from acquiring and curating data to analyzing and visualizing them. The main difference comparing to previous project is this one no longer remains on a single (even high-end) machine. It is required to distribute data and computation on a set of machines organised into a cluster (in a Cloud).

The deliverable for this project is a Virtual Machine or a Docker containing all the tools (in-house or open source ones) to reuse the process.

Objectifs

concevoir un système large échelle pour l'analyse de données

Compétences acquises

A l'issue de ce cours, l'étudiant sera capable :

  • d'appréhender un problème de Data Science dans son intégralité
  • de définir le processus complet de l'acquisition des données jusqu'à la visualisation des données et les résultats
  • de concevoir un système qui nécessite des données massives, et du calcul distribué
  • de fournir un système clé en main pour répliquer le processus

Pré-requis

  • Systèmes distribués à large échelle (INFO 833)
  • Bases de données distribuées (INFO 834)

Diplômes intégrant ce cours

En bref

Langue d'enseignement
Français

Contact(s)

UFR, Écoles, Instituts

Lieu(x)

  • Annecy-le-Vieux (74)