Projet Data Science (PROJ932_IDU)
Volume horaire
Présentation
Les précédents projets (PROJ 631, 831, 931) visaient un développement et une exploitation sur un ordinateur personnel. Dans ce projet, il s'agira de dépasser les limites d'une unique machine et de considérer une approche Big Data et ses 3V : Volume, Vitesse et Variété. Sur ce projet, les étudiants devront fournir un système clé en main (par l'intermédiaire d'une machine virtuelle ou d'un conteneur Docker) répondant au problème posé. Ils devront donc trouver l'architecture nécessaire à mettre en place, les outils à utiliser ou créer et les bases de données à définir, tout cela dans le cadre d'un Cloud.
This final project builds on previous projects (PROJ 631, 831, 931) and considers developing a complete process and system, from acquiring and curating data to analyzing and visualizing them. The main difference comparing to previous project is this one no longer remains on a single (even high-end) machine. It is required to distribute data and computation on a set of machines organised into a cluster (in a Cloud).
The deliverable for this project is a Virtual Machine or a Docker containing all the tools (in-house or open source ones) to reuse the process.
Objectifs
concevoir un système large échelle pour l'analyse de données
Compétences acquises
A l'issue de ce cours, l'étudiant sera capable :
- d'appréhender un problème de Data Science dans son intégralité
- de définir le processus complet de l'acquisition des données jusqu'à la visualisation des données et les résultats
- de concevoir un système qui nécessite des données massives, et du calcul distribué
- de fournir un système clé en main pour répliquer le processus
Pré-requis
- Systèmes distribués à large échelle (INFO 833)
- Bases de données distribuées (INFO 834)