Big data (DATA831_IDU)
Volume horaire
Présentation
Avec l'avènement du Digital, les données sont de plus en plus omniprésentes et en nombre tel qu'il n'est plus possible d'envisager une analyse sur un ordinateur personnel. Le Big Data est né chez les géants de l'Internet (Google, Amazon, Facebook, Yahoo) et a donné lieu à de nombreux outils devenus Open Source comme Big Table, Hadoop, MongoDB pour n'en citer que quelques-uns. Le module Big Data présente les différentes approches existantes pour la prise en compte de données massives à savoir un traitement par batch (avec Hadoop et Map Reduce), un traitement live (avec Apache Spark) et finalement l'architecture lambda mixant les deux approches.
Objectifs
sélectionner l'architecture la plus adaptée à son problème
Compétences acquises
A l'issue de ce cours, l'étudiant sera capable :
- de comprendre les trois architectures et leur utilisation
- de mettre en oeuvre les trois architectures
Pré-requis
Systèmes distribués à large échelle (INFO 833)
Bases de données distribuées (INFO 834)
Plan du cours
- Qu'est-ce que le Big Data ?
- Quelles sont les caractéristiques du Big Data ?
- Volume
- Vitesse
- Variété
- Du 3V au 5V
- Valeur
- Véracité
- Processus de calcul
- Approche Map Reduce
- Approche Streaming
- Approche Lamba