Big data (DATA831_IDU)

Volume horaire

CM : 7,5h / TP : 12h

Présentation

Avec l'avènement du Digital, les données sont de plus en plus omniprésentes et en nombre tel qu'il n'est plus possible d'envisager une analyse sur un ordinateur personnel. Le Big Data est né chez les géants de l'Internet (Google, Amazon, Facebook, Yahoo) et a donné lieu à de nombreux outils devenus Open Source comme Big Table, Hadoop, MongoDB pour n'en citer que quelques-uns. Le module Big Data présente les différentes approches existantes pour la prise en compte de données massives à savoir un traitement par batch (avec Hadoop et Map Reduce), un traitement live (avec Apache Spark) et finalement l'architecture lambda mixant les deux approches.

Objectifs

sélectionner l'architecture la plus adaptée à son problème

Compétences acquises

A l'issue de ce cours, l'étudiant sera capable :

- de comprendre les trois architectures et leur utilisation

- de mettre en oeuvre les trois architectures

Pré-requis

Systèmes distribués à large échelle (INFO 833)

Bases de données distribuées (INFO 834)

Plan du cours

  1. Qu'est-ce que le Big Data ?
  2. Quelles sont les caractéristiques du Big Data ?
    1. Volume
    2. Vitesse
    3. Variété
  3. Du 3V au 5V
    1. Valeur
    2. Véracité
  4. Processus de calcul
    1. Approche Map Reduce
    2. Approche Streaming
    3. Approche Lamba

Diplômes intégrant ce cours

En bref

Langue d'enseignement
Français

Contact(s)

UFR, Écoles, Instituts

Lieu(x)

  • Annecy-le-Vieux (74)