Bases de données distribuées (INFO834_IDU)

Volume horaire

CM : 7,5h / TD : 7,5h / TP : 24h

Présentation

L'objectif de ce cours est d'apprendre à concevoir et mettre en œuvre une base de données distribuée pour le Big Data. Nous aborderons deux aspects : l'organisation des données (représentation, stockage, répartition, passage à l'échelle, etc.) et l'organisation des traitements (définition, répartition, restitution, etc.).

Objectifs

- identifier les exigences et les caractéristiques d'une base de données pour le Big Data

- concevoir et mettre en œuvre l'organisation des données au travers de représentations NoSQL

- concevoir, organiser et mettre en œuvre des traitements distribués sur des données NoSQL

- mettre en œuvre un passage à l'échelle d'une base de données SQL et NoSQL (techniques de partitionnement, réplication, clustering )

- utiliser les technologies actuelles telles que Hadoop, Pig, Hive, Flume, CASSANDRA, MangoDB

Compétences acquises

A l'issue de ce cours, l'étudiant sera capable :

- d'expliquer le "big data" selon la règle des 3V (Volume, Variété, Vélocité)

- d'identifier les caractéristiques des bases de données pour le big data (hétérogénéité, données non structurés/semi-structurées, distributivité, etc.)

- de comparer et positionner les SGBD relationnels et dérivés par rapport à la règle des 3V

- d'utiliser les différents modèles/représentations Not Only SQL (schéma implicite, paires clé-valeur, bases orientées documents ou colonnes)

- d'expliquer les apports du big data : WHAT (Web data, Hadoop, Analytics, Temps réel)

- de connaître et positionner NewSQL par rapport aux autres approches (NoSQL et SQL)

- d' utiliser des techniques de partitionnement, réplication et clustering permettant le passage à l'échelle d'une base de données

- d'utiliser les technologies actuelles en particulier celles map/reduce comme dans Hadoop et Spark/Storm

Pré-requis

INFO642 Bases de données et technologies web

Plan du cours

  • Introduction aux bases de données distribuéespour le Big Data : exigences et caractéristiques
  • Concepts fondamentaux des SGBD NoSQL (vs. SQL) : schéma implicite, paires clé-valeur, bases orientées documents ou colonnes
  • Propriétés WHAT (vs. TIPS/ACID, RICE), NewSQL
  • Développement de bases de données distribuées NoSQL (e.g. Hadoop, Spark & Storm)

Diplômes intégrant ce cours

En bref

Langue d'enseignement
Français

Contact(s)

UFR, Écoles, Instituts

Lieu(x)

  • Annecy-le-Vieux (74)