Comme l’on pourrait s’y attendre en découvrant son titre, ce livre a pour objectif de nous faire découvrir l’utilisation de la technologie Hadoop au travers de cas concrets mis en oeuvre par des applications qui sont en production. C’est une distinction importante car il ne faut pas oublier que ces technologies sont encore très récentes et du prototype à la production il n’y a en effet qu’un pas, mais qui peut parfois être très compliqué à franchir et ceux qui y sont parvenus étaient encore considérés en 2015 comme des pionniers.

Les auteurs commencent par établir un panorama des technologies qui composent cet écosystème. Même pour les connaisseurs il est toujours intéressant de remettre les choses en perspective surtout lorsqu’elles sont bien expliquées comme c’est le cas ici. Le tableau présentant les composants de l’écosystème par time-scale (Batch, Ad hoc, Streaming and realtime) et fonction (Ingest, Process, Persist, Extract) est notamment très bien fait – beaucoup font la confusion entre Realtime et Ad hoc.

Ensuite ils proposent 15 conseils pour réussir un projet Hadoop et puis vient la partie la plus intéressante – enfin il me semble –, les principaux cas d’utilisation (use cases). Vous retrouverez certainement dans cette liste ce que souhaitent faire vos clients, votre patron ou vous-même avec le cluster Hadoop qui vient tout juste d’être installé. Je les cite car il me semble encore une fois qu’ils constituent le point fort du livre.

  • Data Warehouse Optimization
  • Data Hub
  • Customer 360
  • Recommendation Engine
  • Marketing Optimization
  • Large Object Store
  • Log Processing
  • Realtime Analytics
  • Time Series Database

Enfin ils présentent les retours d’expériences de clients (customer stories). Mais pourquoi utiliser le terme customer me direz-vous ? Hé bien parce que ce livre parle d’une distribution bien particulière d’Hadoop nommée MapR et ce n’est pas par hasard puisque Ted Dunning, l’un des auteurs du livre, est Chief Applications Architect dans la société qui commercialise – il faut bien employer ce terme, même s’il est possible d’obtenir une version gratuite – cette distribution. Le bon côté est que l’on découvre ses particularités puisqu’elle est certainement moins connue que les distributions concurrentes Cloudera et Hortonworks pour ne pas les nommer. Elles sont nombreuses sur le plan des performances (certaines implémentations comme MapR-DB offrent de meilleures performances), des composants proposés (l’écosystème est moins riche) mais aussi et surtout pour son système de fichiers (MapR-FS) compatible POSIX – ce qui me semble être un énorme avantage. Le mauvais côté est que l’on a parfois la désagréable impression de lire une brochure commerciale – c’est peut-être le cas me direz-vous.


Ted Dunning and Ellen Friedman, Real-World Hadoop, O’Reilly, 2015, 104 p, Amazon.