Field Guide to Hadoop

Pour vous y retrouver dans la jungle du big data et être en mesure de passer avec succès le test Is it Pokemon or Big Data ?, vous aurez besoin d’un guide pratique, clair, concis – très important – et bien organisé. Ce Field Guide to Hadoop sera votre plus fidèle compagnon de voyage et je vous conseille de l’avoir toujours a porté de main – ou de click – pour pouvoir écouter une conversation ou lire un article sans vous dire que vous êtes sur une autre planète – vous allez quand même y être un peu. On va commencer par le commencement, que veut dire Hadoop ?

Hadoop is not an acronym. [Doug] Cutting’s son had a yellow stuffed elephant he named Hadoop, and somehow that name stuck to the project and the icon is a cute little elephant.

La structure du livre est simple, il est divisé en chapitres dédiés à chaque domaine de l’écosystème Hadoop:

Core Technologies
Database and Data Management
Serialization
Management and Monitoring
Analytic Helpers
Data Transfer
Security, Access Control, and Auditing
Cloud Computing and Virtualization

Chaque chapitre est organisé de la même façon, une courte introduction précède la présentation des principaux produits ou technologies du domaine. Ils sont présentés sous une forme qui, par sa concision, s’apparente à une fiche. Elle contient une présentation des éléments clés (dont un champ très utile et que l’on ne trouve pas partout qui indique le niveau d’activité) suivie d’une description succincte (un overview) détaillant son utilisation, son but, ses avantages et ses inconvénients. N’allez pas croire que chaque description se ressemble et que la lecture devient rapidement ennuyeuse, bien au contraire, les auteurs adaptent leur description pour trouver le bon angle et faire passer les messages importants. Enfin, chaque fiche produit se termine par des exemples de code et des liens vers des ressources pour aller plus loin.

Ce livre se démarque car il parvient à expliquer les choses simplement et à en faire comprendre le pourquoi. Il s’adresse à des professionnels du métier qui ne connaissent pas, ou peu, les technologies big data et qui souhaitent disposer d’un panorama complet de cet univers d’une richesse effrayante. Le premier bémol est que tout ce petit monde bouge à une vitesse ahurissante et que le livre aura rapidement besoin d’une mise à jour (il date de mars 2015, une éternité). Le second, qui est très fortement lié, est qu’il y a toujours des laissés-pour-compte, dommage que l’on ne retrouve pas Kafka et Drill par exemple. Il faudrait donc que ce livre soit complété par un site web mis à jour régulièrement. Le dernier est ce qui fait sa force, il est court et concis, il ne rentre donc pas dans les détails et certains pourraient être déçus. A réserver donc au newbies du big data.

Kevin Sitto et Marshall Presser, Field Guide to Hadoop, O’Reilly, 2015, 132 p, Amazon.