Data Analysis with Open Source Tools

Les reproches faits à ce livre sont de deux ordres. Le premier porte sur sa structure – voire son contenu – qui n’est pas conventionnelle pour un livre intitulé Data analysis. C’est vrai que l’on s’attend à suivre une méthodologie, à être guidé et il faut bien reconnaître que ce n’est pas le cas. Si vous cherchez ce type d’ouvrage, je vous conseille de vous plonger dans Practical Data Science with R qui est un excellent ouvrage tout à fait dans ce registre. Cette approche non conventionnelle n’est pas gênante et au contraire car elle aide à ouvrir la réflexion à voir autrement et surtout à réfléchir tout simplement. Il est aussi plus théorique et va au fond de choses – dit autrement il y a des maths, tout ce qui l’avance est démontré et l’auteur s’efforce de faire passer deux messages:

Il faut rester simple: back of envelope
Il faut comprendre ce que l’on fait

Et il vrai qu’aujourd’hui – je l’ai vu de mes yeux – il est facile d’oublier ces deux fondamentaux et de bourrer des modèles compliqués d’un tas de données pour en sortir quelque chose que l’on ne saura pas expliquer et qui n’apportera donc rien – valeur = 0.

En fait on dirait qu’il a mis dans ce livre une grande partie de ses connaissances, de son savoir faire et de son expérience acquise en tant que consultant pour des grandes entreprises. Ce retour d’expérience d’une grande richesse adresse a peu près tous les sujets – et va même au-delà je pense aux chapitres consacrés à la simulation à la modélisation et aux probabilités – qu’un consultant peut avoir à utiliser. Il faut aussi dire que pour chacun des sujets il fournit une bibliographie sélective pour aller plus loin. C’est la même chose pour les outils et c’est ici qu’arrive le second reproche qui consiste à dire que l’outillage présenté est un peu daté. S’il existe de meilleurs outils maintenant c’est tant mieux et ils n’exemptent toujours pas – me semble-t-il – de comprendre ce que l’on fait.

Enfin, je voudrais souligner une dernière chose que l’on tend à négliger pour un livre technique. C’est le ton, la façon d’exposer les choses. Au bout de quelques pages et en lisant ensuite ce livre de bout en bout on rentre en résonance avec l’auteur et sa façon d’expliquer. Résultat on comprend bien mieux les choses. Son objectif n’est pas d’en mettre plein la vue avec des algorithmes et des techniques complexes au contraire, il s’efforce en permanence de démystifier et de revenir aux fondamentaux. Pour illustrer le ton, voici un extrait du chapitre intitulé “What You Really Need to Know About Classical Statistics”.

Basic classical statistics has always been somewhat of a mystery to me: a topic full of obscure notions such as t-tests and p-values, and confusing statements like “we fail to reject the null hypothesis” – which I can read several times and still not know if it is saying yes, no, or maybe.

Philipp K. Janert, Data Analysis with Open Source Tools, 1st ed., O′Reilly, 2010, 536 p, Amazon.