Imaginez la scène. Un homme vous a contacté et donné rendez-vous au dernier sous-sol d’un parking mal éclairé. En jetant des regards par dessus son épaule, les doigts tremblants, il vous confie un gros disque dur, en expliquant qu’il y a là-dedans des documents explosifs pour la multinationale dans laquelle il travaille. Puis il disparaît sans demander son reste.
Vous voilà en possession de données qui seront, peut-être, à l’origine du scoop de votre carrière. Tout journaliste web a rêvé de vivre un tel moment – d’ailleurs, Edward, si jamais tu passes par ici, sache que j’ai une clé PGP, moi, pas comme cet étourdi de Glenn Greenwald.
Problème : « Il est rare qu’un lanceur d’alertes se pointe après avoir rassemblé toutes les informations utiles aux journalistes dans un texte de quinze pages », a rappelé le spécialiste en datajournalisme Friedrich Lindenberg lors de son intervention au Festival de journalisme de Pérouse la semaine dernière.
C’est plus probablement dans un fatras de milliers de documents au format PDF, Excel, Word, Powerpoint et leurs équivalents qu’il va vous falloir fouiller, si vous voulez y dénicher l’information exclusive qui vous vaudra la gloire.
Heureusement, de plus en plus d’outils existent pour vous aider dans ce genre de situations, souvent mis au point pour les journalistes à l’occasion des précédentes fuites de grande ampleur. Lindenberg en a décrit six, que voici :
- DocumentCloud pour héberger les données et gérer leur accès
Plutôt que naviguer à l’aveugle dans le disque dur qu’on vous a refilé, avec le gestionnaire de fichiers de Windows ou de Mac OS, DocumentCloud permet de stocker l’ensemble des documents, de les parcourir plus confortablement, de les annoter et même de les intégrer ensuite à vos articles.
Comme vous risquez d’avoir besoin d’aide dans vos démarches, vous pourrez aussi donner accès à vos précieux fichiers à d’autres utilisateurs ou groupes d’utilisateurs, en gérant finement les autorisations des uns et des autres.
Pour créer votre compte sur ce service, il vous faudra cependant demander un accès à l’équipe qui a fondé ce service, en présentant votre projet. Une fois installé, DocumentCloud peut aussi servir à centraliser les documents utilisés par toute votre rédaction, et peut-être opérer des rapprochements entre deux enquêtes séparées.
Attention quand même : si vos documents sont vraiment explosifs, du genre à faire sauter la République, vous éviterez d’utiliser ce service directement en ligne, mais vous l’installerez plutôt « en local », soit sur votre ordinateur seulement – sachant que dans un cas pareil, bien d’autres précautions s’imposent.
- Overview pour faire parler les gros ensembles de documents
L’outil a été mis au point à l’origine par l’agence AP et la Knight Foundation pour explorer les documents de l’armée américaine sur la guerre en Afghanistan diffusés par Wikileaks.
Ses algorithmes opèrent des rapprochements entre les concepts qu’il a détecté dans les millions de fichiers que vous lui avez fait avaler (jusqu’aux sons au format MP3), en créant des liens entre ces différents clusters. Pour explorer les e‑mails piratés de Sony, Overview se révèle ainsi beaucoup plus efficace que l’outil mis en ligne par le site de Julian Assange.
Il permet aussi de taguer vos recherches pour les retrouver plus facilement, et propose plusieurs modes de visualisation. « L’équipe qui s’en occupe est très intéressée par les nouveaux outils d’analyse et les nouveaux challenges, explique Lindenberg. Ils vous aideront dans vos recherches, et peuvent améliorer une fonctionnalité en quelques heures seulement. » Overview peut aussi être installé en local.
- Crowdata pour que les internautes vous aident dans votre quête
Après avoir passé vos week-ends et vos nuits à chercher la pièce maîtresse perdue dans le gros tas d’octets qu’on vous a mis sur les bras, vous avez un coup de mou ? Il est temps de demander à Internet de vous venir en aide.
Crowdata est l’outil qui a servi au quotidien argentin La Nacion à lancer Vozdata, une opération de crowdsourcing pour laquelle chaque internaute était invité à examiner un des 6 500 documents comptables fournis par les sénateurs afin y chercher d’éventuelles irrégularités. Inventeur de cet exercice de transparence, le Guardian le reproduit chaque année pour les notes de frais des députés britanniques.
Crowdata peut se brancher directement sur DocumentCloud, pour vous faciliter encore la tâche. Mais vous aurez sans doute besoin de l’aide d’un développeur pour l’installer, et faire de tous vos lecteurs deds enquêteurs en pantoufles.
- Tabula pour extraire des tableaux dans des documents PDF
Souvent utilisé pour la diffusion d’études ou de rapports, le PDF est un format qui empoisonne la vie des datajournalistes, parce qu’il n’est pas vraiment conçu pour qu’on puisse réutiliser les divers éléments composant un document.
Avec Tabula, il suffit de sélectionner le tableau qui vous intéresse pour les lignes et les colonnes et les manipuler dans un tableur. Selon Lindenberg, Tabula est l’une des meilleures solutions pour cette tache, mais elle n’est pas parfaite : des décalages entre les colonnes peuvent apparaître et corrompre votre série de données.
C’est pour ça qu’il teste souvent plusieurs outils pour un même tableau, avant d’opter pour celui qui s’en sort le mieux (selon mon expérience, Adobe Acrobat fait ça plutôt bien, mais il est payant).
- Aleph pour croiser vos données avec d’autres sources
Pour tirer cette affaire au clair, vous aurez peut-être besoin de croiser vos précieux fichiers avec d’autres sources existantes. C’est ce que propose Aleph, outil encore expérimental mais avec lequel vous pouvez jouer pour chercher si la personnalité ou l’entreprise sur laquelle vous travaillez apparaît ailleurs, grâce à des représentations graphiques.
Utiliser davantage le recoupement avec des bases déjà en lignes, c’est devenu « la croisade personnelle » de Lindenberg :
« Il faut que les journalistes d’investigation acceptent de dire à des gens comme moi qui sont les personnes ou entreprises qui les intéressent, cette information restant confidentielle, bien sûr.
Dès que j’ai cette liste, je peux mener des recherches dans une grande quantité de documents déjà publiés, et activer des notifications dès qu’une nouvelle correspondance est trouvé. Mais les journalistes ne lâchent pas facilement ce genre d’info, il faut encore que je trouve un moyen de les convaincre. »