5 outils qui vont vous aider à sortir le scoop de l’année

Dustin Hoffman et Robert Redford dans « Les Hommes du président »
Dus­tin Hoff­man et Robert Red­ford dans « Les Hommes du pré­sident »

Ima­gi­nez la scène. Un homme vous a contac­té et don­né ren­dez-vous au der­nier sous-sol d’un par­king mal éclai­ré. En jetant des regards par des­sus son épaule, les doigts trem­blants, il vous confie un gros disque dur, en expli­quant qu’il y a là-dedans des docu­ments explo­sifs pour la mul­ti­na­tio­nale dans laquelle il tra­vaille. Puis il dis­pa­raît sans deman­der son reste.

Vous voi­là en pos­ses­sion de don­nées qui seront, peut-être, à l’origine du scoop de votre car­rière. Tout jour­na­liste web a rêvé de vivre un tel moment – d’ailleurs, Edward, si jamais tu passes par ici, sache que j’ai une clé PGP, moi, pas comme cet étour­di de Glenn Green­wald.

Pro­blème : « Il est rare qu’un lan­ceur d’alertes se pointe après avoir ras­sem­blé toutes les infor­ma­tions utiles aux jour­na­listes dans un texte de quinze pages », a rap­pe­lé le spé­cia­liste en data­jour­na­lisme Frie­drich Lin­den­berg lors de son inter­ven­tion au Fes­ti­val de jour­na­lisme de Pérouse la semaine der­nière.

C’est plus pro­ba­ble­ment dans un fatras de mil­liers de docu­ments au for­mat PDF, Excel, Word, Power­point et leurs équi­va­lents qu’il va vous fal­loir fouiller, si vous vou­lez y déni­cher l’information exclu­sive qui vous vau­dra la gloire.

Heu­reu­se­ment, de plus en plus d’outils existent pour vous aider dans ce genre de situa­tions, sou­vent mis au point pour les jour­na­listes à l’occasion des pré­cé­dentes fuites de grande ampleur. Lin­den­berg en a décrit six, que voi­ci :

Capture d'écran du site de de DocumentCloud.
Cap­ture d’écran du site de de Docu­ment­Cloud.

Plu­tôt que navi­guer à l’aveugle dans le disque dur qu’on vous a refi­lé, avec le ges­tion­naire de fichiers de Win­dows ou de Mac OS, Docu­ment­Cloud per­met de sto­cker l’ensemble des docu­ments, de les par­cou­rir plus confor­ta­ble­ment, de les anno­ter et même de les inté­grer ensuite à vos articles.

Comme vous ris­quez d’avoir besoin d’aide dans vos démarches, vous pour­rez aus­si don­ner accès à vos pré­cieux fichiers à d’autres uti­li­sa­teurs ou groupes d’utilisateurs, en gérant fine­ment les auto­ri­sa­tions des uns et des autres.

Pour créer votre compte sur ce ser­vice, il vous fau­dra cepen­dant deman­der un accès à l’équipe qui a fon­dé ce ser­vice, en pré­sen­tant votre pro­jet. Une fois ins­tal­lé, Docu­ment­Cloud peut aus­si ser­vir à cen­tra­li­ser les docu­ments uti­li­sés par toute votre rédac­tion, et peut-être opé­rer des rap­pro­che­ments entre deux enquêtes sépa­rées.

Atten­tion quand même : si vos docu­ments sont vrai­ment explo­sifs, du genre à faire sau­ter la Répu­blique, vous évi­te­rez d’utiliser ce ser­vice direc­te­ment en ligne, mais vous l’installerez plu­tôt « en local », soit sur votre ordi­na­teur seule­ment – sachant que dans un cas pareil, bien d’autres pré­cau­tions s’imposent.

  • Over­view pour faire par­ler les gros ensembles de docu­ments
Capture d'écran du site d'Overview.
Cap­ture d’écran du site d’Overview.

L’outil a été mis au point à l’origine par l’agence AP et la Knight Foun­da­tion pour explo­rer les docu­ments de l’armée amé­ri­caine sur la guerre en Afgha­nis­tan dif­fu­sés par Wiki­leaks.

Ses algo­rithmes opèrent des rap­pro­che­ments entre les concepts qu’il a détec­té dans les mil­lions de fichiers que vous lui avez fait ava­ler (jusqu’aux sons au for­mat MP3), en créant des liens entre ces dif­fé­rents clus­ters. Pour explo­rer les e-mails pira­tés de Sony, Over­view se révèle ain­si beau­coup plus effi­cace que l’outil mis en ligne par le site de Julian Assange.

Il per­met aus­si de taguer vos recherches pour les retrou­ver plus faci­le­ment, et pro­pose plu­sieurs modes de visua­li­sa­tion. « L’équipe qui s’en occupe est très inté­res­sée par les nou­veaux outils d’analyse et les nou­veaux chal­lenges, explique Lin­den­berg. Ils vous aide­ront dans vos recherches, et peuvent amé­lio­rer une fonc­tion­na­li­té en quelques heures seule­ment. » Over­view peut aus­si être ins­tal­lé en local.

  • Crow­da­ta pour que les inter­nautes vous aident dans votre quête
Capture d'écran du site de Vozdata.
Cap­ture d’écran du site de Voz­da­ta.

Après avoir pas­sé vos week-ends et vos nuits à cher­cher la pièce maî­tresse per­due dans le gros tas d’octets qu’on vous a mis sur les bras, vous avez un coup de mou ? Il est temps de deman­der à Inter­net de vous venir en aide.

Crow­da­ta est l’outil qui a ser­vi au quo­ti­dien argen­tin La Nacion à lan­cer Voz­da­ta, une opé­ra­tion de crowd­sour­cing pour laquelle chaque inter­naute était invi­té à exa­mi­ner un des 6 500 docu­ments comp­tables four­nis par les séna­teurs afin y cher­cher d’éventuelles irré­gu­la­ri­tés. Inven­teur de cet exer­cice de trans­pa­rence, le Guar­dian le repro­duit chaque année pour les notes de frais des dépu­tés bri­tan­niques.

Crow­da­ta peut se bran­cher direc­te­ment sur Docu­ment­Cloud, pour vous faci­li­ter encore la tâche. Mais vous aurez sans doute besoin de l’aide d’un déve­lop­peur pour l’installer, et faire de tous vos lec­teurs deds enquê­teurs en pan­toufles.

  • Tabu­la  pour extraire des tableaux dans des docu­ments PDF
Capture d'écran du site de Tabula.
Cap­ture d’écran du site de Tabu­la.

Sou­vent uti­li­sé pour la dif­fu­sion d’études ou de rap­ports, le PDF est un for­mat qui empoi­sonne la vie des data­jour­na­listes, parce qu’il n’est pas vrai­ment conçu pour qu’on puisse réuti­li­ser les divers élé­ments com­po­sant un docu­ment.

Avec Tabu­la, il suf­fit de sélec­tion­ner le tableau qui vous inté­resse pour les lignes et les colonnes et les mani­pu­ler dans un tableur. Selon Lin­den­berg, Tabu­la est l’une des meilleures solu­tions pour cette tache, mais elle n’est pas par­faite : des déca­lages entre les colonnes peuvent appa­raître et cor­rompre votre série de don­nées.

C’est pour ça qu’il teste sou­vent plu­sieurs outils pour un même tableau, avant d’opter pour celui qui s’en sort le mieux (selon mon expé­rience, Adobe Acro­bat fait ça plu­tôt bien, mais il est payant).

  • Aleph pour croi­ser vos don­nées avec d’autres sources
Capture d'écran du site d'Aleph.
Cap­ture d’écran du site d’Aleph.

Pour tirer cette affaire au clair, vous aurez peut-être besoin de croi­ser vos pré­cieux fichiers avec d’autres sources exis­tantes. C’est ce que pro­pose Aleph, outil encore expé­ri­men­tal mais avec lequel vous pou­vez jouer pour cher­cher si la per­son­na­li­té ou l’entreprise sur laquelle vous tra­vaillez appa­raît ailleurs, grâce à des repré­sen­ta­tions gra­phiques.

Uti­li­ser davan­tage le recou­pe­ment avec des bases déjà en lignes, c’est deve­nu « la croi­sade per­son­nelle » de Lin­den­berg :

« Il faut que les jour­na­listes d’investigation acceptent de dire à des gens comme moi qui sont les per­sonnes ou entre­prises qui les inté­ressent, cette infor­ma­tion res­tant confi­den­tielle, bien sûr.

Dès que j’ai cette liste, je peux mener des recherches dans une grande quan­ti­té de docu­ments déjà publiés, et acti­ver des noti­fi­ca­tions dès qu’une nou­velle cor­res­pon­dance est trou­vé. Mais les jour­na­listes ne lâchent pas faci­le­ment ce genre d’info, il faut encore que je trouve un moyen de les convaincre. »

Un peu d'inspiration !

Depuis 2014, j'accompagne des médias dans leurs projets et je mène mes propres expériences. Retrouvez les réalisations dont je suis le plus fier dans un portfolio qui vous donnera envie d'innover !

Partager cet article

Lien copié !
C'est nul, je veux de gros boutons colorés !

Partager cet article

On en discute ?