Archives par mot-clé : vie privée

5 outils qui vont vous aider à sortir le scoop de l’année

Dustin Hoffman et Robert Redford dans « Les Hommes du président »
Dus­tin Hoff­man et Robert Red­ford dans « Les Hommes du pré­sident »

Ima­gi­nez la scène. Un homme vous a contac­té et don­né ren­dez-vous au der­nier sous-sol d’un par­king mal éclai­ré. En jetant des regards par des­sus son épaule, les doigts trem­blants, il vous confie un gros disque dur, en expli­quant qu’il y a là-dedans des docu­ments explo­sifs pour la mul­ti­na­tio­nale dans laquelle il tra­vaille. Puis il dis­pa­raît sans deman­der son reste.

Vous voi­là en pos­ses­sion de don­nées qui seront, peut-être, à l’origine du scoop de votre car­rière. Tout jour­na­liste web a rêvé de vivre un tel moment – d’ailleurs, Edward, si jamais tu passes par ici, sache que j’ai une clé PGP, moi, pas comme cet étour­di de Glenn Green­wald.

Pro­blème : « Il est rare qu’un lan­ceur d’alertes se pointe après avoir ras­sem­blé toutes les infor­ma­tions utiles aux jour­na­listes dans un texte de quinze pages », a rap­pe­lé le spé­cia­liste en data­jour­na­lisme Frie­drich Lin­den­berg lors de son inter­ven­tion au Fes­ti­val de jour­na­lisme de Pérouse la semaine der­nière.

C’est plus pro­ba­ble­ment dans un fatras de mil­liers de docu­ments au for­mat PDF, Excel, Word, Power­point et leurs équi­va­lents qu’il va vous fal­loir fouiller, si vous vou­lez y déni­cher l’information exclu­sive qui vous vau­dra la gloire.

Heu­reu­se­ment, de plus en plus d’outils existent pour vous aider dans ce genre de situa­tions, sou­vent mis au point pour les jour­na­listes à l’occasion des pré­cé­dentes fuites de grande ampleur. Lin­den­berg en a décrit six, que voi­ci :

Capture d'écran du site de de DocumentCloud.
Cap­ture d’écran du site de de Docu­ment­Cloud.

Plu­tôt que navi­guer à l’aveugle dans le disque dur qu’on vous a refi­lé, avec le ges­tion­naire de fichiers de Win­dows ou de Mac OS, Docu­ment­Cloud per­met de sto­cker l’ensemble des docu­ments, de les par­cou­rir plus confor­ta­ble­ment, de les anno­ter et même de les inté­grer ensuite à vos articles.

Comme vous ris­quez d’avoir besoin d’aide dans vos démarches, vous pour­rez aus­si don­ner accès à vos pré­cieux fichiers à d’autres uti­li­sa­teurs ou groupes d’utilisateurs, en gérant fine­ment les auto­ri­sa­tions des uns et des autres.

Pour créer votre compte sur ce ser­vice, il vous fau­dra cepen­dant deman­der un accès à l’équipe qui a fon­dé ce ser­vice, en pré­sen­tant votre pro­jet. Une fois ins­tal­lé, Docu­ment­Cloud peut aus­si ser­vir à cen­tra­li­ser les docu­ments uti­li­sés par toute votre rédac­tion, et peut-être opé­rer des rap­pro­che­ments entre deux enquêtes sépa­rées.

Atten­tion quand même : si vos docu­ments sont vrai­ment explo­sifs, du genre à faire sau­ter la Répu­blique, vous évi­te­rez d’utiliser ce ser­vice direc­te­ment en ligne, mais vous l’installerez plu­tôt « en local », soit sur votre ordi­na­teur seule­ment – sachant que dans un cas pareil, bien d’autres pré­cau­tions s’imposent.

  • Over­view pour faire par­ler les gros ensembles de docu­ments
Capture d'écran du site d'Overview.
Cap­ture d’écran du site d’Overview.

L’outil a été mis au point à l’origine par l’agence AP et la Knight Foun­da­tion pour explo­rer les docu­ments de l’armée amé­ri­caine sur la guerre en Afgha­nis­tan dif­fu­sés par Wiki­leaks.

Ses algo­rithmes opèrent des rap­pro­che­ments entre les concepts qu’il a détec­té dans les mil­lions de fichiers que vous lui avez fait ava­ler (jusqu’aux sons au for­mat MP3), en créant des liens entre ces dif­fé­rents clus­ters. Pour explo­rer les e-mails pira­tés de Sony, Over­view se révèle ain­si beau­coup plus effi­cace que l’outil mis en ligne par le site de Julian Assange.

Il per­met aus­si de taguer vos recherches pour les retrou­ver plus faci­le­ment, et pro­pose plu­sieurs modes de visua­li­sa­tion. « L’équipe qui s’en occupe est très inté­res­sée par les nou­veaux outils d’analyse et les nou­veaux chal­lenges, explique Lin­den­berg. Ils vous aide­ront dans vos recherches, et peuvent amé­lio­rer une fonc­tion­na­li­té en quelques heures seule­ment. » Over­view peut aus­si être ins­tal­lé en local.

  • Crow­da­ta pour que les inter­nautes vous aident dans votre quête
Capture d'écran du site de Vozdata.
Cap­ture d’écran du site de Voz­da­ta.

Après avoir pas­sé vos week-ends et vos nuits à cher­cher la pièce maî­tresse per­due dans le gros tas d’octets qu’on vous a mis sur les bras, vous avez un coup de mou ? Il est temps de deman­der à Inter­net de vous venir en aide.

Crow­da­ta est l’outil qui a ser­vi au quo­ti­dien argen­tin La Nacion à lan­cer Voz­da­ta, une opé­ra­tion de crowd­sour­cing pour laquelle chaque inter­naute était invi­té à exa­mi­ner un des 6 500 docu­ments comp­tables four­nis par les séna­teurs afin y cher­cher d’éventuelles irré­gu­la­ri­tés. Inven­teur de cet exer­cice de trans­pa­rence, le Guar­dian le repro­duit chaque année pour les notes de frais des dépu­tés bri­tan­niques.

Crow­da­ta peut se bran­cher direc­te­ment sur Docu­ment­Cloud, pour vous faci­li­ter encore la tâche. Mais vous aurez sans doute besoin de l’aide d’un déve­lop­peur pour l’installer, et faire de tous vos lec­teurs deds enquê­teurs en pan­toufles.

  • Tabu­la  pour extraire des tableaux dans des docu­ments PDF
Capture d'écran du site de Tabula.
Cap­ture d’écran du site de Tabu­la.

Sou­vent uti­li­sé pour la dif­fu­sion d’études ou de rap­ports, le PDF est un for­mat qui empoi­sonne la vie des data­jour­na­listes, parce qu’il n’est pas vrai­ment conçu pour qu’on puisse réuti­li­ser les divers élé­ments com­po­sant un docu­ment.

Avec Tabu­la, il suf­fit de sélec­tion­ner le tableau qui vous inté­resse pour les lignes et les colonnes et les mani­pu­ler dans un tableur. Selon Lin­den­berg, Tabu­la est l’une des meilleures solu­tions pour cette tache, mais elle n’est pas par­faite : des déca­lages entre les colonnes peuvent appa­raître et cor­rompre votre série de don­nées.

C’est pour ça qu’il teste sou­vent plu­sieurs outils pour un même tableau, avant d’opter pour celui qui s’en sort le mieux (selon mon expé­rience, Adobe Acro­bat fait ça plu­tôt bien, mais il est payant).

  • Aleph pour croi­ser vos don­nées avec d’autres sources
Capture d'écran du site d'Aleph.
Cap­ture d’écran du site d’Aleph.

Pour tirer cette affaire au clair, vous aurez peut-être besoin de croi­ser vos pré­cieux fichiers avec d’autres sources exis­tantes. C’est ce que pro­pose Aleph, outil encore expé­ri­men­tal mais avec lequel vous pou­vez jouer pour cher­cher si la per­son­na­li­té ou l’entreprise sur laquelle vous tra­vaillez appa­raît ailleurs, grâce à des repré­sen­ta­tions gra­phiques.

Uti­li­ser davan­tage le recou­pe­ment avec des bases déjà en lignes, c’est deve­nu « la croi­sade per­son­nelle » de Lin­den­berg :

« Il faut que les jour­na­listes d’investigation acceptent de dire à des gens comme moi qui sont les per­sonnes ou entre­prises qui les inté­ressent, cette infor­ma­tion res­tant confi­den­tielle, bien sûr.

Dès que j’ai cette liste, je peux mener des recherches dans une grande quan­ti­té de docu­ments déjà publiés, et acti­ver des noti­fi­ca­tions dès qu’une nou­velle cor­res­pon­dance est trou­vé. Mais les jour­na­listes ne lâchent pas faci­le­ment ce genre d’info, il faut encore que je trouve un moyen de les convaincre. »