Archives par mot-clé : computer assisted reporting

Comment j’ai exploré plus de 500 chroniques de Bernard Guetta

La liste des chroniques de Bernard Guetta dans Google Sheet.
La liste des chro­niques de Ber­nard Guet­ta dans Google Sheet.

Comme sou­vent pour les pro­jets que je mène Dans mon labo, ma petite enquête autour des chro­niques de Ber­nard Guet­ta sur France  Inter m’a ame­né à uti­li­ser toute une pano­plie d’outils. Je les passe rapi­de­ment en revue dans cet article, en espé­rant que ça vous aide pour vos propres tra­vaux.

1. Récupérer le texte des chroniques avec Outwit Hub

Cette pre­mière étape a été rapide, la construc­tion du site de France Inter le ren­dant très simple à « scra­per ». Une page d’archives pro­pose en effet des liens vers cha­cune des chro­niques. Je l’ai char­gée dans Out­wit Hub puis ai deman­dé à ce der­nier d’attraper toutes les URL concer­nés (elles contiennent toutes la chaîne de carac­tères « emis­sion-geo­po­li­tique»).

Tou­jours dans Out­wit Hub, j’ai ensuite mis au point un scra­per pour extraire les élé­ments inté­res­sants du code HTML de la page, à com­men­cer par le texte. Vous pou­vez télé­char­ger cet extrac­teur (c’est un petit fichier XML) et l’importer dans Out­wit Hub si vous sou­hai­tez faire un tra­vail simi­laire avec d’autres conte­nus publiés sur le site de France Inter.

2. Nettoyage des textes avec Open Refine

Les textes récu­pé­rés étaient glo­ba­le­ment propres. Open Refine m’a cepen­dant per­mis de sup­pri­mer de mon échan­tillon les chro­niques du rem­pla­çant de Ber­nard Guet­ta, Antho­ny Bel­lan­ger (clas­sées dans la même rubrique sur le site de France Inter), ain­si que quelques entrées sans texte (cor­res­pon­dant à des pages vides sur le site).

J’ai éga­le­ment éga­le­ment pu reti­rer le code du lec­teur vidéo Dai­ly­mo­tion par­fois pré­sent en haut des textes.

3. Décompte des pays dans Google Sheet

Une fois les don­nées net­toyées, je les ai expor­tées au for­mat CSV et impor­tées dans le tableur Google Sheet. J’ai ajou­té une feuille avec une liste des pays du monde com­pi­lée par Wiki­pe­dia.

Dans cette deuxième feuille, j’ai pu cher­cher, grâce à la fonc­tion COUNTIF, les occu­rences de chaque pays dans la colonne concer­née de la pre­mière feuille.

J’ai fait quelques tests et pas­sé en revue la liste pour trai­ter quelques cas par­ti­cu­liers. Par exemple, pour la Bir­ma­nie, le mot Myan­mar est par­fois uti­li­sé ; le Nigé­ria est par­fois écrit « Nige­ria » ; le mot Congo peut dési­gner deux pays, le Congo-Braz­za­ville ou le Congo-Kin­sha­sa : le mot Hol­lande est un pays mais aus­si un pré­sident fran­çais…

Il n’est d’ailleurs pas exclu qu’il reste des erreurs après ce trai­te­ment, n’hésitez pas à me contac­ter si vous pen­sez en avoir déce­lé.

4. Croisement avec les données de la Banque mondiale

Un module com­plé­men­taire de Google Sheet m’a per­mis de tra­duire auto­ma­ti­que­ment les cel­lules conte­nant le nom du pays du fran­çais vers sa ver­sion anglaise.

J’ai récu­pé­ré la liste des codes ISO à trois carac­tères des pays du monde, et grâce à la fonc­tion VLOOKUP, j’ai pu attri­buer le bon code ISO à chaque pays de ma propre liste, non sans une série de cor­rec­tions « à la main ».

Le tout est un peu fas­ti­dieux, mais quand cette mani­pu­la­tion fini, c’est magique : avec comme clé com­mune le code ISO, il devient facile de croi­ser un tel fichier avec des cen­taines d’autres dis­po­nibles sur le Web.

Le site de la Banque mon­diale contient ain­si des séries de don­nées sur beau­coup d’indicateurs : popu­la­tion, super­fi­cie, PIB… Et le tableau qu’on télé­charge contient aus­si le code ISO, la fonc­tion VLOOKUP per­met donc de faire le rap­pro­che­ment auto­ma­ti­que­ment et sans risque d’erreur.

Exemple de nuage de points dans Google Sheet
Exemple de nuage de points dans Google Sheet

J’ai ensuite uti­li­ser la fonc­tion CORREL de Google Sheet pour cher­cher très faci­le­ment des cor­ré­la­tions (par exemple entre la popu­la­tion d’un pays et le nombre de fois où il est cité) d’une colonne de mon docu­ment à l’autre.

5. Réalisation de la carte avec TileMill

Je ne vais pas m’étendre sur cette par­tie du tra­vail, d’autant que Tile­Mill n’est plus main­te­nu – il est cen­sé être rem­pla­cé par Map­box Stu­dio, logi­ciel que j’ai tes­té et que je n’aime pas trop.

je suis par­ti du sha­pe­file conte­nant les déli­mi­ta­tions de chaque pays (y com­pris les zones contes­tées, comme le Soma­li­land ou le Saha­ra occi­den­tal, ce qui peut être source de pro­blèmes), et j’ai pu insé­rer dans le fichier DBF asso­cié des colonnes conte­nant mes propres don­nées – non sans mal.

L’avantage de Tile­Mill, c’est qu’il per­met de une confi­gu­ra­tion très pré­cise de la carte, des cou­leurs avec les­quelles « colo­rier » les pays au desi­gn des info-bulles, en pas­sant par le niveau de détails sou­hai­té à chaque niveau de zoom.

L’inconvénient, c’est que tout ça prend beau­coup de temps, au point que je ne sais pas si je recom­man­de­rai un outil aus­si sophis­ti­qué pour un tra­vail plus régu­lier au sein d’une rédac­tion.

J’ai l’impression qu’aucune solu­tion de car­to­gra­phie actuelle ne donne plei­ne­ment satis­fac­tion quand on est plus un bri­co­leur qu’un déve­lop­peur, mais vous avez peut-être de bons tuyaux à échan­ger dans les com­men­taires.

La carte créée dans Tile­Mill s’exporte faci­le­ment dans un compte Map­box, depuis lequel on récu­père le code d’intégration, sous forme d’iframe et avec quelques options inté­res­santes, comme la désac­ti­va­tion du zoom via la molette de la sou­ris.

6. Etude des textes avec le logiciel de lexicométrie TXM

C«était la par­tie la plus nou­velle pour moi dans ce pro­ces­sus : tes­ter des outils de lexi­co­mé­trie. Le socio­logue Bap­tiste Coul­mont, que je remer­cie au pas­sage, m’a conseillé sur Twit­ter d’essayer TXM, logi­ciel pri­sé des cher­cheurs dans ce domaine.

J’ai dû pas­ser par pas mal de tuto­riels et de guides, pour apprendre par exemple à « éti­que­ter » un cor­pus de texte, afin de trier les mots entre adjec­tifs, adverbes, verbes… Au pas­sage, j’ai appris des mots rigo­los comme « hapax » ou « lem­ma­ti­sa­tion ».

Les fonc­tion­na­li­tés qui m’ont le plus bluf­fé sont l’affichage des concor­dances (les mots qui pré­cèdent ou suivent chaque occu­rence d’un mot don­né du texte) et celle des cooc­cur­rences (les mots qui se retrouvent sou­vent au voi­si­nage d’un mot don­né du texte).

Mais si les pos­si­bi­li­tés de cet outils semblent pas­sion­nantes, je recom­mande pas mal de patience à ceux qui veulent s’y col­ler.

7. Réalisation des graphiques avec Datawrapper

Pas grand chose à signa­ler ici : j’ai pré­pa­ré mes tableaux dans Google Sheet, je les ai copiés/collés dans Data­wrap­per et j’ai pu figno­ler la pré­sen­ta­tion des gra­phiques que vous avez vus.

Pré­ci­sion : l’intégration d’un gra­phique sur son propre site requiert désor­mais la sous­crip­tion à un abon­ne­ment payant, déci­sion que lequel Mir­ko Lorenz a expli­quée sur le blog de la socié­té.

Voi­là ! Il y avait sans doute bien plus simple pour arri­ver au même résul­tat, et je compte d’ailleurs sur vos conseils dans les com­men­taires ci-des­sous.

Je ne peux publier le cor­pus sur lequel j’ai tra­vaillé (ce serait une forme de repro­duc­tion sans auto­ri­sa­tion des textes), mais vous pou­vez télé­char­ger une syn­thèse par pays ou bien me contac­ter pour obte­nir l’ensemble de mes don­nées.

Le monde selon Bernard Guetta : la carte de ses 500 chroniques

Ça se passe au moment où la tar­tine beur­rée entre en contact avec le café brû­lant. Un ron­ron­ne­ment s’échappe du poste de radio. Une voix fami­lière qui che­vrote un peu, un phra­sé impec­cable qui fran­chit les « pre­miè­re­ment », les « deuxiè­me­ment » et les « mais éga­le­ment » sans jamais tré­bu­cher. Le texte, lui, glisse sans cahot d’une confé­rence gene­voise à une réunion du G7, en pas­sant par Bruxelles et ses som­mets de la der­nière chance.

Une chronique quotidienne depuis 1991

Ber­nard Guet­ta, 64 ans, est « un majes­tueux monu­ment à dômes et à cou­poles […] ins­tal­lé dans le pay­sage mati­nal », s’amusait Daniel Schnei­der­mann. S’il le taquine, le fon­da­teur d’Arrêt sur images voit aus­si en lui l’un des rares jour­na­listes qui « dans chaque évé­ne­ment micro­sco­pique cherchent par réflexe les racines pro­fondes, les loin­taines consé­quences, bref la pers­pec­tive ».

Le chro­ni­queur a rejoint France Inter en 1991 après une car­rière déjà longue et tient depuis la chro­nique Géo­po­li­tique chaque matin, du lun­di au ven­dre­di à 8h19. Ce pas­sage obli­gé de la mati­nale est ins­crit dans la rou­tine des audi­teurs, sur le mode « déjà Guet­ta, faut y aller, Mat­teo va être en retard à l’école ».

Lire l’article

Les pays les plus cités dans la chronique Géopolitique de France Inter

0 1–10 10–50 50–100 100–200 +200
           

Cli­quez ou tapo­tez sur un pays pour plus d’infos, double-cli­quez ou pin­cez pour zoo­mer.

Mais à quoi res­semble la carte du monde que Guet­ta raconte à près de 4 mil­lions de Fran­çais mal réveillés ?

C’est à cette ques­tion que j’ai ten­té de répondre en ana­ly­sant 520 chro­niques publiées sur le site de France Inter entre août 2012 et mai 2015 – pour ceux que ça inté­resse, je reviens sur les outils uti­li­sés dans un autre article de ce site.

Un tiers de plus que le Nouveau Testament

Près de trois sai­sons de chro­niques pour un impo­sant cor­pus de plus de 300 000 mots (pour vous don­ner une idée, ça fait un tiers de plus que le Nou­veau Tes­ta­ment), soit 1,6 mil­lion de signes ou encore plus de 1 000 feuillets.

La carte en haut de cette page montre le résul­tat de ses recherches (contac­tez-moi ou lais­sez un com­men­taire si vous avez remar­qué une erreur ou une bizar­re­rie). Je les ai éga­le­ment ras­sem­blées sous forme de clas­se­ments.

En se pro­me­nant sur la pla­nète de Ber­nard Guet­ta, on remarque bien sûr la domi­na­tion des Etats-Unis, cités dans un près d’une chro­nique sur deux. Mais la Rus­sie, le Proche-Orient et le Moyen-Orient sont aus­si bien ser­vis par le chro­ni­queur. Logique, vu l’actualité de ces trois der­nières années en Ukraine, en Syrie et dans le reste du monde arabe.

Les pays émer­gents sont moins bien lotis : la Chine n’a été citée que 61 fois, et l’Inde (21 ) comme le Bré­sil (6) ne semblent guère pas­sion­ner le chro­ni­queur.

Même rela­tif dés­in­té­rêt pour l’Afrique, sur­tout si on met de côté les pays où la France est inter­ve­nue mili­tai­re­ment (Libye, Mali, Cen­tra­frique) – le Nigé­ria, deve­nu pour­tant la pre­mière éco­no­mie d’Afrique n’est cité que sept fois. Ou pour l’ensemble Amé­rique latine, mal­gré les remuants diri­geants du Vene­zue­la, de la Boli­vie et de l’Equateur.

« Eclairer les événements, les hiérarchiser »

Loin des yeux, loin du cœur de Guet­ta ? L’Indonésie, mal­gré ses 250 mil­lions d’habitants, n’est men­tion­née qu’une seule fois, l’Australie et l’Afrique du Sud trois fois seule­ment.

A l’inverse, de petits pays sont l’objet d’une plus grande atten­tion, comme le Liban, pré­sent dans 35 chro­niques, l’Arménie (7) et bien sûr le Vati­can (7).

Devant ces chiffres par­fois éton­nants, Ber­nard Guet­ta m’explique qu’il n’est « pas un uni­ver­si­taire », qu’il n’a pas voca­tion « à pas­ser en revue les plus de 200 pays pré­sents l’ONU », mais qu’il entend, en bon jour­na­liste, « éclai­rer les évé­ne­ments les plus mar­quants et les hié­rar­chi­ser ».

Le chro­ni­queur explique ne pas cher­cher, au fil de ses inter­ven­tions, un équi­libre entre les dif­fé­rentes régions du monde. « C’est l’actualité qui com­mande », résume-t-il, ajou­tant :

« Je vous mets en garde contre la ten­ta­tion de tirer des conclu­sions basées seule­ment sur le nombre d’occurrences, pour moi ce n’est pas per­ti­nent. » 

Thaïlande, Maroc, Birmanie : rien

Mais ce qui m’a le plus sur­pris, ce sont les trous du gruyère : en effet, la liste des pays qui n’ont jamais cités en plus de 500 chro­niques com­prend quelques poids lourds.

C’est le cas de la Thaï­lande, qui a pour­tant connu, sur la période étu­diée, une crise poli­tique majeure débou­chant sur une reprise en main du pays par l’armée. Mais aus­si de la Bir­ma­nie, dont le régime donne des signes d’ouverture depuis la libé­ra­tion d’Aung San Suu Kyi en 2010.

Plus frap­pant encore, le cas du Maroc, où Guet­ta a pour­tant pas­sé une par­tie de sa jeu­nesse – l’Algérie voi­sine est elle men­tion­née 22 fois. Ces absences ne per­turbent cepen­dant pas l’intéressé :

« Tout dépend de la période que vous étu­diez. Il n’était pas illo­gique que je n’aie pas par­lé du Maroc ces der­niers temps, il n’y avait pas d’actualité impor­tante dans ce pays.

La brouille avec la France [après que le chef du contre-espion­nage maro­cain Abdel­la­tif Ham­mou­chi a été convo­qué par un juge fran­çais lors d’un voyage à Paris, ndlr] n’a pas duré très long­temps.

J’en aurais peut-être par­lé si per­sonne ne l’avait fait, mais j’ai consi­dé­ré que ça ne fai­sait pas le poids, à ce moment-là, face à d’autres évé­ne­ments. »

C’est la limite de mon petit tra­vail : comme tous les jour­na­listes, Guet­ta parle d’abord des pays dont on parle, ceux qui sont « dans l’actualité », aus­si mou­vante soit la défi­ni­tion qu’on donne à ce mot. Mais je reste convain­cu que sur une si longue période et un si grand nombre de textes, mon explo­ra­tion du « monde de Ber­nard Guet­ta » a mal­gré tout du sens.

Plus un pays est riche, plus il est cité

Si on met de côté l’actu, quel cri­tère peut expli­quer qu’un pays s’impose ou non sur cette drôle de map­pe­monde ? En croi­sant ces rele­vés avec les don­nées de la Banque mon­diale, j’ai cher­ché des cor­ré­la­tions. J’ai fait chou blanc avec la super­fi­cie, la popu­la­tion, le PIB par habi­tant ou le nombre de décès dans des conflits armés.

En revanche, plus un pays est glo­ba­le­ment riche, et plus il a de chances d’être cité dans les chro­niques de Guet­ta – pour les matheux, le coef­fi­cient de cor­ré­la­tion est de 0,64.  Ce n’est pas illo­gique : une éco­no­mie impor­tante va sou­vent de pair avec des dépenses mili­taires signi­fi­ca­tives et une diplo­ma­tie plus active.

La liste des per­son­na­li­tés les plus citées réserve elle peu de sur­prises, même si on note­ra que Jacques Delors et Charles de Gaulle font de fré­quentes appa­ri­tions – le pre­mier est plus sou­vent cité qu’Hugo Cha­vez.

Enfin, je me suis aus­si inté­res­sé au contexte dans lequel ces pays et ces per­son­na­li­tés étaient citées, grâce à un logi­ciel de « lexi­co­mé­trie ». J’ai cher­ché par exemple les adjec­tifs les qua­li­fiant, notam­ment ceux qui peuvent déno­ter un juge­ment de valeur voire un par­ti-pris (par exemple, « popu­liste » pour Cha­vez ou « intran­si­geant » pour Pou­tine).

L’Europe et le « divorce » des Européens

On peut voir ain­si que Guet­ta asso­cie très sou­vent le mot « Europe » (et ses déri­vés) au mot « divorce », dans des phrases comme : « Le divorce crois­sant entre les Euro­péens et l’Europe menace jusqu’à l’idée même d’unité euro­péenne. » Euro­péiste convain­cu, il a fait acti­ve­ment (outra­geu­se­ment pensent cer­tains, comme Acri­med) cam­pagne pour le oui au réfé­ren­dum sur le trai­té consti­tu­tion­nel de 2005.

Mais ces quelques coup de sonde n’ont pas don­né grand chose : les « cooc­cur­rences » (soit les mots qu’on relève sou­vent au voi­si­nage d’un autre dans le texte) détec­tées m’ont sem­blé assez neutres – en y pas­sant plus de temps, un spé­cia­liste ferait peut-être davan­tage de trou­vailles.

La preuve d’une pru­dence très diplo­ma­tique dans le choix des for­mu­la­tions ? Ber­nard Guet­ta explique en tout cas « sa très grande méfiance à l’égard de mots qui ne veulent plus rien dire, comme isla­miste » : « Je pré­fère uti­li­ser un lan­gage plus pré­cis, un mot qui décrit ce qui se passe. »

Mis à jour le 8 mai à 8h20. Erreur d’unité dans le clas­se­ment et la carte cor­ri­gée, mer­ci à @florenchev de l’avoir signa­lée.

Mis à jour le 11 mai à 8h30. Erreur dans le nombre de cita­tions d’Erdogan, mer­ci à Sibel Fuchs de l’avoir signa­lée sur Face­book.

Illus­tra­tion uti­li­sée sur la page Face­book Dans mon labo d’après pho­to David Mon­niaux (CC BY-SA)

5 outils qui vont vous aider à sortir le scoop de l’année

Dustin Hoffman et Robert Redford dans « Les Hommes du président »
Dus­tin Hoff­man et Robert Red­ford dans « Les Hommes du pré­sident »

Ima­gi­nez la scène. Un homme vous a contac­té et don­né ren­dez-vous au der­nier sous-sol d’un par­king mal éclai­ré. En jetant des regards par des­sus son épaule, les doigts trem­blants, il vous confie un gros disque dur, en expli­quant qu’il y a là-dedans des docu­ments explo­sifs pour la mul­ti­na­tio­nale dans laquelle il tra­vaille. Puis il dis­pa­raît sans deman­der son reste.

Vous voi­là en pos­ses­sion de don­nées qui seront, peut-être, à l’origine du scoop de votre car­rière. Tout jour­na­liste web a rêvé de vivre un tel moment – d’ailleurs, Edward, si jamais tu passes par ici, sache que j’ai une clé PGP, moi, pas comme cet étour­di de Glenn Green­wald.

Pro­blème : « Il est rare qu’un lan­ceur d’alertes se pointe après avoir ras­sem­blé toutes les infor­ma­tions utiles aux jour­na­listes dans un texte de quinze pages », a rap­pe­lé le spé­cia­liste en data­jour­na­lisme Frie­drich Lin­den­berg lors de son inter­ven­tion au Fes­ti­val de jour­na­lisme de Pérouse la semaine der­nière.

C’est plus pro­ba­ble­ment dans un fatras de mil­liers de docu­ments au for­mat PDF, Excel, Word, Power­point et leurs équi­va­lents qu’il va vous fal­loir fouiller, si vous vou­lez y déni­cher l’information exclu­sive qui vous vau­dra la gloire.

Heu­reu­se­ment, de plus en plus d’outils existent pour vous aider dans ce genre de situa­tions, sou­vent mis au point pour les jour­na­listes à l’occasion des pré­cé­dentes fuites de grande ampleur. Lin­den­berg en a décrit six, que voi­ci :

Capture d'écran du site de de DocumentCloud.
Cap­ture d’écran du site de de Docu­ment­Cloud.

Plu­tôt que navi­guer à l’aveugle dans le disque dur qu’on vous a refi­lé, avec le ges­tion­naire de fichiers de Win­dows ou de Mac OS, Docu­ment­Cloud per­met de sto­cker l’ensemble des docu­ments, de les par­cou­rir plus confor­ta­ble­ment, de les anno­ter et même de les inté­grer ensuite à vos articles.

Comme vous ris­quez d’avoir besoin d’aide dans vos démarches, vous pour­rez aus­si don­ner accès à vos pré­cieux fichiers à d’autres uti­li­sa­teurs ou groupes d’utilisateurs, en gérant fine­ment les auto­ri­sa­tions des uns et des autres.

Pour créer votre compte sur ce ser­vice, il vous fau­dra cepen­dant deman­der un accès à l’équipe qui a fon­dé ce ser­vice, en pré­sen­tant votre pro­jet. Une fois ins­tal­lé, Docu­ment­Cloud peut aus­si ser­vir à cen­tra­li­ser les docu­ments uti­li­sés par toute votre rédac­tion, et peut-être opé­rer des rap­pro­che­ments entre deux enquêtes sépa­rées.

Atten­tion quand même : si vos docu­ments sont vrai­ment explo­sifs, du genre à faire sau­ter la Répu­blique, vous évi­te­rez d’utiliser ce ser­vice direc­te­ment en ligne, mais vous l’installerez plu­tôt « en local », soit sur votre ordi­na­teur seule­ment – sachant que dans un cas pareil, bien d’autres pré­cau­tions s’imposent.

  • Over­view pour faire par­ler les gros ensembles de docu­ments
Capture d'écran du site d'Overview.
Cap­ture d’écran du site d’Overview.

L’outil a été mis au point à l’origine par l’agence AP et la Knight Foun­da­tion pour explo­rer les docu­ments de l’armée amé­ri­caine sur la guerre en Afgha­nis­tan dif­fu­sés par Wiki­leaks.

Ses algo­rithmes opèrent des rap­pro­che­ments entre les concepts qu’il a détec­té dans les mil­lions de fichiers que vous lui avez fait ava­ler (jusqu’aux sons au for­mat MP3), en créant des liens entre ces dif­fé­rents clus­ters. Pour explo­rer les e-mails pira­tés de Sony, Over­view se révèle ain­si beau­coup plus effi­cace que l’outil mis en ligne par le site de Julian Assange.

Il per­met aus­si de taguer vos recherches pour les retrou­ver plus faci­le­ment, et pro­pose plu­sieurs modes de visua­li­sa­tion. « L’équipe qui s’en occupe est très inté­res­sée par les nou­veaux outils d’analyse et les nou­veaux chal­lenges, explique Lin­den­berg. Ils vous aide­ront dans vos recherches, et peuvent amé­lio­rer une fonc­tion­na­li­té en quelques heures seule­ment. » Over­view peut aus­si être ins­tal­lé en local.

  • Crow­da­ta pour que les inter­nautes vous aident dans votre quête
Capture d'écran du site de Vozdata.
Cap­ture d’écran du site de Voz­da­ta.

Après avoir pas­sé vos week-ends et vos nuits à cher­cher la pièce maî­tresse per­due dans le gros tas d’octets qu’on vous a mis sur les bras, vous avez un coup de mou ? Il est temps de deman­der à Inter­net de vous venir en aide.

Crow­da­ta est l’outil qui a ser­vi au quo­ti­dien argen­tin La Nacion à lan­cer Voz­da­ta, une opé­ra­tion de crowd­sour­cing pour laquelle chaque inter­naute était invi­té à exa­mi­ner un des 6 500 docu­ments comp­tables four­nis par les séna­teurs afin y cher­cher d’éventuelles irré­gu­la­ri­tés. Inven­teur de cet exer­cice de trans­pa­rence, le Guar­dian le repro­duit chaque année pour les notes de frais des dépu­tés bri­tan­niques.

Crow­da­ta peut se bran­cher direc­te­ment sur Docu­ment­Cloud, pour vous faci­li­ter encore la tâche. Mais vous aurez sans doute besoin de l’aide d’un déve­lop­peur pour l’installer, et faire de tous vos lec­teurs deds enquê­teurs en pan­toufles.

  • Tabu­la  pour extraire des tableaux dans des docu­ments PDF
Capture d'écran du site de Tabula.
Cap­ture d’écran du site de Tabu­la.

Sou­vent uti­li­sé pour la dif­fu­sion d’études ou de rap­ports, le PDF est un for­mat qui empoi­sonne la vie des data­jour­na­listes, parce qu’il n’est pas vrai­ment conçu pour qu’on puisse réuti­li­ser les divers élé­ments com­po­sant un docu­ment.

Avec Tabu­la, il suf­fit de sélec­tion­ner le tableau qui vous inté­resse pour les lignes et les colonnes et les mani­pu­ler dans un tableur. Selon Lin­den­berg, Tabu­la est l’une des meilleures solu­tions pour cette tache, mais elle n’est pas par­faite : des déca­lages entre les colonnes peuvent appa­raître et cor­rompre votre série de don­nées.

C’est pour ça qu’il teste sou­vent plu­sieurs outils pour un même tableau, avant d’opter pour celui qui s’en sort le mieux (selon mon expé­rience, Adobe Acro­bat fait ça plu­tôt bien, mais il est payant).

  • Aleph pour croi­ser vos don­nées avec d’autres sources
Capture d'écran du site d'Aleph.
Cap­ture d’écran du site d’Aleph.

Pour tirer cette affaire au clair, vous aurez peut-être besoin de croi­ser vos pré­cieux fichiers avec d’autres sources exis­tantes. C’est ce que pro­pose Aleph, outil encore expé­ri­men­tal mais avec lequel vous pou­vez jouer pour cher­cher si la per­son­na­li­té ou l’entreprise sur laquelle vous tra­vaillez appa­raît ailleurs, grâce à des repré­sen­ta­tions gra­phiques.

Uti­li­ser davan­tage le recou­pe­ment avec des bases déjà en lignes, c’est deve­nu « la croi­sade per­son­nelle » de Lin­den­berg :

« Il faut que les jour­na­listes d’investigation acceptent de dire à des gens comme moi qui sont les per­sonnes ou entre­prises qui les inté­ressent, cette infor­ma­tion res­tant confi­den­tielle, bien sûr.

Dès que j’ai cette liste, je peux mener des recherches dans une grande quan­ti­té de docu­ments déjà publiés, et acti­ver des noti­fi­ca­tions dès qu’une nou­velle cor­res­pon­dance est trou­vé. Mais les jour­na­listes ne lâchent pas faci­le­ment ce genre d’info, il faut encore que je trouve un moyen de les convaincre. »