Archives par mot-clé : computer assisted reporting

Comment j’ai exploré plus de 500 chroniques de Bernard Guetta

La liste des chroniques de Bernard Guetta dans Google Sheet.
La liste des chroniques de Bernard Guetta dans Google Sheet.

Comme souvent pour les projets que je mène Dans mon labo, ma petite enquête autour des chroniques de Bernard Guetta sur France  Inter m’a amené à utiliser toute une panoplie d’outils. Je les passe rapidement en revue dans cet article, en espérant que ça vous aide pour vos propres travaux.

1. Récupérer le texte des chroniques avec Outwit Hub

Cette première étape a été rapide, la construction du site de France Inter le rendant très simple à « scraper ». Une page d’archives propose en effet des liens vers chacune des chroniques. Je l’ai chargée dans Outwit Hub puis ai demandé à ce dernier d’attraper toutes les URL concernés (elles contiennent toutes la chaîne de caractères « emission-geopolitique »).

Toujours dans Outwit Hub, j’ai ensuite mis au point un scraper pour extraire les éléments intéressants du code HTML de la page, à commencer par le texte. Vous pouvez télécharger cet extracteur (c’est un petit fichier XML) et l’importer dans Outwit Hub si vous souhaitez faire un travail similaire avec d’autres contenus publiés sur le site de France Inter.

2. Nettoyage des textes avec Open Refine

Les textes récupérés étaient globalement propres. Open Refine m’a cependant permis de supprimer de mon échantillon les chroniques du remplaçant de Bernard Guetta, Anthony Bellanger (classées dans la même rubrique sur le site de France Inter), ainsi que quelques entrées sans texte (correspondant à des pages vides sur le site).

J’ai également également pu retirer le code du lecteur vidéo Dailymotion parfois présent en haut des textes.

3. Décompte des pays dans Google Sheet

Une fois les données nettoyées, je les ai exportées au format CSV et importées dans le tableur Google Sheet. J’ai ajouté une feuille avec une liste des pays du monde compilée par Wikipedia.

Dans cette deuxième feuille, j’ai pu chercher, grâce à la fonction COUNTIF, les occurences de chaque pays dans la colonne concernée de la première feuille.

J’ai fait quelques tests et passé en revue la liste pour traiter quelques cas particuliers. Par exemple, pour la Birmanie, le mot Myanmar est parfois utilisé ; le Nigéria est parfois écrit « Nigeria » ; le mot Congo peut désigner deux pays, le Congo-Brazzaville ou le Congo-Kinshasa : le mot Hollande est un pays mais aussi un président français…

Il n’est d’ailleurs pas exclu qu’il reste des erreurs après ce traitement, n’hésitez pas à me contacter si vous pensez en avoir décelé.

4. Croisement avec les données de la Banque mondiale

Un module complémentaire de Google Sheet m’a permis de traduire automatiquement les cellules contenant le nom du pays du français vers sa version anglaise.

J’ai récupéré la liste des codes ISO à trois caractères des pays du monde, et grâce à la fonction VLOOKUP, j’ai pu attribuer le bon code ISO à chaque pays de ma propre liste, non sans une série de corrections « à la main ».

Le tout est un peu fastidieux, mais quand cette manipulation fini, c’est magique : avec comme clé commune le code ISO, il devient facile de croiser un tel fichier avec des centaines d’autres disponibles sur le Web.

Le site de la Banque mondiale contient ainsi des séries de données sur beaucoup d’indicateurs : population, superficie, PIB… Et le tableau qu’on télécharge contient aussi le code ISO, la fonction VLOOKUP permet donc de faire le rapprochement automatiquement et sans risque d’erreur.

Exemple de nuage de points dans Google Sheet
Exemple de nuage de points dans Google Sheet

J’ai ensuite utiliser la fonction CORREL de Google Sheet pour chercher très facilement des corrélations (par exemple entre la population d’un pays et le nombre de fois où il est cité) d’une colonne de mon document à l’autre.

5. Réalisation de la carte avec TileMill

Je ne vais pas m’étendre sur cette partie du travail, d’autant que TileMill n’est plus maintenu — il est censé être remplacé par Mapbox Studio, logiciel que j’ai testé et que je n’aime pas trop.

je suis parti du shapefile contenant les délimitations de chaque pays (y compris les zones contestées, comme le Somaliland ou le Sahara occidental, ce qui peut être source de problèmes), et j’ai pu insérer dans le fichier DBF associé des colonnes contenant mes propres données — non sans mal.

L’avantage de TileMill, c’est qu’il permet de une configuration très précise de la carte, des couleurs avec lesquelles « colorier » les pays au design des info-bulles, en passant par le niveau de détails souhaité à chaque niveau de zoom.

L’inconvénient, c’est que tout ça prend beaucoup de temps, au point que je ne sais pas si je recommanderai un outil aussi sophistiqué pour un travail plus régulier au sein d’une rédaction.

J’ai l’impression qu’aucune solution de cartographie actuelle ne donne pleinement satisfaction quand on est plus un bricoleur qu’un développeur, mais vous avez peut-être de bons tuyaux à échanger dans les commentaires.

La carte créée dans TileMill s’exporte facilement dans un compte Mapbox, depuis lequel on récupère le code d’intégration, sous forme d’iframe et avec quelques options intéressantes, comme la désactivation du zoom via la molette de la souris.

6. Etude des textes avec le logiciel de lexicométrie TXM

C« était la partie la plus nouvelle pour moi dans ce processus : tester des outils de lexicométrie. Le sociologue Baptiste Coulmont, que je remercie au passage, m’a conseillé sur Twitter d’essayer TXM, logiciel prisé des chercheurs dans ce domaine.

J’ai dû passer par pas mal de tutoriels et de guides, pour apprendre par exemple à « étiqueter » un corpus de texte, afin de trier les mots entre adjectifs, adverbes, verbes… Au passage, j’ai appris des mots rigolos comme  « hapax »  ou  « lemmatisation ».

Les fonctionnalités qui m’ont le plus bluffé sont l’affichage des concordances (les mots qui précèdent ou suivent chaque occurence d’un mot donné du texte) et celle des cooccurrences (les mots qui se retrouvent souvent au voisinage d’un mot donné du texte).

Mais si les possibilités de cet outils semblent passionnantes, je recommande pas mal de patience à ceux qui veulent s’y coller.

7. Réalisation des graphiques avec Datawrapper

Pas grand chose à signaler ici : j’ai préparé mes tableaux dans Google Sheet, je les ai copiés/collés dans Datawrapper et j’ai pu fignoler la présentation des graphiques que vous avez vus.

Précision : l’intégration d’un graphique sur son propre site requiert désormais la souscription à un abonnement payant, décision que lequel Mirko Lorenz a expliquée sur le blog de la société.

Voilà ! Il y avait sans doute bien plus simple pour arriver au même résultat, et je compte d’ailleurs sur vos conseils dans les commentaires ci-dessous.

Je ne peux publier le corpus sur lequel j’ai travaillé (ce serait une forme de reproduction sans autorisation des textes), mais vous pouvez télécharger une synthèse par pays ou bien me contacter pour obtenir l’ensemble de mes données.

Le monde selon Bernard Guetta : la carte de ses 500 chroniques

Ça se passe au moment où la tartine beurrée entre en contact avec le café brûlant. Un ronronnement s'échappe du poste de radio. Une voix familière qui chevrote un peu, un phrasé impeccable qui franchit les "premièrement", les "deuxièmement" et les "mais également" sans jamais trébucher. Le texte, lui, glisse sans cahot d'une conférence genevoise à une réunion du G7, en passant par Bruxelles et ses sommets de la dernière chance.

Une chronique quotidienne depuis 1991

Bernard Guetta, 64 ans, est "un majestueux monument à dômes et à coupoles [...] installé dans le paysage matinal", s'amusait Daniel Schneidermann. S'il le taquine, le fondateur d'Arrêt sur images voit aussi en lui l'un des rares journalistes qui "dans chaque événement microscopique cherchent par réflexe les racines profondes, les lointaines conséquences, bref la perspective".

Le chroniqueur a rejoint France Inter en 1991 après une carrière déjà longue et tient depuis la chronique Géopolitique chaque matin, du lundi au vendredi à 8h19. Ce passage obligé de la matinale est inscrit dans la routine des auditeurs, sur le mode "déjà Guetta, faut y aller, Matteo va être en retard à l'école".

Lire l'article

Les pays les plus cités dans la chronique Géopolitique de France Inter

0 1-10 10-50 50-100 100-200 +200
           

Cliquez ou tapotez sur un pays pour plus d'infos, double-cliquez ou pincez pour zoomer.

Mais à quoi ressemble la carte du monde que Guetta raconte à près de 4 millions de Français mal réveillés ?

C'est à cette question que j'ai tenté de répondre en analysant 520 chroniques publiées sur le site de France Inter entre août 2012 et mai 2015 -- pour ceux que ça intéresse, je reviens sur les outils utilisés dans un autre article de ce site.

Un tiers de plus que le Nouveau Testament

Près de trois saisons de chroniques pour un imposant corpus de plus de 300 000 mots (pour vous donner une idée, ça fait un tiers de plus que le Nouveau Testament), soit 1,6 million de signes ou encore plus de 1 000 feuillets.

La carte en haut de cette page montre le résultat de ses recherches (contactez-moi ou laissez un commentaire si vous avez remarqué une erreur ou une bizarrerie). Je les ai également rassemblées sous forme de classements.

En se promenant sur la planète de Bernard Guetta, on remarque bien sûr la domination des Etats-Unis, cités dans un près d'une chronique sur deux. Mais la Russie, le Proche-Orient et le Moyen-Orient sont aussi bien servis par le chroniqueur. Logique, vu l'actualité de ces trois dernières années en Ukraine, en Syrie et dans le reste du monde arabe.

Les pays émergents sont moins bien lotis : la Chine n'a été citée que 61 fois, et l'Inde (21 ) comme le Brésil (6) ne semblent guère passionner le chroniqueur.

Même relatif désintérêt pour l'Afrique, surtout si on met de côté les pays où la France est intervenue militairement (Libye, Mali, Centrafrique) -- le Nigéria, devenu pourtant la première économie d'Afrique n'est cité que sept fois. Ou pour l'ensemble Amérique latine, malgré les remuants dirigeants du Venezuela, de la Bolivie et de l'Equateur.

"Eclairer les événements, les hiérarchiser"

Loin des yeux, loin du cœur de Guetta ? L'Indonésie, malgré ses 250 millions d'habitants, n'est mentionnée qu'une seule fois, l'Australie et l'Afrique du Sud trois fois seulement.

A l'inverse, de petits pays sont l'objet d'une plus grande attention, comme le Liban, présent dans 35 chroniques, l'Arménie (7) et bien sûr le Vatican (7).

Devant ces chiffres parfois étonnants, Bernard Guetta m'explique qu'il n'est "pas un universitaire", qu'il n'a pas vocation "à passer en revue les plus de 200 pays présents l'ONU", mais qu'il entend, en bon journaliste, "éclairer les événements les plus marquants et les hiérarchiser".

Le chroniqueur explique ne pas chercher, au fil de ses interventions, un équilibre entre les différentes régions du monde. "C'est l'actualité qui commande", résume-t-il, ajoutant :

"Je vous mets en garde contre la tentation de tirer des conclusions basées seulement sur le nombre d'occurrences, pour moi ce n'est pas pertinent." 

Thaïlande, Maroc, Birmanie : rien

Mais ce qui m'a le plus surpris, ce sont les trous du gruyère : en effet, la liste des pays qui n'ont jamais cités en plus de 500 chroniques comprend quelques poids lourds.

C'est le cas de la Thaïlande, qui a pourtant connu, sur la période étudiée, une crise politique majeure débouchant sur une reprise en main du pays par l'armée. Mais aussi de la Birmanie, dont le régime donne des signes d'ouverture depuis la libération d'Aung San Suu Kyi en 2010.

Plus frappant encore, le cas du Maroc, où Guetta a pourtant passé une partie de sa jeunesse -- l'Algérie voisine est elle mentionnée 22 fois. Ces absences ne perturbent cependant pas l'intéressé :

"Tout dépend de la période que vous étudiez. Il n'était pas illogique que je n'aie pas parlé du Maroc ces derniers temps, il n'y avait pas d'actualité importante dans ce pays.

La brouille avec la France [après que le chef du contre-espionnage marocain Abdellatif Hammouchi a été convoqué par un juge français lors d'un voyage à Paris, ndlr] n'a pas duré très longtemps.

J'en aurais peut-être parlé si personne ne l'avait fait, mais j'ai considéré que ça ne faisait pas le poids, à ce moment-là, face à d'autres événements."

C'est la limite de mon petit travail : comme tous les journalistes, Guetta parle d'abord des pays dont on parle, ceux qui sont "dans l'actualité", aussi mouvante soit la définition qu'on donne à ce mot. Mais je reste convaincu que sur une si longue période et un si grand nombre de textes, mon exploration du "monde de Bernard Guetta" a malgré tout du sens.

Plus un pays est riche, plus il est cité

Si on met de côté l'actu, quel critère peut expliquer qu'un pays s'impose ou non sur cette drôle de mappemonde ? En croisant ces relevés avec les données de la Banque mondiale, j'ai cherché des corrélations. J'ai fait chou blanc avec la superficie, la population, le PIB par habitant ou le nombre de décès dans des conflits armés.

En revanche, plus un pays est globalement riche, et plus il a de chances d'être cité dans les chroniques de Guetta -- pour les matheux, le coefficient de corrélation est de 0,64.  Ce n'est pas illogique : une économie importante va souvent de pair avec des dépenses militaires significatives et une diplomatie plus active.

La liste des personnalités les plus citées réserve elle peu de surprises, même si on notera que Jacques Delors et Charles de Gaulle font de fréquentes apparitions -- le premier est plus souvent cité qu'Hugo Chavez.

Enfin, je me suis aussi intéressé au contexte dans lequel ces pays et ces personnalités étaient citées, grâce à un logiciel de "lexicométrie". J'ai cherché par exemple les adjectifs les qualifiant, notamment ceux qui peuvent dénoter un jugement de valeur voire un parti-pris (par exemple, "populiste" pour Chavez ou "intransigeant" pour Poutine).

L'Europe et le "divorce" des Européens

On peut voir ainsi que Guetta associe très souvent le mot "Europe" (et ses dérivés) au mot "divorce", dans des phrases comme : "Le divorce croissant entre les Européens et l’Europe menace jusqu’à l’idée même d’unité européenne." Européiste convaincu, il a fait activement (outrageusement pensent certains, comme Acrimed) campagne pour le oui au référendum sur le traité constitutionnel de 2005.

Mais ces quelques coup de sonde n'ont pas donné grand chose : les "cooccurrences" (soit les mots qu'on relève souvent au voisinage d'un autre dans le texte) détectées m'ont semblé assez neutres -- en y passant plus de temps, un spécialiste ferait peut-être davantage de trouvailles.

La preuve d'une prudence très diplomatique dans le choix des formulations ? Bernard Guetta explique en tout cas "sa très grande méfiance à l'égard de mots qui ne veulent plus rien dire, comme islamiste" : "Je préfère utiliser un langage plus précis, un mot qui décrit ce qui se passe."

Mis à jour le 8 mai à 8h20. Erreur d'unité dans le classement et la carte corrigée, merci à @florenchev de l'avoir signalée.

Mis à jour le 11 mai à 8h30. Erreur dans le nombre de citations d'Erdogan, merci à Sibel Fuchs de l'avoir signalée sur Facebook.

Illustration utilisée sur la page Facebook Dans mon labo d'après photo David Monniaux (CC BY-SA)

5 outils qui vont vous aider à sortir le scoop de l’année

Dustin Hoffman et Robert Redford dans « Les Hommes du président »
Dustin Hoffman et Robert Redford dans « Les Hommes du président »

Imaginez la scène. Un homme vous a contacté et donné rendez-vous au dernier sous-sol d’un parking mal éclairé. En jetant des regards par dessus son épaule, les doigts tremblants, il vous confie un gros disque dur, en expliquant qu’il y a là-dedans des documents explosifs pour la multinationale dans laquelle il travaille. Puis il disparaît sans demander son reste.

Vous voilà en possession de données qui seront, peut-être, à l’origine du scoop de votre carrière. Tout journaliste web a rêvé de vivre un tel moment — d’ailleurs, Edward, si jamais tu passes par ici, sache que j’ai une clé PGP, moi, pas comme cet étourdi de Glenn Greenwald.

Problème : « Il est rare qu’un lanceur d’alertes se pointe après avoir rassemblé toutes les informations utiles aux journalistes dans un texte de quinze pages », a rappelé le spécialiste en datajournalisme Friedrich Lindenberg lors de son intervention au Festival de journalisme de Pérouse la semaine dernière.

C’est plus probablement dans un fatras de milliers de documents au format PDF, Excel, Word, Powerpoint et leurs équivalents qu’il va vous falloir fouiller, si vous voulez y dénicher l’information exclusive qui vous vaudra la gloire.

Heureusement, de plus en plus d’outils existent pour vous aider dans ce genre de situations, souvent mis au point pour les journalistes à l’occasion des précédentes fuites de grande ampleur. Lindenberg en a décrit six, que voici :

  • DocumentCloud pour héberger les données et gérer leur accès
Capture d'écran du site de de DocumentCloud.
Capture d’écran du site de de DocumentCloud.

Plutôt que naviguer à l’aveugle dans le disque dur qu’on vous a refilé, avec le gestionnaire de fichiers de Windows ou de Mac OS, DocumentCloud permet de stocker l’ensemble des documents, de les parcourir plus confortablement, de les annoter et même de les intégrer ensuite à vos articles.

Comme vous risquez d’avoir besoin d’aide dans vos démarches, vous pourrez aussi donner accès à vos précieux fichiers à d’autres utilisateurs ou groupes d’utilisateurs, en gérant finement les autorisations des uns et des autres.

Pour créer votre compte sur ce service, il vous faudra cependant demander un accès à l’équipe qui a fondé ce service, en présentant votre projet. Une fois installé, DocumentCloud peut aussi servir à centraliser les documents utilisés par toute votre rédaction, et peut-être opérer des rapprochements entre deux enquêtes séparées.

Attention quand même : si vos documents sont vraiment explosifs, du genre à faire sauter la République, vous éviterez d’utiliser ce service directement en ligne, mais vous l’installerez plutôt « en local », soit sur votre ordinateur seulement — sachant que dans un cas pareil, bien d’autres précautions s’imposent.

  • Overview pour faire parler les gros ensembles de documents
Capture d'écran du site d'Overview.
Capture d’écran du site d’Overview.

L’outil a été mis au point à l’origine par l’agence AP et la Knight Foundation pour explorer les documents de l’armée américaine sur la guerre en Afghanistan diffusés par Wikileaks.

Ses algorithmes opèrent des rapprochements entre les concepts qu’il a détecté dans les millions de fichiers que vous lui avez fait avaler (jusqu’aux sons au format MP3), en créant des liens entre ces différents clusters. Pour explorer les e-mails piratés de Sony, Overview se révèle ainsi beaucoup plus efficace que l’outil mis en ligne par le site de Julian Assange.

Il permet aussi de taguer vos recherches pour les retrouver plus facilement, et propose plusieurs modes de visualisation.  « L’équipe qui s’en occupe est très intéressée par les nouveaux outils d’analyse et les nouveaux challenges, explique Lindenberg. Ils vous aideront dans vos recherches, et peuvent améliorer une fonctionnalité en quelques heures seulement. » Overview peut aussi être installé en local.

  • Crowdata pour que les internautes vous aident dans votre quête
Capture d'écran du site de Vozdata.
Capture d’écran du site de Vozdata.

Après avoir passé vos week-ends et vos nuits à chercher la pièce maîtresse perdue dans le gros tas d’octets qu’on vous a mis sur les bras, vous avez un coup de mou ? Il est temps de demander à Internet de vous venir en aide.

Crowdata est l’outil qui a servi au quotidien argentin La Nacion à lancer Vozdata, une opération de crowdsourcing pour laquelle chaque internaute était invité à examiner un des 6 500 documents comptables fournis par les sénateurs afin y chercher d’éventuelles irrégularités. Inventeur de cet exercice de transparence, le Guardian le reproduit chaque année pour les notes de frais des députés britanniques.

Crowdata peut se brancher directement sur DocumentCloud, pour vous faciliter encore la tâche. Mais vous aurez sans doute besoin de l’aide d’un développeur pour l’installer, et faire de tous vos lecteurs deds enquêteurs en pantoufles.

  • Tabula  pour extraire des tableaux dans des documents PDF
Capture d'écran du site de Tabula.
Capture d’écran du site de Tabula.

Souvent utilisé pour la diffusion d’études ou de rapports, le PDF est un format qui empoisonne la vie des datajournalistes, parce qu’il n’est pas vraiment conçu pour qu’on puisse réutiliser les divers éléments composant un document.

Avec Tabula, il suffit de sélectionner le tableau qui vous intéresse pour les lignes et les colonnes et les manipuler dans un tableur. Selon Lindenberg, Tabula est l’une des meilleures solutions pour cette tache, mais elle n’est pas parfaite : des décalages entre les colonnes peuvent apparaître et corrompre votre série de données.

C’est pour ça qu’il teste souvent plusieurs outils pour un même tableau, avant d’opter pour celui qui s’en sort le mieux (selon mon expérience, Adobe Acrobat fait ça plutôt bien, mais il est payant).

  • Aleph pour croiser vos données avec d’autres sources
Capture d'écran du site d'Aleph.
Capture d’écran du site d’Aleph.

Pour tirer cette affaire au clair, vous aurez peut-être besoin de croiser vos précieux fichiers avec d’autres sources existantes. C’est ce que propose Aleph, outil encore expérimental mais avec lequel vous pouvez jouer pour chercher si la personnalité ou l’entreprise sur laquelle vous travaillez apparaît ailleurs, grâce à des représentations graphiques.

Utiliser davantage le recoupement avec des bases déjà en lignes, c’est devenu « la croisade personnelle » de Lindenberg :

«  Il faut que les journalistes d’investigation acceptent de dire à des gens comme moi qui sont les personnes ou entreprises qui les intéressent, cette information restant confidentielle, bien sûr.

Dès que j’ai cette liste, je peux mener des recherches dans une grande quantité de documents déjà publiés, et activer des notifications dès qu’une nouvelle correspondance est trouvé. Mais les journalistes ne lâchent pas facilement ce genre d’info, il faut encore que je trouve un moyen de les convaincre. »