Comment j’ai exploré plus de 500 chroniques de Bernard Guetta

La liste des chroniques de Bernard Guetta dans Google Sheet.
La liste des chro­niques de Ber­nard Guet­ta dans Google Sheet.

Comme sou­vent pour les pro­jets que je mène Dans mon labo, ma petite enquête autour des chro­niques de Ber­nard Guet­ta sur France  Inter m’a ame­né à uti­li­ser toute une pano­plie d’outils. Je les passe rapi­de­ment en revue dans cet article, en espé­rant que ça vous aide pour vos propres tra­vaux.

1. Récupérer le texte des chroniques avec Outwit Hub

Cette pre­mière étape a été rapide, la construc­tion du site de France Inter le ren­dant très simple à « scra­per ». Une page d’archives pro­pose en effet des liens vers cha­cune des chro­niques. Je l’ai char­gée dans Out­wit Hub puis ai deman­dé à ce der­nier d’attraper toutes les URL concer­nés (elles contiennent toutes la chaîne de carac­tères « emis­sion-geo­po­li­tique»).

Tou­jours dans Out­wit Hub, j’ai ensuite mis au point un scra­per pour extraire les élé­ments inté­res­sants du code HTML de la page, à com­men­cer par le texte. Vous pou­vez télé­char­ger cet extrac­teur (c’est un petit fichier XML) et l’importer dans Out­wit Hub si vous sou­hai­tez faire un tra­vail simi­laire avec d’autres conte­nus publiés sur le site de France Inter.

2. Nettoyage des textes avec Open Refine

Les textes récu­pé­rés étaient glo­ba­le­ment propres. Open Refine m’a cepen­dant per­mis de sup­pri­mer de mon échan­tillon les chro­niques du rem­pla­çant de Ber­nard Guet­ta, Antho­ny Bel­lan­ger (clas­sées dans la même rubrique sur le site de France Inter), ain­si que quelques entrées sans texte (cor­res­pon­dant à des pages vides sur le site).

J’ai éga­le­ment éga­le­ment pu reti­rer le code du lec­teur vidéo Dai­ly­mo­tion par­fois pré­sent en haut des textes.

3. Décompte des pays dans Google Sheet

Une fois les don­nées net­toyées, je les ai expor­tées au for­mat CSV et impor­tées dans le tableur Google Sheet. J’ai ajou­té une feuille avec une liste des pays du monde com­pi­lée par Wiki­pe­dia.

Dans cette deuxième feuille, j’ai pu cher­cher, grâce à la fonc­tion COUNTIF, les occu­rences de chaque pays dans la colonne concer­née de la pre­mière feuille.

J’ai fait quelques tests et pas­sé en revue la liste pour trai­ter quelques cas par­ti­cu­liers. Par exemple, pour la Bir­ma­nie, le mot Myan­mar est par­fois uti­li­sé ; le Nigé­ria est par­fois écrit « Nige­ria » ; le mot Congo peut dési­gner deux pays, le Congo-Braz­za­ville ou le Congo-Kin­sha­sa : le mot Hol­lande est un pays mais aus­si un pré­sident fran­çais…

Il n’est d’ailleurs pas exclu qu’il reste des erreurs après ce trai­te­ment, n’hésitez pas à me contac­ter si vous pen­sez en avoir déce­lé.

4. Croisement avec les données de la Banque mondiale

Un module com­plé­men­taire de Google Sheet m’a per­mis de tra­duire auto­ma­ti­que­ment les cel­lules conte­nant le nom du pays du fran­çais vers sa ver­sion anglaise.

J’ai récu­pé­ré la liste des codes ISO à trois carac­tères des pays du monde, et grâce à la fonc­tion VLOOKUP, j’ai pu attri­buer le bon code ISO à chaque pays de ma propre liste, non sans une série de cor­rec­tions « à la main ».

Le tout est un peu fas­ti­dieux, mais quand cette mani­pu­la­tion fini, c’est magique : avec comme clé com­mune le code ISO, il devient facile de croi­ser un tel fichier avec des cen­taines d’autres dis­po­nibles sur le Web.

Le site de la Banque mon­diale contient ain­si des séries de don­nées sur beau­coup d’indicateurs : popu­la­tion, super­fi­cie, PIB… Et le tableau qu’on télé­charge contient aus­si le code ISO, la fonc­tion VLOOKUP per­met donc de faire le rap­pro­che­ment auto­ma­ti­que­ment et sans risque d’erreur.

Exemple de nuage de points dans Google Sheet
Exemple de nuage de points dans Google Sheet

J’ai ensuite uti­li­ser la fonc­tion CORREL de Google Sheet pour cher­cher très faci­le­ment des cor­ré­la­tions (par exemple entre la popu­la­tion d’un pays et le nombre de fois où il est cité) d’une colonne de mon docu­ment à l’autre.

5. Réalisation de la carte avec TileMill

Je ne vais pas m’étendre sur cette par­tie du tra­vail, d’autant que Tile­Mill n’est plus main­te­nu – il est cen­sé être rem­pla­cé par Map­box Stu­dio, logi­ciel que j’ai tes­té et que je n’aime pas trop.

je suis par­ti du sha­pe­file conte­nant les déli­mi­ta­tions de chaque pays (y com­pris les zones contes­tées, comme le Soma­li­land ou le Saha­ra occi­den­tal, ce qui peut être source de pro­blèmes), et j’ai pu insé­rer dans le fichier DBF asso­cié des colonnes conte­nant mes propres don­nées – non sans mal.

L’avantage de Tile­Mill, c’est qu’il per­met de une confi­gu­ra­tion très pré­cise de la carte, des cou­leurs avec les­quelles « colo­rier » les pays au desi­gn des info-bulles, en pas­sant par le niveau de détails sou­hai­té à chaque niveau de zoom.

L’inconvénient, c’est que tout ça prend beau­coup de temps, au point que je ne sais pas si je recom­man­de­rai un outil aus­si sophis­ti­qué pour un tra­vail plus régu­lier au sein d’une rédac­tion.

J’ai l’impression qu’aucune solu­tion de car­to­gra­phie actuelle ne donne plei­ne­ment satis­fac­tion quand on est plus un bri­co­leur qu’un déve­lop­peur, mais vous avez peut-être de bons tuyaux à échan­ger dans les com­men­taires.

La carte créée dans Tile­Mill s’exporte faci­le­ment dans un compte Map­box, depuis lequel on récu­père le code d’intégration, sous forme d’iframe et avec quelques options inté­res­santes, comme la désac­ti­va­tion du zoom via la molette de la sou­ris.

6. Etude des textes avec le logiciel de lexicométrie TXM

C«était la par­tie la plus nou­velle pour moi dans ce pro­ces­sus : tes­ter des outils de lexi­co­mé­trie. Le socio­logue Bap­tiste Coul­mont, que je remer­cie au pas­sage, m’a conseillé sur Twit­ter d’essayer TXM, logi­ciel pri­sé des cher­cheurs dans ce domaine.

J’ai dû pas­ser par pas mal de tuto­riels et de guides, pour apprendre par exemple à « éti­que­ter » un cor­pus de texte, afin de trier les mots entre adjec­tifs, adverbes, verbes… Au pas­sage, j’ai appris des mots rigo­los comme « hapax » ou « lem­ma­ti­sa­tion ».

Les fonc­tion­na­li­tés qui m’ont le plus bluf­fé sont l’affichage des concor­dances (les mots qui pré­cèdent ou suivent chaque occu­rence d’un mot don­né du texte) et celle des cooc­cur­rences (les mots qui se retrouvent sou­vent au voi­si­nage d’un mot don­né du texte).

Mais si les pos­si­bi­li­tés de cet outils semblent pas­sion­nantes, je recom­mande pas mal de patience à ceux qui veulent s’y col­ler.

7. Réalisation des graphiques avec Datawrapper

Pas grand chose à signa­ler ici : j’ai pré­pa­ré mes tableaux dans Google Sheet, je les ai copiés/collés dans Data­wrap­per et j’ai pu figno­ler la pré­sen­ta­tion des gra­phiques que vous avez vus.

Pré­ci­sion : l’intégration d’un gra­phique sur son propre site requiert désor­mais la sous­crip­tion à un abon­ne­ment payant, déci­sion que lequel Mir­ko Lorenz a expli­quée sur le blog de la socié­té.

Voi­là ! Il y avait sans doute bien plus simple pour arri­ver au même résul­tat, et je compte d’ailleurs sur vos conseils dans les com­men­taires ci-des­sous.

Je ne peux publier le cor­pus sur lequel j’ai tra­vaillé (ce serait une forme de repro­duc­tion sans auto­ri­sa­tion des textes), mais vous pou­vez télé­char­ger une syn­thèse par pays ou bien me contac­ter pour obte­nir l’ensemble de mes don­nées.

Un peu d'inspiration !

Depuis 2014, j'accompagne des médias dans leurs projets et je mène mes propres expériences. Retrouvez les réalisations dont je suis le plus fier dans un portfolio qui vous donnera envie d'innover !

Partager cet article

Lien copié !
C'est nul, je veux de gros boutons colorés !

Partager cet article

On en discute ?