Archives par mot-clé : lexicométrie

Comment j’ai exploré plus de 500 chroniques de Bernard Guetta

La liste des chroniques de Bernard Guetta dans Google Sheet.
La liste des chro­niques de Ber­nard Guet­ta dans Google Sheet.

Comme sou­vent pour les pro­jets que je mène Dans mon labo, ma petite enquête autour des chro­niques de Ber­nard Guet­ta sur France  Inter m’a ame­né à uti­li­ser toute une pano­plie d’outils. Je les passe rapi­de­ment en revue dans cet article, en espé­rant que ça vous aide pour vos propres tra­vaux.

1. Récupérer le texte des chroniques avec Outwit Hub

Cette pre­mière étape a été rapide, la construc­tion du site de France Inter le ren­dant très simple à « scra­per ». Une page d’archives pro­pose en effet des liens vers cha­cune des chro­niques. Je l’ai char­gée dans Out­wit Hub puis ai deman­dé à ce der­nier d’attraper toutes les URL concer­nés (elles contiennent toutes la chaîne de carac­tères « emis­sion-geo­po­li­tique»).

Tou­jours dans Out­wit Hub, j’ai ensuite mis au point un scra­per pour extraire les élé­ments inté­res­sants du code HTML de la page, à com­men­cer par le texte. Vous pou­vez télé­char­ger cet extrac­teur (c’est un petit fichier XML) et l’importer dans Out­wit Hub si vous sou­hai­tez faire un tra­vail simi­laire avec d’autres conte­nus publiés sur le site de France Inter.

2. Nettoyage des textes avec Open Refine

Les textes récu­pé­rés étaient glo­ba­le­ment propres. Open Refine m’a cepen­dant per­mis de sup­pri­mer de mon échan­tillon les chro­niques du rem­pla­çant de Ber­nard Guet­ta, Antho­ny Bel­lan­ger (clas­sées dans la même rubrique sur le site de France Inter), ain­si que quelques entrées sans texte (cor­res­pon­dant à des pages vides sur le site).

J’ai éga­le­ment éga­le­ment pu reti­rer le code du lec­teur vidéo Dai­ly­mo­tion par­fois pré­sent en haut des textes.

3. Décompte des pays dans Google Sheet

Une fois les don­nées net­toyées, je les ai expor­tées au for­mat CSV et impor­tées dans le tableur Google Sheet. J’ai ajou­té une feuille avec une liste des pays du monde com­pi­lée par Wiki­pe­dia.

Dans cette deuxième feuille, j’ai pu cher­cher, grâce à la fonc­tion COUNTIF, les occu­rences de chaque pays dans la colonne concer­née de la pre­mière feuille.

J’ai fait quelques tests et pas­sé en revue la liste pour trai­ter quelques cas par­ti­cu­liers. Par exemple, pour la Bir­ma­nie, le mot Myan­mar est par­fois uti­li­sé ; le Nigé­ria est par­fois écrit « Nige­ria » ; le mot Congo peut dési­gner deux pays, le Congo-Braz­za­ville ou le Congo-Kin­sha­sa : le mot Hol­lande est un pays mais aus­si un pré­sident fran­çais…

Il n’est d’ailleurs pas exclu qu’il reste des erreurs après ce trai­te­ment, n’hésitez pas à me contac­ter si vous pen­sez en avoir déce­lé.

4. Croisement avec les données de la Banque mondiale

Un module com­plé­men­taire de Google Sheet m’a per­mis de tra­duire auto­ma­ti­que­ment les cel­lules conte­nant le nom du pays du fran­çais vers sa ver­sion anglaise.

J’ai récu­pé­ré la liste des codes ISO à trois carac­tères des pays du monde, et grâce à la fonc­tion VLOOKUP, j’ai pu attri­buer le bon code ISO à chaque pays de ma propre liste, non sans une série de cor­rec­tions « à la main ».

Le tout est un peu fas­ti­dieux, mais quand cette mani­pu­la­tion fini, c’est magique : avec comme clé com­mune le code ISO, il devient facile de croi­ser un tel fichier avec des cen­taines d’autres dis­po­nibles sur le Web.

Le site de la Banque mon­diale contient ain­si des séries de don­nées sur beau­coup d’indicateurs : popu­la­tion, super­fi­cie, PIB… Et le tableau qu’on télé­charge contient aus­si le code ISO, la fonc­tion VLOOKUP per­met donc de faire le rap­pro­che­ment auto­ma­ti­que­ment et sans risque d’erreur.

Exemple de nuage de points dans Google Sheet
Exemple de nuage de points dans Google Sheet

J’ai ensuite uti­li­ser la fonc­tion CORREL de Google Sheet pour cher­cher très faci­le­ment des cor­ré­la­tions (par exemple entre la popu­la­tion d’un pays et le nombre de fois où il est cité) d’une colonne de mon docu­ment à l’autre.

5. Réalisation de la carte avec TileMill

Je ne vais pas m’étendre sur cette par­tie du tra­vail, d’autant que Tile­Mill n’est plus main­te­nu – il est cen­sé être rem­pla­cé par Map­box Stu­dio, logi­ciel que j’ai tes­té et que je n’aime pas trop.

je suis par­ti du sha­pe­file conte­nant les déli­mi­ta­tions de chaque pays (y com­pris les zones contes­tées, comme le Soma­li­land ou le Saha­ra occi­den­tal, ce qui peut être source de pro­blèmes), et j’ai pu insé­rer dans le fichier DBF asso­cié des colonnes conte­nant mes propres don­nées – non sans mal.

L’avantage de Tile­Mill, c’est qu’il per­met de une confi­gu­ra­tion très pré­cise de la carte, des cou­leurs avec les­quelles « colo­rier » les pays au desi­gn des info-bulles, en pas­sant par le niveau de détails sou­hai­té à chaque niveau de zoom.

L’inconvénient, c’est que tout ça prend beau­coup de temps, au point que je ne sais pas si je recom­man­de­rai un outil aus­si sophis­ti­qué pour un tra­vail plus régu­lier au sein d’une rédac­tion.

J’ai l’impression qu’aucune solu­tion de car­to­gra­phie actuelle ne donne plei­ne­ment satis­fac­tion quand on est plus un bri­co­leur qu’un déve­lop­peur, mais vous avez peut-être de bons tuyaux à échan­ger dans les com­men­taires.

La carte créée dans Tile­Mill s’exporte faci­le­ment dans un compte Map­box, depuis lequel on récu­père le code d’intégration, sous forme d’iframe et avec quelques options inté­res­santes, comme la désac­ti­va­tion du zoom via la molette de la sou­ris.

6. Etude des textes avec le logiciel de lexicométrie TXM

C«était la par­tie la plus nou­velle pour moi dans ce pro­ces­sus : tes­ter des outils de lexi­co­mé­trie. Le socio­logue Bap­tiste Coul­mont, que je remer­cie au pas­sage, m’a conseillé sur Twit­ter d’essayer TXM, logi­ciel pri­sé des cher­cheurs dans ce domaine.

J’ai dû pas­ser par pas mal de tuto­riels et de guides, pour apprendre par exemple à « éti­que­ter » un cor­pus de texte, afin de trier les mots entre adjec­tifs, adverbes, verbes… Au pas­sage, j’ai appris des mots rigo­los comme « hapax » ou « lem­ma­ti­sa­tion ».

Les fonc­tion­na­li­tés qui m’ont le plus bluf­fé sont l’affichage des concor­dances (les mots qui pré­cèdent ou suivent chaque occu­rence d’un mot don­né du texte) et celle des cooc­cur­rences (les mots qui se retrouvent sou­vent au voi­si­nage d’un mot don­né du texte).

Mais si les pos­si­bi­li­tés de cet outils semblent pas­sion­nantes, je recom­mande pas mal de patience à ceux qui veulent s’y col­ler.

7. Réalisation des graphiques avec Datawrapper

Pas grand chose à signa­ler ici : j’ai pré­pa­ré mes tableaux dans Google Sheet, je les ai copiés/collés dans Data­wrap­per et j’ai pu figno­ler la pré­sen­ta­tion des gra­phiques que vous avez vus.

Pré­ci­sion : l’intégration d’un gra­phique sur son propre site requiert désor­mais la sous­crip­tion à un abon­ne­ment payant, déci­sion que lequel Mir­ko Lorenz a expli­quée sur le blog de la socié­té.

Voi­là ! Il y avait sans doute bien plus simple pour arri­ver au même résul­tat, et je compte d’ailleurs sur vos conseils dans les com­men­taires ci-des­sous.

Je ne peux publier le cor­pus sur lequel j’ai tra­vaillé (ce serait une forme de repro­duc­tion sans auto­ri­sa­tion des textes), mais vous pou­vez télé­char­ger une syn­thèse par pays ou bien me contac­ter pour obte­nir l’ensemble de mes don­nées.