Comment j’ai réalisé les cartes du monde selon les médias français

C’est sans doute l’expérience publiée sur ce site qui m’a don­né le plus de fil à retordre. Il a fal­lu pas­ser par de nom­breuses et fas­ti­dieuses étapes pour arri­ver à la publi­ca­tion de la série de cartes du monde tel que le voient les médias fran­çais Dans mon labo.

Mais je suis content du ren­du un peu arty de ces ana­mor­phoses – j’ai emprun­té l’idée et une par­tie de la méthode à Alter­mondes, qui en avait réa­li­sé une à l’occasion de sa cam­pagne de crowd­fun­ding.

1. Scraper les résultats de recherche Google en Python

C’était la pre­mière fois que je réa­li­sais un tra­vail d’extraction auto­ma­tique de don­nées en conce­vant un script dans un lan­gage de pro­gram­ma­tion plu­tôt qu’en uti­li­sant un logi­ciel dis­po­sant d’une inter­face gra­phique, comme Out­wit Hub.

Je me suis ser­vi de Scra­py, un outil qui m’a beau­coup faci­li­té la tâche, mais que je n’ai pas réus­si à ins­tal­ler sur mon Mac (la faute à El Capi­tan, semble-t-il) : il a fal­lu res­sor­tir un por­table sous Linux pour par­ve­nir à le lan­cer.

La mise au point du script m’a pris pas mal de temps, mais une fois que j’ai com­pris la logique, j’ai avan­cé rela­ti­ve­ment vite : il suf­fi­sait en effet de repé­rer l’endroit de la page des résul­tats de recherche où figure la men­tion « Envi­ron x résul­tats ».

Le plus com­pli­qué à été de com­po­ser avec les sécu­ri­tés qui se déclenchent sur les ser­veurs de Google quand on le sol­li­cite trop : même en ralen­tis­sant beau­coup le rythme du robot pas­sant sur ces pages, je finis­sais tou­jours par voir mon adresse IP blo­quée.

2. Analyser les résultats dans Google Sheets

C’est en com­men­çant à trier et à fil­trer les résul­tats obte­nus que je me suis aper­çu qu’ils n’étaient pas tou­jours fiables : pour cer­tains pays, les résul­tats trou­vés dans Google Actua­li­tés (tous médias confon­dus) étaient en effet ajou­tés au résul­tats trou­vés sur un média par­ti­cu­lier…

J’ai alors ten­té ma chance sur Bing, mais ce der­nier ne per­met pas d’effectuer une recherche com­bi­nant plu­sieurs termes (avec l’opérateur OR) en ciblant un nom de domaine par­ti­cu­lier.

De retour sur Google, j’ai fini par obte­nir des don­nées cohé­rentes en limi­tant la recherche aux pages publiées lors de l’année écou­lée.

Il a fal­lu aus­si trai­ter quelques cas par­ti­cu­liers – par exemple, le mot « Cana­da » appa­raît sur toutes les pages du Huf­fing­ton Post et de Buzz­feed, ces deux sites pro­po­sant un accès vers leur édi­tion cana­dienne.

Il reste sans doute de petites aber­ra­tions de ce genre dans les don­nées uti­li­sées pour faire les cartes, mais j’ai consi­dé­ré qu’elles n’étaient pas pré­ju­di­ciables, vu la taille finale des cartes et leur niveau impor­tant de défor­ma­tion.

3. Ajouter les résultats obtenus à une carte du monde grâce à QGIS

Le logi­ciel de car­to­gra­phie avan­cé QGIS m’a per­mis d’ouvrir un sha­pe­file (fichier de contours) trou­vé sur The­ma­tic­Map­ping et de lui asso­cier mes propres don­nées via des recherches ver­ti­cales dans la table.

Pour que ça marche, il faut une clé com­mune aux deux fichiers : en l’occurence, le code ISO à trois chiffres, que j’avais pris soin d’utiliser pour chaque pays étu­dié – je l’ajoute désor­mais sys­té­ma­ti­que­ment à toutes mes feuilles de cal­cul quand elles sont basées sur des pays, une pré­cau­tion qui se révèle sou­vent utile.

4. Réaliser les anamorphoses avec ScapeToad

Dis­po­nible sur tous les OS via Java, Sca­pe­Toad est un petit logi­ciel plu­tôt bien fichu qui va réa­li­ser la défor­ma­tion du fichier sha­pe­file en tenant compte, pour chaque pays, d’une valeur numé­rique dis­po­nible dans la table asso­ciée au fichier de contours.

Le résul­tat peut être enre­gis­tré au for­mat d’image vec­to­riel SVG, ce qui per­met de l’utiliser ensuite à n’importe quelle taille.

Atten­tion : pour une carte du monde, les temps de cal­cul et de sau­ve­garde sont impor­tants (sur­tout quand il faut recom­men­cer la mani­pu­la­tion vingt fois pour vingt médias dif­fé­rents…).

5. Améliorer le résultat dans Adobe Illustrator

Le fichier SVG obte­nu peut être faci­le­ment ouvert et modi­fié dans Illus­tra­tor, ce qui m’a per­mis de chan­ger la cou­leur et la trans­pa­rence des pays, et de créer une ver­sion PNG uti­li­sée pour le par­tage Face­book.

Une fois les vingt cartes obte­nues, j’ai créé la petite info­gra­phie per­met­tant de bas­cu­ler d’un média à l’autre en HTML, CSS et JQue­ry. Enfin, j’ai uti­li­sé Data­wrap­per pour réa­li­ser les deux gra­phiques éga­le­ment pré­sents dans l’article.

Puisque vous passez par là…

J’ai besoin de votre aide : je m’intéresse à la mesure d’audience des médias en ligne (dans Google Analytics, sur Facebook, sur Twitter…) et à ce que les journalistes en font. En participant à ma petite enquête sur le sujet, vous m’aiderez à concevoir de nouveaux services intéressants.

Partager cet article

Lien copié !
C'est nul, je veux de gros boutons colorés !

Partager cet article

On en discute ?