Comment j’ai réalisé les cartes de France de la VO et de la VF

Comme sou­vent, le tra­vail que j’ai réa­li­sé pour ma petite enquête sur la France de la VO et celle de la VF met en jeu toute une série d’outils que j’ai décou­vert au fil des ans, qu’il s’agisse de scra­ping, de join­tures de tables ou de repré­sen­ta­tion par ana­mor­phoses. L’ensemble des don­nées dont je me suis ser­vi est dis­po­nible dans une Google Sheet.

Je vais en décrire les dif­fé­rentes étapes, ce qui peut être utile si vous sou­hai­tez vous lan­cer dans un chan­tier com­pa­rable. N’hésitez pas à mettre votre grain de sel dans les com­men­taires.

1. Récupérer la liste des séances avec un scraping en deux étapes avec Outwit Hub

Pour com­men­cer, il fal­lu que je me consti­tue une base conte­nant l’ensemble des salles de ciné­ma de France. Par chance, le site Cine­fil pro­pose des pages lis­tant tous les cinés d’un dépar­te­ment (par exemple, ceux situés dans l’Ain).

J’ai d’abord géné­ré auto­ma­ti­que­ment une URL pour chaque dépar­te­ment sur cinefil.com dans Google Sheet. J’ai ouvert cette pre­mière liste dans Out­wit Hub, un logi­ciel de scra­ping qui m’a per­mis de ras­sem­bler une liste de 1 409 salles. Pour cha­cune, j’ai aus­si récu­pé­ré l’URL de sa page sur cinefil.com.

Sur ces 1 409 URL, j’ai fait pas­ser un second scra­per, afin de récu­pé­rer la liste des films dif­fu­sés dans chaque salle sur une jour­née, avec les horaires des séances et la ver­sion dif­fu­sée (VF ou VO). J’ai obte­nu ain­si une liste de 14 423 films et de 20 182 séances.

2. Déterminer la langue de tournage dans chaque film avec OMDB

Après quelques heures de tra­vail, je me suis aper­çu d’une chose toute bête mais qui m’avait échap­pé : sur Cine­fil, les séances des films en langue fran­çaise sont indi­quées « en VF », ce qui ne per­met pas de les dif­fé­ren­cier auto­ma­ti­que­ment des films en langue étran­gère dif­fu­sés en VF

Il a donc fal­lu que j’établisse une liste des 982 films dif­fé­rents dif­fu­sés sur toute la France ce jour-là (le 28 avril), et que je trouve un moyen de déter­mi­ner, pour cha­cun d’entre eux, s’il s’agit à l’origine d’un film tour­né en langue fran­çaise ou en langue étran­gère.

L’API Omdb m’a per­mis de récu­pé­rer cette infor­ma­tion dans un bon nombre de cas, par l’intermédiaire de Cloud Ignite, un module com­plé­men­taire de Google Sheet par­ti­cu­liè­re­ment pra­tique.

Pour le reste, j’ai réa­li­sé des croi­se­ments – par exemple, un film qui n’est dif­fu­sé qu’en VO sur toute la France ne peut être qu’un film en langue étran­gère – et des déduc­tions – par exemple, une copro­duc­tion France/Suisse/Belgique a de bonnes chances d’être tour­née en fran­çais.

Ce tri s’est révé­lé fas­ti­dieux et le résul­tat n’est pas garan­ti sans erreurs, mais j’ai esti­mé sa fia­bi­li­té suf­fi­sante pour conti­nuer à avan­cer, en met­tant de côté tous les films en langue fran­çaise.

3. Géolocaliser chaque salle de cinéma avec ezGecode

J’avais déjà récu­pé­ré l’adresse et le code pos­tal de chaque ciné­ma sur sa page Cine­fil. Pour en déduire sa lati­tude et sa lon­gi­tude, j’ai uti­li­sé un autre module com­plé­men­taire de Google Sheet, ezGeo­code.

La grande majo­ri­té des salles a ain­si été géo­lo­ca­li­sée auto­ma­ti­que­ment et avec une très bonne fia­bi­li­té, et j’ai réus­si à pla­cer le reste grâce à des recherches manuelles dans Google Maps.

 4. Déterminer le code commune pour chaque salle de cinéma

Afin de « marier » la base que je me suis ain­si consti­tuée avec les don­nées démo­gra­phiques four­nies par l’Insee ou les résul­tats élec­to­raux dis­po­nibles sur le site du minis­tère de l’Intérieur, il me fal­lait déter­mi­ner le code Insee de la com­mune où se trouve cha­cun des ciné­mas de ma liste.

J’ai pu le faire grâce à une table de cor­res­pon­dances et à la base offi­cielle des codes pos­taux, toutes deux dis­po­nibles sur Data.gouv.fr. Une série de recherches ver­ti­cales plus tard, j’avais pour chaque salle de ciné­ma des infor­ma­tions comme la popu­la­tion de la ville, le taux de pau­vre­té, le vote Macron…

Des tableaux croi­sés dyna­miques m’ont ensuite per­mis de conso­li­der les résul­tats pour cha­cune des 278 loca­li­tés fran­çaises pour­vues d’au moins une salle de ciné­ma (avec au moins une séance pro­gram­mée ce jour-là), puis pour chaque dépar­te­ment.

5. Réaliser les deux cartes interactives avec Carto

J’ai ensuite pré­pa­ré deux séries de don­nées, l’une avec toutes les salles où la part de la VO est majo­ri­taire (#team­vo), et l’autre avec les salles plu­tôt VF (#teamvf).

J’ai créé deux cartes basées sur ces jeux dans Car­to, et j’ai ajou­té dans cha­cune d’elle un calque sup­plé­men­taire, avec les contours de chaque dépar­te­ment et une cou­leur en fonc­tion de la part de la VO ou de la VF à cette échelle.

J’ai pas­sé pas mal de temps à cher­cher des réglages satis­fai­sants pour la taille des cercles, les nuances de cou­leurs ou encore la répar­ti­tion des dépar­te­ments en cinq caté­go­ries (choix des inter­valles).

6. Réaliser les cartes anamorphosées avec Qgis et Scapetoad

J’avais déjà uti­li­sé les ana­mor­phoses (car­to­grams en anglais) pour une série de cartes du monde tel que le voient les médias fran­çais qui avait tapé dans l’œil de pas mal d’observateurs. J’avais envie de com­men­cer mon article avec ce type de visiuels, que je trouve facile à appré­hen­der même pour des lec­teurs peu friands d’infographies.

J’ai récu­pé­ré un tra­cé des dépar­te­ments fran­çais au for­mat sha­pe­file sur OpenS­treet­Map.

J’ai ouvert ce fichier dans l’éditeur de cartes Qgis afin d’associer à chaque dépar­te­ment le nombre de séances en VO et en VF pour un mil­lion d’habitants.

C’est sur la base de ces deux don­nées que j’ai réa­li­sé les défor­ma­tions de la carte de France dans Sca­pe­Toad, un petit uti­li­taire dédié à la créa­tion d’anamorphoses.

7. Créer une série de graphiques dans Datawrapper

Pour ter­mi­ner, j’ai repris une der­nière fois mes don­nées pour iso­ler une série de chiffres de syn­thèse afin de créer les gra­phiques de syn­thèses qui figurent à la fin de l’article, en repre­nant les codes cou­leur.

Puisque vous passez par là…

J’ai besoin de votre aide : je m’intéresse à la mesure d’audience des médias en ligne (dans Google Analytics, sur Facebook, sur Twitter…) et à ce que les journalistes en font. En participant à ma petite enquête sur le sujet, vous m’aiderez à concevoir de nouveaux services intéressants.

Partager cet article

Lien copié !
C'est nul, je veux de gros boutons colorés !

On en discute ?