Comment j’ai réalisé les cartes de France de la VO et de la VF

Comme sou­vent, le tra­vail que j’ai réa­li­sé pour ma petite enquête sur la France de la VO et celle de la VF met en jeu toute une série d’outils que j’ai décou­vert au fil des ans, qu’il s’agisse de scra­ping, de join­tures de tables ou de repré­sen­ta­tion par ana­mor­phoses. L’ensemble des don­nées dont je me suis ser­vi est dis­po­nible dans une Google Sheet.

Je vais en décrire les dif­fé­rentes étapes, ce qui peut être utile si vous sou­hai­tez vous lan­cer dans un chan­tier com­pa­rable. N’hésitez pas à mettre votre grain de sel dans les com­men­taires.

1. Récupérer la liste des séances avec un scraping en deux étapes avec Outwit Hub

Pour com­men­cer, il fal­lu que je me consti­tue une base conte­nant l’ensemble des salles de ciné­ma de France. Par chance, le site Cine­fil pro­pose des pages lis­tant tous les cinés d’un dépar­te­ment (par exemple, ceux situés dans l’Ain).

J’ai d’abord géné­ré auto­ma­ti­que­ment une URL pour chaque dépar­te­ment sur cinefil.com dans Google Sheet. J’ai ouvert cette pre­mière liste dans Out­wit Hub, un logi­ciel de scra­ping qui m’a per­mis de ras­sem­bler une liste de 1 409 salles. Pour cha­cune, j’ai aus­si récu­pé­ré l’URL de sa page sur cinefil.com.

Sur ces 1 409 URL, j’ai fait pas­ser un second scra­per, afin de récu­pé­rer la liste des films dif­fu­sés dans chaque salle sur une jour­née, avec les horaires des séances et la ver­sion dif­fu­sée (VF ou VO). J’ai obte­nu ain­si une liste de 14 423 films et de 20 182 séances.

2. Déterminer la langue de tournage dans chaque film avec OMDB

Après quelques heures de tra­vail, je me suis aper­çu d’une chose toute bête mais qui m’avait échap­pé : sur Cine­fil, les séances des films en langue fran­çaise sont indi­quées « en VF », ce qui ne per­met pas de les dif­fé­ren­cier auto­ma­ti­que­ment des films en langue étran­gère dif­fu­sés en VF

Il a donc fal­lu que j’établisse une liste des 982 films dif­fé­rents dif­fu­sés sur toute la France ce jour-là (le 28 avril), et que je trouve un moyen de déter­mi­ner, pour cha­cun d’entre eux, s’il s’agit à l’origine d’un film tour­né en langue fran­çaise ou en langue étran­gère.

L’API Omdb m’a per­mis de récu­pé­rer cette infor­ma­tion dans un bon nombre de cas, par l’intermédiaire de Cloud Ignite, un module com­plé­men­taire de Google Sheet par­ti­cu­liè­re­ment pra­tique.

Pour le reste, j’ai réa­li­sé des croi­se­ments – par exemple, un film qui n’est dif­fu­sé qu’en VO sur toute la France ne peut être qu’un film en langue étran­gère – et des déduc­tions – par exemple, une copro­duc­tion France/Suisse/Belgique a de bonnes chances d’être tour­née en fran­çais.

Ce tri s’est révé­lé fas­ti­dieux et le résul­tat n’est pas garan­ti sans erreurs, mais j’ai esti­mé sa fia­bi­li­té suf­fi­sante pour conti­nuer à avan­cer, en met­tant de côté tous les films en langue fran­çaise.

3. Géolocaliser chaque salle de cinéma avec ezGecode

J’avais déjà récu­pé­ré l’adresse et le code pos­tal de chaque ciné­ma sur sa page Cine­fil. Pour en déduire sa lati­tude et sa lon­gi­tude, j’ai uti­li­sé un autre module com­plé­men­taire de Google Sheet, ezGeo­code.

La grande majo­ri­té des salles a ain­si été géo­lo­ca­li­sée auto­ma­ti­que­ment et avec une très bonne fia­bi­li­té, et j’ai réus­si à pla­cer le reste grâce à des recherches manuelles dans Google Maps.

 4. Déterminer le code commune pour chaque salle de cinéma

Afin de « marier » la base que je me suis ain­si consti­tuée avec les don­nées démo­gra­phiques four­nies par l’Insee ou les résul­tats élec­to­raux dis­po­nibles sur le site du minis­tère de l’Intérieur, il me fal­lait déter­mi­ner le code Insee de la com­mune où se trouve cha­cun des ciné­mas de ma liste.

J’ai pu le faire grâce à une table de cor­res­pon­dances et à la base offi­cielle des codes pos­taux, toutes deux dis­po­nibles sur Data.gouv.fr. Une série de recherches ver­ti­cales plus tard, j’avais pour chaque salle de ciné­ma des infor­ma­tions comme la popu­la­tion de la ville, le taux de pau­vre­té, le vote Macron…

Des tableaux croi­sés dyna­miques m’ont ensuite per­mis de conso­li­der les résul­tats pour cha­cune des 278 loca­li­tés fran­çaises pour­vues d’au moins une salle de ciné­ma (avec au moins une séance pro­gram­mée ce jour-là), puis pour chaque dépar­te­ment.

5. Réaliser les deux cartes interactives avec Carto

J’ai ensuite pré­pa­ré deux séries de don­nées, l’une avec toutes les salles où la part de la VO est majo­ri­taire (#team­vo), et l’autre avec les salles plu­tôt VF (#teamvf).

J’ai créé deux cartes basées sur ces jeux dans Car­to, et j’ai ajou­té dans cha­cune d’elle un calque sup­plé­men­taire, avec les contours de chaque dépar­te­ment et une cou­leur en fonc­tion de la part de la VO ou de la VF à cette échelle.

J’ai pas­sé pas mal de temps à cher­cher des réglages satis­fai­sants pour la taille des cercles, les nuances de cou­leurs ou encore la répar­ti­tion des dépar­te­ments en cinq caté­go­ries (choix des inter­valles).

6. Réaliser les cartes anamorphosées avec Qgis et Scapetoad

J’avais déjà uti­li­sé les ana­mor­phoses (car­to­grams en anglais) pour une série de cartes du monde tel que le voient les médias fran­çais qui avait tapé dans l’œil de pas mal d’observateurs. J’avais envie de com­men­cer mon article avec ce type de visiuels, que je trouve facile à appré­hen­der même pour des lec­teurs peu friands d’infographies.

J’ai récu­pé­ré un tra­cé des dépar­te­ments fran­çais au for­mat sha­pe­file sur OpenS­treet­Map.

J’ai ouvert ce fichier dans l’éditeur de cartes Qgis afin d’associer à chaque dépar­te­ment le nombre de séances en VO et en VF pour un mil­lion d’habitants.

C’est sur la base de ces deux don­nées que j’ai réa­li­sé les défor­ma­tions de la carte de France dans Sca­pe­Toad, un petit uti­li­taire dédié à la créa­tion d’anamorphoses.

7. Créer une série de graphiques dans Datawrapper

Pour ter­mi­ner, j’ai repris une der­nière fois mes don­nées pour iso­ler une série de chiffres de syn­thèse afin de créer les gra­phiques de syn­thèses qui figurent à la fin de l’article, en repre­nant les codes cou­leur.

Un peu d'inspiration !

Depuis 2014, j'accompagne des médias dans leurs projets et je mène mes propres expériences. Retrouvez les réalisations dont je suis le plus fier dans un portfolio qui vous donnera envie d'innover !

Partager cet article

Lien copié !
C'est nul, je veux de gros boutons colorés !

On en discute ?