Archives par mot-clé : cartes

Comment j’ai réalisé les cartes de France de la VO et de la VF

Comme sou­vent, le tra­vail que j’ai réa­li­sé pour ma petite enquête sur la France de la VO et celle de la VF met en jeu toute une série d’outils que j’ai décou­vert au fil des ans, qu’il s’agisse de scra­ping, de join­tures de tables ou de repré­sen­ta­tion par ana­mor­phoses. L’ensemble des don­nées dont je me suis ser­vi est dis­po­nible dans une Google Sheet.

Je vais en décrire les dif­fé­rentes étapes, ce qui peut être utile si vous sou­hai­tez vous lan­cer dans un chan­tier com­pa­rable. N’hésitez pas à mettre votre grain de sel dans les com­men­taires.

1. Récupérer la liste des séances avec un scraping en deux étapes avec Outwit Hub

Pour com­men­cer, il fal­lu que je me consti­tue une base conte­nant l’ensemble des salles de ciné­ma de France. Par chance, le site Cine­fil pro­pose des pages lis­tant tous les cinés d’un dépar­te­ment (par exemple, ceux situés dans l’Ain).

J’ai d’abord géné­ré auto­ma­ti­que­ment une URL pour chaque dépar­te­ment sur cinefil.com dans Google Sheet. J’ai ouvert cette pre­mière liste dans Out­wit Hub, un logi­ciel de scra­ping qui m’a per­mis de ras­sem­bler une liste de 1 409 salles. Pour cha­cune, j’ai aus­si récu­pé­ré l’URL de sa page sur cinefil.com.

Sur ces 1 409 URL, j’ai fait pas­ser un second scra­per, afin de récu­pé­rer la liste des films dif­fu­sés dans chaque salle sur une jour­née, avec les horaires des séances et la ver­sion dif­fu­sée (VF ou VO). J’ai obte­nu ain­si une liste de 14 423 films et de 20 182 séances.

2. Déterminer la langue de tournage dans chaque film avec OMDB

Après quelques heures de tra­vail, je me suis aper­çu d’une chose toute bête mais qui m’avait échap­pé : sur Cine­fil, les séances des films en langue fran­çaise sont indi­quées « en VF », ce qui ne per­met pas de les dif­fé­ren­cier auto­ma­ti­que­ment des films en langue étran­gère dif­fu­sés en VF

Il a donc fal­lu que j’établisse une liste des 982 films dif­fé­rents dif­fu­sés sur toute la France ce jour-là (le 28 avril), et que je trouve un moyen de déter­mi­ner, pour cha­cun d’entre eux, s’il s’agit à l’origine d’un film tour­né en langue fran­çaise ou en langue étran­gère.

L’API Omdb m’a per­mis de récu­pé­rer cette infor­ma­tion dans un bon nombre de cas, par l’intermédiaire de Cloud Ignite, un module com­plé­men­taire de Google Sheet par­ti­cu­liè­re­ment pra­tique.

Pour le reste, j’ai réa­li­sé des croi­se­ments – par exemple, un film qui n’est dif­fu­sé qu’en VO sur toute la France ne peut être qu’un film en langue étran­gère – et des déduc­tions – par exemple, une copro­duc­tion France/Suisse/Belgique a de bonnes chances d’être tour­née en fran­çais.

Ce tri s’est révé­lé fas­ti­dieux et le résul­tat n’est pas garan­ti sans erreurs, mais j’ai esti­mé sa fia­bi­li­té suf­fi­sante pour conti­nuer à avan­cer, en met­tant de côté tous les films en langue fran­çaise.

3. Géolocaliser chaque salle de cinéma avec ezGecode

J’avais déjà récu­pé­ré l’adresse et le code pos­tal de chaque ciné­ma sur sa page Cine­fil. Pour en déduire sa lati­tude et sa lon­gi­tude, j’ai uti­li­sé un autre module com­plé­men­taire de Google Sheet, ezGeo­code.

La grande majo­ri­té des salles a ain­si été géo­lo­ca­li­sée auto­ma­ti­que­ment et avec une très bonne fia­bi­li­té, et j’ai réus­si à pla­cer le reste grâce à des recherches manuelles dans Google Maps.

 4. Déterminer le code commune pour chaque salle de cinéma

Afin de « marier » la base que je me suis ain­si consti­tuée avec les don­nées démo­gra­phiques four­nies par l’Insee ou les résul­tats élec­to­raux dis­po­nibles sur le site du minis­tère de l’Intérieur, il me fal­lait déter­mi­ner le code Insee de la com­mune où se trouve cha­cun des ciné­mas de ma liste.

J’ai pu le faire grâce à une table de cor­res­pon­dances et à la base offi­cielle des codes pos­taux, toutes deux dis­po­nibles sur Data.gouv.fr. Une série de recherches ver­ti­cales plus tard, j’avais pour chaque salle de ciné­ma des infor­ma­tions comme la popu­la­tion de la ville, le taux de pau­vre­té, le vote Macron…

Des tableaux croi­sés dyna­miques m’ont ensuite per­mis de conso­li­der les résul­tats pour cha­cune des 278 loca­li­tés fran­çaises pour­vues d’au moins une salle de ciné­ma (avec au moins une séance pro­gram­mée ce jour-là), puis pour chaque dépar­te­ment.

5. Réaliser les deux cartes interactives avec Carto

J’ai ensuite pré­pa­ré deux séries de don­nées, l’une avec toutes les salles où la part de la VO est majo­ri­taire (#team­vo), et l’autre avec les salles plu­tôt VF (#teamvf).

J’ai créé deux cartes basées sur ces jeux dans Car­to, et j’ai ajou­té dans cha­cune d’elle un calque sup­plé­men­taire, avec les contours de chaque dépar­te­ment et une cou­leur en fonc­tion de la part de la VO ou de la VF à cette échelle.

J’ai pas­sé pas mal de temps à cher­cher des réglages satis­fai­sants pour la taille des cercles, les nuances de cou­leurs ou encore la répar­ti­tion des dépar­te­ments en cinq caté­go­ries (choix des inter­valles).

6. Réaliser les cartes anamorphosées avec Qgis et Scapetoad

J’avais déjà uti­li­sé les ana­mor­phoses (car­to­grams en anglais) pour une série de cartes du monde tel que le voient les médias fran­çais qui avait tapé dans l’œil de pas mal d’observateurs. J’avais envie de com­men­cer mon article avec ce type de visiuels, que je trouve facile à appré­hen­der même pour des lec­teurs peu friands d’infographies.

J’ai récu­pé­ré un tra­cé des dépar­te­ments fran­çais au for­mat sha­pe­file sur OpenS­treet­Map.

J’ai ouvert ce fichier dans l’éditeur de cartes Qgis afin d’associer à chaque dépar­te­ment le nombre de séances en VO et en VF pour un mil­lion d’habitants.

C’est sur la base de ces deux don­nées que j’ai réa­li­sé les défor­ma­tions de la carte de France dans Sca­pe­Toad, un petit uti­li­taire dédié à la créa­tion d’anamorphoses.

7. Créer une série de graphiques dans Datawrapper

Pour ter­mi­ner, j’ai repris une der­nière fois mes don­nées pour iso­ler une série de chiffres de syn­thèse afin de créer les gra­phiques de syn­thèses qui figurent à la fin de l’article, en repre­nant les codes cou­leur.

La France de la VO et celle de la VF : les cartes d’une fracture française

La France de la VO
La France de la VF

Ça fait par­tie de ces com­bats qui divisent les Fran­çais en deux camps irré­con­ci­liables. Comme la guerre sans mer­ci du « pain au cho­co­lat » et de la « cho­co­la­tine », ou le conflit sécu­laire entre la tar­tine au beurre salé et celle au beurre doux.

De même, il y a ceux qui ne jurent que par la ver­sion ori­gi­nale sous-titrée (VO) – quitte à pas­ser son temps à lire les sous-titres plu­tôt qu’à pro­fi­ter de lpoac­tion et des dia­logues – et ceux qui ne peuvent pas vivre sans la ver­sion fran­çaise (VF) – quitte à subir des tra­duc­tions et des dou­blages pas tou­jours par­faits.

His­toire de frus­trer un peu tout le monde, les ciné­mas ne pro­posent pas for­cé­ment les deux ver­sions. Sur les deux ana­mor­phoses en haut de cet article, plus un dépar­te­ment est gros et plus ses habi­tants se voient pro­po­ser de séances en VO (à gauche, en rouge) ou de la VF (à droite, en vert).

Sur une journée, 20 182 séances de cinéma dans 1 400 salles

Pour les réa­li­ser, j’ai récu­pé­ré, grâce à un scra­per, l’intégralité des séances dis­po­nibles sur un site spé­cia­li­sé pour la jour­née du 28 avril 2017. Soit plus de 20 182 séances, dans plus de 1 400 ciné­mas de France et de Navarre, pro­je­tant un total de 981 films dif­fé­rents.

Par­mi ces der­niers, j’en ai iden­ti­fié 549 en langue étran­gère (non sans mal, comme je l’explique dans un autre post sur site, où je reviens sur la méthode uti­li­sée) pour un total de 14 223 séances, dont 2 964 en VO.

Dans cer­taines régions, la VO est réser­vée aux petites salles de centre-ville ou aux ciné­mas art et essai. Mais cer­tains réseaux de mul­ti­plexes pro­gramment aus­si un nombre impor­tant de séances en VO, comme UGC.

Si on passe à l’échelon des villes, c’est bien sûr à Paris que sont pro­po­sées le plus de séances en VO. Mais la ban­lieue et la pro­vince se défendent, avec Mon­treuil, Biar­ritz et Hérou­ville-Saint-Clair en tête devant la capi­tale si on prend compte la part totale des séances en VO.

A l’inverse, il y a des coins de France où on vous recom­mande pas de démé­na­ger si vous êtes #team­vo. Dans cinq dépar­te­ments, aucune séance en VO n’était pro­po­sée dans la jour­née :

  • l’Ariège
  • la Creuse
  • la Haute-Saône
  • l’Indre
  • l’Orne

Les villes avec VO et les villes avec VF

Mais pour­quoi les ciné­mas d’une ville pro­posent-ils de la VO alors que ceux de la ville d’à côté se contentent de la VF ? Le goût pour la VO est lié à la richesse des habi­tants, à leur niveau d’éducation, où bien à leur choix poli­tique ?

Sur les 1 133 loca­li­tés étu­diées, plus de 65% ne pro­po­saient aucune séance en VO dans leurs salles de ciné­ma. Pour explo­rer mes don­nées, j’ai donc répar­ti la liste en deux deux camps : les villes avec VO et les villes sans VO.


J’ai ensuite asso­cié mes résul­tats à une série de sta­tis­tiques de l’Insee, à com­men­cer par la popu­la­tion (en 2014). Sans sur­prise, ce sont dans les loca­li­tés les plus peu­plées qu’on a le plus de chances se trou­ver des séances en VO.

Ça semble logique : comme la majo­ri­té des Fran­çais pré­fère la VF, pro­po­ser de la VO n’est com­mer­cia­le­ment inté­res­sant que si la salle se trouve dans une zone suf­fi­sam­ment peu­plée pour qu’on y trouve un nombre suf­fi­sant d’amateurs de ver­sions sous-titrées.

Dans les deux camps, le niveau de vie médian est proche. On peut faire l’hypothèse que la VO n’est pas « un truc de riches»…

… ce que semble confir­mer la com­pa­rai­son du taux de pau­vre­té médian des deux séries de villes.

En revanche, si on s’intéresse à la part de la popu­la­tion ayant sui­vi des études supé­rieures, la dif­fé­rence est nette.

Je vois au moins une cau­sa­li­té pos­sible à cette cor­ré­la­tion : plus on étu­die, plus on est à l’aise avec la lec­ture, et moins on est gêné quand on doit pas­ser du temps à lire les dia­logues en bas de l’écran. Ce qui pour­rait inci­ter les gérants de salle de la loca­li­té concer­née à pri­vi­lé­gier les copies en VO.

J’ai aus­si croi­sé mes don­nées avec les résul­tats du pre­mier tour de la pré­si­den­tielle 2017. Les villes sans VO ont ten­dance à voter davan­tage pour Le Pen et moins pour Macron et Mélen­chon que les autres. Si la pré­si­den­tielle ne s’était jouée que dans les villes avec VO, Mélen­chon aurait été qua­li­fié pour le second tour.


Voi­là ! Evi­dem­ment, ce tra­vail est très par­cel­laire, et la méthode que j’ai uti­li­sée sûre­ment contes­table. Je ne suis pas spé­cia­liste de l’étude des pra­tiques cultu­relles, et je ne sais pas si cette grande frac­ture fran­çaise a fait l’objet d’enquêtes plus pous­sées. [ajout le 27/7 à 17h20 : Vod­kas­ter a fait un point assez com­plet sur le sujet en 2016]

Je serais en tout cas ravi d’en savoir plus, donc n’hésitez pas à des­cendre don­ner votre avis un peu plus bas dans les com­men­taires, et à aller explo­rer ces don­nées, qui sont dis­po­nibles dans une Google Sheet.

Cor­ri­gé le 21/7 à 10h20. Inver­sion des barres dans les gra­phique niveaux de vie et part des diplô­més du supé­rieur.

Mis à jour le 21/7 à 11h45. Ajout du gra­phique consa­cré aux réseaux de mul­ti­plexes.

Cor­ri­gé le 1/10 à 21h10. Inver­sion des barres dans le gra­phique popu­la­tion.

Comment j’ai réalisé les cartes du monde selon les médias français

C’est sans doute l’expérience publiée sur ce site qui m’a don­né le plus de fil à retordre. Il a fal­lu pas­ser par de nom­breuses et fas­ti­dieuses étapes pour arri­ver à la publi­ca­tion de la série de cartes du monde tel que le voient les médias fran­çais Dans mon labo.

Mais je suis content du ren­du un peu arty de ces ana­mor­phoses – j’ai emprun­té l’idée et une par­tie de la méthode à Alter­mondes, qui en avait réa­li­sé une à l’occasion de sa cam­pagne de crowd­fun­ding.

1. Scraper les résultats de recherche Google en Python

C’était la pre­mière fois que je réa­li­sais un tra­vail d’extraction auto­ma­tique de don­nées en conce­vant un script dans un lan­gage de pro­gram­ma­tion plu­tôt qu’en uti­li­sant un logi­ciel dis­po­sant d’une inter­face gra­phique, comme Out­wit Hub.

Je me suis ser­vi de Scra­py, un outil qui m’a beau­coup faci­li­té la tâche, mais que je n’ai pas réus­si à ins­tal­ler sur mon Mac (la faute à El Capi­tan, semble-t-il) : il a fal­lu res­sor­tir un por­table sous Linux pour par­ve­nir à le lan­cer.

La mise au point du script m’a pris pas mal de temps, mais une fois que j’ai com­pris la logique, j’ai avan­cé rela­ti­ve­ment vite : il suf­fi­sait en effet de repé­rer l’endroit de la page des résul­tats de recherche où figure la men­tion « Envi­ron x résul­tats ».

Le plus com­pli­qué à été de com­po­ser avec les sécu­ri­tés qui se déclenchent sur les ser­veurs de Google quand on le sol­li­cite trop : même en ralen­tis­sant beau­coup le rythme du robot pas­sant sur ces pages, je finis­sais tou­jours par voir mon adresse IP blo­quée.

2. Analyser les résultats dans Google Sheets

C’est en com­men­çant à trier et à fil­trer les résul­tats obte­nus que je me suis aper­çu qu’ils n’étaient pas tou­jours fiables : pour cer­tains pays, les résul­tats trou­vés dans Google Actua­li­tés (tous médias confon­dus) étaient en effet ajou­tés au résul­tats trou­vés sur un média par­ti­cu­lier…

J’ai alors ten­té ma chance sur Bing, mais ce der­nier ne per­met pas d’effectuer une recherche com­bi­nant plu­sieurs termes (avec l’opérateur OR) en ciblant un nom de domaine par­ti­cu­lier.

De retour sur Google, j’ai fini par obte­nir des don­nées cohé­rentes en limi­tant la recherche aux pages publiées lors de l’année écou­lée.

Il a fal­lu aus­si trai­ter quelques cas par­ti­cu­liers – par exemple, le mot « Cana­da » appa­raît sur toutes les pages du Huf­fing­ton Post et de Buzz­feed, ces deux sites pro­po­sant un accès vers leur édi­tion cana­dienne.

Il reste sans doute de petites aber­ra­tions de ce genre dans les don­nées uti­li­sées pour faire les cartes, mais j’ai consi­dé­ré qu’elles n’étaient pas pré­ju­di­ciables, vu la taille finale des cartes et leur niveau impor­tant de défor­ma­tion.

3. Ajouter les résultats obtenus à une carte du monde grâce à QGIS

Le logi­ciel de car­to­gra­phie avan­cé QGIS m’a per­mis d’ouvrir un sha­pe­file (fichier de contours) trou­vé sur The­ma­tic­Map­ping et de lui asso­cier mes propres don­nées via des recherches ver­ti­cales dans la table.

Pour que ça marche, il faut une clé com­mune aux deux fichiers : en l’occurence, le code ISO à trois chiffres, que j’avais pris soin d’utiliser pour chaque pays étu­dié – je l’ajoute désor­mais sys­té­ma­ti­que­ment à toutes mes feuilles de cal­cul quand elles sont basées sur des pays, une pré­cau­tion qui se révèle sou­vent utile.

4. Réaliser les anamorphoses avec ScapeToad

Dis­po­nible sur tous les OS via Java, Sca­pe­Toad est un petit logi­ciel plu­tôt bien fichu qui va réa­li­ser la défor­ma­tion du fichier sha­pe­file en tenant compte, pour chaque pays, d’une valeur numé­rique dis­po­nible dans la table asso­ciée au fichier de contours.

Le résul­tat peut être enre­gis­tré au for­mat d’image vec­to­riel SVG, ce qui per­met de l’utiliser ensuite à n’importe quelle taille.

Atten­tion : pour une carte du monde, les temps de cal­cul et de sau­ve­garde sont impor­tants (sur­tout quand il faut recom­men­cer la mani­pu­la­tion vingt fois pour vingt médias dif­fé­rents…).

5. Améliorer le résultat dans Adobe Illustrator

Le fichier SVG obte­nu peut être faci­le­ment ouvert et modi­fié dans Illus­tra­tor, ce qui m’a per­mis de chan­ger la cou­leur et la trans­pa­rence des pays, et de créer une ver­sion PNG uti­li­sée pour le par­tage Face­book.

Une fois les vingt cartes obte­nues, j’ai créé la petite info­gra­phie per­met­tant de bas­cu­ler d’un média à l’autre en HTML, CSS et JQue­ry. Enfin, j’ai uti­li­sé Data­wrap­per pour réa­li­ser les deux gra­phiques éga­le­ment pré­sents dans l’article.

Voici comment les médias français voient le monde

Les médias nous donnent-ils une vision défor­mée du monde qui nous entoure ? La ques­tion est vieille comme Théo­phraste Renau­dot, mais j’ai ten­té d’y appor­ter une réponse moderne avec la série de cartes « ana­mor­pho­sées » publiée ci-des­sous – une idée que j’ai piquée à mes petits cama­rades d’Altermondes.

Elles ont été réa­li­sées en basant la défor­ma­tion de chaque pays sur le nombre de résul­tats trou­vés par Google quand on le cherche sur le site de l’un des vingt médias étu­diés – je reviens plus en détail sur la méthode uti­li­sée (et ses limites) dans un autre post.

Avec l’avènement des réseaux sociaux, deve­nus pour beau­coup d’entre nous le prin­ci­pal point d’accès à l’information, ces cartes vont-elles se défor­mer davan­tage ?

En fil­trant selon leur popu­la­ri­té les publi­ca­tions venues de nos amis et des pages aux­quelles nous nous sommes abon­nés , Face­book est en effet accu­sé de créer une « bulle » autour de ses uti­li­sa­teurs, ne les expo­sant plus qu’à des infor­ma­tions qui les touchent ou les font réagir.

Et comme leur tra­fic dépend de plus en plus de cette pla­te­forme, les médias sont ten­tés de « publier pour Face­book », lais­sant de côté l’actualité des pays trop loin­tains. Un phé­no­mène qu’on peut obser­ver sur les cartes de Buzz­feed France et du Huf­fing­ton Post, où les pays du Sud occupent la por­tion congrue.

Mais ces biais ne sont pas nou­veaux, et ils dépendent aus­si de la ligne édi­to­riale des jour­naux concer­nés :

  • L’Amérique du Sud et l’Afrique sont net­te­ment enflées sur la carte du Monde diplo­ma­tique – logique vu les posi­tions tiers-mon­distes de ce men­suel.
  • l’Europe explose sur celle de Contexte – nor­mal, le site suit de près l’actualité légis­la­tive de l’UE.
  • les Etats-Unis sont bien plus gros que la moyenne sur celle de Slate.fr – pas éton­nant, une bonne par­tie des articles sont des tra­duc­tions de textes publiés dans la ver­sion amé­ri­caine.
  • Les sites qui reprennent beau­coup l’AFP, par exemple Libé­ra­tion et Le Figa­ro, ont des cartes assez proches –une part impor­tante des résul­tats décomp­tés se trouvent dans les dépêches de cette agence et reprises, sous dif­fé­rentes formes, sur ces sites.

Ces spé­ci­fi­ci­tés se retrouvent si on s’intéresse aux pays les plus cités, média par média.

On retrouve bien la loi du « mort-kilo­mètre », qui veut qu’une tem­pête de neige à Londres pour­ra occu­per les chaînes infos toute la jour­née, alors qu’un tsu­na­mi en Indo­né­sie peut faire des cen­taines de vic­times sans qu’on cham­boule le menu des jour­naux télé­vi­sés.

Mais on peut aus­si prendre le pro­blème dans l’autre sens, et s’intéresser aux médias qui s’intéressent plus (ou moins) que la moyenne à un pays don­né.

N’hésitez pas à explo­rer vous-mêmes les don­nées que j’ai récol­tées,  et à racon­ter vos trou­vailles ou à signa­ler des pro­blèmes en me contac­tant ou en lais­sant com­men­taire.

Mis à jour le 26/1 à 10h35. Pré­ci­sion ajou­tée concer­nant les médias repre­nant beau­coup l’AFP, après un échange avec @quentingirard sur Twit­ter.

Airbnb : la carte des prix de location à Paris (et ce qu’on y apprend)

Ça fait un petit moment que j’avais envie de me col­ti­ner aux don­nées du ser­vice de loca­tion de loge­ments entre par­ti­cu­liers Airbnb, après avoir vu la série de cartes réa­li­sées par Tom Slee dans dif­fé­rentes villes du monde.

Et voi­là que le site du Temps publie une enquête sur les loueurs d’Airbnb à Genève, en mon­trant qu’une part impor­tante des offres publiées pro­posent des appar­te­ments qui ne sont pas ou plus habi­tés à l’année.

Lire l’article

Les prix des locations Airbnb à Paris

Plus la cou­leur d’un appar­te­ment est fon­cée, plus son tarif est éle­vé. Pour voir des exemples de prix pra­ti­qués, zoo­mez en double-cli­quant, appro­chez la sou­ris sur un des cercles ou tapez-le.

Autre­fois modèle de « l’économie du par­tage », Airbnb est ain­si accu­sé de « siphon­ner » le mar­ché loca­tif, les pro­prié­taires y mul­ti­pliant les loca­tions courte durée plu­tôt que de choi­sir un occu­pant pérenne.

Un scraper pour récupérer les données

Pour mener leur enquête, les jour­na­listes ont récu­pé­ré les don­nées au moyen d’un scra­per, une sorte de robot qui va visi­ter une à une les pages du site pour y récu­pé­rer des infor­ma­tions repé­rées au préa­lable. dans le code source.

Avec quelques mani­pu­la­tions simples sur les don­nées ain­si récu­pé­rées, ils ont pu repé­rer de gros loueurs – telle Jas­mi­na, qui gère 120 biens sur Airbnb – puis les faire témoi­gner.

Jean Abbia­te­ci, co-auteur de cette enquête avec Julie Conti, raconte cette démarche pas à pas dans le blog Data Le Temps et a eu la bonne idée de mettre à dis­po­si­tion le script mis au point pour Out­wit Hub, le logi­ciel qui a ser­vi au scra­ping, que j’utilise aus­si.

J’ai ain­si pu récu­pé­rer un échan­tillon de 2 000 offres pari­siennes, pro­po­sant uni­que­ment la loca­tion d’un loge­ment entier (et pas d’une chambre pri­vée ou une chambre par­ta­gée). Ça m’a ser­vi à dres­ser la carte publiée en haut de cet article.

J’ai veillé à répar­tir les annonces choi­sies pour cou­vrir un maxi­mum de ter­rain et obte­nir une carte har­mo­nieuse – par exemple, je n’ai gar­dé que 27 points dans le IIIe arron­dis­se­ment, alors que c’est celui où les offres sont les plus nom­breuses (3,2 par hec­tare).

Si on en tient pas compte de ce cri­tère, la répar­ti­tion des offres dans la capi­tale est en effet très inégale, comme le montre cette carte de cha­leur (heat map).  

Carte de chaleur des annonces Airbnb à Paris. Plus la couleur d'une rue est vive, plus il y a d'annonces dans le quartier.
Carte de cha­leur des annonces Airbnb à Paris. Plus la cou­leur d’une rue est vive, plus il y a d’annonces dans le quar­tier.

« Au final, ta carte va être la même que celle du mar­ché de l’immobilier à Paris », m’a pré­ve­nu un confrère qui tra­vaille dans un news­ma­ga­zine bien connu pour ses mar­ron­niers sur le sujet.

Sa remarque est vraie, mais pas entiè­re­ment : un arron­dis­se­ment peut être plus cher sur Airbnb (c’est le cas du VIIIe et du VIe) que dans une agence tra­di­tion­nelle, ou au contraire moins cher (le XIXe et le XVIIInotam­ment).

Et les gros pois­sons, alors ? Je ne don­ne­rai pas leur pro­fil, his­toire de ne pas faci­li­ter le tra­vail du fisc ou du ser­vice dédié de la mai­rie de Paris, mais j’ai repé­ré des uti­li­sa­teurs qui ont plu­sieurs dizaines d’annonces sur le site – des loueurs qui ne res­semblent donc pas beau­coup à ceux en pho­to sur la page d’accueil, mais plus à des pro­fes­sion­nels ayant trou­vé un bon filon.

Le phé­no­mène semble assez cir­cons­crit cepen­dant : en cher­chant par­mi plus de 2 500 annonces, je n’ai trou­vé que  9 ins­crits avec plus de cinq annonces.

Mais il est pos­sible que les pro­fes­sion­nels d’Airbnb se créent plu­sieurs pro­fils pour gérer leur pool d’annonces et dans ce cas, ils ne peuvent être détec­tés par cette méthode.

Bonus pour ceux qui ont lu jusqu’ici. Afin d’avoir une idée des expres­sions les plus uti­li­sés pour convaincre les tou­ristes, voi­là un nuage de mots créés avec les titres des annonces de l’échantillon.

worldle
Les mots les plus uti­li­sés dans les titres des annonces d’Airbnb à Paris.