Archives par mot-clé : cartes

Comment j’ai réalisé les cartes du monde selon les médias français

C’est sans doute l’expérience publiée sur ce site qui m’a donné le plus de fil à retordre. Il a fallu passer par de nombreuses et fastidieuses étapes pour arriver à la publication de la série de cartes du monde tel que le voient les médias français Dans mon labo.

Mais je suis content du rendu un peu arty de ces anamorphoses – j’ai emprunté l’idée et une partie de la méthode à Altermondes, qui en avait réalisé une à l’occasion de sa campagne de crowdfunding.

1. Scraper les résultats de recherche Google en Python

C’était la première fois que je réalisais un travail d’extraction automatique de données en concevant un script dans un langage de programmation plutôt qu’en utilisant un logiciel disposant d’une interface graphique, comme Outwit Hub.

Je me suis servi de Scrapy, un outil qui m’a beaucoup facilité la tâche, mais que je n’ai pas réussi à installer sur mon Mac (la faute à El Capitan, semble-t-il) : il a fallu ressortir un portable sous Linux pour parvenir à le lancer.

La mise au point du script m’a pris pas mal de temps, mais une fois que j’ai compris la logique, j’ai avancé relativement vite : il suffisait en effet de repérer l’endroit de la page des résultats de recherche où figure la mention « Environ x résultats ».

Le plus compliqué à été de composer avec les sécurités qui se déclenchent sur les serveurs de Google quand on le sollicite trop : même en ralentissant beaucoup le rythme du robot passant sur ces pages, je finissais toujours par voir mon adresse IP bloquée.

2. Analyser les résultats dans Google Sheets

C’est en commençant à trier et à filtrer les résultats obtenus que je me suis aperçu qu’ils n’étaient pas toujours fiables : pour certains pays, les résultats trouvés dans Google Actualités (tous médias confondus) étaient en effet ajoutés au résultats trouvés sur un média particulier…

J’ai alors tenté ma chance sur Bing, mais ce dernier ne permet pas d’effectuer une recherche combinant plusieurs termes (avec l’opérateur OR) en ciblant un nom de domaine particulier.

De retour sur Google, j’ai fini par obtenir des données cohérentes en limitant la recherche aux pages publiées lors de l’année écoulée.

Il a fallu aussi traiter quelques cas particuliers — par exemple, le mot « Canada » apparaît sur toutes les pages du Huffington Post et de Buzzfeed, ces deux sites proposant un accès vers leur édition canadienne.

Il reste sans doute de petites aberrations de ce genre dans les données utilisées pour faire les cartes, mais j’ai considéré qu’elles n’étaient pas préjudiciables, vu la taille finale des cartes et leur niveau important de déformation.

3. Ajouter les résultats obtenus à une carte du monde grâce à QGIS

Le logiciel de cartographie avancé QGIS m’a permis d’ouvrir un shapefile (fichier de contours) trouvé sur ThematicMapping et de lui associer mes propres données via des recherches verticales dans la table.

Pour que ça marche, il faut une clé commune aux deux fichiers : en l’occurence, le code ISO à trois chiffres, que j’avais pris soin d’utiliser pour chaque pays étudié — je l’ajoute désormais systématiquement à toutes mes feuilles de calcul quand elles sont basées sur des pays, une précaution qui se révèle souvent utile.

4. Réaliser les anamorphoses avec ScapeToad

Disponible sur tous les OS via Java, ScapeToad est un petit logiciel plutôt bien fichu qui va réaliser la déformation du fichier shapefile en tenant compte, pour chaque pays, d’une valeur numérique disponible dans la table associée au fichier de contours.

Le résultat peut être enregistré au format d’image vectoriel SVG, ce qui permet de l’utiliser ensuite à n’importe quelle taille.

Attention : pour une carte du monde, les temps de calcul et de sauvegarde sont importants (surtout quand il faut recommencer la manipulation vingt fois pour vingt médias différents…).

5. Améliorer le résultat dans Adobe Illustrator

Le fichier SVG obtenu peut être facilement ouvert et modifié dans Illustrator, ce qui m’a permis de changer la couleur et la transparence des pays, et de créer une version PNG utilisée pour le partage Facebook.

Une fois les vingt cartes obtenues, j’ai créé la petite infographie permettant de basculer d’un média à l’autre en HTML, CSS et JQuery. Enfin, j’ai utilisé Datawrapper pour réaliser les deux graphiques également présents dans l’article.

Voici comment les médias français voient le monde

Les médias nous donnent-ils une vision déformée du monde qui nous entoure ? La question est vieille comme Théophraste Renaudot, mais j’ai tenté d’y apporter une réponse moderne avec la série de cartes « anamorphosées » publiée ci-dessous — une idée que j’ai piquée à mes petits camarades d’Altermondes.

Elles ont été réalisées en basant la déformation de chaque pays sur le nombre de résultats trouvés par Google quand on le cherche sur le site de l’un des vingt médias étudiés — je reviens plus en détail sur la méthode utilisée (et ses limites) dans un autre post.

Avec l’avènement des réseaux sociaux, devenus pour beaucoup d’entre nous le principal point d’accès à l’information, ces cartes vont-elles se déformer davantage ?

En filtrant selon leur popularité les publications venues de nos amis et des pages auxquelles nous nous sommes abonnés , Facebook est en effet accusé de créer une « bulle » autour de ses utilisateurs, ne les exposant plus qu’à des informations qui les touchent ou les font réagir.

Et comme leur trafic dépend de plus en plus de cette plateforme, les médias sont tentés de « publier pour Facebook », laissant de côté l’actualité des pays trop lointains. Un phénomène qu’on peut observer sur les cartes de Buzzfeed France et du Huffington Post, où les pays du Sud occupent la portion congrue.

Mais ces biais ne sont pas nouveaux, et ils dépendent aussi de la ligne éditoriale des journaux concernés :

  • L’Amérique du Sud et l’Afrique sont nettement enflées sur la carte du Monde diplomatique — logique vu les positions tiers-mondistes de ce mensuel.
  • l’Europe explose sur celle de Contexte — normal, le site suit de près l’actualité législative de l’UE.
  • les Etats-Unis sont bien plus gros que la moyenne sur celle de Slate.fr – pas étonnant, une bonne partie des articles sont des traductions de textes publiés dans la version américaine.
  • Les sites qui reprennent beaucoup l’AFP, par exemple Libération et Le Figaro, ont des cartes assez proches –une part importante des résultats décomptés se trouvent dans les dépêches de cette agence et reprises, sous différentes formes, sur ces sites.

Ces spécificités se retrouvent si on s’intéresse aux pays les plus cités, média par média.

On retrouve bien la loi du « mort-kilomètre », qui veut qu’une tempête de neige à Londres pourra occuper les chaînes infos toute la journée, alors qu’un tsunami en Indonésie peut faire des centaines de victimes sans qu’on chamboule le menu des journaux télévisés.

Mais on peut aussi prendre le problème dans l’autre sens, et s’intéresser aux médias qui s’intéressent plus (ou moins) que la moyenne à un pays donné.

N’hésitez pas à explorer vous-mêmes les données que j’ai récoltées,  et à raconter vos trouvailles ou à signaler des problèmes en me contactant ou en laissant commentaire.

Mis à jour le 26/1 à 10h35. Précision ajoutée concernant les médias reprenant beaucoup l’AFP, après un échange avec @quentingirard sur Twitter.

Airbnb : la carte des prix de location à Paris (et ce qu’on y apprend)

Ça fait un petit moment que j’avais envie de me coltiner aux données du service de location de logements entre particuliers Airbnb, après avoir vu la série de cartes réalisées par Tom Slee dans différentes villes du monde.

Et voilà que le site du Temps publie une enquête sur les loueurs d’Airbnb à Genève, en montrant qu’une part importante des offres publiées proposent des appartements qui ne sont pas ou plus habités à l’année.

Lire l’article

Les prix des locations Airbnb à Paris

Plus la couleur d’un appartement est foncée, plus son tarif est élevé. Pour voir des exemples de prix pratiqués, zoomez en double-cliquant, approchez la souris sur un des cercles ou tapez-le.

Autrefois modèle de « l’économie du partage », Airbnb est ainsi accusé de « siphonner » le marché locatif, les propriétaires y multipliant les locations courte durée plutôt que de choisir un occupant pérenne.

Un scraper pour récupérer les données

Pour mener leur enquête, les journalistes ont récupéré les données au moyen d’un scraper, une sorte de robot qui va visiter une à une les pages du site pour y récupérer des informations repérées au préalable. dans le code source.

Avec quelques manipulations simples sur les données ainsi récupérées, ils ont pu repérer de gros loueurs – telle Jasmina, qui gère 120 biens sur Airbnb – puis les faire témoigner.

Jean Abbiateci, co-auteur de cette enquête avec Julie Conti, raconte cette démarche pas à pas dans le blog Data Le Temps et a eu la bonne idée de mettre à disposition le script mis au point pour Outwit Hub, le logiciel qui a servi au scraping, que j’utilise aussi.

J’ai ainsi pu récupérer un échantillon de 2 000 offres parisiennes, proposant uniquement la location d’un logement entier (et pas d’une chambre privée ou une chambre partagée). Ça m’a servi à dresser la carte publiée en haut de cet article.

J’ai veillé à répartir les annonces choisies pour couvrir un maximum de terrain et obtenir une carte harmonieuse — par exemple, je n’ai gardé que 27 points dans le IIIe arrondissement, alors que c’est celui où les offres sont les plus nombreuses (3,2 par hectare).

Si on en tient pas compte de ce critère, la répartition des offres dans la capitale est en effet très inégale, comme le montre cette carte de chaleur (heat map).  

Carte de chaleur des annonces Airbnb à Paris. Plus la couleur d'une rue est vive, plus il y a d'annonces dans le quartier.
Carte de chaleur des annonces Airbnb à Paris. Plus la couleur d’une rue est vive, plus il y a d’annonces dans le quartier.

« Au final, ta carte va être la même que celle du marché de l’immobilier à Paris », m’a prévenu un confrère qui travaille dans un newsmagazine bien connu pour ses marronniers sur le sujet.

Sa remarque est vraie, mais pas entièrement : un arrondissement peut être plus cher sur Airbnb (c’est le cas du VIIIe et du VIe) que dans une agence traditionnelle, ou au contraire moins cher (le XIXe et le XVIIInotamment).

Et les gros poissons, alors ? Je ne donnerai pas leur profil, histoire de ne pas faciliter le travail du fisc ou du service dédié de la mairie de Paris, mais j’ai repéré des utilisateurs qui ont plusieurs dizaines d’annonces sur le site – des loueurs qui ne ressemblent donc pas beaucoup à ceux en photo sur la page d’accueil, mais plus à des professionnels ayant trouvé un bon filon.

Le phénomène semble assez circonscrit cependant : en cherchant parmi plus de 2 500 annonces, je n’ai trouvé que  9 inscrits avec plus de cinq annonces.

Mais il est possible que les professionnels d’Airbnb se créent plusieurs profils pour gérer leur pool d’annonces et dans ce cas, ils ne peuvent être détectés par cette méthode.

Bonus pour ceux qui ont lu jusqu’ici. Afin d’avoir une idée des expressions les plus utilisés pour convaincre les touristes, voilà un nuage de mots créés avec les titres des annonces de l’échantillon.

worldle
Les mots les plus utilisés dans les titres des annonces d’Airbnb à Paris.