Archives par mot-clé : data

Ce qui a changé dans la liste des sujets préférés des médias français

Vous avez été nom­breux à mon­trer votre inté­rêt pour le tableau de bord des obses­sions, marottes et zones d’ombre des médias que j’ai publié début février. Je vais donc conti­nuer de le com­plé­ter et de l’améliorer dès que j’aurais un peu de temps devant moi, et lis­té dans ce post les der­niers chan­ge­ments.

Samedi 10 février

  • Une dizaine de médias sup­plé­men­taires sont désor­mais étu­diés : Cour­rier inter­na­tio­nal, L’Equipe, Les Echos, La Tri­bune, Chal­lenges, Capi­tal, Repor­terre, L’imprévu, Bas­ta­mag, Contexte, Street­Press, The Conver­sa­tion.
  • Dans la liste des enti­tés, le clas­se­ment actuel et son évo­lu­tion par rap­port à la période pré­cé­dente est indi­qué, à la manière du Top 50.
  • Le script qui récu­père les titres et des­crip­tions des articles publiés par chaque média (via leur flux RSS) passe désor­mais une fois par heure, et non plus trois fois par jour, pour ne rien rater sur les sites qui publient beau­coup de conte­nu comme 20 minutes.
  • L’adresse du flux RSS uti­li­sé pour L’Express était erro­née et a été cor­ri­gée.
  • La qua­li­té du cor­pus uti­li­sé pour l’analyse a été beau­coup amé­lio­rée : pro­blèmes d’encodage réso­lus (Le Monde, Vice…), balises HTML mieux fil­trées (Mashable…), sup­pres­sion des retours cha­riots, retours à la ligne et tabu­la­tions.
  • Le cor­pus ne contient plus que les 150 pre­miers carac­tères de la des­crip­tion de chaque article publié, afin de ne pas défa­vo­ri­ser dans l’analyse les sites qui ne four­nissent qu’une des­crip­tion très courte dans leur fil RSS, comme Le Point.
  • Trois médias ne peuvent être étu­diés : Buzz­feed (conte­nus en anglais dans le fil RSS), Valeurs actuelles (fil RSS illi­sible), Télé­ra­ma (pas de fil RSS dis­po­nible).

Comment je prépare le tableau de bord des sujets les plus traités par les sites d’actu

Cap­ture d’écran d’un script Python

C’est sans doute le pro­jet le plus ambi­tieux et le plus com­plexe que j’aie mené à bien depuis que j’ai lan­cé Dans mon labo il y a bien­tôt quatre ans. Il m’a fal­lu pas mal d’après-midi plu­vieux et de jours fériés bla­fards pour ter­mi­ner le tableau de bord qui liste les sujets les plus pré­sents dans les sites d’actualité fran­çais.

Il est deve­nu pos­sible grâce aux pro­grès que j’ai réa­li­sés en Python, un lan­gage de pro­gram­ma­tion pri­sé des data­jour­na­listes. De mon côté, j’ai dû sérieu­se­ment m’y mettre cou­rant 2017, notam­ment pour affi­cher en direct les résul­tats des élec­tions légis­la­tives au sein de la carte inter­ac­tive que j’ai pré­pa­rée pour Contexte.

Pour explo­rer les flux XML mis à dis­po­si­tion par le minis­tère de l’Intérieur le soir des scru­tins, j’ai trou­vé en Python, avec sa syn­taxe acces­sible et ses mul­ti­plies librai­ries dis­po­nibles, un par­te­naire idéal. (Mais il est aus­si pos­sible de faire ça très bien avec d’autres solu­tions, comme R.)

Et ces connais­sances m’ont ouvert de nou­veaux hori­zons, notam­ment ceux de la recon­nais­sance auto­ma­ti­sée d’entités nom­mées. Un domaine qui, m’a-t-on expli­qué, a beau­coup pro­gres­sé grâce au patient tra­vail de des­crip­tion et de clas­se­ment réa­li­sé par les contri­bu­teurs de Wiki­pe­dia.

J’ai d’abord tra­vaillé, tou­jours pour Contexte, sur les thé­ma­tiques les plus pré­sentes dans le dis­cours des dépu­tés pour enri­chir le trom­bi­no­scope de l’Assemblée natio­nale que le site pro­pose à ses abon­nés. C’est alors que m’est venue l’idée de pro­po­ser une démarche com­pa­rable, mais avec les médias en ligne.

1. Scraper les flux RSS des sites d‘actu avec Python

J’ai lis­té, dans une Google Sheet, les sites que je sou­hai­tais étu­dier, en ren­sei­gnant pour cha­cun l’adresse de son flux RSS prin­ci­pal.

Mon script de scra­ping (dis­po pou les curieux) com­mence par récu­pé­rer cette liste, et va cher­cher dans chaque flux le titre et la des­crip­tion (le cha­pô ou le début du texte) de chaque article. Il récu­père aus­si sa date de publi­ca­tion, et enre­gistre le tout dans un fichier Json dédié à chaque site (voir par exemple celui du Monde).

Tous les flux RSS n’étant pas construits de la même façon, il a fal­lu prendre en compte les dif­fé­rents cas de figure : ain­si, le résu­mé de l’article se trouve dans un élé­ment qui peut être nom­mé « des­crip­tion », « sum­ma­ry », « content»…

2. Créer un corpus de textes et le faire analyser par TextRazor

La suite de ce script va conca­té­ner ensemble les titres et résu­més de chaque article publiés dans une période don­née (depuis sept jours, cette semaine ou ce mois) pour en faire un seul et même texte.

Ce cor­pus va ensuite être envoyé à Tex­tRa­zor, via la librai­rie Python que met à dis­po­si­tion ce ser­vice d’analyse séman­tique. Ce der­nier est gra­tuit jusqu’à 500 requêtes par jour, un quo­ta lar­ge­ment suf­fi­sant pour ce pro­jet.

Par­mi les ser­vices équi­va­lents, Tex­tRa­zor a un autre avan­tage : non seule­ment son outil d’extraction des enti­tés nom­mées ren­voie la liste des thé­ma­tiques détec­tées au sein du cor­pus sou­mis, mais il four­nit aus­si pour cha­cune un score de rele­vance («per­ti­nence », que j’ai fina­le­ment tra­duit en « pré­sence » dans mon tableau de bord).

Ain­si, s’il détecte les mots « GPA », « ges­ta­tion pour autrui » ou « mère por­teuse » dans un texte, Tex­tra­zor réunit ses expres­sions dans une seule thé­ma­tique (en géné­ral le titre de la notice Wiki­pe­dia dédiée). Et donne à cette der­nière une note, de 0 à 1, selon que l’entité lui semble plus ou moins per­ti­nente dans le texte four­ni.

C’est à la fois la force et la fai­blesse de ma méthode : ce sco­ring me per­met de géné­rer les mul­tiples clas­se­ments, mais je n’ai pas « la main » sur son éla­bo­ra­tion.

Mal­gré quelques mau­vaises sur­prises, l’observation des résul­tats obte­nus m’a toute fois ras­su­ré : Le Pari­sien est en géné­ral le média où le thème « Paris » est le plus pré­sent ; on retrouve sou­vent « Jean-Luc Mélen­chon » bien clas­sé dans les résul­tats de Poli­tis ; Sput­nik et RT France sont bien pla­cés au clas­se­ment pour le thème « Vla­di­mir Pou­tine ».

4. Héberger les scripts sur un serveur chez PythonAnywhere

Cette par­tie-là du chan­tier serait une pro­me­nade de san­té pour un déve­lop­peur back-end même débu­tant. A un jour­na­liste bidouilleur comme moi, elle a pris pas mal de temps et d’énergie.

Une fois le script Python décrit ci-des­sus mis au point, je ne pou­vais pas l’exécuter moi-même plu­sieurs fois par jour sur mon ordi­na­teur afin de dis­po­ser de don­nées tou­jours fraîches pour ali­men­ter un éven­tuel tableau de bord.

Sur les conseils d’amis déve­lop­peurs, j’ai regar­dé plu­sieurs offres d’hébergement comme Ama­zon Web Ser­vices ou Google Cloud Plat­form, mais la lon­gueur des pro­cé­dures d’installation et des tuto­riels pro­po­sés m’a vite refroi­di. Je me suis rabat­tus sur Python Anyw­here. un ser­vice peu oné­reux et qui s’est révé­lé mieux adap­té à un noob comme moi.

Même avec cette solu­tion, je suis pas­sé par mal, de guides d’utilisation, de pages d’aide et de ques­tions Stack Over­flow avant d’arriver mes fins : faire tour­ner mon script de scra­ping plu­sieurs fois par jour.

4. Créer le tableau de bord en front à partir d’un fichier Json optimisé

Une fois toutes ces listes de thé­ma­tiques récu­pé­rées et enre­gis­trées dans le fichier Json de chaque média, un autre script Python, lui aus­si héber­gé sur Pytho­nA­nyw­here, va pré­pa­rer un fichier Json com­mun et de taille réduite.

Ce der­nier sera récu­pé­ré, au moment où le tableau de bord publié Dans mon labo se charge, par votre navi­ga­teur.  Au final, c’est donc Chrome, Fire­fox ou Edge qui va construire l’infographie à l’intérieur de la page.

Je ne détaille­rais pas sur ce tra­vail de déve­lop­pe­ment front-end, clas­sique com­bi­nai­son de HTML, de CSS et de Javas­cript, mais si vous avez des ques­tions sur cette par­tie, je serai ravi d’y répondre !

A ce stade, la prin­ci­pale dif­fi­cul­té pour moi a été de s’assurer que le char­ge­ment des don­nées puis la construc­tion de l’infographie se fasse dans un délai rai­son­nable : lors des pre­mières étapes, le tout pre­nait par­fois une bonne dizaine de secondes, ce qui es rédhi­bi­toire.

Pour chaque média, j’ai choi­si de ne pas inté­grer une thé­ma­tique si son score était infé­rieur à un cer­tain seuil (en ce moment, 0,4/1), et de n’afficher une thé­ma­tique dans la liste prin­ci­pale que si elle était pré­sente dans au moins quatre médias.

Il m’a fal­lu pas mal d’allers-retours entre scripts Python sur le ser­veur et code Javas­cript dans le navi­ga­teur pour réduire ce délai et obte­nir une expé­rience suf­fi­sam­ment fluide, mais il  reste sans doute pas mal d’optimisation pos­sible.

5. Préparer la suite avec des analyses hebdomadaires et mensuelles

Comme beau­coup l’ont fait remar­quer dès la publi­ca­tion du tableau de bord, les résul­tats seront inté­res­sants à obser­ver dans le temps, au-delà de la pho­to­gra­phie actuelle (les sept der­niers jours). Mon script réa­lise déjà des ana­lyses heb­do­ma­daires et men­suelles, qui ne sont pas affi­chées mais que j’espère uti­li­ser quand j’aurais davan­tage de recul.

Voi­là ! Je suis en tout cas curieux de savoir vos remarques, cri­tiques ou pro­po­si­tions d’amélioration dans les com­men­taires de ce post ou bien, pour les timides, dans un mes­sage pri­vé.

Mis à jour le 2/2 à 10h15. Pré­ci­sion sur les seuils (point 4) et point 5 ajou­té.

Obsessions, marottes et zones d’ombre : voici les sujets préférés de 60 sites d’info français

Dans une rédac­tion, la ligne édi­to­riale, c’est comme le dahu : tout le monde en parle, mais per­sonne ne l’a jamais vue. Elle struc­ture pour­tant le tra­vail quo­ti­dien des jour­na­listes ; c’est en son nom qu’on va accep­ter ou refu­ser une idée de sujet ou d’angle. Et quand elle est absente ou bien trop floue, ce n’est sou­vent pas bon signe.

Pour ten­ter de repré­sen­ter ces fameuses lignes, j’ai mis au point ce tableau de bord, qui montre les thé­ma­tiques les plus pré­sentes sur une soixan­taine de sites d’actualité dans les sept der­niers jours, le tout rafraî­chi trois fois par jour.

Encore expé­ri­men­tales, ces listes sont géné­rées auto­ma­ti­que­ment, grâce à la recon­nais­sance d’entités nom­mées dans un cor­pus spé­ci­fique à chaque média. Cet agglo­mé­rat de texte est for­mé avec les infor­ma­tions dis­po­nibles au sein de son flux RSS prin­ci­pal – je reviens en détail sur la métho­do­lo­gie uti­li­sée dans un autre post.

Mis à jour le 10/2. La liste des chan­ge­ments est dis­po dans ce post.

 

Bataille de bouffe ! Découvrez les ingrédients et recettes préférés des Français

Met­tez deux Fran­çais ensemble, et il y a de bonnes chances qu’après quelques minutes, ils se mettent à par­ler de bouffe, qu’il s’agisse du der­nier res­tau­rant à la mode ou de cette recette exclu­sive de moel­leux au cho­co­lat qu’ils sortent du tiroir pour les grandes occa­sions.

Mais quels sont les ali­ments et les pré­pa­ra­tions pré­fé­rés des Fran­çais ? Pour le savoir, j’ai « aspi­ré » les don­nées d’un des sites de recettes les plus popu­laires, Mar­mi­ton, Vous pou­vez décou­vrir les résul­tats en lan­çant des batailles d’ingrédients dans l’infographie ci-des­sous.

Pour cal­cu­ler le score d’un ingré­dient, j’ai d’abord récu­pé­ré toutes les recettes qui le contiennent, grâce à un script en Python. Ensuite j’ai mul­ti­plié, pour cha­cune de ces der­nières, le nombre d’avis d’internautes par la note moyenne obte­nue. Et j’ai addi­tion­né le tout.

Je n’ai gar­dé que les 1 130 ingré­dients qui appa­raissent dans au moins 10 recettes, et opé­ré pas mal de regrou­pe­ments pour obte­nir des résul­tats plus per­ti­nents (par exemple, « échine de porc », « côtes de porc » ou « esca­lope de porc » sont toutes regrou­pées dans l’ingrédient « porc»). La liste rete­nue contient fina­le­ment 871 entrées, de A comme « abri­cot » à Y comme « yaourt ».

Il m’a aus­si fal­lu créer une cin­quan­taine de caté­go­ries (de « viandes » à « pro­duits lai­tiers » en pas­sant par « bon­bons » ou « cham­pi­gnons») afin de géné­rer les clas­se­ments. N’hésitez pas à me signa­ler des erreurs ou des bizar­re­ries dans les com­men­taires ou en me contac­tant, afin que je les cor­rige.

Vous pou­vez aus­si consul­ter les don­nées sur les ingré­dients comme celles sur les caté­go­ries, pour les réuti­li­ser si vous le sou­hai­tez.

 

Comment j’ai réalisé les cartes de France de la VO et de la VF

Comme sou­vent, le tra­vail que j’ai réa­li­sé pour ma petite enquête sur la France de la VO et celle de la VF met en jeu toute une série d’outils que j’ai décou­vert au fil des ans, qu’il s’agisse de scra­ping, de join­tures de tables ou de repré­sen­ta­tion par ana­mor­phoses. L’ensemble des don­nées dont je me suis ser­vi est dis­po­nible dans une Google Sheet.

Je vais en décrire les dif­fé­rentes étapes, ce qui peut être utile si vous sou­hai­tez vous lan­cer dans un chan­tier com­pa­rable. N’hésitez pas à mettre votre grain de sel dans les com­men­taires.

1. Récupérer la liste des séances avec un scraping en deux étapes avec Outwit Hub

Pour com­men­cer, il fal­lu que je me consti­tue une base conte­nant l’ensemble des salles de ciné­ma de France. Par chance, le site Cine­fil pro­pose des pages lis­tant tous les cinés d’un dépar­te­ment (par exemple, ceux situés dans l’Ain).

J’ai d’abord géné­ré auto­ma­ti­que­ment une URL pour chaque dépar­te­ment sur cinefil.com dans Google Sheet. J’ai ouvert cette pre­mière liste dans Out­wit Hub, un logi­ciel de scra­ping qui m’a per­mis de ras­sem­bler une liste de 1 409 salles. Pour cha­cune, j’ai aus­si récu­pé­ré l’URL de sa page sur cinefil.com.

Sur ces 1 409 URL, j’ai fait pas­ser un second scra­per, afin de récu­pé­rer la liste des films dif­fu­sés dans chaque salle sur une jour­née, avec les horaires des séances et la ver­sion dif­fu­sée (VF ou VO). J’ai obte­nu ain­si une liste de 14 423 films et de 20 182 séances.

2. Déterminer la langue de tournage dans chaque film avec OMDB

Après quelques heures de tra­vail, je me suis aper­çu d’une chose toute bête mais qui m’avait échap­pé : sur Cine­fil, les séances des films en langue fran­çaise sont indi­quées « en VF », ce qui ne per­met pas de les dif­fé­ren­cier auto­ma­ti­que­ment des films en langue étran­gère dif­fu­sés en VF

Il a donc fal­lu que j’établisse une liste des 982 films dif­fé­rents dif­fu­sés sur toute la France ce jour-là (le 28 avril), et que je trouve un moyen de déter­mi­ner, pour cha­cun d’entre eux, s’il s’agit à l’origine d’un film tour­né en langue fran­çaise ou en langue étran­gère.

L’API Omdb m’a per­mis de récu­pé­rer cette infor­ma­tion dans un bon nombre de cas, par l’intermédiaire de Cloud Ignite, un module com­plé­men­taire de Google Sheet par­ti­cu­liè­re­ment pra­tique.

Pour le reste, j’ai réa­li­sé des croi­se­ments – par exemple, un film qui n’est dif­fu­sé qu’en VO sur toute la France ne peut être qu’un film en langue étran­gère – et des déduc­tions – par exemple, une copro­duc­tion France/Suisse/Belgique a de bonnes chances d’être tour­née en fran­çais.

Ce tri s’est révé­lé fas­ti­dieux et le résul­tat n’est pas garan­ti sans erreurs, mais j’ai esti­mé sa fia­bi­li­té suf­fi­sante pour conti­nuer à avan­cer, en met­tant de côté tous les films en langue fran­çaise.

3. Géolocaliser chaque salle de cinéma avec ezGecode

J’avais déjà récu­pé­ré l’adresse et le code pos­tal de chaque ciné­ma sur sa page Cine­fil. Pour en déduire sa lati­tude et sa lon­gi­tude, j’ai uti­li­sé un autre module com­plé­men­taire de Google Sheet, ezGeo­code.

La grande majo­ri­té des salles a ain­si été géo­lo­ca­li­sée auto­ma­ti­que­ment et avec une très bonne fia­bi­li­té, et j’ai réus­si à pla­cer le reste grâce à des recherches manuelles dans Google Maps.

 4. Déterminer le code commune pour chaque salle de cinéma

Afin de « marier » la base que je me suis ain­si consti­tuée avec les don­nées démo­gra­phiques four­nies par l’Insee ou les résul­tats élec­to­raux dis­po­nibles sur le site du minis­tère de l’Intérieur, il me fal­lait déter­mi­ner le code Insee de la com­mune où se trouve cha­cun des ciné­mas de ma liste.

J’ai pu le faire grâce à une table de cor­res­pon­dances et à la base offi­cielle des codes pos­taux, toutes deux dis­po­nibles sur Data.gouv.fr. Une série de recherches ver­ti­cales plus tard, j’avais pour chaque salle de ciné­ma des infor­ma­tions comme la popu­la­tion de la ville, le taux de pau­vre­té, le vote Macron…

Des tableaux croi­sés dyna­miques m’ont ensuite per­mis de conso­li­der les résul­tats pour cha­cune des 278 loca­li­tés fran­çaises pour­vues d’au moins une salle de ciné­ma (avec au moins une séance pro­gram­mée ce jour-là), puis pour chaque dépar­te­ment.

5. Réaliser les deux cartes interactives avec Carto

J’ai ensuite pré­pa­ré deux séries de don­nées, l’une avec toutes les salles où la part de la VO est majo­ri­taire (#team­vo), et l’autre avec les salles plu­tôt VF (#teamvf).

J’ai créé deux cartes basées sur ces jeux dans Car­to, et j’ai ajou­té dans cha­cune d’elle un calque sup­plé­men­taire, avec les contours de chaque dépar­te­ment et une cou­leur en fonc­tion de la part de la VO ou de la VF à cette échelle.

J’ai pas­sé pas mal de temps à cher­cher des réglages satis­fai­sants pour la taille des cercles, les nuances de cou­leurs ou encore la répar­ti­tion des dépar­te­ments en cinq caté­go­ries (choix des inter­valles).

6. Réaliser les cartes anamorphosées avec Qgis et Scapetoad

J’avais déjà uti­li­sé les ana­mor­phoses (car­to­grams en anglais) pour une série de cartes du monde tel que le voient les médias fran­çais qui avait tapé dans l’œil de pas mal d’observateurs. J’avais envie de com­men­cer mon article avec ce type de visiuels, que je trouve facile à appré­hen­der même pour des lec­teurs peu friands d’infographies.

J’ai récu­pé­ré un tra­cé des dépar­te­ments fran­çais au for­mat sha­pe­file sur OpenS­treet­Map.

J’ai ouvert ce fichier dans l’éditeur de cartes Qgis afin d’associer à chaque dépar­te­ment le nombre de séances en VO et en VF pour un mil­lion d’habitants.

C’est sur la base de ces deux don­nées que j’ai réa­li­sé les défor­ma­tions de la carte de France dans Sca­pe­Toad, un petit uti­li­taire dédié à la créa­tion d’anamorphoses.

7. Créer une série de graphiques dans Datawrapper

Pour ter­mi­ner, j’ai repris une der­nière fois mes don­nées pour iso­ler une série de chiffres de syn­thèse afin de créer les gra­phiques de syn­thèses qui figurent à la fin de l’article, en repre­nant les codes cou­leur.

La France de la VO et celle de la VF : les cartes d’une fracture française

La France de la VO
La France de la VF

Ça fait par­tie de ces com­bats qui divisent les Fran­çais en deux camps irré­con­ci­liables. Comme la guerre sans mer­ci du « pain au cho­co­lat » et de la « cho­co­la­tine », ou le conflit sécu­laire entre la tar­tine au beurre salé et celle au beurre doux.

De même, il y a ceux qui ne jurent que par la ver­sion ori­gi­nale sous-titrée (VO) – quitte à pas­ser son temps à lire les sous-titres plu­tôt qu’à pro­fi­ter de lpoac­tion et des dia­logues – et ceux qui ne peuvent pas vivre sans la ver­sion fran­çaise (VF) – quitte à subir des tra­duc­tions et des dou­blages pas tou­jours par­faits.

His­toire de frus­trer un peu tout le monde, les ciné­mas ne pro­posent pas for­cé­ment les deux ver­sions. Sur les deux ana­mor­phoses en haut de cet article, plus un dépar­te­ment est gros et plus ses habi­tants se voient pro­po­ser de séances en VO (à gauche, en rouge) ou de la VF (à droite, en vert).

Sur une journée, 20 182 séances de cinéma dans 1 400 salles

Pour les réa­li­ser, j’ai récu­pé­ré, grâce à un scra­per, l’intégralité des séances dis­po­nibles sur un site spé­cia­li­sé pour la jour­née du 28 avril 2017. Soit plus de 20 182 séances, dans plus de 1 400 ciné­mas de France et de Navarre, pro­je­tant un total de 981 films dif­fé­rents.

Par­mi ces der­niers, j’en ai iden­ti­fié 549 en langue étran­gère (non sans mal, comme je l’explique dans un autre post sur site, où je reviens sur la méthode uti­li­sée) pour un total de 14 223 séances, dont 2 964 en VO.

Dans cer­taines régions, la VO est réser­vée aux petites salles de centre-ville ou aux ciné­mas art et essai. Mais cer­tains réseaux de mul­ti­plexes pro­gramment aus­si un nombre impor­tant de séances en VO, comme UGC.

Si on passe à l’échelon des villes, c’est bien sûr à Paris que sont pro­po­sées le plus de séances en VO. Mais la ban­lieue et la pro­vince se défendent, avec Mon­treuil, Biar­ritz et Hérou­ville-Saint-Clair en tête devant la capi­tale si on prend compte la part totale des séances en VO.

A l’inverse, il y a des coins de France où on vous recom­mande pas de démé­na­ger si vous êtes #team­vo. Dans cinq dépar­te­ments, aucune séance en VO n’était pro­po­sée dans la jour­née :

  • l’Ariège
  • la Creuse
  • la Haute-Saône
  • l’Indre
  • l’Orne

Les villes avec VO et les villes avec VF

Mais pour­quoi les ciné­mas d’une ville pro­posent-ils de la VO alors que ceux de la ville d’à côté se contentent de la VF ? Le goût pour la VO est lié à la richesse des habi­tants, à leur niveau d’éducation, où bien à leur choix poli­tique ?

Sur les 1 133 loca­li­tés étu­diées, plus de 65% ne pro­po­saient aucune séance en VO dans leurs salles de ciné­ma. Pour explo­rer mes don­nées, j’ai donc répar­ti la liste en deux deux camps : les villes avec VO et les villes sans VO.


J’ai ensuite asso­cié mes résul­tats à une série de sta­tis­tiques de l’Insee, à com­men­cer par la popu­la­tion (en 2014). Sans sur­prise, ce sont dans les loca­li­tés les plus peu­plées qu’on a le plus de chances se trou­ver des séances en VO.

Ça semble logique : comme la majo­ri­té des Fran­çais pré­fère la VF, pro­po­ser de la VO n’est com­mer­cia­le­ment inté­res­sant que si la salle se trouve dans une zone suf­fi­sam­ment peu­plée pour qu’on y trouve un nombre suf­fi­sant d’amateurs de ver­sions sous-titrées.

Dans les deux camps, le niveau de vie médian est proche. On peut faire l’hypothèse que la VO n’est pas « un truc de riches»…

… ce que semble confir­mer la com­pa­rai­son du taux de pau­vre­té médian des deux séries de villes.

En revanche, si on s’intéresse à la part de la popu­la­tion ayant sui­vi des études supé­rieures, la dif­fé­rence est nette.

Je vois au moins une cau­sa­li­té pos­sible à cette cor­ré­la­tion : plus on étu­die, plus on est à l’aise avec la lec­ture, et moins on est gêné quand on doit pas­ser du temps à lire les dia­logues en bas de l’écran. Ce qui pour­rait inci­ter les gérants de salle de la loca­li­té concer­née à pri­vi­lé­gier les copies en VO.

J’ai aus­si croi­sé mes don­nées avec les résul­tats du pre­mier tour de la pré­si­den­tielle 2017. Les villes sans VO ont ten­dance à voter davan­tage pour Le Pen et moins pour Macron et Mélen­chon que les autres. Si la pré­si­den­tielle ne s’était jouée que dans les villes avec VO, Mélen­chon aurait été qua­li­fié pour le second tour.


Voi­là ! Evi­dem­ment, ce tra­vail est très par­cel­laire, et la méthode que j’ai uti­li­sée sûre­ment contes­table. Je ne suis pas spé­cia­liste de l’étude des pra­tiques cultu­relles, et je ne sais pas si cette grande frac­ture fran­çaise a fait l’objet d’enquêtes plus pous­sées. [ajout le 27/7 à 17h20 : Vod­kas­ter a fait un point assez com­plet sur le sujet en 2016]

Je serais en tout cas ravi d’en savoir plus, donc n’hésitez pas à des­cendre don­ner votre avis un peu plus bas dans les com­men­taires, et à aller explo­rer ces don­nées, qui sont dis­po­nibles dans une Google Sheet.

Cor­ri­gé le 21/7 à 10h20. Inver­sion des barres dans les gra­phique niveaux de vie et part des diplô­més du supé­rieur.

Mis à jour le 21/7 à 11h45. Ajout du gra­phique consa­cré aux réseaux de mul­ti­plexes.

Cor­ri­gé le 1/10 à 21h10. Inver­sion des barres dans le gra­phique popu­la­tion.

Comment j’ai réalisé les cartes du monde selon les médias français

C’est sans doute l’expérience publiée sur ce site qui m’a don­né le plus de fil à retordre. Il a fal­lu pas­ser par de nom­breuses et fas­ti­dieuses étapes pour arri­ver à la publi­ca­tion de la série de cartes du monde tel que le voient les médias fran­çais Dans mon labo.

Mais je suis content du ren­du un peu arty de ces ana­mor­phoses – j’ai emprun­té l’idée et une par­tie de la méthode à Alter­mondes, qui en avait réa­li­sé une à l’occasion de sa cam­pagne de crowd­fun­ding.

1. Scraper les résultats de recherche Google en Python

C’était la pre­mière fois que je réa­li­sais un tra­vail d’extraction auto­ma­tique de don­nées en conce­vant un script dans un lan­gage de pro­gram­ma­tion plu­tôt qu’en uti­li­sant un logi­ciel dis­po­sant d’une inter­face gra­phique, comme Out­wit Hub.

Je me suis ser­vi de Scra­py, un outil qui m’a beau­coup faci­li­té la tâche, mais que je n’ai pas réus­si à ins­tal­ler sur mon Mac (la faute à El Capi­tan, semble-t-il) : il a fal­lu res­sor­tir un por­table sous Linux pour par­ve­nir à le lan­cer.

La mise au point du script m’a pris pas mal de temps, mais une fois que j’ai com­pris la logique, j’ai avan­cé rela­ti­ve­ment vite : il suf­fi­sait en effet de repé­rer l’endroit de la page des résul­tats de recherche où figure la men­tion « Envi­ron x résul­tats ».

Le plus com­pli­qué à été de com­po­ser avec les sécu­ri­tés qui se déclenchent sur les ser­veurs de Google quand on le sol­li­cite trop : même en ralen­tis­sant beau­coup le rythme du robot pas­sant sur ces pages, je finis­sais tou­jours par voir mon adresse IP blo­quée.

2. Analyser les résultats dans Google Sheets

C’est en com­men­çant à trier et à fil­trer les résul­tats obte­nus que je me suis aper­çu qu’ils n’étaient pas tou­jours fiables : pour cer­tains pays, les résul­tats trou­vés dans Google Actua­li­tés (tous médias confon­dus) étaient en effet ajou­tés au résul­tats trou­vés sur un média par­ti­cu­lier…

J’ai alors ten­té ma chance sur Bing, mais ce der­nier ne per­met pas d’effectuer une recherche com­bi­nant plu­sieurs termes (avec l’opérateur OR) en ciblant un nom de domaine par­ti­cu­lier.

De retour sur Google, j’ai fini par obte­nir des don­nées cohé­rentes en limi­tant la recherche aux pages publiées lors de l’année écou­lée.

Il a fal­lu aus­si trai­ter quelques cas par­ti­cu­liers – par exemple, le mot « Cana­da » appa­raît sur toutes les pages du Huf­fing­ton Post et de Buzz­feed, ces deux sites pro­po­sant un accès vers leur édi­tion cana­dienne.

Il reste sans doute de petites aber­ra­tions de ce genre dans les don­nées uti­li­sées pour faire les cartes, mais j’ai consi­dé­ré qu’elles n’étaient pas pré­ju­di­ciables, vu la taille finale des cartes et leur niveau impor­tant de défor­ma­tion.

3. Ajouter les résultats obtenus à une carte du monde grâce à QGIS

Le logi­ciel de car­to­gra­phie avan­cé QGIS m’a per­mis d’ouvrir un sha­pe­file (fichier de contours) trou­vé sur The­ma­tic­Map­ping et de lui asso­cier mes propres don­nées via des recherches ver­ti­cales dans la table.

Pour que ça marche, il faut une clé com­mune aux deux fichiers : en l’occurence, le code ISO à trois chiffres, que j’avais pris soin d’utiliser pour chaque pays étu­dié – je l’ajoute désor­mais sys­té­ma­ti­que­ment à toutes mes feuilles de cal­cul quand elles sont basées sur des pays, une pré­cau­tion qui se révèle sou­vent utile.

4. Réaliser les anamorphoses avec ScapeToad

Dis­po­nible sur tous les OS via Java, Sca­pe­Toad est un petit logi­ciel plu­tôt bien fichu qui va réa­li­ser la défor­ma­tion du fichier sha­pe­file en tenant compte, pour chaque pays, d’une valeur numé­rique dis­po­nible dans la table asso­ciée au fichier de contours.

Le résul­tat peut être enre­gis­tré au for­mat d’image vec­to­riel SVG, ce qui per­met de l’utiliser ensuite à n’importe quelle taille.

Atten­tion : pour une carte du monde, les temps de cal­cul et de sau­ve­garde sont impor­tants (sur­tout quand il faut recom­men­cer la mani­pu­la­tion vingt fois pour vingt médias dif­fé­rents…).

5. Améliorer le résultat dans Adobe Illustrator

Le fichier SVG obte­nu peut être faci­le­ment ouvert et modi­fié dans Illus­tra­tor, ce qui m’a per­mis de chan­ger la cou­leur et la trans­pa­rence des pays, et de créer une ver­sion PNG uti­li­sée pour le par­tage Face­book.

Une fois les vingt cartes obte­nues, j’ai créé la petite info­gra­phie per­met­tant de bas­cu­ler d’un média à l’autre en HTML, CSS et JQue­ry. Enfin, j’ai uti­li­sé Data­wrap­per pour réa­li­ser les deux gra­phiques éga­le­ment pré­sents dans l’article.

Voici comment les médias français voient le monde

Les médias nous donnent-ils une vision défor­mée du monde qui nous entoure ? La ques­tion est vieille comme Théo­phraste Renau­dot, mais j’ai ten­té d’y appor­ter une réponse moderne avec la série de cartes « ana­mor­pho­sées » publiée ci-des­sous – une idée que j’ai piquée à mes petits cama­rades d’Altermondes.

Elles ont été réa­li­sées en basant la défor­ma­tion de chaque pays sur le nombre de résul­tats trou­vés par Google quand on le cherche sur le site de l’un des vingt médias étu­diés – je reviens plus en détail sur la méthode uti­li­sée (et ses limites) dans un autre post.

Avec l’avènement des réseaux sociaux, deve­nus pour beau­coup d’entre nous le prin­ci­pal point d’accès à l’information, ces cartes vont-elles se défor­mer davan­tage ?

En fil­trant selon leur popu­la­ri­té les publi­ca­tions venues de nos amis et des pages aux­quelles nous nous sommes abon­nés , Face­book est en effet accu­sé de créer une « bulle » autour de ses uti­li­sa­teurs, ne les expo­sant plus qu’à des infor­ma­tions qui les touchent ou les font réagir.

Et comme leur tra­fic dépend de plus en plus de cette pla­te­forme, les médias sont ten­tés de « publier pour Face­book », lais­sant de côté l’actualité des pays trop loin­tains. Un phé­no­mène qu’on peut obser­ver sur les cartes de Buzz­feed France et du Huf­fing­ton Post, où les pays du Sud occupent la por­tion congrue.

Mais ces biais ne sont pas nou­veaux, et ils dépendent aus­si de la ligne édi­to­riale des jour­naux concer­nés :

  • L’Amérique du Sud et l’Afrique sont net­te­ment enflées sur la carte du Monde diplo­ma­tique – logique vu les posi­tions tiers-mon­distes de ce men­suel.
  • l’Europe explose sur celle de Contexte – nor­mal, le site suit de près l’actualité légis­la­tive de l’UE.
  • les Etats-Unis sont bien plus gros que la moyenne sur celle de Slate.fr – pas éton­nant, une bonne par­tie des articles sont des tra­duc­tions de textes publiés dans la ver­sion amé­ri­caine.
  • Les sites qui reprennent beau­coup l’AFP, par exemple Libé­ra­tion et Le Figa­ro, ont des cartes assez proches –une part impor­tante des résul­tats décomp­tés se trouvent dans les dépêches de cette agence et reprises, sous dif­fé­rentes formes, sur ces sites.

Ces spé­ci­fi­ci­tés se retrouvent si on s’intéresse aux pays les plus cités, média par média.

On retrouve bien la loi du « mort-kilo­mètre », qui veut qu’une tem­pête de neige à Londres pour­ra occu­per les chaînes infos toute la jour­née, alors qu’un tsu­na­mi en Indo­né­sie peut faire des cen­taines de vic­times sans qu’on cham­boule le menu des jour­naux télé­vi­sés.

Mais on peut aus­si prendre le pro­blème dans l’autre sens, et s’intéresser aux médias qui s’intéressent plus (ou moins) que la moyenne à un pays don­né.

N’hésitez pas à explo­rer vous-mêmes les don­nées que j’ai récol­tées,  et à racon­ter vos trou­vailles ou à signa­ler des pro­blèmes en me contac­tant ou en lais­sant com­men­taire.

Mis à jour le 26/1 à 10h35. Pré­ci­sion ajou­tée concer­nant les médias repre­nant beau­coup l’AFP, après un échange avec @quentingirard sur Twit­ter.

Ces livres plus chers en version électronique que sur papier

Un eBook ouvert sur un iPhone (Jonas Tana/Flickr/CC-BY-NC-DR)
Un eBook ouvert sur un iPhone (Jonas Tana/­Fli­ckr/CC-BY-NC-DR)

Ça coûte com­bien, une série de 0 et de 1 ? C’est la ver­ti­gi­neuse ques­tion à laquelle se confrontent les édi­teurs quand il faut fixer le prix de la ver­sion élec­tro­nique d’un de leurs livres.

Et la réponse varie beau­coup d’un titre à l’autre, comme le montre un échan­tillon d’une cin­quan­taine de romans et essais, choi­si par­mi les plus ven­dus ou signés des auteurs les plus connus.

Pour cha­cun, j’ai rele­vé le prix de l’édition ori­gi­nale, celui de l’édition poche et celui des ver­sions iBook d’Apple ou Kindle d’Amazon (don­nées dis­po­nibles au for­mat CSV).

A ma grande sur­prise, l’ebook est dans la plu­part des cas plus cher que la ver­sion poche.

Le sur­coût atteint même 10,90 € pour Boo­me­rang, de Tatia­na de Ros­nay (éd. Héloïse d’Ormesson) – 17,99 € en ver­sion élec­tro­nique, 7,10 € au Livre de poche (+150%).

De même, Apo­ca­lypse Bébé, de Vir­gi­nie Des­pentes (éd. Gras­set), vous coû­te­ra 13,99 € si vous sou­hai­tez le lire sur votre Kindle, contre 7,10 € seule­ment si vous vou­lez feuille­ter les 380 pages de la ver­sion Livre de poche (+97%).

Ce déca­lage m’a éton­né : d’un côté, un fichier numé­rique dont la repro­duc­tion ne coûte rien ; de l’autre, un objet phy­sique fait de papier et d’encre et qu’il faut ache­mi­ner jusqu’au lec­teur.

Sans comp­ter que pro­po­ser un prix bas pour les ebooks les rend plus acces­sibles aux lec­teurs les plus fau­chés, et pour­rait évi­ter de voir cer­tains se tour­ner avec le pira­tage.

Si on com­pare le prix de l’édition ori­gi­nale et celui de l’ebook, le second est tou­jours moins éle­vé, mais la décote est très variable selon les titres : de -17% à -68% (-41% en moyenne).

Par­mi les auteurs dont les ebooks sont ven­dus à prix cas­sés, on trouve para­doxa­le­ment Fré­dé­ric Beig­be­der, un farouche oppo­sant du livre élec­tro­nique – c’est la fin « des librai­ries, des mai­sons d’édition, des sup­plé­ments lit­té­raires dans les jour­naux et peut-être la fin de la cri­tique lit­té­raire », décla­rait-il sur Europe 1 en 2011.

Son Oona & Salin­ger est ven­du 7,10 € en poche mais seule­ment 6,49 € chez Apple et Ama­zon, soit une remise de 9%, la plus éle­vée de mon échan­tillon. Et pour Win­dows on the World, l’ebook est « seule­ment » 39 cen­times plus cher que le poche (7,99 € au lieu de 7,60 €, soit +5%).

J’ai donc contac­té les mai­sons d’édition concer­nées pour mieux com­prendre com­ment ces prix étaient fixés.

La réponse de Fal­lois m’a beau­coup sur­pris : si La Véri­té sur l’affaire Har­ry Qué­bert, best-sel­ler sur­prise de Joël Dicker, coûte 11,99 € en ver­sion élec­tro­nique (contre 9,20 € en poche, soit +30%), c’est pour évi­ter qu’elle se vende trop bien, m’explique en sub­stance Phi­lip­pine Cruse :

« Nous vou­lons sou­te­nir le livre papier. Si vous met­tez un prix trop bas pour les ebooks, les gens ne vont ache­ter que du numé­rique et vous allez faire mou­rir les libraires. »

Si le sort des librai­ries est en jeu, pour­quoi ne pas aller plus loin et reti­rer la ver­sion ebook de la vente ? Parce que l’époque est au com­pro­mis : « On est obli­gés de jon­gler, c’est une période un peu dif­fi­cile », recon­naît-elle.

Chez Viviane Hamy, qui vend Coule la Seine de Fred Var­gas à 9,99 € en ebook alors qu’il coûte 4,30 € en poche (+132%), May­lis Vau­te­rin a bien vou­lu détailler la poli­tique tari­faire pra­ti­quée.

Quand le livre est une nou­veau­té, la décote sera de « 30% au mini­mum », mais le prix pour­ra même être des­cen­du à 9,99 € dans le cadre d’une offre de lan­ce­ment si « le poten­tiel d’un titre est par­ti­cu­liè­re­ment fort pour les lec­teurs qui lisent en numé­rique ».

Pour les livres « de fond », le prix est « de 9,99 € pour la col­lec­tion poli­cière et 6,99 € pour la col­lec­tion bis », hors périodes et offres de pro­mo­tion.

Et c’est jus­te­ment pour pou­voir pro­po­ser des pro­mos que le prix de Coule la Seine et des autres romans de cet édi­teur est main­te­nu plus cher que la ver­sion poche :

« Je ne connais pas d’autres méca­nismes pour mettre en avant nos livres (dans la masse de livres dis­po­nibles, en étant un édi­teur indé­pen­dant face à des groupes) que de par­ti­ci­per à des opé­ra­tions de baisse de prix.

En pra­ti­quant un prix nor­mal de 9,99 €, j’ai ain­si la pos­si­bi­li­té de les pro­po­ser à 4,99 € en négo­ciant de beaux focus sur notre pro­duc­tion. »

Vau­te­rin recon­naît qu’elle « tâtonne » pour « trou­ver un modèle édi­to­rial » per­met­tant de main­te­nir en ligne le déli­cat équi­libre entre « best-sel­lers et décou­vertes de talents, for­cé­ment défi­ci­taires au plan éco­no­mique ».

Mais s’il est vir­tuel, un livre élec­tro­nique engendre des coûts bien réels pour l’éditeur, ajoute-t-elle. Les reven­deurs (Apple, Ama­zon…) gardent 40% du prix payé par l’acheteur. L’éditeur a choi­si de ver­ser des droits d’auteurs plus éle­vés que pour le papier. Et puis il faut prendre en compte « l’interface vers les plate-formes et la ges­tion des méta­don­nées, qui sup­posent de gros inves­tis­se­ments ». Sans oublier la réa­li­sa­tion des fichiers epub eux-mêmes.

Elle se défend en tout cas de toute hos­ti­li­té envers ces nou­veaux sup­ports :

« Le numé­rique est une part impor­tante de la vie de notre cata­logue. Nous avons inves­ti afin de rendre dis­po­nible près de 80% de notre cata­logue en numé­rique, y com­pris des ouvrages qui vendent de très petites quan­ti­tés. »

Et pour vous, quel est le bon prix pour un livre élec­tro­nique ? Le débat est ouvert dans les com­men­taires !

On n’a pas les mêmes valeurs : le mariage gay sur les sites de Fox News et MSNBC

L’actualité de ces der­nières heures est par­ti­cu­liè­re­ment char­gée, entre les attaques de l’Etat isla­mique, le réfé­ren­dum annon­cé en Grèce et la déci­sion de la Cour suprême amé­ri­caine de léga­li­ser le mariage homo­sexuel.

Dans ces condi­tions, pas simple de choi­sir le sujet de cou­ver­ture d’un quo­ti­dien ou l’ordre des sujets affi­chés en page d’accueil d’un site d’information.

Mais la « hié­rar­chie de l’info » chère aux jour­na­listes ne dépend pas qu’à des cri­tères objec­tifs, loin de là. L’importance qu’une rédac­tion accorde à un sujet dépend aus­si de sa vision du monde, de ses prio­ri­tés édi­to­riales et de ses valeurs.

Je me suis amu­sé à com­pa­rer les pages d’accueil des sites des chaînes amé­ri­caines MSNBC (clas­sée pro-démo­crate, « libé­rale » au sens amé­ri­cain, à gauche donc) et Fox News (pro-répu­bli­cain, conser­va­teur, à droite donc). Les cap­tures d’écran ont été prises ce same­di matin.

Les pages d'accueil de Fox News et de MSNBC ce samedi matin.

Vu l’importance du sujet, je m’attendais à ce qu’il occupe à peu près la même place sur les deux sites, mais on voit que Fox News pré­fère mettre en avant d’autres actua­li­tés (une forme de déni ?), sur­tout en haut de page d’accueil. De façon plus atten­due, les titres choi­sis par les deux médias donnent clai­re­ment la cou­leur.

Titres de MSNBC.

  • L’Amérique ouvre un nou­veau cha­pitre de son his­toire
  • Les mots de la Cour suprême dans sa déci­sion
  • Des émeutes à la célé­bra­tion
  • L’avis d’une séna­trice gay sur « cette étape capi­tale »
  • La plus belle semaine de tous les temps pour le camp pro­gres­siste

Titres de Fox News, en haut de page :

  • « Une cour de jus­tice n’est pas le légis­la­teur », explique le juge John Roberts, qui avait sou­te­nu Oba­ma­care
  • Vidéo : le mariage pour tous a gagné
  • Edi­to : la cour s’attaque à la véri­té du mariage et dresse la foi contre la loi

Titres de Fox News, beau­coup plus bas dans la page, affi­chés seule­ment après avoir « scrol­lé » suf­fi­sam­ment :

  • Mariage gay : pour­quoi la Cour suprême a tort.
  • Pour­quoi les déci­sions de la Cour suprême sur Oba­ma­care, le mariage gay, le droit de pro­prié­té… vont aider les Répu­bli­cains à la pré­si­den­tielle de 2016
  • Cour suprême : les couples de même sexe peuvent se marier dans les 50 Etats
  • Com­ment le mariage gay va affec­ter l’Amérique
  • Les aver­tis­se­ments du juge Roberts après la vic­toire du mariage gay
  • Ben & Jer­ry sortent une crème gla­cée spé­ciale après la vic­toire du mariage gay.
  • Les réac­tions des célé­bri­tés à la déci­sion de la Cour suprême
  • Mike Hucka­bee s’en prend au juge­ment de la Cour suprême
  • Pour Ric Gre­nell, la déci­sion sur mariage gay est une grande vic­toire pour les conser­va­teurs.
  • Quel impact aura la déci­sions sur la course à la Mai­son-Blanche
  • Lea DeLa­ria sur l’impact de la déci­sion de la Cour suprême