Archives par mot-clé : data

Comment j’ai réalisé les cartes de France de la VO et de la VF

Comme souvent, le travail que j’ai réalisé pour ma petite enquête sur la France de la VO et celle de la VF met en jeu toute une série d’outils que j’ai découvert au fil des ans, qu’il s’agisse de scraping, de jointures de tables ou de représentation par anamorphoses. L’ensemble des données dont je me suis servi est disponible dans une Google Sheet.

Je vais en décrire les différentes étapes, ce qui peut être utile si vous souhaitez vous lancer dans un chantier comparable. N’hésitez pas à mettre votre grain de sel dans les commentaires.

1. Récupérer la liste des séances avec un scraping en deux étapes avec Outwit Hub

Pour commencer, il fallu que je me constitue une base contenant l’ensemble des salles de cinéma de France. Par chance, le site Cinefil propose des pages listant tous les cinés d’un département (par exemple, ceux situés dans l’Ain).

J’ai d’abord généré automatiquement une URL pour chaque département sur cinefil.com dans Google Sheet. J’ai ouvert cette première liste dans Outwit Hub, un logiciel de scraping qui m’a permis de rassembler une liste de 1 409 salles. Pour chacune, j’ai aussi récupéré l’URL de sa page sur cinefil.com.

Sur ces 1 409 URL, j’ai fait passer un second scraper, afin de récupérer la liste des films diffusés dans chaque salle sur une journée, avec les horaires des séances et la version diffusée (VF ou VO). J’ai obtenu ainsi une liste de 14 423 films et de 20 182 séances.

2. Déterminer la langue de tournage dans chaque film avec OMDB

Après quelques heures de travail, je me suis aperçu d’une chose toute bête mais qui m’avait échappé : sur Cinefil, les séances des films en langue française sont indiquées « en VF », ce qui ne permet pas de les différencier automatiquement des films en langue étrangère diffusés en VF…

Il a donc fallu que j’établisse une liste des 982 films différents diffusés sur toute la France ce jour-là (le 28 avril), et que je trouve un moyen de déterminer, pour chacun d’entre eux, s’il s’agit à l’origine d’un film tourné en langue française ou en langue étrangère.

L’API Omdb m’a permis de récupérer cette information dans un bon nombre de cas, par l’intermédiaire de Cloud Ignite, un module complémentaire de Google Sheet particulièrement pratique.

Pour le reste, j’ai réalisé des croisements – par exemple, un film qui n’est diffusé qu’en VO sur toute la France ne peut être qu’un film en langue étrangère – et des déductions – par exemple, une coproduction France/Suisse/Belgique a de bonnes chances d’être tournée en français.

Ce tri s’est révélé fastidieux et le résultat n’est pas garanti sans erreurs, mais j’ai estimé sa fiabilité suffisante pour continuer à avancer, en mettant de côté tous les films en langue française.

3. Géolocaliser chaque salle de cinéma avec ezGecode

J’avais déjà récupéré l’adresse et le code postal de chaque cinéma sur sa page Cinefil. Pour en déduire sa latitude et sa longitude, j’ai utilisé un autre module complémentaire de Google Sheet, ezGeocode.

La grande majorité des salles a ainsi été géolocalisée automatiquement et avec une très bonne fiabilité, et j’ai réussi à placer le reste grâce à des recherches manuelles dans Google Maps.

 4. Déterminer le code commune pour chaque salle de cinéma

Afin de « marier » la base que je me suis ainsi constituée avec les données démographiques fournies par l’Insee ou les résultats électoraux disponibles sur le site du ministère de l’Intérieur, il me fallait déterminer le code Insee de la commune où se trouve chacun des cinémas de ma liste.

J’ai pu le faire grâce à une table de correspondances et à la base officielle des codes postaux, toutes deux disponibles sur Data.gouv.fr. Une série de recherches verticales plus tard, j’avais pour chaque salle de cinéma des informations comme la population de la ville, le taux de pauvreté, le vote Macron…

Des tableaux croisés dynamiques m’ont ensuite permis de consolider les résultats pour chacune des 278 localités françaises pourvues d’au moins une salle de cinéma (avec au moins une séance programmée ce jour-là), puis pour chaque département.

4. Réaliser les deux cartes interactives avec Carto

J’ai ensuite préparé deux séries de données, l’une avec toutes les salles où la part de la VO est majoritaire (#teamvo), et l’autre avec les salles plutôt VF (#teamvf).

J’ai créé deux cartes basées sur ces jeux dans Carto, et j’ai ajouté dans chacune d’elle un calque supplémentaire, avec les contours de chaque département et une couleur en fonction de la part de la VO ou de la VF à cette échelle.

J’ai passé pas mal de temps à chercher des réglages satisfaisants pour la taille des cercles, les nuances de couleurs ou encore la répartition des départements en cinq catégories (choix des intervalles).

5. Réaliser les cartes anamorphosées avec Qgis et Scapetoad

J’avais déjà utilisé les anamorphoses (cartograms en anglais) pour une série de cartes du monde tel que le voient les médias français qui avait tapé dans l’œil de pas mal d’observateurs. J’avais envie de commencer mon article avec ce type de visiuels, que je trouve facile à appréhender même pour des lecteurs peu friands d’infographies.

J’ai récupéré un tracé des départements français au format shapefile sur OpenStreetMap.

J’ai ouvert ce fichier dans l’éditeur de cartes Qgis afin d’associer à chaque département le nombre de séances en VO et en VF pour un million d’habitants.

C’est sur la base de ces deux données que j’ai réalisé les déformations de la carte de France dans ScapeToad, un petit utilitaire dédié à la création d’anamorphoses.

6. Créer une série de graphiques dans Datawrapper

Pour terminer, j’ai repris une dernière fois mes données pour isoler une série de chiffres de synthèse afin de créer les graphiques de synthèses qui figurent à la fin de l’article, en reprenant les codes couleur.

La France de la VO et celle de la VF : les cartes d’une fracture française

La France de la VO
La France de la VF

Ça fait partie de ces combats qui divisent les Français en deux camps irréconciliables. Comme la guerre sans merci du « pain au chocolat » et de la « chocolatine », ou le conflit séculaire entre la tartine au beurre salé et celle au beurre doux.

De même, il y a ceux qui ne jurent que par la version originale sous-titrée (VO) — quitte à passer son temps à lire les sous-titres plutôt qu’à profiter de l’action et des dialogues — et ceux qui ne peuvent pas vivre sans la version française (VF) — quitte à subir des traductions et des doublages pas toujours parfaits.

Histoire de frustrer un peu tout le monde, les cinémas ne proposent pas forcément les deux versions. Sur les deux anamorphoses en haut de cet article, plus un département est gros et plus ses habitants se voient proposer de séances en VO (à gauche, en rouge) ou de la VF (à droite, en vert).

Sur une journée, 20 182 séances de cinéma dans 1 400 salles

Pour les réaliser, j’ai récupéré, grâce à un scraper, l’intégralité des séances disponibles sur un site spécialisé pour la journée du 28 avril 2017. Soit plus de 20 182 séances, dans plus de 1 400 cinémas de France et de Navarre, projetant un total de 981 films différents.

Parmi ces derniers, j’en ai identifié 549 en langue étrangère (non sans mal, comme je l’explique dans un autre post sur site, où je reviens sur la méthode utilisée) pour un total de 14 223 séances, dont 2 964 en VO.

Dans certaines régions, la VO est réservée aux petites salles de centre-ville ou aux cinémas art et essai. Mais certains réseaux de multiplexes programment aussi un nombre important de séances en VO, comme UGC.

Si on passe à l’échelon des villes, c’est bien sûr à Paris que sont proposées le plus de séances en VO. Mais la banlieue et la province se défendent, avec Montreuil, Biarritz et Hérouville-Saint-Clair en tête devant la capitale si on prend compte la part totale des séances en VO.

A l’inverse, il y a des coins de France où on vous recommande pas de déménager si vous êtes #teamvo. Dans cinq départements, aucune séance en VO n’était proposée dans la journée :

  • l’Ariège
  • la Creuse
  • la Haute-Saône
  • l’Indre
  • l’Orne

Les villes avec VO et les villes avec VF

Mais pourquoi les cinémas d’une ville proposent-ils de la VO alors que ceux de la ville d’à côté se contentent de la VF ? Le goût pour la VO est lié à la richesse des habitants, à leur niveau d’éducation, où bien à leur choix politique ?

Sur les 1 133 localités étudiées, plus de 65% ne proposaient aucune séance en VO dans leurs salles de cinéma. Pour explorer mes données, j’ai donc réparti la liste en deux deux camps : les villes avec VO et les villes sans VO.


J’ai ensuite associé mes résultats à une série de statistiques de l’Insee, à commencer par la population (en 2014). Sans surprise, ce sont dans les localités les plus peuplées qu’on a le plus de chances se trouver des séances en VO.

Ça semble logique : comme la majorité des Français préfère la VF, proposer de la VO n’est commercialement intéressant que si la salle se trouve dans une zone suffisamment peuplée pour qu’on y trouve un nombre suffisant d’amateurs de versions sous-titrées.

Dans les deux camps, le niveau de vie médian est proche. On peut faire l’hypothèse que la VO n’est pas « un truc de riches »…

… ce que semble confirmer la comparaison du taux de pauvreté médian des deux séries de villes.

En revanche, si on s’intéresse à la part de la population ayant suivi des études supérieures, la différence est nette.

Je vois au moins une causalité possible à cette corrélation : plus on étudie, plus on est à l’aise avec la lecture, et moins on est gêné quand on doit passer du temps à lire les dialogues en bas de l’écran. Ce qui pourrait inciter les gérants de salle de la localité concernée à privilégier les copies en VO.

J’ai aussi croisé mes données avec les résultats du premier tour de la présidentielle 2017. Les villes sans VO ont tendance à voter davantage pour Le Pen et moins pour Macron et Mélenchon que les autres. Si la présidentielle ne s’était jouée que dans les villes avec VO, Mélenchon aurait été qualifié pour le second tour.


Voilà ! Evidemment, ce travail est très parcellaire, et la méthode que j’ai utilisée sûrement contestable. Je ne suis pas spécialiste de l’étude des pratiques culturelles, et je ne sais pas si cette grande fracture française a fait l’objet d’enquêtes plus poussées. [ajout le 27/7 à 17h20: Vodkaster a fait un point assez complet sur le sujet en 2016]

Je serais en tout cas ravi d’en savoir plus, donc n’hésitez pas à descendre donner votre avis un peu plus bas dans les commentaires, et à aller explorer ces données, qui sont disponibles dans une Google Sheet.

Corrigé le 21/7 à 10h20. Inversion des barres dans les graphique niveaux de vie et part des diplômés du supérieur.

Mis à jour le 21/7 à 11h45. Ajout du graphique consacré aux réseaux de multiplexes.

Comment j’ai réalisé les cartes du monde selon les médias français

C’est sans doute l’expérience publiée sur ce site qui m’a donné le plus de fil à retordre. Il a fallu passer par de nombreuses et fastidieuses étapes pour arriver à la publication de la série de cartes du monde tel que le voient les médias français Dans mon labo.

Mais je suis content du rendu un peu arty de ces anamorphoses – j’ai emprunté l’idée et une partie de la méthode à Altermondes, qui en avait réalisé une à l’occasion de sa campagne de crowdfunding.

1. Scraper les résultats de recherche Google en Python

C’était la première fois que je réalisais un travail d’extraction automatique de données en concevant un script dans un langage de programmation plutôt qu’en utilisant un logiciel disposant d’une interface graphique, comme Outwit Hub.

Je me suis servi de Scrapy, un outil qui m’a beaucoup facilité la tâche, mais que je n’ai pas réussi à installer sur mon Mac (la faute à El Capitan, semble-t-il) : il a fallu ressortir un portable sous Linux pour parvenir à le lancer.

La mise au point du script m’a pris pas mal de temps, mais une fois que j’ai compris la logique, j’ai avancé relativement vite : il suffisait en effet de repérer l’endroit de la page des résultats de recherche où figure la mention « Environ x résultats ».

Le plus compliqué à été de composer avec les sécurités qui se déclenchent sur les serveurs de Google quand on le sollicite trop : même en ralentissant beaucoup le rythme du robot passant sur ces pages, je finissais toujours par voir mon adresse IP bloquée.

2. Analyser les résultats dans Google Sheets

C’est en commençant à trier et à filtrer les résultats obtenus que je me suis aperçu qu’ils n’étaient pas toujours fiables : pour certains pays, les résultats trouvés dans Google Actualités (tous médias confondus) étaient en effet ajoutés au résultats trouvés sur un média particulier…

J’ai alors tenté ma chance sur Bing, mais ce dernier ne permet pas d’effectuer une recherche combinant plusieurs termes (avec l’opérateur OR) en ciblant un nom de domaine particulier.

De retour sur Google, j’ai fini par obtenir des données cohérentes en limitant la recherche aux pages publiées lors de l’année écoulée.

Il a fallu aussi traiter quelques cas particuliers — par exemple, le mot « Canada » apparaît sur toutes les pages du Huffington Post et de Buzzfeed, ces deux sites proposant un accès vers leur édition canadienne.

Il reste sans doute de petites aberrations de ce genre dans les données utilisées pour faire les cartes, mais j’ai considéré qu’elles n’étaient pas préjudiciables, vu la taille finale des cartes et leur niveau important de déformation.

3. Ajouter les résultats obtenus à une carte du monde grâce à QGIS

Le logiciel de cartographie avancé QGIS m’a permis d’ouvrir un shapefile (fichier de contours) trouvé sur ThematicMapping et de lui associer mes propres données via des recherches verticales dans la table.

Pour que ça marche, il faut une clé commune aux deux fichiers : en l’occurence, le code ISO à trois chiffres, que j’avais pris soin d’utiliser pour chaque pays étudié — je l’ajoute désormais systématiquement à toutes mes feuilles de calcul quand elles sont basées sur des pays, une précaution qui se révèle souvent utile.

4. Réaliser les anamorphoses avec ScapeToad

Disponible sur tous les OS via Java, ScapeToad est un petit logiciel plutôt bien fichu qui va réaliser la déformation du fichier shapefile en tenant compte, pour chaque pays, d’une valeur numérique disponible dans la table associée au fichier de contours.

Le résultat peut être enregistré au format d’image vectoriel SVG, ce qui permet de l’utiliser ensuite à n’importe quelle taille.

Attention : pour une carte du monde, les temps de calcul et de sauvegarde sont importants (surtout quand il faut recommencer la manipulation vingt fois pour vingt médias différents…).

5. Améliorer le résultat dans Adobe Illustrator

Le fichier SVG obtenu peut être facilement ouvert et modifié dans Illustrator, ce qui m’a permis de changer la couleur et la transparence des pays, et de créer une version PNG utilisée pour le partage Facebook.

Une fois les vingt cartes obtenues, j’ai créé la petite infographie permettant de basculer d’un média à l’autre en HTML, CSS et JQuery. Enfin, j’ai utilisé Datawrapper pour réaliser les deux graphiques également présents dans l’article.

Voici comment les médias français voient le monde

Les médias nous donnent-ils une vision déformée du monde qui nous entoure ? La question est vieille comme Théophraste Renaudot, mais j'ai tenté d'y apporter une réponse moderne avec la série de cartes "anamorphosées" publiée ci-dessous -- une idée que j'ai piquée à mes petits camarades d'Altermondes.

Elles ont été réalisées en basant la déformation de chaque pays sur le nombre de résultats trouvés par Google quand on le cherche sur le site de l'un des vingt médias étudiés -- je reviens plus en détail sur la méthode utilisée (et ses limites) dans un autre post.

Avec l'avènement des réseaux sociaux, devenus pour beaucoup d'entre nous le principal point d'accès à l'information, ces cartes vont-elles se déformer davantage ?

En filtrant selon leur popularité les publications venues de nos amis et des pages auxquelles nous nous sommes abonnés , Facebook est en effet accusé de créer une "bulle" autour de ses utilisateurs, ne les exposant plus qu'à des informations qui les touchent ou les font réagir.

Et comme leur trafic dépend de plus en plus de cette plateforme, les médias sont tentés de "publier pour Facebook", laissant de côté l'actualité des pays trop lointains. Un phénomène qu'on peut observer sur les cartes de Buzzfeed France et du Huffington Post, où les pays du Sud occupent la portion congrue.

Mais ces biais ne sont pas nouveaux, et ils dépendent aussi de la ligne éditoriale des journaux concernés :

  • L'Amérique du Sud et l'Afrique sont nettement enflées sur la carte du Monde diplomatique -- logique vu les positions tiers-mondistes de ce mensuel.
  • l'Europe explose sur celle de Contexte -- normal, le site suit de près l'actualité législative de l'UE.
  • les Etats-Unis sont bien plus gros que la moyenne sur celle de Slate.fr -- pas étonnant, une bonne partie des articles sont des traductions de textes publiés dans la version américaine.
  • Les sites qui reprennent beaucoup l'AFP, par exemple Libération et Le Figaro, ont des cartes assez proches --une part importante des résultats décomptés se trouvent dans les dépêches de cette agence et reprises, sous différentes formes, sur ces sites.

Ces spécificités se retrouvent si on s'intéresse aux pays les plus cités, média par média.

On retrouve bien la loi du "mort-kilomètre", qui veut qu'une tempête de neige à Londres pourra occuper les chaînes infos toute la journée, alors qu'un tsunami en Indonésie peut faire des centaines de victimes sans qu'on chamboule le menu des journaux télévisés.

Mais on peut aussi prendre le problème dans l'autre sens, et s'intéresser aux médias qui s'intéressent plus (ou moins) que la moyenne à un pays donné.

N'hésitez pas à explorer vous-mêmes les données que j'ai récoltées,  et à raconter vos trouvailles ou à signaler des problèmes en me contactant ou en laissant commentaire.

Mis à jour le 26/1 à 10h35. Précision ajoutée concernant les médias reprenant beaucoup l'AFP, après un échange avec @quentingirard sur Twitter.

Ces livres plus chers en version électronique que sur papier

Un eBook ouvert sur un iPhone (Jonas Tana/Flickr/CC-BY-NC-DR)
Un eBook ouvert sur un iPhone (Jonas Tana/Flickr/CC-BY-NC-DR)

Ça coûte combien, une série de 0 et de 1 ? C’est la vertigineuse question à laquelle se confrontent les éditeurs quand il faut fixer le prix de la version électronique d’un de leurs livres.

Et la réponse varie beaucoup d’un titre à l’autre, comme le montre un échantillon d’une cinquantaine de romans et essais, choisi parmi les plus vendus ou signés des auteurs les plus connus.

Pour chacun, j’ai relevé le prix de l’édition originale, celui de l’édition poche et celui des versions iBook d’Apple ou Kindle d’Amazon (données disponibles au format CSV).

A ma grande surprise, l’ebook est dans la plupart des cas plus cher que la version poche.

Le surcoût atteint même 10,90 € pour Boomerang, de Tatiana de Rosnay (éd. Héloïse d’Ormesson) – 17,99 € en version électronique, 7,10 € au Livre de poche (+150%).

De même, Apocalypse Bébé, de Virginie Despentes (éd. Grasset), vous coûtera 13,99 € si vous souhaitez le lire sur votre Kindle, contre 7,10 € seulement si vous voulez feuilleter les 380 pages de la version Livre de poche (+97%).

Ce décalage m’a étonné : d’un côté, un fichier numérique dont la reproduction ne coûte rien ; de l’autre, un objet physique fait de papier et d’encre et qu’il faut acheminer jusqu’au lecteur.

Sans compter que proposer un prix bas pour les ebooks les rend plus accessibles aux lecteurs les plus fauchés, et pourrait éviter de voir certains se tourner avec le piratage.

Si on compare le prix de l’édition originale et celui de l’ebook, le second est toujours moins élevé, mais la décote est très variable selon les titres : de -17% à -68% (-41% en moyenne).

Parmi les auteurs dont les ebooks sont vendus à prix cassés, on trouve paradoxalement Frédéric Beigbeder, un farouche opposant du livre électronique – c’est la fin « des librairies, des maisons d’édition, des suppléments littéraires dans les journaux et peut-être la fin de la critique littéraire », déclarait-il sur Europe 1 en 2011.

Son Oona & Salinger est vendu 7,10 € en poche mais seulement 6,49 € chez Apple et Amazon, soit une remise de 9%, la plus élevée de mon échantillon. Et pour Windows on the World, l’ebook est « seulement » 39 centimes plus cher que le poche (7,99 € au lieu de 7,60 €, soit +5%).

J’ai donc contacté les maisons d’édition concernées pour mieux comprendre comment ces prix étaient fixés.

La réponse de Fallois m’a beaucoup surpris : si La Vérité sur l’affaire Harry Québert, best-seller surprise de Joël Dicker, coûte 11,99 € en version électronique (contre 9,20 € en poche, soit +30%), c’est pour éviter qu’elle se vende trop bien, m’explique en substance Philippine Cruse :

« Nous voulons soutenir le livre papier. Si vous mettez un prix trop bas pour les ebooks, les gens ne vont acheter que du numérique et vous allez faire mourir les libraires. »

Si le sort des librairies est en jeu, pourquoi ne pas aller plus loin et retirer la version ebook de la vente ? Parce que l’époque est au compromis :  « On est obligés de jongler, c’est une période un peu difficile », reconnaît-elle.

Chez Viviane Hamy, qui vend Coule la Seine de Fred Vargas à 9,99 € en ebook alors qu’il coûte 4,30 € en poche (+132%), Maylis Vauterin a bien voulu détailler la politique tarifaire pratiquée.

Quand le livre est une nouveauté, la décote sera de  « 30% au minimum », mais le prix pourra même être descendu à 9,99 € dans le cadre d’une offre de lancement si  « le potentiel d’un titre est particulièrement fort pour les lecteurs qui lisent en numérique ».

Pour les livres  « de fond », le prix est  « de 9,99 € pour la collection policière et 6,99 € pour la collection bis », hors périodes et offres de promotion.

Et c’est justement pour pouvoir proposer des promos que le prix de Coule la Seine et des autres romans de cet éditeur est maintenu plus cher que la version poche :

« Je ne connais pas d’autres mécanismes pour mettre en avant nos livres (dans la masse de livres disponibles, en étant un éditeur indépendant face à des groupes) que de participer à des opérations de baisse de prix.

En pratiquant un prix normal de 9,99 €, j’ai ainsi la possibilité de les proposer à 4,99 € en négociant de beaux focus sur notre production. »

Vauterin reconnaît qu’elle « tâtonne » pour  « trouver un modèle éditorial » permettant de maintenir en ligne le délicat équilibre entre  « best-sellers et découvertes de talents, forcément déficitaires au plan économique ».

Mais s’il est virtuel, un livre électronique engendre des coûts bien réels pour l’éditeur, ajoute-t-elle. Les revendeurs (Apple, Amazon…) gardent 40% du prix payé par l’acheteur. L’éditeur a choisi de verser des droits d’auteurs plus élevés que pour le papier. Et puis il faut prendre en compte  « l’interface vers les plate-formes et la gestion des métadonnées, qui supposent de gros investissements ». Sans oublier la réalisation des fichiers epub eux-mêmes.

Elle se défend en tout cas de toute hostilité envers ces nouveaux supports :

« Le numérique est une part importante de la vie de notre catalogue. Nous avons investi afin de rendre disponible près de 80% de notre catalogue en numérique, y compris des ouvrages qui vendent de très petites quantités. »

Et pour vous, quel est le bon prix pour un livre électronique ? Le débat est ouvert dans les commentaires !

On n’a pas les mêmes valeurs : le mariage gay sur les sites de Fox News et MSNBC

L’actualité de ces dernières heures est particulièrement chargée, entre les attaques de l’Etat islamique, le référendum annoncé en Grèce et la décision de la Cour suprême américaine de légaliser le mariage homosexuel.

Dans ces conditions, pas simple de choisir le sujet de couverture d’un quotidien ou l’ordre des sujets affichés en page d’accueil d’un site d’information.

Mais la « hiérarchie de l’info » chère aux journalistes ne dépend pas qu’à des critères objectifs, loin de là. L’importance qu’une rédaction accorde à un sujet dépend aussi de sa vision du monde, de ses priorités éditoriales et de ses valeurs.

Je me suis amusé à comparer les pages d’accueil des sites des chaînes américaines MSNBC (classée pro-démocrate, « libérale » au sens américain, à gauche donc) et Fox News (pro-républicain, conservateur, à droite donc). Les captures d’écran ont été prises ce samedi matin.

Les pages d'accueil de Fox News et de MSNBC ce samedi matin.

Vu l’importance du sujet, je m’attendais à ce qu’il occupe à peu près la même place sur les deux sites, mais on voit que Fox News préfère mettre en avant d’autres actualités (une forme de déni ?), surtout en haut de page d’accueil. De façon plus attendue, les titres choisis par les deux médias donnent clairement la couleur.

Titres de MSNBC.

  • L’Amérique ouvre un nouveau chapitre de son histoire
  • Les mots de la Cour suprême dans sa décision
  • Des émeutes à la célébration
  • L’avis d’une sénatrice gay sur « cette étape capitale »
  • La plus belle semaine de tous les temps pour le camp progressiste

Titres de Fox News, en haut de page :

  • « Une cour de justice n’est pas le législateur », explique le juge John Roberts, qui avait soutenu Obamacare
  • Vidéo : le mariage pour tous a gagné
  • Edito : la cour s’attaque à la vérité du mariage et dresse la foi contre la loi

Titres de Fox News, beaucoup plus bas dans la page, affichés seulement après avoir « scrollé » suffisamment :

  • Mariage gay : pourquoi la Cour suprême a tort.
  • Pourquoi les décisions de la Cour suprême sur Obamacare, le mariage gay, le droit de propriété… vont aider les Républicains à la présidentielle de 2016
  • Cour suprême : les couples de même sexe peuvent se marier dans les 50 Etats
  • Comment le mariage gay va affecter l’Amérique
  • Les avertissements du juge Roberts après la victoire du mariage gay
  • Ben & Jerry sortent une crème glacée spéciale après la victoire du mariage gay.
  • Les réactions des célébrités à la décision de la Cour suprême
  • Mike Huckabee s’en prend au jugement de la Cour suprême
  • Pour Ric Grenell, la décision sur mariage gay est une grande victoire pour les conservateurs.
  • Quel impact aura la décisions sur la course à la Maison-Blanche
  • Lea DeLaria sur l’impact de la décision de la Cour suprême

Comment j’ai exploré plus de 500 chroniques de Bernard Guetta

La liste des chroniques de Bernard Guetta dans Google Sheet.
La liste des chroniques de Bernard Guetta dans Google Sheet.

Comme souvent pour les projets que je mène Dans mon labo, ma petite enquête autour des chroniques de Bernard Guetta sur France  Inter m’a amené à utiliser toute une panoplie d’outils. Je les passe rapidement en revue dans cet article, en espérant que ça vous aide pour vos propres travaux.

1. Récupérer le texte des chroniques avec Outwit Hub

Cette première étape a été rapide, la construction du site de France Inter le rendant très simple à « scraper ». Une page d’archives propose en effet des liens vers chacune des chroniques. Je l’ai chargée dans Outwit Hub puis ai demandé à ce dernier d’attraper toutes les URL concernés (elles contiennent toutes la chaîne de caractères « emission-geopolitique »).

Toujours dans Outwit Hub, j’ai ensuite mis au point un scraper pour extraire les éléments intéressants du code HTML de la page, à commencer par le texte. Vous pouvez télécharger cet extracteur (c’est un petit fichier XML) et l’importer dans Outwit Hub si vous souhaitez faire un travail similaire avec d’autres contenus publiés sur le site de France Inter.

2. Nettoyage des textes avec Open Refine

Les textes récupérés étaient globalement propres. Open Refine m’a cependant permis de supprimer de mon échantillon les chroniques du remplaçant de Bernard Guetta, Anthony Bellanger (classées dans la même rubrique sur le site de France Inter), ainsi que quelques entrées sans texte (correspondant à des pages vides sur le site).

J’ai également également pu retirer le code du lecteur vidéo Dailymotion parfois présent en haut des textes.

3. Décompte des pays dans Google Sheet

Une fois les données nettoyées, je les ai exportées au format CSV et importées dans le tableur Google Sheet. J’ai ajouté une feuille avec une liste des pays du monde compilée par Wikipedia.

Dans cette deuxième feuille, j’ai pu chercher, grâce à la fonction COUNTIF, les occurences de chaque pays dans la colonne concernée de la première feuille.

J’ai fait quelques tests et passé en revue la liste pour traiter quelques cas particuliers. Par exemple, pour la Birmanie, le mot Myanmar est parfois utilisé ; le Nigéria est parfois écrit « Nigeria » ; le mot Congo peut désigner deux pays, le Congo-Brazzaville ou le Congo-Kinshasa : le mot Hollande est un pays mais aussi un président français…

Il n’est d’ailleurs pas exclu qu’il reste des erreurs après ce traitement, n’hésitez pas à me contacter si vous pensez en avoir décelé.

4. Croisement avec les données de la Banque mondiale

Un module complémentaire de Google Sheet m’a permis de traduire automatiquement les cellules contenant le nom du pays du français vers sa version anglaise.

J’ai récupéré la liste des codes ISO à trois caractères des pays du monde, et grâce à la fonction VLOOKUP, j’ai pu attribuer le bon code ISO à chaque pays de ma propre liste, non sans une série de corrections « à la main ».

Le tout est un peu fastidieux, mais quand cette manipulation fini, c’est magique : avec comme clé commune le code ISO, il devient facile de croiser un tel fichier avec des centaines d’autres disponibles sur le Web.

Le site de la Banque mondiale contient ainsi des séries de données sur beaucoup d’indicateurs : population, superficie, PIB… Et le tableau qu’on télécharge contient aussi le code ISO, la fonction VLOOKUP permet donc de faire le rapprochement automatiquement et sans risque d’erreur.

Exemple de nuage de points dans Google Sheet
Exemple de nuage de points dans Google Sheet

J’ai ensuite utiliser la fonction CORREL de Google Sheet pour chercher très facilement des corrélations (par exemple entre la population d’un pays et le nombre de fois où il est cité) d’une colonne de mon document à l’autre.

5. Réalisation de la carte avec TileMill

Je ne vais pas m’étendre sur cette partie du travail, d’autant que TileMill n’est plus maintenu — il est censé être remplacé par Mapbox Studio, logiciel que j’ai testé et que je n’aime pas trop.

je suis parti du shapefile contenant les délimitations de chaque pays (y compris les zones contestées, comme le Somaliland ou le Sahara occidental, ce qui peut être source de problèmes), et j’ai pu insérer dans le fichier DBF associé des colonnes contenant mes propres données — non sans mal.

L’avantage de TileMill, c’est qu’il permet de une configuration très précise de la carte, des couleurs avec lesquelles « colorier » les pays au design des info-bulles, en passant par le niveau de détails souhaité à chaque niveau de zoom.

L’inconvénient, c’est que tout ça prend beaucoup de temps, au point que je ne sais pas si je recommanderai un outil aussi sophistiqué pour un travail plus régulier au sein d’une rédaction.

J’ai l’impression qu’aucune solution de cartographie actuelle ne donne pleinement satisfaction quand on est plus un bricoleur qu’un développeur, mais vous avez peut-être de bons tuyaux à échanger dans les commentaires.

La carte créée dans TileMill s’exporte facilement dans un compte Mapbox, depuis lequel on récupère le code d’intégration, sous forme d’iframe et avec quelques options intéressantes, comme la désactivation du zoom via la molette de la souris.

6. Etude des textes avec le logiciel de lexicométrie TXM

C« était la partie la plus nouvelle pour moi dans ce processus : tester des outils de lexicométrie. Le sociologue Baptiste Coulmont, que je remercie au passage, m’a conseillé sur Twitter d’essayer TXM, logiciel prisé des chercheurs dans ce domaine.

J’ai dû passer par pas mal de tutoriels et de guides, pour apprendre par exemple à « étiqueter » un corpus de texte, afin de trier les mots entre adjectifs, adverbes, verbes… Au passage, j’ai appris des mots rigolos comme  « hapax » ou  « lemmatisation ».

Les fonctionnalités qui m’ont le plus bluffé sont l’affichage des concordances (les mots qui précèdent ou suivent chaque occurence d’un mot donné du texte) et celle des cooccurrences (les mots qui se retrouvent souvent au voisinage d’un mot donné du texte).

Mais si les possibilités de cet outils semblent passionnantes, je recommande pas mal de patience à ceux qui veulent s’y coller.

7. Réalisation des graphiques avec Datawrapper

Pas grand chose à signaler ici : j’ai préparé mes tableaux dans Google Sheet, je les ai copiés/collés dans Datawrapper et j’ai pu fignoler la présentation des graphiques que vous avez vus.

Précision : l’intégration d’un graphique sur son propre site requiert désormais la souscription à un abonnement payant, décision que lequel Mirko Lorenz a expliquée sur le blog de la société.

Voilà ! Il y avait sans doute bien plus simple pour arriver au même résultat, et je compte d’ailleurs sur vos conseils dans les commentaires ci-dessous.

Je ne peux publier le corpus sur lequel j’ai travaillé (ce serait une forme de reproduction sans autorisation des textes), mais vous pouvez télécharger une synthèse par pays ou bien me contacter pour obtenir l’ensemble de mes données.

Le monde selon Bernard Guetta : la carte de ses 500 chroniques

Ça se passe au moment où la tartine beurrée entre en contact avec le café brûlant. Un ronronnement s'échappe du poste de radio. Une voix familière qui chevrote un peu, un phrasé impeccable qui franchit les "premièrement", les "deuxièmement" et les "mais également" sans jamais trébucher. Le texte, lui, glisse sans cahot d'une conférence genevoise à une réunion du G7, en passant par Bruxelles et ses sommets de la dernière chance.

Une chronique quotidienne depuis 1991

Bernard Guetta, 64 ans, est "un majestueux monument à dômes et à coupoles [...] installé dans le paysage matinal", s'amusait Daniel Schneidermann. S'il le taquine, le fondateur d'Arrêt sur images voit aussi en lui l'un des rares journalistes qui "dans chaque événement microscopique cherchent par réflexe les racines profondes, les lointaines conséquences, bref la perspective".

Le chroniqueur a rejoint France Inter en 1991 après une carrière déjà longue et tient depuis la chronique Géopolitique chaque matin, du lundi au vendredi à 8h19. Ce passage obligé de la matinale est inscrit dans la routine des auditeurs, sur le mode "déjà Guetta, faut y aller, Matteo va être en retard à l'école".

Lire l'article

Les pays les plus cités dans la chronique Géopolitique de France Inter

0 1-10 10-50 50-100 100-200 +200
           

Cliquez ou tapotez sur un pays pour plus d'infos, double-cliquez ou pincez pour zoomer.

Mais à quoi ressemble la carte du monde que Guetta raconte à près de 4 millions de Français mal réveillés ?

C'est à cette question que j'ai tenté de répondre en analysant 520 chroniques publiées sur le site de France Inter entre août 2012 et mai 2015 -- pour ceux que ça intéresse, je reviens sur les outils utilisés dans un autre article de ce site.

Un tiers de plus que le Nouveau Testament

Près de trois saisons de chroniques pour un imposant corpus de plus de 300 000 mots (pour vous donner une idée, ça fait un tiers de plus que le Nouveau Testament), soit 1,6 million de signes ou encore plus de 1 000 feuillets.

La carte en haut de cette page montre le résultat de ses recherches (contactez-moi ou laissez un commentaire si vous avez remarqué une erreur ou une bizarrerie). Je les ai également rassemblées sous forme de classements.

En se promenant sur la planète de Bernard Guetta, on remarque bien sûr la domination des Etats-Unis, cités dans un près d'une chronique sur deux. Mais la Russie, le Proche-Orient et le Moyen-Orient sont aussi bien servis par le chroniqueur. Logique, vu l'actualité de ces trois dernières années en Ukraine, en Syrie et dans le reste du monde arabe.

Les pays émergents sont moins bien lotis : la Chine n'a été citée que 61 fois, et l'Inde (21 ) comme le Brésil (6) ne semblent guère passionner le chroniqueur.

Même relatif désintérêt pour l'Afrique, surtout si on met de côté les pays où la France est intervenue militairement (Libye, Mali, Centrafrique) -- le Nigéria, devenu pourtant la première économie d'Afrique n'est cité que sept fois. Ou pour l'ensemble Amérique latine, malgré les remuants dirigeants du Venezuela, de la Bolivie et de l'Equateur.

"Eclairer les événements, les hiérarchiser"

Loin des yeux, loin du cœur de Guetta ? L'Indonésie, malgré ses 250 millions d'habitants, n'est mentionnée qu'une seule fois, l'Australie et l'Afrique du Sud trois fois seulement.

A l'inverse, de petits pays sont l'objet d'une plus grande attention, comme le Liban, présent dans 35 chroniques, l'Arménie (7) et bien sûr le Vatican (7).

Devant ces chiffres parfois étonnants, Bernard Guetta m'explique qu'il n'est "pas un universitaire", qu'il n'a pas vocation "à passer en revue les plus de 200 pays présents l'ONU", mais qu'il entend, en bon journaliste, "éclairer les événements les plus marquants et les hiérarchiser".

Le chroniqueur explique ne pas chercher, au fil de ses interventions, un équilibre entre les différentes régions du monde. "C'est l'actualité qui commande", résume-t-il, ajoutant :

"Je vous mets en garde contre la tentation de tirer des conclusions basées seulement sur le nombre d'occurrences, pour moi ce n'est pas pertinent." 

Thaïlande, Maroc, Birmanie : rien

Mais ce qui m'a le plus surpris, ce sont les trous du gruyère : en effet, la liste des pays qui n'ont jamais cités en plus de 500 chroniques comprend quelques poids lourds.

C'est le cas de la Thaïlande, qui a pourtant connu, sur la période étudiée, une crise politique majeure débouchant sur une reprise en main du pays par l'armée. Mais aussi de la Birmanie, dont le régime donne des signes d'ouverture depuis la libération d'Aung San Suu Kyi en 2010.

Plus frappant encore, le cas du Maroc, où Guetta a pourtant passé une partie de sa jeunesse -- l'Algérie voisine est elle mentionnée 22 fois. Ces absences ne perturbent cependant pas l'intéressé :

"Tout dépend de la période que vous étudiez. Il n'était pas illogique que je n'aie pas parlé du Maroc ces derniers temps, il n'y avait pas d'actualité importante dans ce pays.

La brouille avec la France [après que le chef du contre-espionnage marocain Abdellatif Hammouchi a été convoqué par un juge français lors d'un voyage à Paris, ndlr] n'a pas duré très longtemps.

J'en aurais peut-être parlé si personne ne l'avait fait, mais j'ai considéré que ça ne faisait pas le poids, à ce moment-là, face à d'autres événements."

C'est la limite de mon petit travail : comme tous les journalistes, Guetta parle d'abord des pays dont on parle, ceux qui sont "dans l'actualité", aussi mouvante soit la définition qu'on donne à ce mot. Mais je reste convaincu que sur une si longue période et un si grand nombre de textes, mon exploration du "monde de Bernard Guetta" a malgré tout du sens.

Plus un pays est riche, plus il est cité

Si on met de côté l'actu, quel critère peut expliquer qu'un pays s'impose ou non sur cette drôle de mappemonde ? En croisant ces relevés avec les données de la Banque mondiale, j'ai cherché des corrélations. J'ai fait chou blanc avec la superficie, la population, le PIB par habitant ou le nombre de décès dans des conflits armés.

En revanche, plus un pays est globalement riche, et plus il a de chances d'être cité dans les chroniques de Guetta -- pour les matheux, le coefficient de corrélation est de 0,64.  Ce n'est pas illogique : une économie importante va souvent de pair avec des dépenses militaires significatives et une diplomatie plus active.

La liste des personnalités les plus citées réserve elle peu de surprises, même si on notera que Jacques Delors et Charles de Gaulle font de fréquentes apparitions -- le premier est plus souvent cité qu'Hugo Chavez.

Enfin, je me suis aussi intéressé au contexte dans lequel ces pays et ces personnalités étaient citées, grâce à un logiciel de "lexicométrie". J'ai cherché par exemple les adjectifs les qualifiant, notamment ceux qui peuvent dénoter un jugement de valeur voire un parti-pris (par exemple, "populiste" pour Chavez ou "intransigeant" pour Poutine).

L'Europe et le "divorce" des Européens

On peut voir ainsi que Guetta associe très souvent le mot "Europe" (et ses dérivés) au mot "divorce", dans des phrases comme : "Le divorce croissant entre les Européens et l’Europe menace jusqu’à l’idée même d’unité européenne." Européiste convaincu, il a fait activement (outrageusement pensent certains, comme Acrimed) campagne pour le oui au référendum sur le traité constitutionnel de 2005.

Mais ces quelques coup de sonde n'ont pas donné grand chose : les "cooccurrences" (soit les mots qu'on relève souvent au voisinage d'un autre dans le texte) détectées m'ont semblé assez neutres -- en y passant plus de temps, un spécialiste ferait peut-être davantage de trouvailles.

La preuve d'une prudence très diplomatique dans le choix des formulations ? Bernard Guetta explique en tout cas "sa très grande méfiance à l'égard de mots qui ne veulent plus rien dire, comme islamiste" : "Je préfère utiliser un langage plus précis, un mot qui décrit ce qui se passe."

Mis à jour le 8 mai à 8h20. Erreur d'unité dans le classement et la carte corrigée, merci à @florenchev de l'avoir signalée.

Mis à jour le 11 mai à 8h30. Erreur dans le nombre de citations d'Erdogan, merci à Sibel Fuchs de l'avoir signalée sur Facebook.

Illustration utilisée sur la page Facebook Dans mon labo d'après photo David Monniaux (CC BY-SA)

5 outils qui vont vous aider à sortir le scoop de l’année

Dustin Hoffman et Robert Redford dans « Les Hommes du président »
Dustin Hoffman et Robert Redford dans « Les Hommes du président »

Imaginez la scène. Un homme vous a contacté et donné rendez-vous au dernier sous-sol d’un parking mal éclairé. En jetant des regards par dessus son épaule, les doigts tremblants, il vous confie un gros disque dur, en expliquant qu’il y a là-dedans des documents explosifs pour la multinationale dans laquelle il travaille. Puis il disparaît sans demander son reste.

Vous voilà en possession de données qui seront, peut-être, à l’origine du scoop de votre carrière. Tout journaliste web a rêvé de vivre un tel moment — d’ailleurs, Edward, si jamais tu passes par ici, sache que j’ai une clé PGP, moi, pas comme cet étourdi de Glenn Greenwald.

Problème : « Il est rare qu’un lanceur d’alertes se pointe après avoir rassemblé toutes les informations utiles aux journalistes dans un texte de quinze pages », a rappelé le spécialiste en datajournalisme Friedrich Lindenberg lors de son intervention au Festival de journalisme de Pérouse la semaine dernière.

C’est plus probablement dans un fatras de milliers de documents au format PDF, Excel, Word, Powerpoint et leurs équivalents qu’il va vous falloir fouiller, si vous voulez y dénicher l’information exclusive qui vous vaudra la gloire.

Heureusement, de plus en plus d’outils existent pour vous aider dans ce genre de situations, souvent mis au point pour les journalistes à l’occasion des précédentes fuites de grande ampleur. Lindenberg en a décrit six, que voici :

  • DocumentCloud pour héberger les données et gérer leur accès
Capture d'écran du site de de DocumentCloud.
Capture d’écran du site de de DocumentCloud.

Plutôt que naviguer à l’aveugle dans le disque dur qu’on vous a refilé, avec le gestionnaire de fichiers de Windows ou de Mac OS, DocumentCloud permet de stocker l’ensemble des documents, de les parcourir plus confortablement, de les annoter et même de les intégrer ensuite à vos articles.

Comme vous risquez d’avoir besoin d’aide dans vos démarches, vous pourrez aussi donner accès à vos précieux fichiers à d’autres utilisateurs ou groupes d’utilisateurs, en gérant finement les autorisations des uns et des autres.

Pour créer votre compte sur ce service, il vous faudra cependant demander un accès à l’équipe qui a fondé ce service, en présentant votre projet. Une fois installé, DocumentCloud peut aussi servir à centraliser les documents utilisés par toute votre rédaction, et peut-être opérer des rapprochements entre deux enquêtes séparées.

Attention quand même : si vos documents sont vraiment explosifs, du genre à faire sauter la République, vous éviterez d’utiliser ce service directement en ligne, mais vous l’installerez plutôt « en local », soit sur votre ordinateur seulement — sachant que dans un cas pareil, bien d’autres précautions s’imposent.

  • Overview pour faire parler les gros ensembles de documents
Capture d'écran du site d'Overview.
Capture d’écran du site d’Overview.

L’outil a été mis au point à l’origine par l’agence AP et la Knight Foundation pour explorer les documents de l’armée américaine sur la guerre en Afghanistan diffusés par Wikileaks.

Ses algorithmes opèrent des rapprochements entre les concepts qu’il a détecté dans les millions de fichiers que vous lui avez fait avaler (jusqu’aux sons au format MP3), en créant des liens entre ces différents clusters. Pour explorer les e-mails piratés de Sony, Overview se révèle ainsi beaucoup plus efficace que l’outil mis en ligne par le site de Julian Assange.

Il permet aussi de taguer vos recherches pour les retrouver plus facilement, et propose plusieurs modes de visualisation.  « L’équipe qui s’en occupe est très intéressée par les nouveaux outils d’analyse et les nouveaux challenges, explique Lindenberg. Ils vous aideront dans vos recherches, et peuvent améliorer une fonctionnalité en quelques heures seulement. » Overview peut aussi être installé en local.

  • Crowdata pour que les internautes vous aident dans votre quête
Capture d'écran du site de Vozdata.
Capture d’écran du site de Vozdata.

Après avoir passé vos week-ends et vos nuits à chercher la pièce maîtresse perdue dans le gros tas d’octets qu’on vous a mis sur les bras, vous avez un coup de mou ? Il est temps de demander à Internet de vous venir en aide.

Crowdata est l’outil qui a servi au quotidien argentin La Nacion à lancer Vozdata, une opération de crowdsourcing pour laquelle chaque internaute était invité à examiner un des 6 500 documents comptables fournis par les sénateurs afin y chercher d’éventuelles irrégularités. Inventeur de cet exercice de transparence, le Guardian le reproduit chaque année pour les notes de frais des députés britanniques.

Crowdata peut se brancher directement sur DocumentCloud, pour vous faciliter encore la tâche. Mais vous aurez sans doute besoin de l’aide d’un développeur pour l’installer, et faire de tous vos lecteurs deds enquêteurs en pantoufles.

  • Tabula  pour extraire des tableaux dans des documents PDF
Capture d'écran du site de Tabula.
Capture d’écran du site de Tabula.

Souvent utilisé pour la diffusion d’études ou de rapports, le PDF est un format qui empoisonne la vie des datajournalistes, parce qu’il n’est pas vraiment conçu pour qu’on puisse réutiliser les divers éléments composant un document.

Avec Tabula, il suffit de sélectionner le tableau qui vous intéresse pour les lignes et les colonnes et les manipuler dans un tableur. Selon Lindenberg, Tabula est l’une des meilleures solutions pour cette tache, mais elle n’est pas parfaite : des décalages entre les colonnes peuvent apparaître et corrompre votre série de données.

C’est pour ça qu’il teste souvent plusieurs outils pour un même tableau, avant d’opter pour celui qui s’en sort le mieux (selon mon expérience, Adobe Acrobat fait ça plutôt bien, mais il est payant).

  • Aleph pour croiser vos données avec d’autres sources
Capture d'écran du site d'Aleph.
Capture d’écran du site d’Aleph.

Pour tirer cette affaire au clair, vous aurez peut-être besoin de croiser vos précieux fichiers avec d’autres sources existantes. C’est ce que propose Aleph, outil encore expérimental mais avec lequel vous pouvez jouer pour chercher si la personnalité ou l’entreprise sur laquelle vous travaillez apparaît ailleurs, grâce à des représentations graphiques.

Utiliser davantage le recoupement avec des bases déjà en lignes, c’est devenu « la croisade personnelle » de Lindenberg :

« Il faut que les journalistes d’investigation acceptent de dire à des gens comme moi qui sont les personnes ou entreprises qui les intéressent, cette information restant confidentielle, bien sûr.

Dès que j’ai cette liste, je peux mener des recherches dans une grande quantité de documents déjà publiés, et activer des notifications dès qu’une nouvelle correspondance est trouvé. Mais les journalistes ne lâchent pas facilement ce genre d’info, il faut encore que je trouve un moyen de les convaincre. »

Pourquoi les sites d’actu se servent mal de leurs stats, et comment ça peut changer

La salle de contrôle des vols spatiaux de la Nasa en 2005 (Nasa).
La salle de contrôle des vols spatiaux de la Nasa en 2005 (Nasa).

Ça fait partie de ces conférences où l’on se surprend à applaudir et à encourager mentalement l’intervenant pendant son exposé, tant ce qu’il dit paraît pertinent.

Stijn Debrouwere, spécialiste des statistiques des sites de médias, parlait jeudi au Festival international de journalisme de Pérouse. Voici une retranscription que j’espère fidèle, mille excuses d’avance si j’ai déformé un propos ou raté une idée importante

Stijn Debouwere. Je travaille sur les statistiques des sites d’information depuis quatre à cinq ans, j’ai commencé dans des médias locaux (télévisions et quotidien), ensuite j’ai rejoint le service d’analyse des données du Guardian. Récemment, j’ai réalisé une mission pour le Tow Center  sur ces sujets.

J’ai pu voir des statistiques de beaucoup d’entreprises différentes, et je me suis aperçu que les mêmes problèmes apparaissent un peu partout.

Quand on parle des statistiques d’un site, bien souvent l’image mentale qui se forme est celle d’une salle de contrôle sophistiquée, comme celle de la Nasa à Houston, où chaque employé a plein de moniteurs différents.

Travailler de cette façon a bien marché pour la Nasa : dans le cas d’Apollo 13, c’est même ce qui a permis de ramener les astronautes sur Terre malgré les défaillances, grâce à toutes les données à disposition que les ingénieurs ont pu analyser pour déterminer la marche à suivre.

Ça peut aussi marcher dans des start-ups ou des entreprises centrées sur les nouvelles technologies, on voit qu’elles réussissent à lever des fonds ou réaliser un bon chiffre d’affaires en utilisant correctement les indicateurs dont elles disposent.

Mais ça ne marche pas aussi bien pour les médias. On voudrait des outils simples, objectifs et qui aident à la décision, et ce qu’on a bien souvent, c’est du « bruit », des fausses pistes et un miroir aux vanités.

Et quand on utilise mal les statistiques, ça peut avoir des conséquences néfastes, comme ces posts sur Facebook où on « optimise » les titres pour chasser les clics, avec des formules du type « vous n’allez pas croire ce qui arrive à ce chat après ça ».

Selon le consultant américain Peter Drucker, la meilleure façon de supprimer toute perception est d’inonder les sens avec des stimuli. Ça veut dire que les services que vous utilisez doivent être configurés pour vous donner uniquement l’information que vous souhaitez avoir. Sinon, vous ne pourrez rien faire.

Dans les rédactions aujourd’hui, les métriques se sont peu à peu accumulées : Google Analytics, Facebook Insights, Twitter Analytics… Ce sont de bons outils, mais on se retrouve avec des dizaines de tableaux de bord différents, tous mis à jour constamment.

Il faut se poser des questions de base. Pourquoi est-ce qu’on regarde des stats ? Parce qu’on veut pouvoir en tirer des conclusions. Mais en réalité, peu de rédactions sont capables de réagir immédiatement à une donnée, par exemple faire un article quand un sujet est en train de buzzer.

Je croise des journalistes très accros à Chartbeat [service de statistiques sur la fréquentation de son site mesurées en temps réel, ndlr], il faudrait leur passer sur le corps pour leur enlever ça. Mais quand je leur demande à quoi ça leur sert vraiment, ils ne savent pas trop quoi répondre.

Et vous avez sûrement déjà assisté à une réunion où quelqu’un débarque avec une grande idée, un changement à faire sur le site, en ayant au préalable sélectionné précisément LA donnée qui va dans son sens, en ignorant tout le reste.

Sans parler des biais qui peuvent se glisser. Il y a quelques années, YouTube a fait un gros effort pour optimiser les pages, et accélérer le chargement des vidéos. Quand ils ont mis ces changements en production, ils se sont rendus comptes que les métriques allaient dans le mauvais sens, qu’en fait le temps de chargement des vidéos avait tendance à augmenter.

C’est une donnée cruciale pour eux, donc ils avaient un vrai problème. En analysant davantage, ils se sont aperçus qu’ils avaient tellement bien travaillé que des internautes avec des connexions lentes ou de vieux ordinateurs s’étaient mis à regarder des vidéos, alors qu’avant ils ne pouvaient pas du tout le faire.

Et ce sont ces nouveaux utilisateurs qui faisaient plonger les statistiques, parce que les vidéos mettaient beaucoup de temps à se charger pour eux — mais au moins, ils pouvaient les voir. Les mêmes données qui les ont induits en erreur leur ont permis de comprendre vraiment ce qui se passait, en les examinant de plus près.

Sachant tout ça, qu’est-ce qu’on peut faire pour mieux travailler les statistiques ?

1. Avant de regarder vos statistiques, regardez votre site

D’abord, il faut garder en tête qu’il y a plein de changements possibles sans même avoir à les consulter, il suffit d’ouvrir les yeux.

On sait par exemple que les newsletters sont une façon de gagner du trafic et d’avoir des lecteurs plus fidèles. Regarder votre site : combien de temps vous faut-il pour vous inscrire à la newsletter ?

Même remarque pour le placement des boutons de partage des réseaux sociaux : est-ce qu’ils sont accessibles, est-ce qu’ils sont assez visibles ? Ce sont des choses très simples à corriger.

Un autre conseil que je donne, c’est d’avoir une check-list à remplir avant toute publication d’un contenu.

Je m’aperçois que dans beaucoup de sites, il y a toute une partie du contenu qui n’est jamais mis en avant nulle part, ni sur la page d’accueil, ni sur les réseaux sociaux. Il faut passer par une sous-sous-rubrique pour y accéder. Même leur auteur ne tweete pas un lien vers son article une fois publié !

Il faut avoir une stratégie interne pour chaque publication, par exemple programmer des tweets avec outils comme Buffer pour couvrir les différents fuseaux horaires. Vérifier que l’article comporte bien des liens externes et internes, c’est aussi important, et c’est le genre de choses qu’on peut mettre dans une check-list. Vous voyez, il y a zéro technologie en jeu ici, juste du bon sens.

2. Ne vous contentez pas des valeurs proposées par défaut

Ensuite, il faut mesurer les bonnes choses. Trop souvent, on se contente des métriques qui sont proposées par défaut. Si Google Analytics vous propose trois mesures quand on charge la page (par exemple « sessions », « utilisateurs » et « pages vue »), ça ne veut pas forcément dire que ce sont ces trois métriques-là que vous devez surveiller.

Au début, il était beaucoup question de pages vues, ensuite de « reach », après d’engagement. Je me souviens qu’un type a publié une tribune un jour sur Medium pour expliquer qu’il fallait vraiment regarder le temps passé sur le site, que c’était ça l’important.

Des clients ont commencé à m’appeler et à me dire qu’ils voulaient faire pareil, et je leur ai dit : « Vous allez vraiment changer complètement de stratégie, juste parce qu’un type a écrit ça sur Medium ? »

3. Regardez les ratios plutôt que les totaux

Il faut s’intéresser davantage aux ratios qu’aux valeurs absolues. Le nombre de pages vues, par exemple, ça ne m’intéresse pas forcément si je le prends isolément. En revanche, si je compare avec le nombre d’articles publiés dans la journée, ça peut devenir intéressant.

Si le nombre de pages vues aujourd’hui est le double de celui d’hier et que le nombre d’articles publiés a doublé aussi, ce n’est pas une bonne nouvelle, ça veut dire qu’on n’a pas amélioré la visibilité de chaque contenu. Regarder le nombre de pages vues par auteur, ça peut être bien aussi.

Des rédacteurs en chef me disent : « On ne publie pas beaucoup le week-end parce qu’on n’a pas beaucoup de visiteurs le week-end. » Mais en fait, c’est parce qu’ils publient peu le week-end qu’ils n’ont pas beaucoup de trafic le week-end — en tout cas, c’est une hypothèse que je ferais…

Si on regarde le nombre de pages vues par article, à chaque heure du jour ou bien pour chaque jour de la semaine, on peut sortir de ce type de problème d’œuf et de poule.

4. Suivez moins d’indicateurs mais suivez-les mieux

Il faut aussi réduire le nombre de métriques surveillées. Se concentrer sur la fidélité des lecteurs par exemple, c’est un bon réflexe, mais ça peut vous mettre dans des situations surprenantes. Mettons qu’un de vos articles devienne viral : ça va faire chuter vos indicateurs de  fidélité, parce que vous allez attirer soudain des gens qui ne viendront qu’une fois chez vous, pour un seul contenu.

Ce que je préfère observer, c’est l’évolution des frequent users, les lecteurs réguliers, une notion utilisée par les entreprises technologiques : par exemple, on regarde l’évolution de ceux qui ont passé au moins dix sessions dans les trois derniers jours. Et là, on se rend compte que c’est une courbe beaucoup plus stable, les pics de trafic sont gommés.

Quand Facebook s’est lancé, on ne pouvait s’y enregistrer qu’avec e-mail hébergé par une série d’universités américaines. Ça faisait donc très peu d’utilisateurs en valeur absolue. Mais les fondateurs ont senti qu’ils tenaient un service intéressant quand ils se sont aperçus que les gens restaient très longtemps quand ils venaient.

Dans les rédactions, on ne mesure pas assez la qualité des contenus. Une expérience simple à réaliser, c’est de demander aux journalistes de donner une note de 1 à 10 au contenu qu’il vient de publier. On peut demander aux lecteurs de le faire aussi. Au final, cette statistique obtenue de façon artisanale est aussi importante que les chiffres de Google Analytics.

5. Cherchez un bon compromis plutôt qu’un objectif isolé

Plutôt que des cibles ou des objectifs, il faut chercher des sweet spots, de bons compromis. « Surperformer » peut être aussi mauvais pour un site que « sous-performer ».

Mettons que vous vouliez absolument multiplier le nombre de contenus en ligne. Vous allez vous organiser pour que vos auteurs publient 50 articles chaque semaine. Votre trafic va augmenter, OK, ça peut sembler super. Mais la qualité de ce qui est produit va plonger, et si vous ne la mesurez pas, vous ne le saurez jamais.

Du coup on va plutôt se dire : peut-être qu’on peut réduire un peu la longueur des articles, ce qui nous permettrait d’en publier un peu plus, sans que le lecteur ne se sente lésé.

J’entends dire : « Notre objectif est d’attirer un million de visiteurs en plus en provenance des réseaux sociaux. » OK, mais quel effet ça va avoir sur les autres métriques ?

Sur le Web, on s’est vite aperçu qu’il n’y avait pas de corrélation entre la longueur d’un article et le nombre de visites qu’il reçoit. Ce n’est pas parce que le texte est plus long qu’il sera plus vu.

Du coup, certains ont dit : il faut faire court, pour faire plus de pages vues. D’accord, mais on en fait quoi ? La plupart des sites ont déjà trop d’inventaire, les campagnes publicitaires ne sont pas assez nombreuses pour remplir tous les emplacements.

Si vous ne le monétisez pas, ce trafic supplémentaire, c’est un trafic-poubelle : en vérité, vous n’en voulez pas ; ce que vous voulez, ce sont des lecteurs qui reviennent souvent.

Les statistiques doivent être au service d’un projet, ce ne sont pas des buts en soit.

Quand je parle à des gens des entreprises de technologie, ils se demandent comment utiliser leurs statistiques pour améliorer le service qu’ils rendent aux internautes ? Mais côté médias, la question qu’on me pose c’est : quelle est la statistique que je dois cibler ? Ils ne veulent pas faire grandir le site, le rendre meilleur. Juste faire monter des chiffres.

6. Faites des tests sur la durée avant de décider

Il ne faut pas hésiter à faire des expériences, comme celle des articles evergreen de Vox : ils ont pris des contenus forts publiés plusieurs mois avant, ils les ont mis à jour et republié. Et ils ont gagné beaucoup de pages vues, pour des contenus qui étaient enterrés dans les archives. Certains lecteurs les avaient ratés, d’autres les avaient oubliés, dans tous les cas ils étaient contents de les lire.

Slate aussi tente des choses : par exemple, ils demandent à leur rédacteur de faire du  trafic whoring pendant toute une journée ; chasser les clics avec un maximum de contenus très attractifs. En échange, ils vont avoir deux ou trois jours sans contraintes, pour creuser un sujet.

Même chose avec Quartz, et leur théorie sur les contenus de longueur moyenne, qu’il faut éviter de publier, pour privilégier les articles soit plus courts, soit plus longs [la Quartz curve, ndlr].

Il faut cependant laisser ces expériences vivre assez longtemps. Un seul article sur une nouvelle thématique ne suffit pas à savoir s’il faut lancer une nouvelle rubrique, pourtant je l’ai vu faire aussi.

D’abord parce que Google Analytics pratique l’échantillonnage : les calculs ne sont pas forcément fait sur l’ensemble des stats, mais sur un échantillon, pour que ça aille plus vite. Du coup un changement ponctuel aura moins d’impact.

Mais surtout parce qu’il y a un tas de facteurs extérieurs qui peuvent influer énormément, comme l’auteur de l’article ou l’heure de publication.

7. Montrez à vos journalistes des mesures qui ont du sens pour eux

Une bonne pratique, c’est aussi de proposer la bonne métrique à la bonne personne. Souvent, la frustration ressentie face aux statistiques vient du fait qu’on n’a pas vraiment de prise sur les chiffres qu’on vous donne.

Par exemple, améliorer la visibilité de l’abonnement à la newsletter, c’est un objectif intéressant pour designer, mais pas pour le journaliste, qui ne peut rien faire pour changer ça.

Pour un journaliste, savoir le nombre de visites que son article a fait, ça n’est pas très utile finalement, puisqu’il a déjà terminé son travail.

Même chose si vous mettez un grand panneau lumineux dans la rédaction avec des informations du type : « les pages vues ont baissé de 5% par rapport à hier ». Le journaliste va se dire : « OK, mais qu’est-ce que je peux y faire ‚à mon niveau ? » Au final, ça aura des effets néfastes sur sa motivation.

8. Analysez vous-même vos données

Quand vous regardez vos statistiques, sachez que le bouton « Exporter » est votre meilleur ami. Récupérer les données brutes et les analyse vous-mêmes dans un tableur de type Excel, ça va vous permettre de creuser davantage et de garder le plus pertinent.

Au final, les stats en temps réel ont leur intérêt, c’est cool à regarder, ça donne l’impression que vous êtes dans la salle de contrôle de la Nasa. Mais régler des petits problèmes sur le site, cocher des cases sur une check-list, c’est peut-être moins prestigieux, cependant c’est ça  qui fait la différence. Et pour les médias il y a de gros gains à faire avec un minimum d’efforts, dans certains cas il suffit de se baisser pour les ramasser.

L’économiste Robert Solow a décrit dans les années 70 un paradoxe : les entreprises disposaient d’ordinateurs, de tableurs (c’était nouveau à l’époque), mais pourtant la productivité ne s’est pas vraiment améliorée à cette période.

C’est un peu pareil pour les médias : les statistiques ont le potentiel de vraiment améliorer les choses, mais ce n’est pas le cas pour le moment. D’où l’intérêt d’écouter Peter Drucker, et d’arrêter de se laisser submerger par elles.

Mis à jour le 17/4 à 21h30. Quelques précisions et menus changements grâce aux retours du conférencier que j’ai reçus par e-mail. Une erreur corrigée : c’est YouTube et non Facebook qui a eu des stats surprenantes après avoir optimisé le chargement des vidéos.

Stijn Debrouwere a eu la gentillesse d’y ajouter une série de liens pour ceux qui souhaitent prolonger leur réflexion sur le sujet :