Tous les articles par Yann Guégan

J’ai repris la chasse aux clichés dans les médias et voilà ce que j’ai appris

1 juin 2020 Yann Guégan Laisser un commentaire

Traquer les « cerise sur le gâteau », les « affaire à suivre » et les « grincer des dents » : c’était le thème de mon premier projet de datajournalisme. Dix ans plus tard, j’ai ressorti les pièges à loup du placard, et cherché à comprendre pourquoi les médias utilisaient autant ces expressions toutes faites.

Vu ailleurs

Face à l’épidémie, ces graphiques qui ont (peut-être) sauvé des vies

4 avril 2020 Yann Guégan Laisser un commentaire

Fin février, j’étais l’invité de Jean-Baptiste Diebold et de Philippe Couve pour leur podcast A Parte. Ces deux fins connaisseurs des médias en ligne m’ont soumis à un feu nourri de questions sur l’innovation dans les rédactions. L’une d’elles m’a un peu pris au dépourvu :

« On parle de ces questions de datajournalisme depuis une décennie, grosso modo, mais on a l’impression que ça reste toujours marginal… C’est quoi l’explication, c’est une allergie au tableur Excel de la part des journalistes, ou bien les données, c’est compliqué à utiliser, c’est pas si exploitable que ça ? »

Sur le moment, j’ai bredouillé ma réponse habituelle : le datajournalisme n’est plus vraiment à la mode, certes, mais c’est plutôt une bonne nouvelle ; ça permet à ces nouvelles pratiques de s’implanter lentement mais durablement dans les esprits. Et puis les initiatives se multiplient, on voit se multiplier les projets vraiment aboutis, la connaissance des outils, y compris les plus pointus, se répand.

La bulle confortable de la formation, et le monde réel

Mais j’avais toujours un doute. Quand j’anime des formations sur ce thème, il y a toujours un moment où les participants se découragent devant la technicité de la discipline et les pièges variés qu’ils vont devoir affronter. Le datajournalisme est, par essence, un journalisme de la complexité. Même une série de données d’apparence simple, téléchargée sur un site officiel et correctement structurée, peut plonger dans des abîmes de perplexité.

Prenez le produit intérieur brut, par exemple. Faut-il privilégier le PIB global, celui par habitant, celui « à parité de pouvoir d’achat » ? Pourquoi les montants sont-ils différents selon la Banque mondiale, l’OCDE et Eurostat ? Et que faire quand des cases du tableau sont désespérément vides ?

Il y a la bulle confortable de la formation, dans laquelle on prend le temps de se poser toutes ces questions. Et puis il y a le monde réel, les conditions de travail dégradées des journalistes, les plans d’économie qui se multiplient, la perte d’expertise au sein des équipes, la course au clic et l’abus du copié-collé, la prime à la publication « en temps réel »…

Dans ce contexte, il faut être du genre utopiste pour penser que la profession finisse par accorder assez d’attention, de temps et d’énergie à la maîtrise de ces nouveaux outils.

Le miroir de notre angoisse collective

Et puis l’épidémie de Covid-19 est arrivée, et elle a balayé mes doutes. Dès les premiers jours, les chiffres, les tableaux, les graphiques ont poussé comme des champignons après la pluie. Les courbes exponentielles de l’université Johns Hopkins, dont les chiffres sont repris un peu partout, sont devenues le miroir de notre angoisse collective.

Le tableau de bord de l'épidémie de Covid-19 de l'université John Hopkins. — Le tableau de bord de l’épidémie de Covid-19 de l’université Johns Hopkins.

Avec d’autres, elles ont permis une prise de conscience mondiale. Elles sont donné de la résonance aux récits des habitants de Hubei, des médecins de Bergame, du personnel des Ehpad du Haut-Rhin, des confinés fliqués à Séoul, des nouveaux chômeurs de New York.

Il a fallu de sinistres asymptotes pour connecter toutes ces histoires individuelles, en faire une expérience collective, la rendre réelle, palpable, mesurable. Au passage, ces graphiques ont, sans doute, sauvé pas mal de vies.

Impossible d’en faire un inventaire complet. Du tableau de bord multi-critères, des cartes interactives, des graphiques dignes de publications scientifiques ou bien dessinés sur un coin de table… : tous les formats y sont passés.

On trouvera des compilations plus complètes dans les newsletters de Datagif (français), de Giuseppe Sollazo (anglais) ou de J++ Stockhom (anglais). (Ça ne veut pas dire que tout ce qui a été publié était de qualité, on trouvera d’ailleurs une série d’exemples à‑ne-pas-reproduire-chez-vous dans ce post Medium de l’infographiste Amanda Makulec.)

Des graphiques remixés comme de vulgaires mèmes

Mais certains m’ont particulièrement marqués. Ou plutôt, ce qui m’a frappé, c’est de les voir partagés, commentés, détournés, remixés par la culture populaire comme de vulgaires mèmes.

Le graphique « Flatten the curve », est apparu, selon le site Know Your Meme, le 28 février. Depuis, il a été dupliqué et décliné à l’infini, parce qu’il se révélait un outil redoutable pour faire comprendre l’intérêt des mesures de distanciation sociale, dans une forme que même le plus buté des présentateurs de Fox News pouvait comprendre.

Important to remember that #Covid-19 epidemic control measures may only delay cases, not prevent. However, this helps limit surge and gives hospitals time to prepare and manage. It’s the difference between finding an ICU bed & ventilator or being treated in the parking lot tent. pic.twitter.com/VOyfBcLMus
— Drew A. Harris, DPM, MPH (@drewaharris) February 28, 2020

Il est difficile d’en connaître l’impact exact dans la population – le monde réel ne se résume pas aux réseaux sociaux, ou plutôt à la bulle qu’ils créent autour de chacun de nous. Mais il est permis de penser que deux bosses et un trait vertical auront fait davantage pour faire passer un message de santé publique que bien des déclarations officielles.

Les politiques, d’ailleurs, ont rapidement compris que leurs propos avaient plus de chances de convaincre s’ils s’appuyaient sur des visuels. Ainsi, Olivier Véran dessinant le « Flatten the curve » en direct sur BFM-TV.

« L’objectif est de retarder le pic épidémique et de baisser le volume de malades«

Le schéma du ministre de la Santé pour expliquer la stratégie du gouvernement contre le coronavirus ⤵ pic.twitter.com/PmZDaYmMwg
— BFMTV (@BFMTV) March 9, 2020

« C’est trop compliqué pour le lecteur » Vraiment ?

Publié le 10 mars, le post Medium de Tomas Pueyo, titré « Coronavirus : Why You Must Act Now » se situe aussi dans le registre de la sensibilisation. Mais en termes de format, c’est l’extrême opposé : un long raisonnement, de multiples graphiques parfois complexes, l’accent mis sur les biais et les erreurs d’interprétation.

Graphique publié dans le post Medium de Tomas Pueyo.

Tout ce qu’il ne faut pas faire quand on veut attirer l’attention du grand public sur les supports numériques, vous diront les spécialistes. Sauf que la version anglaise a été vue plusieurs millions de fois, et le texte a été traduit dans plus de trente langues…

Un succès qui relance la question de la capacité réelle des lecteurs à s’approprier les cartes, les graphiques, les schémas, les tableaux… En anglais, on parle de graphicacy, sur le modèle de la literacy, le fait de savoir lire et écrire un texte. « C’est trop compliqué pour le lecteur » est un argument souvent avancé dans les rédactions contre l’utilisation de la datavisualisation, surtout si on s’aventure hors des formats les plus simples (barres et courbes).

A minima, on dirait bien qu’on a sous-estimé les lecteurs. Après tout, selon l’OCDE, un tiers de la population française est diplômée du supérieur (45% pour les 25–34 ans) et a dû croiser pas mal d’abscisses et d’ordonnées pendant sa scolarité. Quand aux autres, il n’est pas interdit de penser qu’en soignant la présentation et l’interprétation, il seront aussi capables de s’approprier ce type de présentation de l’information.

Une échelle logarithmique et des courbes qui s’empilent

Ce n’est pas la seule certitude que cette pandémie bouscule dans le domaine de la visualisation – sur ce sujet, Rosamund Pierce, infographiste à The Economist, dressait récemment la liste des règles qu’il faut savoir ne pas respecter, parfois.

Au début de l’épidémie, les graphiques du Financial Times, que John Burn-Murdoch présente dans une vidéo très éclairante, tordaient ainsi le cou à quelques dogmes pourtant bien établis :

une échelle logarithmique, supposée déroutante et réservée aux publications scientifiques, mais qui est un choix finalement bien naturel pour parler d’un phénomène exponentiel ;
un empilement de courbes et de couleurs qu’on pourrait juger peu lisible, mais qui permet en un coup d’œil de différencier les pays « qui s’en sortent » de ceux qui peinent à endiguer la propagation de la maladie ;
des guides en pointillés qui surchargent encore l’affichage, mais sont indispensables pour mieux estimer le rythme de propagation, alors que la pandémie en était encore à ses débuts dans beaucoup de régions.

And cases in cumulative form :
• US very much in uncharted territory. Now accounts for 1‑in‑4 confirmed cases worldwide
• India perhaps stabilising again. Shows the importance of watching medium-term trends, not short term bumps which could be due to data backlogs pic.twitter.com/T9YCSMplfG
— John Burn-Murdoch (@jburnmurdoch) April 3, 2020

Aussi sophistiqués soient-ils, leur lecture reste aisée, et leur publication quotidienne comme les commentaires qui les accompagnent sont vite devenus un rendez-vous incontournable, au moins pour les confinés de ma timeline Twitter.

Tout choix éditorial est un pari, et parfois les paris se gagnent

Quid des projets plus ambitieux ? En matière de datavisualisation, les productions léchées des grosses équipes du New York Times, de Reuters ou du National Geographic font peur à certains rédacteurs en chef. Trop chronophage, trop ambitieux, trop incertain. (L’an dernier, j’ai ressenti un pincement dans mon cœur de patriote en voyant que c’est un média américain, et non français, qui a publié le format le plus convaincant sur l’incendie de Notre-Dame.)

Oui, mais voilà : tout choix éditorial est un pari, et, parfois, les paris se gagnent. Le simulateur d’épidémie publié par le Washington Post est désormais le contenu le plus visité de toute l’histoire de ce média, et a marqué beaucoup de ses lecteurs. Certes, on n’arrive pas à un tel niveau de qualité sans en passer par des années d’apprentissage, de montée en compétence de l’équipe, de recrutements avisés. Par des essais, d’erreurs et des résultats décevants. Mais qui osera dire aujourd’hui que ça n’en vaut pas la peine ?

Alberto Cairo, consultant renommé et auteur de « How Charts Lie”, résume mon sentiment sur son blog :

« C’est quelque chose qui m’intrigue : pourquoi autant d’entreprises – et je ne parle pas seulement des médias – sont aussi réticentes à investir dans des équipes data et infographies, ou bien à leur donner assez de ressources et d’autonomie pour les développer ? »

Pour se consoler, les médias qui ont raté le train peuvent se dire qu’ils ne sont pas les seuls à manquer aujourd’hui de ressources. J’ai été frappé de voir circuler l’appel aux volontaires non-soignants lancé il y a dix jours par Assistance Publique – Hôpitaux de Paris (AP-HP). Plus de 13 000 personnes ont depuis rejoint le Slack dédié, dont 600 ont rejoint l’une des 36 missions proposées, selon le communiqué publié le 1^er avril.

Parmi les profils recherchés initialement : des data-scientists, des développeurs, des chefs de projet, des designers, des spécialistes UX… Autant de métiers encore mal identifiés, associés à la geste macronienne de la start-up nation, et dont il est de bon ton de se gausser quand on est humoriste sur France inter.

Evidemment, toutes ces bonnes volontés ne remplaceront jamais un système hospitalier correctement financé et des soignants en nombre suffisant. Mais leurs compétences se révèlent utiles pour une bataille qui se joue aussi sur le front de la data, et pas seulement dans les rédactions.

(Merci à Karen Bastien et Alexandre Léchenet pour leurs conseils.)

Expériences

Les prix fous du train : ville par ville, les tarifs relevés sur le site de la SNCF

Galerie 16 décembre 2018 Yann Guégan Laisser un commentaire

Pour connaître le prix de son billet de train, il a longtemps suffi de faire une simple multiplication : le nombre de kilomètres à parcourir par le prix du kilomètre. Ce principe de péréquation a duré de la création de la SNCF, en 1938, jusqu’en 1970, quand la compagnie a commencé à moduler les tarifs du train en fonction d’autres critères.

Cette époque semble bien lointaine à l’heure du yield management, un principe de tarification généralisé par la SNCF à partir de 1993, qui permet d’optimiser les revenus, en s’assurant qu’un maximum de sièges sont occupés, et que leurs occupants ont payé la somme maximale qu’il étaient prêt à consacrer à cette dépense.

Résultat : pour beaucoup d’usagers du train, la valse des étiquettes peut sembler folle, tant ils varient d’un train sur l’autre et d’un jour à l’autre – sauf sur certaines liaisons, en vertu d’accords entre la SNCF et les régions.

L’offre et la demande font leur loi, et les prix s’envolent si la seconde dépasse la première, comme cet automne, quand la compagnie a ouvert à la vente les billets des vacances de Noël, jugés trop chers et trop rares par beaucoup d’usagers.

11 000 tarifs relevés pour une trentaine de villes, en suivant divers scénarios

Mais dans quel mesure évoluent ces prix ? Quels plafonds et quels planchers peuvent-ils atteindre ? Pour répondre, j’ai relevé automatiquement plus de 11 000 tarifs proposés sur le site Oui.sncf pour des trajets entre Paris et une trentaine de villes de France, en fonction de divers scénarios.

J’ai ainsi simulé un voyage prévu la veille pour le lendemain, un week-end prévu longtemps à l’avance, un déplacement dans le creux de la semaine d’autres en période de pointe, comme à la Toussaint ou à Noël. Les résultats montrent des variations de tarifs très fortes.

Selon le chercheur Jean Finez, auteur d’une intéressante « socio-histoire » de la tarification SNCF, le prix pour parcourir 100 kilomètres en deuxième classe était de 84 F en 1944, hors tarifs sociaux (les familles nombreuses, les militaires…) ou opérations commerciales. Soit, si on tient compte de l’inflation, 20 € de 2018. Par exemple, un Paris-Lyon (510 kilomètres de voie ferrée) devait alors coûter 428 F, soit 100 € de 2018.

Mes relevés semblent montrer que ce prix est un peu moins élevé aujourd’hui, avec une moyenne globale de 18,60 € pour 100 kilomètres. Le Paris-Lyon revient en moyenne à 83,80 €.

Cette moyenne cache de fortes variations : un Paris-Marseille peut passer de 16 € à 212 €. Cet exemple est un peu trompeur cependant : le tarif maximum correspond à un billet de première classe, la seconde classe étant complète. C’est ce que m’indiquait l’économiste Thomas Le Gouezigou sur Twitter peu de temps après la parution de cet article. Le plafond prévu par la loi pour la seconde classe, rappelle-t-il, est de 116 €.

En tout cas, toutes les villes ne sont pas logées à la même enseigne : un Rémois vivant à Paris et souhaitant rentrer chez lui se voit proposer un prix moyen de 28,50 € pour 100 kilomètres, contre 14,40 € les 100 km pour son compatriote toulonnais.

Le prix au kilomètre parcouru varie fortement selon les destinations

Est-ce un effet de la concurrence de l’avion sur les longues distances ? Mes pointages montrent que le prix au kilomètre diminue en fonction de la distance parcourue. C’est notamment le cas au bout de la LGV Sud-Est : les Niçois, les Marseillais ou les Perpignanais paient moins cher leur voyage, du moins selon ce critère.

Le prix au kilomètre diminue avec le nombre de kilomètres parcourus

En revanche, il ne semble pas y avoir de lien entre le prix au kilomètre affiché et la richesse des villes desservies (estimée ici avec la médiane du niveau de vie que calcule l’Insee pour chaque commune).

Le prix au kilomètre ne varie pas avec la richesse des villes desservies

Mais voyager dans une vieille voiture de deuxième classe tracté par une poussive micheline, ce n’est pas tout à fait la même chose que de filer plus vite que le vent dans un TGV dernier cri. Pour le fun, j’ai donc aussi calculé un prix au kilomètre/heure (en me basant sur les heures de départ et d’arrivée ainsi que la distance à vol d’oiseau entre les deux villes), et établi un autre classement selon ce critère.

Le prix au km/h est aussi très variable

Si le sujet vous intéresse et que vous souhaitez faire d’autres comparaisons, mes données sont disponibles sous forme de Google Sheet. Les curieux liront aussi ce billet d’Arthur Charpentier sur le site Freakonometrics.

Mise à jour le 17 décembre à 00h30. Sur Twitter, l’économiste Thomas Le Gouezigou fait remarquer que lorsque la seconde classe est complète, le site Oui.sncf propose les places restantes en première classe. J’ai ajouté un passage et corrigé les textes des infographies en conséquence.

Photo en page d’accueil : deux TGV en gare (TGr_79 / Flickr / CC-BY-SA)

Vu ailleurs

Pour en finir avec le journalisme de la terre brûlée

26 octobre 2018 Yann Guégan Laisser un commentaire

Une forêt brûlée en Suède (Pavel Koubek/EU/CC-BY-NC-ND)

C’est un bref échange, mais il en dit beaucoup sur les mauvaises habitudes d’une profession. Il a lieu lors du dernier numéro de l’émission Arrêt sur images, consacrée au livre Inch Allah, L’islamisation à visage découvert. Une enquête réalisée en Seine-Saint-Denis par cinq étudiants du Centre de formation des journalistes (CFJ) et pilotée par Gérard Davet et Fabrice Lhomme, duo réputé de journalistes d’investigation du Monde.

Sur le plateau, Daniel Schneidermann et Lynda Zerouk passent en revue les critiques que le livre a suscité depuis sa parution et le début de sa promotion, très présente dans les médias – on peut en lire une bonne synthèse sur Mediapart.

Vient le cas de Véronique Decker. Les auteurs ont consacré un chapitre à la directrice de l’école Marie-Curie, à Bobigny. Il compile une série d’anecdotes personnelles, illustrant les relations parfois difficiles entre les enseignants et certains élèves ou parents d’élèves musulmans, qui multiplient les réclamations liées à la religion – dispense de piscine ou de cours d’éducation sexuelle, tables séparées à la cantine, prière lors des voyages scolaires…

« Mes propos n’ont pas été déformés, ils ont été cuisinés »

Decker n’a pas apprécié le traitement qu’on lui a réservé, et s’en est plainte sur Facebook, dans une interview et dans une tribune sur le blog des éditions Libertalia. Elle explique notamment à France info :

« Ils parlent d’une “enseignante-soldate” qui “contiendrait l’expansion de l’islam”. Mais ce n’est ni ma fonction, ni mon désir, ni mon projet de contenir l’islam. Ma fonction, c’est de permettre aux enfants d’avoir une éducation émancipatrice à l’école publique. […]

Mes propos n’ont pas été déformés, ils ont été cuisinés. Les carottes et les courgettes sont à moi, mais les auteurs en ont fait un couscous qui n’est pas de moi. »

Sur le plateau d’Arrêt sur images, une fois les faits exposés, Schneidermann se tourne vers Gérard Davet. Voilà leur échange in extenso (je n’ai pas trouvé d’extrait vidéo) :

« Est-ce que vous entendez ce reproche ? Parce que c’est vrai, quand on lit le chapitre qui lui est consacré, on a l’impression qu’elle passe ses journées, ses journées… à se bagarrer contre les empiétements de la religion. Et elle dit, ben non, il m’est arrivé un certain nombre de choses, échelonnées sur vingt ou vingt-cinq ans et tchouk ! [Il fait mine de comprimer un objet avec les bras]

– Est-ce qu’on devrait, dans ce cas-là, narrer comment elle fait pour trouver des tableaux, comment elle fait pour tenir sa classe ? Evidemment qu’un chapitre ça ne résume pas toute une vie de directrice d’école, évidemment.

– Ce n’est pas ce qu’elle dit, elle dit que ça caricature…

– Mais ça caricature… Vous connaissez beaucoup de gens qui, une fois qu’on fait un article sur eux… Vous avez été journaliste pendant très longtemps au Monde, [Schneidermann y a passé près de vingt-cinq ans, avant d’être licencié en 2003, ndlr] Y a pas des gens qui vous ont appelé derrière, pour vous dire “ça reflète pas exactement ce que je suis”, Daniel ?

– Tout le temps ! [Rires] Tout le temps… »

A ce moment, Lhomme intervient :

« […] Y a un autre tweet [de Véronique Decker, ndlr] qui commence en disant : “Toutes les paroles que j’ai tenues, qui sont rapportées dans le livre sont exactes.” Moi y a que ça qui m’intéresse. »

Je l’avoue, j’ai sursauté sur mon siège. Ce que disent deux journalistes (pas n’importe qui, des références pour la profession), c’est que l’impact que peut avoir un travail journalistique sur un témoin, en fait, on s’en fout un peu. Seule compte l’info : faut qu’elle avance, « il n’y a que ça qui m’intéresse », et peu importe si elle laisse un peu de terre brûlée sur son passage.

Se mettre dans la peau des gens qui permettent aux journalistes de faire son travail

J’interviens de temps en temps au CFJ, et c’est une tout autre vision du journalisme que je promeus auprès de mes élèves quand j’en ai l’occasion – d’ailleurs je doute que Davet et Lhomme soient complètement indifférents au sort de leurs sources, comme ils le laissent entendre de façon péremptoire dans cet extrait.

Mais cette histoire permet de rappeler l’importance qu’il y a, pour un journaliste, à se mettre dans la peau des gens qui lui permettent de faire son travail – un thème que j’avais déjà abordé dans un de mes posts sur le « journalisme en empathie ».

Lors d’une conférence au dernier festival de journalisme de Pérouse, une chercheuse en communication m’a conforté dans cette conviction. Pour son livre Becoming the News. How Ordinary People Respond to the Media Spotlight (« ils ont fait l’actu : comment réagissent les gens ordinaires quand ils sont dans la lumière »), Ruth Palmer a mené des dizaines d’entretiens avec des non-journalistes.

Elle avait repéré leur nom dans des journaux ou à la télévision, puis leur a demandé de raconter en détail ce qui s’est passé quand des journalistes ont débarqué dans leur vie, pour des raisons très diverses : une femme était témoin d’un accident dans la rue, un artiste avait fait l’objet d’un portrait dans un journal local, une cadre était accusée de malversations financières, un homme était dans l’Airbus qui a atterri sur l’Hudson River…

« Les reporters doivent vous pousser dans vos retranchements, c’est leur boulot »

Elle en a tiré des leçons plutôt intéressantes. D’abord, ça ne se passe pas forcément si mal que ça : beaucoup de personnes interrogées considèrent qu’apparaître dans les médias a plutôt bien servi leurs propres objectifs, qu’il s’agisse d’attirer l’attention sur une cause importante à leurs yeux, de diffuser leurs idées à une large audience, ou d’améliorer leur propre statut social auprès de leur entourage.

Certains comprennent même que les journalistes puissent être intrusifs et insistants, comme cette femme qui avait perdu son bébé à cause d’une maladie, et voyait une équipe de télévision réarranger les meubles de son salon avant de tourner son interview :

« Les reporters doivent vous pousser dans vos retranchements, ça m’a parfois agacé mais c’est leur boulot. Regardez CBS, ils voulaient absolument une image du bébé que j’ai perdu, j’ai refusé encore et encore, mais ils ont continué à la demander jusqu’à la dernière minute. Mais c’est leur boulot. »

Quand ça s’est mal passé, c’est pour des raisons qu’on retrouve en partie dans la polémique autour du dernier Davet/Lhomme :

la sensation d’avoir été manipulé revient souvent, comme si le journaliste n’écoutait pas vraiment, mais avait une citation en tête et s’efforçait de la faire dire à leur interlocuteur. Une chercheuse explique ainsi que, lors de son interview, elle a passé plus de temps à éviter de dire ce qu’on l’incitait forcément à dire plutôt qu’à dire quelque chose d’intéressant.
les conséquences sur la vie personnelle peuvent être terribles, et se sont aggravées avec Internet. Les médias en ligne travaillent leur référencement, et leurs articles squattent les pages de résultats Google quand on cherche le nom de la personne accusée d’un crime ou d’un délit. « La pire chose que vous avez faite dans votre vie devient la première chose qu’on apprend de vous, et ça vous suivra sans doute toute votre vie, résume Palmer. Si vous vous exprimez, il y aura forcément un retour de flamme sur les réseaux sociaux, ajoute-t-elle, et parfois des répercussions jusque dans le monde réel. »
quoiqu’il se passe après la parution, on ne peut pas compter sur les journalistes pour gérer « l’après ». Alors qu’ils avaient vécu un moment intense de leur existence, beaucoup ont ensuite ressenti un sentiment d’abandon.

L’image des journalistes n’a plus rien à avoir avec l’image qu’ils se font d’eux-mêmes

De son travail, Palmer tire une conclusion alarmante : l’image du métier que se font les non-journalistes n’a plus grand chose à voir avec celles que les journalistes aiment à cultiver.

« Ce qui m’a frappée, c’est que les gens qui disaient garder un bon souvenir de leurs interactions avec des reporters ajoutaient immédiatement que leur propre expérience était une exception à la règle.

Ils considèrent toujours que les journalistes, dans leur ensemble, sont insistants, intrusifs, égoïstes, prêts à inventer des choses, et disparaissent quand ils ont eu ce qu’ils veulent en se moquant de ce qui peut arriver aux gens ordinaires. »

Dans leur propre imaginaire, les journalistes sont là non seulement pour défendre la vérité, mais aussi pour incarner un contre-pouvoir et aider les petits à se défendre contre les puissants.

Mais pour un nombre grandissant de non-journalistes, ils représentent eux-mêmes un pouvoir menaçant, un « tyran » qui peut leur pourrir la vie. Difficile de leur donner tort, quand on voit la réaction de Davet et de Lhomme aux critiques de la directrice d’école.

Il y a sans doute plein de raisons, bonnes ou mauvaises, qui amènent Decker à réagir comme elle l’a fait. Mais la moindre des choses c’est d’accepter de les entendre : elles viennent de quelqu’un qui a consacré du temps, partagé un peu de son histoire personnelle et pris publiquement position dans un débat empoisonné.

Le journalisme qu’on doit défendre dans les écoles, c’est celui qui prend soin de ses témoins, pas celui qui leur roule dessus comme un bulldozer.

Vu ailleurs

Il y a un réseau social super auquel les journalistes ne pensent jamais

21 septembre 2018 Yann Guégan Laisser un commentaire

Le social media en ce moment, c’est vraiment pas la joie.

Mon flux Facebook ressemblerait à un frigo vide, sans les publicités venues s’empiler entre de rares posts de vraies gens, oubliés là comme un Tupperware de gratin dauphinois du mois dernier.

Twitter est toujours aussi bouillonnant, et la pratique des threads, qui consiste à raconter une petite histoire au fil d’une série de tweets enchaînés, a su ranimer mon intérêt. Mais vu l’ambiance délétère qui y règne, j’ai autant envie de participer aux échanges que de tremper mes orteils dans un marigot rempli de caïmans affamés.

Linkedin est à la mode, mais qui a vraiment envie de passer du temps sur un réseau social où il faut enfiler un costume cravate et cirer ses mocassins avant de se connecter ?

La chair est triste, hélas, surtout pour les vieux cons qui, comme moi, ont connu l’effervescence bon enfant de ces plateformes à leurs débuts – sans parler des blogs qui les ont précédés. Et la tentation est grande de se replier sur un espace de discussion réservé aux gens de bonne compagnie, qu’il s’agisse d’un groupe Facebook, d’une boucle WhatsApp ou d’un channel Slack.

Une passion pour le nettoyage industriel à haute pression

Pourtant, il reste un endroit où on retrouve le plaisir d’échanger avec des inconnus qui faisait tout le sel de l’Internet de papa : Reddit, et plus précisément sa partie francophone, village gaulois résistant vaillamment à l’aseptisation des espaces numériques.

Reddit, j’y ai créé un compte depuis 2011, attiré par les mèmes, les vidéos de chats et les GIFs animés qu’on y trouve à foison. Moins connu et plus americano-centré que ses concurrents, il compte quand même plus de 500 millions d’utilisateurs, et semble décidé à accorder plus de place à l’actualité, contrairement à Facebook.

Sept ans plus tard, je reste fasciné par la taille et la vitalité des communautés qui font vivre les subreddits, sortes de forums organisés autour de thématiques, de centre d’intérêts et de marottes diverses.

Ces derniers visent parfois large : il y a /r/worldnews sur l’actualité, /r/soccer sur le foot, /r/politics sur la politique américaine… Mais les subs les plus intéressants occupent des créneaux plus étroits, autour d’une série TV (/r/gameofthrones) , d’un type d’humour particulier (/r/dadjokes) ou de fétichismes ultra-pointus – grâce à /r/powerwashingporn, je viens de me découvrir une passion inavouable pour le nettoyage industriel à haute pression.

Jusqu’il y a peu, aller sur Reddit était pour moi une façon très agréable de perdre encore plus de temps scotché à mon smartphone, mais n’avait pas grand chose à voir avec une activité journalistique sérieuse.

D’autant que les codes, le jargons, les private jokes en vigueur sur cette plateforme font de sa découverte et de sa prise en main une expérience ingrate – montrer Reddit à un collègue, c’est risquer de s’attirer des regards incrédules voire hostiles, et se trimbaler avec une étiquette « gros nerd » pendant le reste de son CDD.

Ambiance cœur-avec-les-mains dans le coin des Français

Les choses ont changé avec la montée en puissance de /r/france, sub francophone qui a dépassé les 200 000 membres cet été. J’ai pris l’habitude d’y signaler les articles que je publie ici, agréablement surpris par la qualité de l’accueil reçu. Et le trafic reçu commence à être significatif : sur les 4 200 visiteurs qui sont passés sur mon infographie dédiée aux recettes de Marmiton, près de 900 venaient de /r/france.

Mais c’est surtout la qualité des commentaires reçus qui m’a enthousiasmé.

Sur Facebook, je peux compter sur mes proches et mon réseau professionnel pour relayer mes petites productions. Un soutien agréable mais forcément biaisé : difficile de ne pas lâcher un like quand un de vos amis publie le résultat d’un travail sur lequel il a transpiré plusieurs jours, voire plusieurs semaines.

Sur Twitter, beaucoup d’utilisateurs vont me retweeter ou publier un lien vers mes articles (merci à eux !), parfois accompagné d’un commentaire ou d’une critique, mais la plupart du temps ça ne va pas plus loin, surtout si l’attention générale est retenue par la dernière sortie d’Eric Zemmour ou le énième clash entre Raphaël Enthoven et Rokhaya Diallo.

Sur Reddit, c’est une autre paire de bretelles : tout ce que j’ai écrit va être scruté à la loupe, mes graphiques et cartes analysés en détail, mes erreurs ou raccourcis signalés en quelques minutes.

Même les scripts informatiques que je publie parfois en accompagnement sont passés en revue par des « redditeurs » bien plus calés que moi en code. (Lesquels, au passage, me proposent parfois leurs services pour une prochaine enquête, ambiance cœur-avec-les-mains.)

S’y aventurer reste une expérience risquée

La (relative) bonne tenue des échanges sur Reddit tient à ses deux principaux atouts :

un algorithme qui trie les commentaires selon leur pertinence et replie les posts les plus mal notés
une modération assurée par des bénévoles, qui édictent les règles des échanges sur chaque subreddit et les font respecter. (Ce qui ne va pas sans créer des heurts et des polémiques, comme celle qui a agité /r/france cet été.)

Comme tout bon subreddit, /r/france n’a pas que des qualités : le nouveau venu pourra se sentir exclu par le contenu dit « meta », soit l’humour autoréférentiel, auquel on n’entrave rien si on n’a pas suivi les échanges depuis quelque temps. Il faudra ainsi faire avec de multiples références à la guerre « pain au chocolat » versus « chocolatine », qui y a atteint des proportions quasi nucléaires.

D’autres subreddits franchouillards commencent aussi à émerger, même s’ils souffrent souvent de la concurrence de leur alter ego anglophone : /r/ligue1 pour le ballon rond, /r/paslegorafi pour les infos insolites, /r/vosfinances pour des conseils pognon.

Pour un journaliste, s’aventurer sur Reddit reste une expérience un peu risquée : le rejet global des médias, perçus comme « putaclics » ou partisans, s’y ressent comme partout ailleurs.

Surtout, il faut être prêt à jouer le jeu des échanges, en défendant son travail quand les critiques ne sont pas justifiées, en reconnaissant ses lacunes et ses erreurs quand elles le sont.

La recette : être utile, bienveillant, intelligent, et surtout transparent

Aux Etats-Unis, le Washington Post s’est fait remarquer avec le compte /u/washingtonpost, qui poste bien sûr des liens vers les articles publiés sur le site, mais participe aussi aux échanges dans les commentaires.

Il est animé par Gene Park, un social media editor qui connaît bien les usages de cette plateforme. Bienveillant, utile et intelligent, son travail a été salué par le site spécialisé NiemanLab :

« Si le Post a fini par être bien accepté sur Reddit, c’est pour une raison pas si surprenante : son compte joue vraiment la transparence et accepte de répondre aux accusations lancées contre le journal, notamment le fait qu’il est détenu par le patron d’Amazon, Jeff Bezos. »

Park organise notamment des AMA (pour « Ask me anything »), exercice très prisé sur Reddit, qui consiste à laisser les utilisateurs interviewer une personnalité. Ça peut être un journaliste de la rédaction, ou un quidam ayant marqué l’actualité, comme ce présentateur météo de l’Alabama dont les bulletins sur les ouragans avaient été repérés pour leur qualité.

(Encore à Rue89, j’avais copié cette formule pour lancer la rubrique Posez-moi vos questions, qui a notamment accueilli un biérologue, une médaillée au JO ou encore l’écrivain Martin Wincler.)

Pour Park, « l’enjeu n’est pas de faire du trafic, mais de créer des liens avec l’audience ». En accompagnant le mouvement plutôt qu’en cherchant à le créer artificiellement :

« Les utilisateurs de Reddit postent très souvent des liens vers le Washington Post. Nous allons chercher ces conversations autour de nos articles et cherchons à donner plus de contextes, et plus de réponses. Parfois on a déjà publié d’autres contenus sur le même sujet, et je peux utiliser mes connaissances pour transmettre davantage de connaissance. »

Reddit m’intéresse parce qu’il permet de recréer des liens entre les journalistes et leur audience, ce qui me semble un étape indispensable si les médias veulent regagner la confiance du grand public (je sais, je radote). Les sites d’info peinent à créer des espaces de conversation pertinents sous leur propre ombrelle, alors pourquoi ne pas essayer celui-là ?

Vu ailleurs

Supprimer les services politiques, et 4 autres idées pour changer le journalisme

6 mai 2018 Yann Guégan Laisser un commentaire

La journaliste politique Nathalie Saint-Cricq lors du débat Macron-Le Pen

Comme chaque année, je suis allé ~~manger du poulpe grillé et boire des Spritz~~ découvrir les dernières tendances au Festival international de journalisme de Pérouse, en Italie. Je vous en ai ramené cinq idées pour changer le journalisme qui continuent à me trotter dans la tête depuis mon retour.

1. Supprimer les services politiques dans les rédactions

L’idée vient de l’écrivain néerlandais Joris Luyendijk, qui tenait le Banking Blog sur le site du Guardian. Il l’a exposée lors d’une conférence à la tonalité désabusée :

« Il faut supprimer les services politiques des rédactions nationales, les jeter par la fenêtre. Et remplacer leurs reporters par des “fixers”, dont le job est d’aider leurs collègues des autres services à faire leur travail.

Si je travaille pour les pages économie et que je tombe sur une affaire de corruption à Westminster, je devrais pouvoir me tourner vers un spécialiste du Parlement britannique pour qu’il m’aide dans mon enquête.

Mais en pratique, ça n’arrive jamais : les journalistes politiques ont leur propres priorités et ne partagent pas leurs contacts. Ils se contentent de la politique politicienne : les sondages, les postes, les ambitions… en résumé, ils en font un “show business for ugly people”. »

« Jeter les services politiques par la fenêtre » : formulée ainsi, la mesure paraît radicale. Mais le punk qui sommeille en moi ne peut pas s’empêcher de penser que c’est une très bonne idée…

2. Arrêter de vendre des abonnements et proposer des adhésions à la place

C’est sans doute l’idée la plus enthousiasmante que je retiens de Pérouse cette année – si on s’est croisés depuis, il y a de bonnes chances que je vous en ai déjà parlé, en faisant de grands moulinets avec les mains.

Je résume à gros traits : le modèle de financement des médias par abonnement, qui a beaucoup séduit dans la profession ces dernières années, a bien des avantages : indépendance vis-à-vis des annonceurs ; expérience utilisateur améliorée par l’absence de publicités forcément intrusives ; lien plus direct entre la rédaction et son public.

Mais il a un inconvénient majeur : en activant un paywall, on impose au lecteur de se créer un compte et de sortir sa carte bleue avant de pouvoir lire un article. Et on réduit drastiquement les possibilités de circulation et de reprise des informations publiées.

On peut toujours le désactiver pour certaines enquêtes jugées « d’utilité publique », mais on crée alors un dilemme cornélien pour les équipes concernées, quand elles s’apprêtent à publier un contenu fort.

Faut-il le laisser en libre accès et espérer que le surplus de trafic généré se transforme, in fine, en nouveaux abonnés ? Ou faut-il au contraire le réserver à ses lecteurs actuels, pour s’assurer qu’ils en aient « pour leur argent » et ne pas réduire la valeur de leur achat ?

Les expériences menées par le News Revenue Hub offrent une troisième voie, déjà empruntée par le Guardian au Royaume-Uni, par Reporterre, L’Imprévu ou le Bondy Blog en France. Ces derniers ont fait le choix garder leurs contenus ouverts, et de proposer à tous les lecteurs de devenir adhérents, si le projet éditorial proposé les séduit sur le long terme.

C’est le virage pris par le Honolulu Civil Beat, à Hawaii, et Voice of San Diego, deux sites qui peinaient à recruter assez d’abonnés pour financer reportages et enquêtes de fond. Dans les deux cas, les revenus générés ont nettement augmenté : les rédactions ont découvert qu’une part significative de leurs lecteurs était prête à payer une dizaine de dollars par mois non pour accéder à des contenus, mais pour soutenir des projets de journalisme de qualité.

Mais pour réussir, le passage du subscription model au membership model implique de transformer significativement la façon de travailler des reporters concernés. Les voilà forcer de raconter davantage les coulisses de la fabrication de l’information, d’expliquer les choix éditoriaux opérés ou encore de prendre réellement en compte les avis et les propositions de sujets des adhérents.

C’est ce qu’expliquait Mary Walter-Brown, la fondatrice du News Revenue Hub, à Pérouse :

« Il faut un changement de culture pour que ça marche. Il faut proposer des contreparties, comme le fait de pouvoir prendre un café avec les journalistes pour discuter avec eux.

Il faut dégager du temps pour que les reporters puissent préparer des campagnes d’emailing où ils se présentent et présentent leur travail. Il faut passer du temps à étudier les données disponibles.

Si vous vous contenter juste de lancer une page membership sur votre site sans y consacrer du temps et de l’énergie, les gens le verront vite. A l’inverse, des initiatives simples peuvent avoir de grands résultats. »

Ça passe parfois par de petites fonctionnalités malines, rappelait le chercheur Jay Rosen dans un autre rendez-vous pérugin : lorsqu’un adhérent au site néerlandais De Correspondent partage un article, les lecteurs qui cliquent sur le lien généré vont voir le nom de ce soutien s’afficher sur la page. De quoi donner envie de rejoindre le club.

Ce qui m’a frappé, c’est que ce modèle membership ne semble plus seulement réservé à des médias juniors ou militants, mais qu’il pourrait bien concerner bien plus de titres. L’approche proposée par le News Revenue Hub est d’ailleurs très business, et passe par la mise en place d’outils de relation-client performants.

A titre personnel, je suis abonné (et même petit actionnaire) des Jours, mais je ne vois aucune raison d’interrompre mon prélèvement si ce site décide de mettre ses contenus en libre accès. Et je suis prêt à parier que bien des lecteurs de Mediacités, du Quatre heures ou même de Libération feraient le même choix.

3. Mettre au point un fact-checking automatique et collaboratif

Réelle tendance de ces dernières années, le fact-checking a du plomb dans l’aile depuis qu’on a découvert qu’il ne permettait pas vraiment de lutter contre la dissémination des fake news. Ça n’empêche pas les spécialistes de continuer à réfléchir aux façons de l’améliorer.

Parmi eux, Bill Adair, chercheur à l’université Duke et créateur de Politifact, pionnier américain dans ce domaine. Depuis quelques années, il trimballe dans sa sacoche un vieux rêve : un outil qui permettrait de vérifier en direct les propos tenus par un politicien, par exemple sous la forme d’un bandeau incrusté sur la retransmission de son discours par une chaîne info.

Complexe à mettre au point, une telle technologie paraissait hors de portée il y a quelques années. Mais les progrès et la popularisation de l’intelligence artificielle montrent qu’elle désormais est atteignable. L’application pour iPhone FactStream, que son équipe a récemment lancé, permettait ainsi à ses utilisateurs de recevoir des notifications dès que Trump prononçait une contre-vérité lors de son discours sur l’Etat de l’Union, en janvier.

OK, le texte que lisait Trump est diffusé aux journalistes quelques heures avant, et les notifications étaient envoyées manuellement (parfois avant même que Trump arrive au passage concerné, pour tenir compte des délais. Mais Adair ne compte pas s’arrêter là, et automatiser davantage le processus.

Autre outil développé : ClaimBuster, qui va détecter automatiquement dans n’importe quel discours des propos factuels pouvant être matière à un travail de vérification. Une série de fact-checkers américains reçoivent ainsi une newsletter quotidienne fournissant les faits détectés par exemple dans les interventions des parlementaires au Congrès, une matière qu’ils vont pouvoir traiter pendant la journée.

Pour mieux fact-checker, il est aussi utile de fact-checker ensemble : ainsi, FactStream propose des contenus venus de plusieurs sites d’information, parfois concurrents. Ces contenus sont structurés via le balisage ClaimReview, servant au référencement et mis au point avec Google pour rendre plus visible les fact-checkings sur Google News et dans les résultats de recherche.

4. Rétablir la confiance des lecteurs pour qu’ils acceptent d’être bousculés

C’est devenu une tarte à la crème, et je ne suis pas le dernier à la ressortir régulièrement du frigo : les journalistes doivent regagner la confiance de leur public s’ils veulent exister dans des écosystèmes numériques ou l’information est surabondante et partout accessible.

Dans sa keynote à Pérouse, le chercheur new-yorkais Jay Rosen proposait donc « d’optimiser les médias pour la confiance », plutôt que de les optimiser pour les clics ou les partages Facebook.

Il a cependant vite reconnu la faiblesse derrière ce raisonnement : après tout, Breitbart News aux Etats-Unis a la confiance de ses lecteurs, et c’est même ce qui fonde son pouvoir de nuisance dans le débat démocratique :

« C’est facile d’obtenir leur confiance si vous ne faites que renforcer les idées que vos lecteurs ont déjà, et si vous dénoncez les idées des autres. Trump le fait avec son compte Twitter. Comme source d’information, il est davantage cru que Fox News par les électeurs républicains. »

(Toutes choses égales par ailleurs, on peut tenir le même raisonnement en France avec des sites aux contenus marqués idéologiquement et journalistiquement contestables, comme Russia Today, Le Média ou LesCrises.)

Ce constat l’amène à reformuler la question : « Comment combiner le respect des standards de qualité du journalisme, et en même temps créer de la confiance ? » Quitte à prendre, parfois, son lecteur à rebrousse-poil.

C’est un vaste chantier, qui passe, comme lorsqu’un média adopte le modèle de financement par adhésion, par une redéfinition globale de l’offre éditoriale et des méthodes de travail des journalistes.

5. Fournir des services aux pigistes pour qu’ils se publient eux-mêmes

Teun Gautier en est convaincu : le problème actuel du journalisme n’est pas un problème de demande – les lecteurs veulent de l’information et sont prêts à la payer « si elle a de la valeur pour eux » – ni un problème d’offre – « les coûts de production baissent », et des technologies autrefois inaccessibles sont désormais à portée de clic pour le premier étudiant en journalisme venu.

Un peu comme pour les producteurs de melons, le problème vient, selon le fondateur du service De Coöperatie, des intermédiaires. Entre les journalistes et leur public, c’est la structure de distribution de l’information qui est dysfonctionnelle, parce qu’elle n’est pas capable de générer des revenus suffisants.

C’est le rôle des éditeurs de presse qui doit donc changer. Ils ne devraient plus chercher à encadrer le travail des journalistes – en choisissant qui doit être embauché, en sélectionnant ce qui doit paraître ou pas ou en commandant des contenus qui doivent coller à des formats existants.

Plutôt que de multiplier les conférences de rédaction pour remplir un chemin de fer préformaté ou renouveler à marche forcée une page d’accueil, les nouveaux intermédiaires devront chercher à accompagner des journalistes freelance, en leur fournissant les services nécessaires à leur activité.

Pour les identifier, il faut se demander ce qu’on inventerait si on faisait table rase des médias existants. De quoi ont besoin les journalistes ? Pêle-mêle : un outil de publication performant, de la visibilité sur les réseaux sociaux, des solutions de monétisation (paiement à l’article, crowdfunding, adhésion…), de services de formation, d’entraide, de relecture ou de correction, d’une bonne épargne retraite…

Ce modèle « de la ferme à la table » appliqué au journalisme réduit la distance entre le lecteur et le reporteur, et modifie aussi la répartition des revenus générés, qui profitent davantage au producteur de l’information et moins à ceux chargés de leur distribution

Misc

Ce qui a changé dans la liste des sujets préférés des médias français

10 février 2018 Yann Guégan Laisser un commentaire

Vous avez été nombreux à montrer votre intérêt pour le tableau de bord des obsessions, marottes et zones d’ombre des médias que j’ai publié début février. Je vais donc continuer de le compléter et de l’améliorer dès que j’aurais un peu de temps devant moi, et listé dans ce post les derniers changements.

Vendredi 5 octobre

Après une série de tests, affichage des graphiques montrant l’évolution du traitement d’un thème depuis un mois.

Lundi 6 août

La mise à jour des informations ne se faisait plus, la faute à un problème sur le flux RSS d’un des médias. Problème désormais réparé.

Samedi 10 février

Une dizaine de médias supplémentaires sont désormais étudiés : Courrier international, L’Equipe, Les Echos, La Tribune, Challenges, Capital, Reporterre, L’imprévu, Bastamag, Contexte, StreetPress, The Conversation.
Dans la liste des entités, le classement actuel et son évolution par rapport à la période précédente est indiqué, à la manière du Top 50.
Le script qui récupère les titres et descriptions des articles publiés par chaque média (via leur flux RSS) passe désormais une fois par heure, et non plus trois fois par jour, pour ne rien rater sur les sites qui publient beaucoup de contenu comme 20 minutes.
L’adresse du flux RSS utilisé pour L’Express était erronée et a été corrigée.
La qualité du corpus utilisé pour l’analyse a été beaucoup améliorée : problèmes d’encodage résolus (Le Monde, Vice…), balises HTML mieux filtrées (Mashable…), suppression des retours chariots, retours à la ligne et tabulations.
Le corpus ne contient plus que les 150 premiers caractères de la description de chaque article publié, afin de ne pas défavoriser dans l’analyse les sites qui ne fournissent qu’une description très courte dans leur fil RSS, comme Le Point.
Trois médias ne peuvent être étudiés : Buzzfeed (contenus en anglais dans le fil RSS), Valeurs actuelles (fil RSS illisible), Télérama (pas de fil RSS disponible).

Trucs et astuces

Comment je prépare le tableau de bord des sujets les plus traités par les sites d’actu

1 février 2018 Yann Guégan 9 commentaires

C’est sans doute le projet le plus ambitieux et le plus complexe que j’aie mené à bien depuis que j’ai lancé Dans mon labo il y a bientôt quatre ans. Il m’a fallu pas mal d’après-midi pluvieux et de jours fériés blafards pour terminer le tableau de bord qui liste les sujets les plus présents dans les sites d’actualité français.

Il est devenu possible grâce aux progrès que j’ai réalisés en Python, un langage de programmation prisé des datajournalistes. De mon côté, j’ai dû sérieusement m’y mettre courant 2017, notamment pour afficher en direct les résultats des élections législatives au sein de la carte interactive que j’ai préparée pour Contexte.

Pour explorer les flux XML mis à disposition par le ministère de l’Intérieur le soir des scrutins, j’ai trouvé en Python, avec sa syntaxe accessible et ses multiplies librairies disponibles, un partenaire idéal. (Mais il est aussi possible de faire ça très bien avec d’autres solutions, comme R.)

Et ces connaissances m’ont ouvert de nouveaux horizons, notamment ceux de la reconnaissance automatisée d’entités nommées. Un domaine qui, m’a-t-on expliqué, a beaucoup progressé grâce au patient travail de description et de classement réalisé par les contributeurs de Wikipedia.

J’ai d’abord travaillé, toujours pour Contexte, sur les thématiques les plus présentes dans le discours des députés pour enrichir le trombinoscope de l’Assemblée nationale que le site propose à ses abonnés. C’est alors que m’est venue l’idée de proposer une démarche comparable, mais avec les médias en ligne.

1. Scraper les flux RSS des sites d‘actu avec Python

J’ai listé, dans une Google Sheet, les sites que je souhaitais étudier, en renseignant pour chacun l’adresse de son flux RSS principal.

Mon script de scraping (dispo pour les curieux) commence par récupérer cette liste, et va chercher dans chaque flux le titre et la description (le chapô ou le début du texte) de chaque article. Il récupère aussi sa date de publication, et enregistre le tout dans un fichier Json dédié à chaque site.

Tous les flux RSS n’étant pas construits de la même façon, il a fallu prendre en compte les différents cas de figure : ainsi, le résumé de l’article se trouve dans un élément qui peut être nommé « description », « summary », « content »…

2. Créer un corpus de textes et le faire analyser par TextRazor

La suite de ce script va concaténer ensemble les titres et résumés de chaque article publiés dans une période donnée pour en faire un seul et même texte.

Ce corpus va ensuite être envoyé à TextRazor, via la librairie Python que met à disposition ce service d’analyse sémantique. Ce dernier est gratuit jusqu’à 500 requêtes par jour, un quota largement suffisant pour ce projet.

Parmi les services équivalents, TextRazor a un autre avantage : non seulement son outil d’extraction des entités nommées renvoie la liste des thématiques détectées au sein du corpus soumis, mais il fournit aussi pour chacune un score de relevance (« pertinence », que j’ai finalement traduit en « présence » dans mon tableau de bord).

Ainsi, s’il détecte les mots « GPA », « gestation pour autrui » ou « mère porteuse » dans un texte, Textrazor réunit ses expressions dans une seule thématique (en général le titre de la notice Wikipedia dédiée). Et donne à cette dernière une note, de 0 à 1, selon que l’entité lui semble plus ou moins pertinente dans le texte fourni.

C’est à la fois la force et la faiblesse de ma méthode : ce scoring me permet de générer les multiples classements, mais je n’ai pas « la main » sur son élaboration.

Malgré quelques mauvaises surprises, l’observation des résultats obtenus m’a toute fois rassuré : Le Parisien est en général le média où le thème « Paris » est le plus présent ; on retrouve souvent « Jean-Luc Mélenchon » bien classé dans les résultats de Politis ; Sputnik et RT France sont bien placés au classement pour le thème « Vladimir Poutine ».

4. Héberger les scripts sur un serveur chez PythonAnywhere

Cette partie-là du chantier serait une promenade de santé pour un développeur back-end même débutant. A un journaliste bidouilleur comme moi, elle a pris pas mal de temps et d’énergie.

Une fois le script Python décrit ci-dessus terminé, je ne pouvais pas l’exécuter moi-même plusieurs fois par jour sur mon ordinateur afin de disposer de données toujours fraîches pour alimenter un éventuel tableau de bord.

Sur les conseils d’amis développeurs, j’ai regardé plusieurs offres d’hébergement comme Amazon Web Services ou Google Cloud Platform, mais la longueur des procédures d’installation et des tutoriels proposés m’a vite refroidi. Je me suis rabattu sur Python Anywhere. un service peu onéreux et qui s’est révélé mieux adapté à un noob comme moi.

Même avec cette solution, je suis passé par mal, de guides d’utilisation, de pages d’aide et de questions Stack Overflow avant d’arriver mes fins : faire tourner mon script de scraping plusieurs fois par jour.

4. Créer le tableau de bord en front à partir d’un fichier Json optimisé

Une fois toutes ces listes de thématiques récupérées et enregistrées dans le fichier Json de chaque média, un autre script Python, lui aussi hébergé sur PythonAnywhere, va préparer un fichier Json commun et de taille réduite.

Ce dernier sera récupéré, au moment où le tableau de bord publié Dans mon labo se charge, par votre navigateur. Au final, c’est donc Chrome, Firefox ou Edge qui va construire l’infographie à l’intérieur de la page.

Je ne détaillerais pas sur ce travail de développement front-end, classique combinaison de HTML, de CSS et de Javascript, mais si vous avez des questions sur cette partie, je serai ravi d’y répondre !

A ce stade, la principale difficulté pour moi a été de s’assurer que le chargement des données puis la construction de l’infographie se fasse dans un délai raisonnable : lors des premières étapes, le tout prenait parfois une bonne dizaine de secondes, ce qui es rédhibitoire.

Pour chaque média, j’ai choisi de ne pas intégrer une thématique si son score était inférieur à un certain seuil (en ce moment, 0,4/1), et de n’afficher une thématique dans la liste principale que si elle était présente dans au moins quatre médias.

Il m’a fallu pas mal d’allers-retours entre scripts Python sur le serveur et code Javascript dans le navigateur pour réduire ce délai et obtenir une expérience suffisamment fluide, mais il reste sans doute pas mal d’optimisation possible.

5. Préparer la suite avec des analyses hebdomadaires et mensuelles

Comme beaucoup l’ont fait remarquer dès la publication du tableau de bord, les résultats seront intéressants à observer dans le temps, au-delà de la photographie actuelle (les sept derniers jours). Mon script réalise déjà des analyses hebdomadaires et mensuelles, qui ne sont pas affichées mais que j’espère utiliser quand j’aurais davantage de recul. (Edit le 5 octobre : des graphiques s’affichent désormais pour chaque thématique, j’y reviens dans un thread sur Twitter)

Voilà ! Je suis en tout cas curieux de savoir vos remarques, critiques ou propositions d’amélioration dans les commentaires de ce post ou bien, pour les timides, dans un message privé.

Mis à jour le 2/2 à 10h15. Précision sur les seuils (point 4) et point 5 ajouté.

Expériences

Obsessions, marottes et zones d’ombre : voici les sujets préférés de 60 sites d’info français

Galerie 1 février 2018 Yann Guégan Un commentaire

Dans une rédaction, la ligne éditoriale, c’est comme le dahu : tout le monde en parle, mais personne ne l’a jamais vue. Elle structure pourtant le travail quotidien des journalistes ; c’est en son nom qu’on va accepter ou refuser une idée de sujet ou d’angle. Et quand elle est absente ou bien trop floue, ce n’est souvent pas bon signe.

Pour tenter de représenter ces fameuses lignes, j’ai mis au point ce tableau de bord, qui montre les thématiques les plus présentes sur une soixantaine de sites d’actualité dans les sept derniers jours, le tout rafraîchi trois fois par jour.

Encore expérimentales, ces listes sont générées automatiquement, grâce à la reconnaissance d’entités nommées dans un corpus spécifique à chaque média. Cet agglomérat de texte est formé avec les informations disponibles au sein de son flux RSS principal – je reviens en détail sur la méthodologie utilisée dans un autre post.

Mis à jour le 5/10/2018. L’infographie a pas mal évolué depuis sa publication, voir la liste des changements dans ce post.

Mis à jour le 15/11/2019. Le tableau de bord n’est plus mis à jour.

Expériences

Bataille de bouffe ! Découvrez les ingrédients et recettes préférés des Français

Galerie 11 novembre 2017 Yann Guégan Laisser un commentaire

Mettez deux Français ensemble, et il y a de bonnes chances qu’après quelques minutes, ils se mettent à parler de bouffe, qu’il s’agisse du dernier restaurant à la mode ou de cette recette exclusive de moelleux au chocolat qu’ils sortent du tiroir pour les grandes occasions.

Mais quels sont les aliments et les préparations préférés des Français ? Pour le savoir, j’ai « aspiré » les données d’un des sites de recettes les plus populaires, Marmiton, Vous pouvez découvrir les résultats en lançant des batailles d’ingrédients dans l’infographie ci-dessous.

Pour calculer le score d’un ingrédient, j’ai d’abord récupéré toutes les recettes qui le contiennent, grâce à un script en Python. Ensuite j’ai multiplié, pour chacune de ces dernières, le nombre d’avis d’internautes par la note moyenne obtenue. Et j’ai additionné le tout.

Je n’ai gardé que les 1 130 ingrédients qui apparaissent dans au moins 10 recettes, et opéré pas mal de regroupements pour obtenir des résultats plus pertinents (par exemple, « échine de porc », « côtes de porc » ou « escalope de porc » sont toutes regroupées dans l’ingrédient « porc »). La liste retenue contient finalement 871 entrées, de A comme « abricot » à Y comme « yaourt ».

Il m’a aussi fallu créer une cinquantaine de catégories (de « viandes » à « produits laitiers » en passant par « bonbons » ou « champignons ») afin de générer les classements. N’hésitez pas à me signaler des erreurs ou des bizarreries dans les commentaires ou en me contactant, afin que je les corrige.

Vous pouvez aussi consulter les données sur les ingrédients comme celles sur les catégories, pour les réutiliser si vous le souhaitez.

Dans mon labo, je publie mes expériences et je suis de près les révolutions que vivent les journalistes et les médias à l'ère du numérique.

Yann Guégan

Portfolio Infos & contact

La bulle confortable de la formation, et le monde réel

Le miroir de notre angoisse collective

Des graphiques remixés comme de vulgaires mèmes

« C’est trop compliqué pour le lecteur » Vraiment ?

Une échelle logarithmique et des courbes qui s’empilent

Tout choix éditorial est un pari, et parfois les paris se gagnent

11 000 tarifs relevés pour une trentaine de villes, en suivant divers scénarios

Le prix au kilomètre parcouru varie fortement selon les destinations

Le prix au kilomètre diminue avec le nombre de kilomètres parcourus

Le prix au kilomètre ne varie pas avec la richesse des villes desservies

Le prix au km/h est aussi très variable

« Mes propos n’ont pas été déformés, ils ont été cuisinés »

Se mettre dans la peau des gens qui permettent aux journalistes de faire son travail

« Les reporters doivent vous pousser dans vos retranchements, c’est leur boulot »

L’image des journalistes n’a plus rien à avoir avec l’image qu’ils se font d’eux-mêmes

Une passion pour le nettoyage industriel à haute pression

Ambiance cœur-avec-les-mains dans le coin des Français

S’y aventurer reste une expérience risquée

La recette : être utile, bienveillant, intelligent, et surtout transparent

1. Supprimer les services politiques dans les rédactions

2. Arrêter de vendre des abonnements et proposer des adhésions à la place

3. Mettre au point un fact-checking automatique et collaboratif

4. Rétablir la confiance des lecteurs pour qu’ils acceptent d’être bousculés

5. Fournir des services aux pigistes pour qu’ils se publient eux-mêmes

Vendredi 5 octobre

Lundi 6 août

Samedi 10 février

1. Scraper les flux RSS des sites d‘actu avec Python

2. Créer un corpus de textes et le faire analyser par TextRazor

4. Héberger les scripts sur un serveur chez PythonAnywhere

4. Créer le tableau de bord en front à partir d’un fichier Json optimisé

5. Préparer la suite avec des analyses hebdomadaires et mensuelles

A lire aussi

A propos

Me suivre