L’open data et le grand public : on n’attrape pas les mouches avec du vinaigre

La question de l’appropriation des données ouvertes est, avec celle du potentiel économique, l’un des sujets chauds de l’open data. Ayant eu l’opportunité de tester plusieurs formats d’animation et de sensibilisation au cours des derniers mois, je vous propose un billet sous forme de retour d’expérience. Vos commentaires, idées et réactions sont les bienvenus !

1 – Pour le grand public, le problème dans « open data » c’est d’abord la « data »

L’infolab « données de mobilité »
(photo Ville de Rennes)

J’avais fait cette remarque à l’occasion de la Semaine européenne de l’open data qui s’est tenue à Nantes avant l’été; pour les entreprises, le problème de l’open data c’est plutôt le côté « open« , mais pour le grand public c’est d’abord l’objet « donnée » qui constitue une difficulté.

Les data sont partout autour de nous, elles sont indispensables au bon fonctionnement des services de notre quotidien (de la crèche aux transports), mais pourtant cet objet reste largement méconnu. J’ai développé dans un précédent billet les différents formats d’animation de l’open data, en particulier en fonction des cibles visées; les ateliers dont je fais mention ici visent à développer une culture de la donnée au sens large (et pas uniquement de la donnée ouverte).

2 – D’abord, partir d’une thématique (et surtout pas de l’open data)

Le proverbe dit que l’on n’attrape pas les mouches avec le vinaigre. Je trouve, toutes comparaisons malveillantes mises à part, qu’il s’adapte bien à la question de l’appropriation de l’open data par le grand public.

Faîtes l’expérience : proposez à vos amis de participer à une séance de sensibilisation aux données ouvertes. Qu’allez-vous entendre ? L’anti-geek : « oh, tu sais moi je suis pas trop branché par les trucs informatiques, cela ne m’intéresse pas trop« , l’apprenti geek : « ah oui bonne idée, justement j’avais des problèmes avec Open Office… tu me parles bien de cela, non ?« , la père divorcé : « Ah oui, cela aurait été avec plaisir mais à cette heure-là j’ai kiné/piscine/les enfants à aller chercher à l’école, parce que tu connais mon ex, hein…« .

Je caricature un peu mais vous avez compris le message : l’open data pour l’open data, cela n’attire pas les foules ! L’une des pistes, pour sensibiliser à la culture de la donnée, est de partir d’un thème auquel chacun puisse facilement s’identifier. On n’invite pas à « découvrir l’open data » mais à parler du jardin botanique, des déplacements en vélo dans la ville, ou encore des prénoms. Le thème n’est pas qu’un « hameçon« : je l’ai choisi parce qu’il correspond à chaque fois à des jeux de données déjà ouverts… Ce n’est pas seulement un prétexte, c’est une opportunité pour parler des données, à travers des exemples concrets et accessibles.

3 – Les médiations

Les trois ateliers que j’ai eu le plaisir d’animer à Rennes durant l’évènement Viva-Cités auront permis de tester plusieurs formes de médiation. Le format est de type infolab éphémère : un lieu, un temps déterminé, une méthodologie d’animation pour « faire des trucs » avec l’open data.

Ces trois ateliers, bien qu’ayant des approches très différentes, ont des points communs : aucun participant n’avait à manipuler un ordinateur. On a utilisé des photographies, des plans, des crayons de couleur, des gommettes, … Tout pourvu que l’on n’ait pas besoin d’informatique ! Tous les ateliers ont commencé par des mises en situation, afin que chaque participant puisse faire sien le sujet que nous allions aborder.

Trois exemples de question que j’ai posé en introduction : « Pourriez-vous me dessiner votre parcours-type lorsque vous allez au Jardin du Thabor ?« , « Comment peut-on se déplacer aujourd’hui à Rennes ?« , « Quels sont les prénoms qui figurent sur vos papiers d’identité ?« …

Cette introduction a souvent permis de briser la glace entre les participants qui ne se connaissaient pas avant l’atelier. Elle a surtout permis d’éviter le tour de table des présentations un peu formelles. En effet, j’avais invité sur chacun des ateliers un représentant des services de la Ville en relation avec le jeu de donnée qui nous intéressait… et je ne souhaitais qu’ils se placent, ou soient placés par les autres, « hors du groupe« .

Nous avons ensuite utilisé des méthodes et des supports d’animation très différents pour chaque atelier. Pour celui concernant le Jardin du Thabor, j’ai distribué une cinquantaine de tirages de photographies que j’avais réalisé. Nous avons décrit chaque photo puis placé sur le plan du jardin ces différents « points d’intérêts » (les arbres, les statues, les toilettes, les entrées et sorties du parc…).

L’atelier sur les déplacements s’est déroulé sous le mode d’une chasse aux données. Chaque groupe est parti équipé d’un kit comprenant une photo aérienne du quartier, des gommettes de couleur et des instructions pour prendre des photos sur le mode « rapport d’étonnement ». Enfin, pour le dernier atelier j’avais imprimé sur des grandes feuilles A3 la liste des prénoms les plus populaires (toujours dans l’idée de ne pas avoir à utiliser un tableur Excel…).

4 – Au programme de ces infolabs

Chaque atelier aura permis d’aborder une ou plusieurs facettes des données ouvertes.

L’infolab « Thabor » a montré la richesse et la diversité des sources de données (publiques avec le portail open data de la Ville, mais aussi collaboratives avec la carte Open Street Map). Nous avons insisté sur la possibilité de mixer deux sources de données pour donner naissance à une troisième (à l’instar de la carte des arbres allergènes du parc, réalisée à partir du mix entre la localisation et l’espèce des arbres et la liste des espèces allergènes publiée sur le site de l’ADEME).

L’infolab « données de mobilité » était une invitation à ouvrir l’oeil (et le bon !) pour découvrir les données, signes et informations pertinentes pour se déplacer dans un quartier. Nous avons pu faire le lien entre un objet concret (un ascenseur), la donnée ouverte le concernant (l’état de fonctionnement interrogeable sous la forme d’API) et surtout sa réutilisation possible. J’avais déjà proposé cet atelier à Rennes, Nantes et Marseille et pourtant je continue encore à découvrir de nouvelles choses en observant les participants : par exemple le fait que la majorité des signes s’adressant aux piétons sont des injonctions négatives : « attention travaux, traversée obligatoire pour les piétons », « zone interdite aux piétons », « le petit bonhomme est rouge, on ne passe pas », …

Infolab prénoms
(photo Franck Hamon / Ville de Rennes)

L’infolab « prénoms » aura surtout mis l’accent sur la lecture critique des données (où naît-on vraiment ? comment le fichier est-il constitué ? pour quel usage initial ?). Nous avons aussi pu voir concrètement que chaque visualisation est l’objet d’une intention (ce que l’on veut montrer) et que la manière dont les données sont mises à disposition a un impact sur les réutilisations possibles…

Bref, nous avons essayé de poser les bases d’un programme pédagogique (lire / écrire / compter) pour des  infolabs « culture de la donnée ». C’est bien, maismais… j’entends déjà la question qui se murmure dans le milieu de l’open data :

5 – … à quoi cela sert tout cela ?

La première critique concerne le type de donnée auquel je me suis intéressé. La seconde à l‘ambition qui est poursuivie.

« Les données sur les arbres, ça sert à rien, ce qu’il faut ce sont des **vraies** données sur la transparence des budgets » : ainsi s’exprimait l’ancien président du Conseil national du numérique. J’ai déjà entendu ce point de vue : il y aurait des données « bonnes à ouvrir » et puis les autres, le jugement dépendant bien sûr de celui qui l’exprime. « Il nous faut des données **utiles** » a précisé un intervenant britannique lors de la dernière conférence parisienne sur le sujet. Qu’est-ce qu’une donnée utile ? Celle avec laquelle on peut faire des applications mobiles ? Des applications mobiles rentables ? Celle qui nous sert à appuyer la thèse que l’on défend ? Celle qui est populaire ? …

Bien sûr, il faut des données sur la transparence budgétaire ! D’ailleurs, certaines collectivités qui proposent la localisation des arbres (ou les prénoms populaires) proposent aussi ce type de jeu de données. Est-ce qu’il faut encourager les acteurs publics à ne publier que des données sur les prénoms ? Non ! Est-ce qu’il faut clouer au pilori celles qui publient aussi ce genre de données ? Non, non plus !

La seconde critique tient à l’ambition que l’on se fixe : est-ce que je crois sérieusement qu’un atelier sur les prénoms va répondre à la promesse de capacitation citoyenne et de renforcement démocratique de l’open data ?

Mon ambition n’était pas celle-là, il s’agissait juste d’essayer de transmettre deux ou trois idées sur les données ouvertes et leur intérêt (et malheureusement, cela aurait été plus difficile à faire avec les données budgétaires). Je suis convaincu que nous avons besoin de multiplier les formes d’animation autour du sujet, que ce soit vers les associations, les entreprises ou le grand public.

Infolab#3 De la mode et des prénoms

Poursuite du retour sur les 3 ateliers de découverte des données ouvertes organisés à l’occasion de Viva-Cités. Le premier atelier avait pour thème le Jardin du Thabor, le second les données de mobilité (le récit d’une participante est à lire sur le Mag de la Cantine numérique rennaise). Ce troisième et dernier infolab était consacré aux prénoms, une donnée ouverte à Rennes et ailleurs.

L’infolab prénoms
(photo Franck Hamon / Ville de Rennes)

Faut-il y voir un effet du thème proposé pour cet infolab ? Les participants à cet atelier étaient exclusivement des participantes. Nous avons commencé par décliner nos prénoms, pas uniquement le premier prénom (ou le prénom usuel) mais l’ensemble de ceux qui figurent sur nos papiers.  On constate déjà un effet de génération : la mode est plutôt à donner deux prénoms, plus rarement trois ou plus. J’avais déjà eu l’occasion de m’intéresser à cette question des prénoms en open data (notamment avec Loïc Hay lors du dernier Forum des Usages Coopératifs de l’Internet). L’objet « prénom » est relativement facile à comprendre (contrairement à d’autres jeux de données plus techniques) et les données sont disponibles sur plusieurs territoires (facilitant les comparaisons d’une ville à l’autre). Enfin, le fichier des prénoms est l’un des fichiers les plus téléchargés sur les portails open data des collectivités. Un objet populaire, facile à comprendre et disponible : que demander de plus pour sensibiliser le grand public aux données ouvertes ?

Qu’il y a t-il dans un prénom ?

La première partie est consacrée à une étude de l’objet « prénom ». J’ai préparé quelques documents pour nous y aider. Une partie est issue de l’ouvrage « Sociologie des prénoms » du sociologue Baptiste Coulmont (Editions La Découverte). Nous échangeons ainsi sur ses travaux sur les réussites au bac en fonction des prénoms des candidats – l’occasion de faire la distinction entre corrélation et causalité :  malheureusement appeler votre fille Hortense n’est pas la garantie qu’elle obtienne une mention très bien au bac !

Le « stock » de prénoms grandit chaque année
(source : revue Octant Insee Bretagne, 2004)

L’autre source que nous consultons est une étude publiée par l’INSEE Bretagne sur les prénoms (revue Octant, 2004). On y trouve notamment des éléments intéressants sur la progression du « stock » de prénoms utilisés : « de1946 à 1970, moins de 40 prénoms suffisaient à nommer la moitié des enfants nés en Bretagne, en 2002 il en faut 109« .

La mode qui cache la forêt : choisir un prénom original, c’est très banal

J’invite ensuite les participantes à prendre connaissance des données proposées sur les portails open data de Rennes et de Nantes. Le fichier (que j’ai retravaillé) mentionne les occurrences pour chaque prénom, ainsi que le nombre total de naissances réparties par sexe. Ainsi, en 2011 les prénoms les plus populaires pour les filles sont Manon, Louise et Chloé (respectivement 57, 55 et 50 occurrences à Rennes). Ce résultat ne surprend personne : a priori ce sont des prénoms que l’on dit « à la mode ».

Cette même année 2011, ce sont pourtant près de 3546 filles qui sont nées sur le territoire rennais. Manon, notre « top », représente à peine 1,6 % des prénoms donnés. Dit autrement: en moyenne il naît à Rennes une fille toutes les deux heures et demi… mais le prénom Manon n’est donné (toujours en moyenne) qu’une fois par semaine !

Il y a largement de quoi relativiser l’impact de la mode des prénoms… Ce qu’une sage-femme pourrait d’ailleurs nous confirmer : la norme dans les maternités ce ne sont pas les Léa, Emma ou Malo mais plutôt les prénoms originaux avec, parfois, des variations orthographiques (Sarah / Sara, Ryan / Rayan, Mathis / Mathys).

Le fichier que nous étudions ne comporte pas les prénoms donnés moins de 6 fois au cours de l’année. La responsable du service en charge de l’état-civil de la Mairie de Rennes nous apprend ce qui ne figure pas dans notre jeu de données : près d’un quart des prénoms donnés chaque année dans la ville sont uniques ! Unique car ils n’ont été donné qu’une fois, mais aussi unique dans la mesure où souvent ces enfants n’ont qu’un seul prénom. Il est vrai qu’avec un prénom très original, nul besoin d’en avoir un deuxième pour éviter l’homonymie…

Que veut-on raconter avec ces données ?

La dernière partie de notre atelier est consacré à une réflexion sur les réutilisations possibles des jeux de données prénoms de Rennes et Nantes. On pourrait tout d’abord imaginer de comparer les prénoms les plus populaires dans les deux métropoles (Top 50). En pratique, on voit qu’il y a relativement peu de différences entre rennais et nantais.

La discussion s’engage ensuite sur l’objectif que nous pourrions fixer à des visualisations (représentations graphiques) de nos données. Veut-on mettre en avant la chronologie (pour montrer les prénoms qui montent ou descendent année après année dans chaque ville) ? Ou encore mettre en lumière la diversité des prénoms (au besoin en recalculant l’indicateur fourni par l’INSEE au niveau national, à savoir le nombre de prénoms nécessaires pour nommer la moitié des naissances) ?

Souhaite-t-on aider les parents à choisir le prénom le plus original possible (en leur garantissant que ce prénom n’a pas été donné à Rennes au cours des 3 dernières années) ? Ou a contrario leur montrer que même s’ils nomment leur garçon Arthur, la probabilité qu’ils soient plusieurs à porter ce prénom dans sa classe de maternelle est finalement assez faible ?

Au final, on voit bien qu’en matière de réutilisation des données, l’intention aussi est importante : à partir d’un même jeu de données, on peut raconter mille histoires.

Infolab#1 : des données pour mettre en valeur le jardin du Thabor

Dans le cadre de Viva-Cités, j’anime du 2 au 7 octobre trois ateliers de découverte des données ouvertes à Rennes. Retour sur le premier infolab, consacré au Jardin du Thabor, une institution rennaise et un lieu de promenade pour les habitants et les visiteurs de la capitale bretonne… 

« Et vous, que venez-vous faire au Thabor ? » Les participants à ce 1er infolab organisé sur le Village numérique de Viva-Cités sont accueillis par une question. Chacun est invité à tracer son parcours au sein du parc puis à le décrire à ses voisins de table.

La volière, la roseraie, le jardin à la française, l’orangerie : quelques incontournables d’une promenade au Thabor se dégagent assez vite des échanges. On distingue aussi des parcours différents selon le contexte : en famille avec des enfants en bas âge on privilégie les jeux pour enfants, le bassin aux poissons rouges (au centre de la roseraie), voire un tour de manège… D’autres viennent au Thabor pour profiter des rayons du soleil, seul ou avec des amis : sur les pelouses autorisés (!) ou dans les chaises longues du jardin à la française. Les passionnés de botanique eux se tiennent au courant des dates de floraison de la roseraie, une période-clé pour leur visite. Au final, on voit bien qu’il y a beaucoup de manières de visiter le Thabor … et que les attentes en matière d’information sont elles aussi très variées.

Repérer les « points d’intérêts » du Thabor

Nous listons collectivement toutes les informations dont nous pourrions avoir besoin pour préparer une visite au Thabor. Spontanément, les participants citent la météo comme la principale information utile avant toute promenade ! Les horaires, le plan du parc, les évènements en cours viennent ensuite. Les habitués du parc évoquent l’idée d’une information du type « Quoi de neuf au Thabor ? » qui regroupe des informations dynamiques de nature très diverses : les expositions à l’orangerie, les concerts organisés dans le kiosque à musique, mais aussi les floraisons ou les travaux en cours.

Je distribue une cinquantaine de photographies prises dans le parc. Chacune représente un « point d’intérêt » que nous reportons ensuite sur une grande carte papier. On trace une croix pour les équipements (toilettes publiques, bancs, …), les entrées du parc (et leur accessibilité pour les personnes à mobilité réduite), les statues (nombreuses dans le parc, elles peuvent constituer un but de visite), les arbres remarquables, les « incontournables » déjà cités ci-dessus et les éléments à découvrir (les ruches du Thabor !).

Une matière première à enrichir et remixer 

Le portail open data de Rennes Métropole propose plusieurs jeux de données en rapport avec le Jardin du Thabor : la localisation des massifs et des arbres, les principaux équipements, les horaires d’ouverture. Nous nous intéressons plus particulièrement à celui qui recense les arbres du parc et précise pour chacun sa localisation et son espèce. Dans le cadre du concours open data, deux développeurs ont imaginé une application mobile Android « Promenade au Thabor« . Les participants à cet infolab ne sont pas tous capables de faire de la programmation informatique, quels usages peuvent-ils faire de ces données ?

Le fichier qui nous intéresse est géré par la direction des Jardins de la ville de Rennes, et est issu du système d’information géographique (SIG). Il est donc normal que sa présentation mettent en avant des données de type géographiques, cependant il faut faire un effort pour imaginer d’autres usages que la production de cartes. On peut par exemple faire un inventaire du Thabor sous la forme d’un quizz : quelle est l’espèce la plus courante dans le parc ? combien y-a-t-il d’arbres dans le parc (réponse : près de 1200) ? quel agrume peut-on trouver au Thabor (réponse : des citrons !) ?

J’invite ensuite les participants à imaginer des croisements de données à partir de plusieurs sources. Le site web de la Maison de la consommation et de l’environnement (MCE) propose par exemple un recensement des arbres remarquables de Bretagne, dont une vingtaine pour le Thabor. Nous pourrions croiser le fichier des arbres avec ces informations complémentaires : l’âge, la hauteur, l’envergure… voire intégrer les photographies (proposées sous licence Creative Commons). Autres sources de données à croiser : les bases cartographiques d’Open Street Map et notamment la localisation des escaliers présents dans le parc.

Nous imaginons ensuite une carte pour localiser les principaux arbres allergènes du Thabor, en combinant la donnée sur l’espèce de chaque arbre et la liste des espèces les plus allergènes publiée sur le site de l’ADEME

Des données pour informer, aider et mettre en valeur

L’introduction de l’atelier avait permis de mettre en lumière la très grande diversité des attentes en matière d’information des visiteurs du Thabor.

Le contexte (une visite en solo, avec des amis, des enfants), le but de la visite (pour flâner, pour faire du sport, pour découvrir le patrimoine botanique, …), la connaissance préalable du parc et même la météo influent sur le besoin d’information des visiteurs… Réutiliser les données issues de plusieurs sources (dont les données ouvertes par la collectivité), c’est aussi l’opportunité de répondre à une partie de ces attentes.

Le mot de la fin revient à l’un des participants, qui me faisait remarquer qu’il vient précisément au Thabor pour faire une pause et se détendre loin de son ordinateur… Il nous faut donc bien sûr imaginer d’autres médiations que celles des écrans. Une invitation pour les graphistes et autres designers d’informations à s’emparer des données ouvertes !

Les deux prochains ateliers infolab auront lieu le vendredi 5 octobre de 15h à 17h sur le thème des déplacements et le samedi 6 octobre de 10h à midi sur celui des prénoms des petits rennais. Inscription recommandée en ligne.

3 ateliers pour jouer avec les données ouvertes

En passant

3 ateliers pour jouer avec les données ouvertes !

Dans le cadre de Viva-Cités à Rennes, j’organise du 2 au 7 octobre prochain trois ateliers Infolab pour découvrir les données ouvertes et imaginer des réutilisations. L’open data, ce n’est pas (seulement) pour les développeurs ! Inscription gratuite et recommandée en ligne.

Oups, on a fait un infolab

A l’occasion du Forum des Usages coopératifs de l’Internet à Brest, j’ai eu le plaisir de co-animer une session consacrée à la fabrique des données avec Loïc Hay de La Fonderie (agence numérique d’Ile-de-France) et la Fondation Internet nouvelle génération. Ce billet retrace cette expérience pratique de mise en place d’un infolab, dans un temps et un lieu déterminé.

De droite à gauche : Denis Pansu (Fing), Loïc Haÿ (La Fonderie) et moi – crédit photo La Fonderie

1 – La fabrique des données

La fabrique des données propose d’illustrer une démarche de réutilisation de données ouvertes. De la recherche de la matière première, jusqu’à la réalisation de quelques infovisualisations, cet atelier combine dans un format court (2h30) une approche critique (d’où viennent les données ?) et pratique (comment les représenter ?).

2 – Le thème retenu : les prénoms

Nous avons retenu la thématique des prénoms pour ce premier atelier. Le prénom présente plusieurs avantages :
– d’abord on en a tous un ! (voire deux, trois ou quatre). Chacun peut se sentir concerné par cette thématique, a fortiori s’il a des enfants et s’est donc déjà retrouvé en position de choisir un prénom,
– ensuite, la matière première est disponible : les jeux concernant les prénoms les plus populaires sont disponibles sur les portails open data de Paris, Nantes et Rennes. Plutôt que de râler contre la non-disponibilité des données, utilisons celles qui sont déjà proposées !
– les jeux de données sont faciles à appréhender et à comprendre. Nul besoin de savoir développer une application mobile ou d’être un expert de la comptabilité publique pour s’en saisir.

Nous nous sommes ensuite appuyé sur une actualité de ce début juillet : la publication par Baptiste Coulmont (sociologue et auteur de « Sociologie des prénoms » aux éditions La Découverte) d’une étude sur les prénoms des candidats au bac ayant reçu la mention très bien. Elle révele des succès très différents pour les Eleonore et les Jessica, les Augustin et les Kevin.

Prénoms et mentions TB au bac par Baptiste Coulmont (source coulmont.com/blog)

La représentation graphique fait réagir la salle, et elle est surtout pour nous l’occasion de souligner la confusion fréquente entre corrélation et causalité – ce n’est pas le prénom qui détermine le résultat au bac (contrairement à ce que laissent penser nombre d’articles de presse qui ont repris l’information) !

Le prénom est un marqueur d’un milieu social ou d’une région. Ainsi, Loïc explique qu’on lui demande souvent quelles sont ses racines bretonnes (réponse : aucune). Bref le prénom laisse imaginer – à tort ou à raison – beaucoup de choses sur celui qui le porte … et sur celui qui le donne (voire sur celui qui le juge).

3 – D’abord, apprendre à lire les données

Après cette introduction sur les prénoms, j’aborde le « tronçon commun » de tous les ateliers que j’anime, c’est-à-dire une courte séquence pour expliquer la différence entre une donnée et une information, une donnée publique et une donnée ouverte… Donner des bases de compréhension me semble plus que jamais indispensable et c’est en tout cas un pré-requis avant de pénétrer dans la fabrique des données.

Nous proposons ensuite aux participants de découvrir les jeux de données disponibles sur les portails open data de Paris, Nantes et Rennes. Chacun est invité à suivre les liens à partir de son propre ordinateur. J’ai volontairement fourni l’adresse des pages descriptives des jeux de données (et non le lien de téléchargement) or la majorité de nos participants commencent d’abord par télécharger le fichier lui-même… Comment ce fichier a-t-il été constitué ? Que comprend-t-il ? Que nous raconte-t-il ? Quelle est la licence  juridique applicable ? On ne peut répondre à aucune de ces questions sans consulter la notice de chaque jeu de données – c’est une démonstration « par l’exemple » et une première illustration de l’importance des métadonnées.

crédit photo La Fonderie

Une dizaine de minutes sont consacrées à une lecture critique et comparée des trois jeux de données. Les participants notent ainsi que les stratégies de diffusion ne sont pas les mêmes selon les villes. Paris ne distingue pas les filles des garçons pour les naissances intervenues avant 2011 – Camille par exemple est un prénom populaire dans la capitale. Rennes et Paris proposent un fichier consolidé pour plusieurs années, alors que Nantes a scindé chaque année dans un fichier spécifique – un moyen pas bien méchant mais pas discret non plus de « gonfler » artificiellement le nombre de jeux de données disponibles…

On constate aussi que d’une manière générale les prénoms les plus populaires – ceux qui figurent dans le top10 – sont souvent les mêmes dans les 3 villes : Emma, Manon, Matthis, …

Les participants remarquent aussi, sur les portails de Rennes et Nantes, la mention d’une soi-disant recommandation de la CNIL sur les prénoms ayant été donnés moins de 6 fois au cours de l’année considérée (nous reviendrons dans un prochain billet sur cette « recommandation »… l’histoire vaut vraiment le détour !). Cela signifie en pratique que les fichiers ne comportent pas tous les prénoms donnés afin de respecter la vie privée des individus. Cela nous amène à évoquer rapidement les problématiques d’anonymisation à partir des données personnelles.

Ayant bien fait le tour de notre matière première, de ses atouts mais aussi de ses limites, je passe la main à Loïc Haÿ pour la suite de l’atelier. Maintenant que nous savons « lire » les données, on passe au niveau supérieur : l’écriture.

4 – Ensuite, apprendre à écrire

Loïc montre tout d’abord deux exemples de visualisations que l’on peut réaliser facilement : des « nuages de tag » reprenant les 150 prénoms les plus populaires à Rennes et Nantes pour l’année 2008. Il explique ensuite comment les réaliser à partir du site wordle.net.

« La Dataviz de la dataviz » par WeDoData pour Expoviz – La Fonderie

La Fonderie, agence numérique Ile de France est à l’origine de l’exposition Expoviz consacrée à la visualisation de données. A cette occasion, l’agence WeDoData a réalisé le poster « La Dataviz de la dataviz » que Loïc nous détaille. Il insiste notamment sur la grande diversité des modes de représentation possibles des données (dont la photovisualisation). La parole est ensuite donnée à la salle : et vous, comment aimeriez-vous représenter les données concernant les prénoms ?

Léa Lacroix explique le travail qu’elle a réalisée pour son site LesPtitsRennais, on évoque l’idée d’une photographie de petites Emma, Manon et Louise sur les marches d’un escalier, pour illustrer le classement qui change d’une année sur l’autre. L’idée de classement revient souvent et nous cherchons donc de l’inspiration du côté des résultats sportifs… Un participant nous fait à juste titre remarquer que l’on devrait d’abord définir ce que l’on cherche à montrer – avant de chercher le bon outil pour le faire !

Loïc présente différents outils de représentation de données dont Many Eyes. Certains sont accessibles au plus grand nombre, d’autres réclament plus de temps pour les maîtriser.

5 – Oups, on a fait un infolab !

Revenons maintenant sur le titre de ce billet, « oups, on a fait un infolab« . Le concept d’infolab a connu récemment un regain d’intérêt suite à l’article d’Internet Actu « Avons-nous besoin d’infolabs ?« , article qui reprend les réflexions en cours à la Fondation Internet nouvelle génération sur les modes d’appropriation des données. Notre atelier brestois s’est d’ailleurs conclu par une intervention de Denis Pansu de la FING sur ce propos.

On sent bien que la problématique de l’animation autour de l’open data, de son accès à un public plus large que les seuls développeurs suscite de nombreuses réflexions – le sujet était d’ailleurs central lors de la semaine européenne de l’open data. La Fonderie avec Expoviz, ou moi-même avec les ateliers autour des données de mobilité, nous expérimentons de nouveaux formats d’animation et de transmission…

Initialement une blague partagée avec Loïc, le titre de ce billet traduit aussi une conviction : ce dont nous avons avant tout besoin ce sont des médiateurs motivés (et si possible compétents)… qu’ils travaillent ou pas dans un « infolab ».

Rendre visible les données ouvertes de Rennes, Nantes et Marseille

Comment rendre visibles les données ouvertes ? J’ai déjà eu l’occasion de raconter l’atelier que j’ai animé à Rennes pour les étudiants de Sciences Po sur le thème des données de mobilité dans la ville. J’ai eu l’opportunité de proposer deux nouvelles sessions, l’une à Nantes lors de la Semaine européenne de l’open data, et l’autre à Marseille lors des rencontres régionales Open PACA. Je vous propose un regard croisé sur ces 3 ateliers…

1 – La chasse aux données en quelques mots

Pour rappel, l’ambition de cette animation est de fournir en 2 heures les éléments de base pour comprendre les données ouvertes et être capable de les repérer dans la ville. La thématique de la mobilité a été choisie pour de multiples raisons, déjà amplement détaillées dans de précédents billets. Chaque atelier regroupe une douzaine de participants et se déroule en 3 temps. On débute tout d’abord par une séance de remue-méninge collectif : « Comment se déplace-t-on aujourd’hui à Rennes / Nantes / Marseille ? Quelles sont les informations nécessaires pour se déplacer en vélo / en bus / à pied / en voiture ? ». Un court exposé théorique permet de faire la distinction entre une donnée et une information, une donnée publique et une donnée ouverte.

Chaque groupe (de 3 à 4 participants) se voit remettre un plan du quartier (une photographie aérienne ou une carte Open Street Map), des gommettes de couleur correspondant à des modes de déplacements (en l’occurrence : la voiture individuelle, le bus et métro, le vélo). Panneaux de signalisation, fiche horaire de bus, information de voirie, … Tout ce qui permet de se déplacer est répertorié et photographié. La dernière partie de l’atelier est consacrée à une mise en commun de nos « découvertes » et surtout à une première lecture critique des données (ou de leurs artefacts pour être plus exact) : à quoi et à qui sert cette donnée ? Qui la collecte et la gère ? Quelle réutilisation peut-on en imaginer ?

2 – Rennes, Nantes et Marseille : les terrains de notre chasse aux données

La Cantine numérique rennaise a accueilli la première session en mars 2012. Situé au sein de l’équipement culturel Les Champs Libres, le lieu est à proximité immédiate du quartier de la gare, hub important des transports rennais. On y trouve notamment les gares routières et ferroviaires, une ligne de métro, de nombreux arrêts de bus urbain, des stations de vélo en libre-service, …

La seconde session s’est déroulée en mai 2012 à la Cantine numérique de Nantes et le terrain choisi pour notre chasse était les environs de la place du Commerce, lui aussi un hub important des transports de la ville (stations de tram, bus, parkings souterrains, stations de vélo en libre-service, …) bien que plus éloigné de la gare. A noter, les nantais sont les seuls français à pouvoir jouir d’un mode de transport ancestral : l’éléphant (quoique sous une forme largement modernisée et plutôt destinée aux touristes).

Les rencontres régionales de l’open data en région Provence Alpes Côte d’Azur ont fourni le cadre de la troisième session à Marseille en juillet 2012. L’atelier s’est déroulé dans les environs immédiats du siège du Conseil régional, dans le quartier de la Porte d’Aix. Si vous êtes déjà venus à Marseille en voiture, vous connaissez cet endroit car jusqu’à récemment c’était la fin de l’autoroute… Mais le quartier est aussi desservi par le métro et de nombreux bus.

J’ai détaillé les terrains de notre chasse aux données car il me semble évident qu’ils ne sont pas étrangers aux différents résultats obtenus. La session rennaise a fait l’objet d’un compte-rendu détaillé, je vous invite donc à le consulter. Voici les points marquants de mon rapport d’étonnement pour Nantes et Marseille.

3  – En vélo, tu iras à Nantes … mais pas toujours en open data

La part modale du vélo s’établit à environ 2% dans la capitale ligérienne (pour mémoire, cet indicateur mesure la part des déplacements qui sont effectués à l’aide de ce mode de transport), contre 4% à Rennes et 1% à Marseille (source des données Fubicy et EPOMM). Les participants nantais de l’atelier ont ainsi pu repérer de très nombreuses données et informations sur cette thématique autour de la place du Commerce : indication de pistes cyclables et de parking vélos, itinéraires vélo, …

Le service de vélo en libre-service Bicloo a attiré l’attention du groupe. En effet, la plate-forme nantaise open data propose bien un jeu de données sur le service Bicloo mais celui-ci ne concerne que la localisation des stations… et non les données les plus utiles pour les réutilisateurs à savoir la disponibilité en temps réel des vélos et des places restantes.

« Mais pourtant, le site web du Bicloo c’est bien celui de Nantes Métropole, non ? » m’a fait remarquer l’un des participants à cet atelier. Une remarque de bon sens évidemment, puisque le visiteur du site bicloo.nantesmetropole.fr devra consulter les mentions légales pour constater que le site est géré par JC Decaux, l’exploitant du système de vélo en libre-service… et non pas Nantes Métropole, dont le logo apparaît pourtant en bonne place.

Cet exemple a permis au groupe d’illustrer la différence entre une donnée et une donnée publique – JC Decaux n’exerçant pas dans le cas présent une « mission de service public » et n’étant donc pas concerné par la loi CADA de 1978. La lecture des conditions générales d’utilisation de l’application iPhone officielle de JC Decaux démontre aussi parfaitement ce que n’est pas une donnée ouverte. Le design de l’application AllBikesNow et ses écrans de pub sont en tant que tels des pousses-au-crime, en l’occurrence une véritable incitation à la réutilisation sauvage. Vu la qualité des développements internes, il sera difficile de justifier longtemps le contrôle exercé sur les données…

4  – A Marseille en voiture tu iras … et patient tu seras

Marseille, le Vieux-Port, la vue depuis Notre Dame de la Garde, les plages … J’aime beaucoup la ville, surtout depuis que j’y viens en TGV et que je m’y déplace en tram et à pied… Mais ma vision de touriste n’était pas celle des participants à la 3è session de cet atelier. Le groupe « vélo » a sillonné le quartier pendant près d’une heure et sans grand succès. Mis à part une station de vélo en libre-service, peu d’informations disponibles pour les rares cyclistes de la capitale du Sud… Le groupe « voiture » a par contre repéré plusieurs dizaines de points d’intérêt pour l’automobiliste : des parkings, des panneaux de signalisation, de nombreuses déviations, des plots pour empêcher les automobilistes de se garer sur les trottoirs, …

Devant la profusion des informations (des ordres et des contre-ordres), l’information la plus claire n’est pas toujours là où on l’attend : c’est le panneau publicitaire géant pour une grande chaîne hôtelière qui indique le plus sûrement son chemin à l’automobiliste qui veut rejoindre l’A55 et le quartier de la Joliette ! Dernier élément de curiosité : les panneaux qui indiquent le fast-food le plus proche sont très intelligemment (et sans doute aussi très illégalement) disposés. A chaque carrefour important, depuis les principaux arrêts de bus, à partir de la sortie du métro : celui qui cherche le Mac Donald’s ne peut pas se perdre !

Au-delà de leur caractère anecdotique, ces deux exemples montrent que les données utiles pour la mobilité ne sont pas l’apanage exclusif des acteurs publics ou des grands opérateurs. Si elle se veut complète, l’ouverture des données doit donc aussi impliquer ces acteurs qui ne relèvent d’une mission de service public – et échappent donc ainsi à la loi CADA de 1978 (voir à ce sujet mon précédent billet : pourquoi ouvrir ses données quand la loi ne vous y oblige pas ?).

5 – Comment améliorer cet atelier ?

L’ambition de ce format d’animation est de fournir en un temps court les bases de compréhension des données et de montrer leur réalité dans notre vie quotidienne. La thématique de la mobilité n’est au final qu’un prétexte, et je travaille d’ailleurs sur de nouveaux ateliers avec d’autres thématiques (la culture, le tourisme, la petite enfance, …).

Je pense que cet objectif de « vue d’ensemble » est à peu près atteint (si vous avez participé à cet atelier et/ou que vous souhaitez proposer des idées, n’hésitez pas à commenter ce billet). Cependant, j’en vois aussi les limites et je m’interroge sur plusieurs points :

– l’intérêt de la carte comme support de découverte : cet atelier n’est pas une cartopartie, on ne vise pas l’exhaustivité mais plutôt la diversité des points d’intérêt. La carte sert aussi à délimiter le terrain de jeu, mais est-elle vraiment utile ?

– le caractère parfois déceptif de l’exercice : cet atelier vise aussi à susciter l’intérêt et la curiosité pour les données ouvertes or parfois, comme dans l’exemple du Bicloo à Nantes, on peut en ressortir en se disant « qu’on ne peut rien faire avec les données ouvertes à ce jour… » En 2 heures on ne produit pas de réalisations concrètes, on pose juste les bases de compréhension du contexte juridique de l’open data en France,

– la capacité à porter un regard critique sur la donnée : ce format permet de montrer qu’avant la réutilisation il y a une utilisation… mais c’est à peu près tout en matière de critique de la donnée brute. Je pense que c’est en grande partie dû à la thématique retenue, celle de la mobilité qui se prête peut-être moins à l’exercice que d’autres sujets…

Je travaille actuellement à la définition de formats d’animation autour de la culture de la donnée. Un prochain billet racontera l’atelier que j’ai eu le plaisir de co-animer la semaine dernière à Brest, une pierre de plus à l’édifice d’un « truc » genre infolab. A suivre 😉

En finir avec le mythe de la donnée brute

A l’occasion de la semaine européenne de l’open data (Open Data Week) à Nantes la semaine dernière, j’ai traité de la sensibilisation du grand public aux données, et par extension aux données ouvertes (open data). Il y a notamment été question d’en finir avec le mythe de la donnée brute. Extrait et complément à cette intervention.

« Je fume donc je vis ? »

Tout commence lors de la dernière rentrée scolaire, la première pour mon fils. L’année de sa naissance son prénom – Nathan – figurait parmi les plus populaires au niveau national. J’étais donc surpris de constater qu’il était le seul petit garçon à s’appeler ainsi dans l’école maternelle de notre quartier rennais. Il y avait bien plusieurs Maxime et Quentin, mais un seul Nathan, pourquoi ? Et si, par hasard, ce prénom était beaucoup moins populaire à Rennes qu’ailleurs en France, à Paris ou Nantes par exemple ?  

La liste des prénoms les plus populaires fait partie des données ouvertes par ces trois villes. C’est en cherchant le nombre total de naissances que j’ai trouvé une curiosité. Paris propose cette donnée sur son portail open data, l’INSEE aussi. Mais … les deux chiffres ne coincident pas ! Comment expliquer ce décalage entre deux faits que j’imaginais pourtant bruts ? La ville recense toutes les naissances ayant eu lieu sur son territoire (c’est-à-dire dans les maternités, les hôpitaux, les rames de métro ou ailleurs) alors que notre institut statistique national comptabilise lui les nouveaux-nés au domicile de leur mère.

Si une femme domiciliée à Montrouge accouche dans une maternité parisienne, son enfant – quel que soit son prénom ! – sera comptabilisé à Paris (selon la Ville) et à Vanves (selon l’INSEE). Pour la seule année 2010, il y a ainsi un décalage de plus de 10 000 naissances (un quart du total). Il y a donc deux méthodes de calcul : qui a tort, qui a raison ?

1- La donnée brute n’existe pas

Je pense que l’open data devrait intègrer une dimension plus critique vis-à-vis des données ouvertes et réutilisées. Il me semble indispensable de comprendre l’origine des données et les buts initiaux de la collecte. Pourquoi cette donnée existe-t-elle ? A quoi et à qui sert-elle initialement ? Car, soulignons-le, avant la ré-utilisation il y a l’utilisation tout court.

Pour revenir à notre exemple, personne n’a raison ou tort d’appliquer sa propre méthode de calcul. Si l’INSEE retient comme critère le domicile de la mère c’est pour mieux refleter la réalité démographique des territoires – après tout, dans le cadre du recensement on comptabilise la population selon leur lieu d’habitation, pas seulement leur lieu de naissance.

J’ai pris conscience, avec mes modestes moyens, de ce que les chercheurs en sciences sociales savent depuis fort longtemps (lire à ce sujet le commentaire argumenté de Jérôme Denis sur Internet Actu) : il n’y a pas plus de fait brut que de données brutes. Une donnée est toujours le résultat d’une intention, d’une méthode de calcul, de la volonté de représenter ou de mesurer une certaine partie de la réalité. La donnée ne résume pas le Monde qu’elle cherche à décrire.

2- Pour une critique de la donnée

Quiconque met les mains dans le cambouis des données ouvertes se rend très vite compte qu’il est indispensable de faire un détour par les «cuisines» de la data avant d’envisager toute réutilisation sérieuse (d’où l’importance d’ailleurs de la documentation des jeux de données). L’exemple de la comptabilisation des naissances n’est pas une exception, je pense au contraire que c’est une règle.

Savons-nous par exemple que la comptabilisation des morts sur la route n’est pas la même selon les services de l’Etat concernés. On pourrait pourtant penser qu’un décès c’est tout de même un fait brut par excellence : soit tu es mort, soit tu es vivant point barre (troisième possibilité : tu es dans un vieux clip du défunt roi de la pop). Et pourtant les services ne le comptabilisent pas de manière identique : certains recensent les personnes décédées sur le lieu-même de l’accident, d’autres prennent en compte les décès intervenus dans les 3 jours suivants. Pour la DDE (direction départementale de l’équipement) ou pour le SAMU, être mort ne veut pas tout à fait dire la même chose !

Etre critique de la donnée c’est donc essayer de comprendre pourquoi et comment l’information initiale est collectée et à quoi elle sert. Ensuite, c’est accepter l’idée que les données ne nous racontent pas tout, bref remettre en cause le dogme de la toute puissance de la donnée.

Un dernier exemple pour nous en convaincre : certaines collectivités publient la liste des subventions aux associations de leur territoire dans une optique de transparence. Ces données ont été collectées dans un but précis : permettre la délibération des conseils municipaux qui attribuent ces aides. On a donc un fichier avec le nom d’une association, un montant, un numéro de délibération. Comme l’a montré l’expérience menée par Bug , cette donnée ne nous permet de mesurer le soutien de la ville au secteur associatif, ni de mesurer si certaines associations sont «sous perfusion» de subventions publiques (en effet on ne dispose pas de leur budget global et l’on ne sait donc pas si l’aide représente 10% … ou 80% des ressources de la structure).

Etre critique de la donnée ce serait donc aussi parfois s’interroger : qu’est-ce que cette donnée ne nous raconte pas ?

Les données ne sont donc pas aussi neutres que l’on voudrait nous le faire croire. Mais il faudrait, pour être plus complet, intégrer aussi les effets de la donnée et les phénomènes de rétroaction. On a par exemple récemment discuté de l’effet de renforcement des classements des lycées ou des hôpitaux publiés par la presse. Les parents d’élèves qui le peuvent vont choisir le meilleur lycée pour leur enfant, renforcant ainsi le phénomène initial. Ignorer les effets potentiels de la donnée et de sa divulgation c’est faire preuve d’une grande naïveté.

3- La visualisation nous sauvera tous ?

La visualisation et l’infographie sont-elles des solutions pour faciliter l’appropriation et la compréhension des données, notamment les plus complexes, par le grand public ? La dataviz est à la mode c’est sûr (et leur histoire est très riche, comme en témoigne la présentation de Gaëtan Gaborit lors de l’Open Data Week). Mais nous sauvera-t-elle tous pour autant ?

Le site GapMinder permet depuis des années de visualiser simplement des statistiques mondiales liés à la santé, l’économie, le développement, … La vidéo de son créateur Hans Rosling lors de la conférence TED a marqué les esprits et comptabilise plus de 4 millions de vues. Gapminder a fait de l’open data avant l’heure : on peut y télécharger les jeux de données «brutes» pour créer ses propres visualisations. L’ambition du site se résume dans sa promesse : «Unveiling the beauty of statistics for a fact-based world view».

« Je fume donc je vis » ?

Le graphique que j’ai produit met en relation la part des fumeurs dans la population et l’espérance de vie à la naissance (les données sont issues de l’OMS et datent de 2005). Mon tableur favori m’a proposé de tracer la courbe de corrélation entre ces deux variables.  On peut ainsi constater que, dans les pays où l’on fume le plus, l’espérance de vie est la plus élevée.

Peut-on pour autant remettre en question la nocivité du tabac à partir de ce graphique ? Ce qui est en jeu ici c’est la différence entre corrélation et causalité… Il me semble que dans ce cas la visualisation, plutôt que de nous éclairer sur la réalité aurait tendance à nous embrouiller (ou, dans le cas d’espèce, à nous enfumer).

L’infographie a parfois cet effet pervers d’anihilier tout sens critique. Ainsi celle présentant le baromètre de l’open data en France, infographie qui a connu un grand succès en ligne. L’image nous explique, carte de France à l’appui, que 19 acteurs publics ont lancé leurs portails open data. Viennent ensuite les résultats de l’observatoire et notamment la phrase suivante : «3% des acteurs ont libéré au moins 4 jeux de données sur le volet budgétaire». De prime abord j’ai trouvé cela bizarre, ce que m’a confirmé ma calculette : 3% de 19 acteurs celà fait 0,57 acteur. Donc, cette infographie nous dit : «0,57 acteur ont libéré au moins 4 jeux de données budgétaires». Qu’est-ce que celà peut bien vouloir dire ? Qu’un seul acteur a libéré au moins 8 jeux de données ? 😉

4 – Comment sensibiliser le grand public ?

Force est de constater que les dispositifs d’animation actuels de l’open data ont du mal à atteindre le grand public. Les concours et les appels à projets ne visent bien souvent qu’une cible particulière, celle des développeurs réutilisateurs. Les cartoparties ou les ateliers de chasse aux données adressent un public plus large mais ne sont cependant pas suffisantes.

Développer un sens critique de la donnée passe sans doute par l’exposition des conditions de sa production… C’est non seulement en visitant cette «fabrique des données», mais aussi en mettant soi-même les mains dans le cambouis que l’on peut espérer faciliter une plus large appropriation.