« S’il te plaît… dessine-moi l’open data »

Comment représenter et illustrer l’ouverture des données ? Quelles sont les métaphores graphiques les plus courantes pour représenter le mouvement open data ? Ce billet propose sans prétention aucune un premier recensement des figures imposées des données ouvertes, de la plus simple à la plus complexe…

(image par loop_oh sur Flickr)

« S’il te plaît … dessine-moi l’open data » : la demande revient souvent de la part de journalistes à la recherche d’illustrations sur les données ouvertes. Pas évident en effet de représenter l’open data : les mêmes métaphores reviennent très souvent pour illustrer les articles (un exemple ci-contre).

Cette approche par les représentations graphiques est un bon moyen de rentrer dans un univers et d’en saisir quelques facettes. En termes savants, cela s’appelle une recherche iconographique, mais plus prosaïquement on peut commencer par une recherche à l’aide de Google Images. Faîtes l’expérience avec le terme « ville intelligente » et vous verrez rapidement le mode de représentation dominant : des villes toujours verticales, souvent futuristes (les représentations en 3D et les vues d’artistes dominent) et dans tous les cas des villes où la place de l’humain est réduite. Bref, une vision de la ville intelligente tout droit sortie des récits de science-fiction… Qu’en est-il pour l’open data ? J’ai cherché les métaphores les plus courantes, à partir de Google Images mais aussi en regardant les comptes Flickr des organisations qui font la promotion du mouvement d’ouverture des données (Open Knowledge Foundation, Sunlight Foundation, Libertic).

1 – La métaphore du petit commerce : « entrez, c’est ouvert »

(source : OKFN)

Première métaphore rencontrée, celle du panneau annonçant que le commerce est ouvert. On reste dans une approche très simple (ouvert / open) et je ne crois pas qu’il faille y voir une allusion au potentiel économique et commercial de l’open data – ou alors sous une forme très très subliminale… L’image renvoie aussi immédiatement aux pays anglo-saxons. Peut-on d’ailleurs vraiment parler de métaphore dans ce cas ?

Dans le même ordre d’idée que cette image, on peut aussi citer la célèbre photo des stickers « Open Data » en bleu et blanc. Pas vraiment de signifiant profond, mais plutôt le révélateur d’un manque d’imagination … ou d’un manque de budget pour payer des illustrations !

2 – La métaphore de la clé à molette : la figure du hacker

Un grand classique de l’open data. Initialement développée par l’Open Knowledge Foundation (OKFN), reprise et adaptée, notamment en France par Libertic, l’idée de la clé à molette est déjà plus intéressante que celle du commerce. Elle renvoie à l’imaginaire du bricoleur, de la bidouille, bref du « hacker » dans sa définition première.

(source : OKFN)

La clé à molette, c’est un outil dans la mallette de celui qui intervient pour réparer quelque chose (la démocratie ?). En plus, la clé à molette permet d’ouvrir et donc de débloquer ce qui coince… a priori c’est une image positive et qui colle bien à l’idéal d’ouverture. Soit dit en passant, vous aurez remarqué que l’outil peut aussi servir à serrer et à fermer (en tous cas, je l’ai bien noté dimanche dernier en réglant la selle du vélo de mon fils). Intéressant double-sens donc que la métaphore de l’open data puisse aussi servir à « serrer la vis » 😉

3 – La métaphore du cadenas ouvert : la libération et le trésor

Troisième métaphore identifiée, celle du cadenas. On la retrouve sous plusieurs formes, plus ou moins complexes, certaines avec des 0 et des 1 en toile de fond (les données numériques). Le cadenas est déjà ouvert sur toutes les représentations que j’ai pu identifier. Il a dû servir à protéger un trésor (les données publiques ?), un coffre ou une mallette. On reste bien évidemment dans l’idée de la « libération » des données que jusqu’ici les détenteurs gardaient jalousement à l’abri des regards et des réutilisateurs. Curieusement je n’ai identité que quelques rares images avec des menottes : la donnée n’est donc pas personnifiée (ce qui pourtant aurait fait une bonne métaphore de la libération, non ?).

4 – La métaphore du bâtiment ouvert : l’open gouvernement

(source : Libertic)

Cette quatrième métaphore a été repérée par Samuel Goeta dans son mémoire du CELSA « Open Data : qu’ouvre-t-on avec les données publiques ? » (page 24, mais plus globalement je vous en conseille chaudement la lecture). On y voit un bâtiment symbolisant le pouvoir (le Capitole) dont la toiture s’ouvre sous l’effet de l’open data.

Samuel fait remonter son origine au premier concours AppsForDemocracy organisé à Washington D.C. en 2007. L’image a depuis été reprise et adaptée partout dans le monde. Sa dernière résurgence est nantaise. La métaphore est intéressante : ouvrir les données c’est ouvrir le toit du lieu où se prennent les décisions politiques. L’image résume la transparence, l’approche du gouvernement ouvert (open government), le regard public (public scrutiny).

5 – Et plein de combinaisons possibles

(source : Sunlight Foundation)

On peut bien sûr combiner ces différentes métaphores, avec plus ou moins de bonheur. Le logo de l’évènement « Transparency Camp » organisé dès 2009 par la Sunlight Foundation propose ainsi un remix intéressant des métaphores du cadenas et du bâtiment ouvert. La combinaison a toutefois un inconvénient : elle devient parfois difficile à comprendre pour celui qui la visualise…

Je suis sûr que vous aurez pu identifier d’autres figures classiques de la représentation de l’open data… Partagez-les dans les commentaires de ce billet !

L’open data et le grand public : on n’attrape pas les mouches avec du vinaigre

La question de l’appropriation des données ouvertes est, avec celle du potentiel économique, l’un des sujets chauds de l’open data. Ayant eu l’opportunité de tester plusieurs formats d’animation et de sensibilisation au cours des derniers mois, je vous propose un billet sous forme de retour d’expérience. Vos commentaires, idées et réactions sont les bienvenus !

1 – Pour le grand public, le problème dans « open data » c’est d’abord la « data »

L’infolab « données de mobilité »
(photo Ville de Rennes)

J’avais fait cette remarque à l’occasion de la Semaine européenne de l’open data qui s’est tenue à Nantes avant l’été; pour les entreprises, le problème de l’open data c’est plutôt le côté « open« , mais pour le grand public c’est d’abord l’objet « donnée » qui constitue une difficulté.

Les data sont partout autour de nous, elles sont indispensables au bon fonctionnement des services de notre quotidien (de la crèche aux transports), mais pourtant cet objet reste largement méconnu. J’ai développé dans un précédent billet les différents formats d’animation de l’open data, en particulier en fonction des cibles visées; les ateliers dont je fais mention ici visent à développer une culture de la donnée au sens large (et pas uniquement de la donnée ouverte).

2 – D’abord, partir d’une thématique (et surtout pas de l’open data)

Le proverbe dit que l’on n’attrape pas les mouches avec le vinaigre. Je trouve, toutes comparaisons malveillantes mises à part, qu’il s’adapte bien à la question de l’appropriation de l’open data par le grand public.

Faîtes l’expérience : proposez à vos amis de participer à une séance de sensibilisation aux données ouvertes. Qu’allez-vous entendre ? L’anti-geek : « oh, tu sais moi je suis pas trop branché par les trucs informatiques, cela ne m’intéresse pas trop« , l’apprenti geek : « ah oui bonne idée, justement j’avais des problèmes avec Open Office… tu me parles bien de cela, non ?« , la père divorcé : « Ah oui, cela aurait été avec plaisir mais à cette heure-là j’ai kiné/piscine/les enfants à aller chercher à l’école, parce que tu connais mon ex, hein…« .

Je caricature un peu mais vous avez compris le message : l’open data pour l’open data, cela n’attire pas les foules ! L’une des pistes, pour sensibiliser à la culture de la donnée, est de partir d’un thème auquel chacun puisse facilement s’identifier. On n’invite pas à « découvrir l’open data » mais à parler du jardin botanique, des déplacements en vélo dans la ville, ou encore des prénoms. Le thème n’est pas qu’un « hameçon« : je l’ai choisi parce qu’il correspond à chaque fois à des jeux de données déjà ouverts… Ce n’est pas seulement un prétexte, c’est une opportunité pour parler des données, à travers des exemples concrets et accessibles.

3 – Les médiations

Les trois ateliers que j’ai eu le plaisir d’animer à Rennes durant l’évènement Viva-Cités auront permis de tester plusieurs formes de médiation. Le format est de type infolab éphémère : un lieu, un temps déterminé, une méthodologie d’animation pour « faire des trucs » avec l’open data.

Ces trois ateliers, bien qu’ayant des approches très différentes, ont des points communs : aucun participant n’avait à manipuler un ordinateur. On a utilisé des photographies, des plans, des crayons de couleur, des gommettes, … Tout pourvu que l’on n’ait pas besoin d’informatique ! Tous les ateliers ont commencé par des mises en situation, afin que chaque participant puisse faire sien le sujet que nous allions aborder.

Trois exemples de question que j’ai posé en introduction : « Pourriez-vous me dessiner votre parcours-type lorsque vous allez au Jardin du Thabor ?« , « Comment peut-on se déplacer aujourd’hui à Rennes ?« , « Quels sont les prénoms qui figurent sur vos papiers d’identité ?« …

Cette introduction a souvent permis de briser la glace entre les participants qui ne se connaissaient pas avant l’atelier. Elle a surtout permis d’éviter le tour de table des présentations un peu formelles. En effet, j’avais invité sur chacun des ateliers un représentant des services de la Ville en relation avec le jeu de donnée qui nous intéressait… et je ne souhaitais qu’ils se placent, ou soient placés par les autres, « hors du groupe« .

Nous avons ensuite utilisé des méthodes et des supports d’animation très différents pour chaque atelier. Pour celui concernant le Jardin du Thabor, j’ai distribué une cinquantaine de tirages de photographies que j’avais réalisé. Nous avons décrit chaque photo puis placé sur le plan du jardin ces différents « points d’intérêts » (les arbres, les statues, les toilettes, les entrées et sorties du parc…).

L’atelier sur les déplacements s’est déroulé sous le mode d’une chasse aux données. Chaque groupe est parti équipé d’un kit comprenant une photo aérienne du quartier, des gommettes de couleur et des instructions pour prendre des photos sur le mode « rapport d’étonnement ». Enfin, pour le dernier atelier j’avais imprimé sur des grandes feuilles A3 la liste des prénoms les plus populaires (toujours dans l’idée de ne pas avoir à utiliser un tableur Excel…).

4 – Au programme de ces infolabs

Chaque atelier aura permis d’aborder une ou plusieurs facettes des données ouvertes.

L’infolab « Thabor » a montré la richesse et la diversité des sources de données (publiques avec le portail open data de la Ville, mais aussi collaboratives avec la carte Open Street Map). Nous avons insisté sur la possibilité de mixer deux sources de données pour donner naissance à une troisième (à l’instar de la carte des arbres allergènes du parc, réalisée à partir du mix entre la localisation et l’espèce des arbres et la liste des espèces allergènes publiée sur le site de l’ADEME).

L’infolab « données de mobilité » était une invitation à ouvrir l’oeil (et le bon !) pour découvrir les données, signes et informations pertinentes pour se déplacer dans un quartier. Nous avons pu faire le lien entre un objet concret (un ascenseur), la donnée ouverte le concernant (l’état de fonctionnement interrogeable sous la forme d’API) et surtout sa réutilisation possible. J’avais déjà proposé cet atelier à Rennes, Nantes et Marseille et pourtant je continue encore à découvrir de nouvelles choses en observant les participants : par exemple le fait que la majorité des signes s’adressant aux piétons sont des injonctions négatives : « attention travaux, traversée obligatoire pour les piétons », « zone interdite aux piétons », « le petit bonhomme est rouge, on ne passe pas », …

Infolab prénoms
(photo Franck Hamon / Ville de Rennes)

L’infolab « prénoms » aura surtout mis l’accent sur la lecture critique des données (où naît-on vraiment ? comment le fichier est-il constitué ? pour quel usage initial ?). Nous avons aussi pu voir concrètement que chaque visualisation est l’objet d’une intention (ce que l’on veut montrer) et que la manière dont les données sont mises à disposition a un impact sur les réutilisations possibles…

Bref, nous avons essayé de poser les bases d’un programme pédagogique (lire / écrire / compter) pour des  infolabs « culture de la donnée ». C’est bien, maismais… j’entends déjà la question qui se murmure dans le milieu de l’open data :

5 – … à quoi cela sert tout cela ?

La première critique concerne le type de donnée auquel je me suis intéressé. La seconde à l‘ambition qui est poursuivie.

« Les données sur les arbres, ça sert à rien, ce qu’il faut ce sont des **vraies** données sur la transparence des budgets » : ainsi s’exprimait l’ancien président du Conseil national du numérique. J’ai déjà entendu ce point de vue : il y aurait des données « bonnes à ouvrir » et puis les autres, le jugement dépendant bien sûr de celui qui l’exprime. « Il nous faut des données **utiles** » a précisé un intervenant britannique lors de la dernière conférence parisienne sur le sujet. Qu’est-ce qu’une donnée utile ? Celle avec laquelle on peut faire des applications mobiles ? Des applications mobiles rentables ? Celle qui nous sert à appuyer la thèse que l’on défend ? Celle qui est populaire ? …

Bien sûr, il faut des données sur la transparence budgétaire ! D’ailleurs, certaines collectivités qui proposent la localisation des arbres (ou les prénoms populaires) proposent aussi ce type de jeu de données. Est-ce qu’il faut encourager les acteurs publics à ne publier que des données sur les prénoms ? Non ! Est-ce qu’il faut clouer au pilori celles qui publient aussi ce genre de données ? Non, non plus !

La seconde critique tient à l’ambition que l’on se fixe : est-ce que je crois sérieusement qu’un atelier sur les prénoms va répondre à la promesse de capacitation citoyenne et de renforcement démocratique de l’open data ?

Mon ambition n’était pas celle-là, il s’agissait juste d’essayer de transmettre deux ou trois idées sur les données ouvertes et leur intérêt (et malheureusement, cela aurait été plus difficile à faire avec les données budgétaires). Je suis convaincu que nous avons besoin de multiplier les formes d’animation autour du sujet, que ce soit vers les associations, les entreprises ou le grand public.

Infolab#3 De la mode et des prénoms

Poursuite du retour sur les 3 ateliers de découverte des données ouvertes organisés à l’occasion de Viva-Cités. Le premier atelier avait pour thème le Jardin du Thabor, le second les données de mobilité (le récit d’une participante est à lire sur le Mag de la Cantine numérique rennaise). Ce troisième et dernier infolab était consacré aux prénoms, une donnée ouverte à Rennes et ailleurs.

L’infolab prénoms
(photo Franck Hamon / Ville de Rennes)

Faut-il y voir un effet du thème proposé pour cet infolab ? Les participants à cet atelier étaient exclusivement des participantes. Nous avons commencé par décliner nos prénoms, pas uniquement le premier prénom (ou le prénom usuel) mais l’ensemble de ceux qui figurent sur nos papiers.  On constate déjà un effet de génération : la mode est plutôt à donner deux prénoms, plus rarement trois ou plus. J’avais déjà eu l’occasion de m’intéresser à cette question des prénoms en open data (notamment avec Loïc Hay lors du dernier Forum des Usages Coopératifs de l’Internet). L’objet « prénom » est relativement facile à comprendre (contrairement à d’autres jeux de données plus techniques) et les données sont disponibles sur plusieurs territoires (facilitant les comparaisons d’une ville à l’autre). Enfin, le fichier des prénoms est l’un des fichiers les plus téléchargés sur les portails open data des collectivités. Un objet populaire, facile à comprendre et disponible : que demander de plus pour sensibiliser le grand public aux données ouvertes ?

Qu’il y a t-il dans un prénom ?

La première partie est consacrée à une étude de l’objet « prénom ». J’ai préparé quelques documents pour nous y aider. Une partie est issue de l’ouvrage « Sociologie des prénoms » du sociologue Baptiste Coulmont (Editions La Découverte). Nous échangeons ainsi sur ses travaux sur les réussites au bac en fonction des prénoms des candidats – l’occasion de faire la distinction entre corrélation et causalité :  malheureusement appeler votre fille Hortense n’est pas la garantie qu’elle obtienne une mention très bien au bac !

Le « stock » de prénoms grandit chaque année
(source : revue Octant Insee Bretagne, 2004)

L’autre source que nous consultons est une étude publiée par l’INSEE Bretagne sur les prénoms (revue Octant, 2004). On y trouve notamment des éléments intéressants sur la progression du « stock » de prénoms utilisés : « de1946 à 1970, moins de 40 prénoms suffisaient à nommer la moitié des enfants nés en Bretagne, en 2002 il en faut 109« .

La mode qui cache la forêt : choisir un prénom original, c’est très banal

J’invite ensuite les participantes à prendre connaissance des données proposées sur les portails open data de Rennes et de Nantes. Le fichier (que j’ai retravaillé) mentionne les occurrences pour chaque prénom, ainsi que le nombre total de naissances réparties par sexe. Ainsi, en 2011 les prénoms les plus populaires pour les filles sont Manon, Louise et Chloé (respectivement 57, 55 et 50 occurrences à Rennes). Ce résultat ne surprend personne : a priori ce sont des prénoms que l’on dit « à la mode ».

Cette même année 2011, ce sont pourtant près de 3546 filles qui sont nées sur le territoire rennais. Manon, notre « top », représente à peine 1,6 % des prénoms donnés. Dit autrement: en moyenne il naît à Rennes une fille toutes les deux heures et demi… mais le prénom Manon n’est donné (toujours en moyenne) qu’une fois par semaine !

Il y a largement de quoi relativiser l’impact de la mode des prénoms… Ce qu’une sage-femme pourrait d’ailleurs nous confirmer : la norme dans les maternités ce ne sont pas les Léa, Emma ou Malo mais plutôt les prénoms originaux avec, parfois, des variations orthographiques (Sarah / Sara, Ryan / Rayan, Mathis / Mathys).

Le fichier que nous étudions ne comporte pas les prénoms donnés moins de 6 fois au cours de l’année. La responsable du service en charge de l’état-civil de la Mairie de Rennes nous apprend ce qui ne figure pas dans notre jeu de données : près d’un quart des prénoms donnés chaque année dans la ville sont uniques ! Unique car ils n’ont été donné qu’une fois, mais aussi unique dans la mesure où souvent ces enfants n’ont qu’un seul prénom. Il est vrai qu’avec un prénom très original, nul besoin d’en avoir un deuxième pour éviter l’homonymie…

Que veut-on raconter avec ces données ?

La dernière partie de notre atelier est consacré à une réflexion sur les réutilisations possibles des jeux de données prénoms de Rennes et Nantes. On pourrait tout d’abord imaginer de comparer les prénoms les plus populaires dans les deux métropoles (Top 50). En pratique, on voit qu’il y a relativement peu de différences entre rennais et nantais.

La discussion s’engage ensuite sur l’objectif que nous pourrions fixer à des visualisations (représentations graphiques) de nos données. Veut-on mettre en avant la chronologie (pour montrer les prénoms qui montent ou descendent année après année dans chaque ville) ? Ou encore mettre en lumière la diversité des prénoms (au besoin en recalculant l’indicateur fourni par l’INSEE au niveau national, à savoir le nombre de prénoms nécessaires pour nommer la moitié des naissances) ?

Souhaite-t-on aider les parents à choisir le prénom le plus original possible (en leur garantissant que ce prénom n’a pas été donné à Rennes au cours des 3 dernières années) ? Ou a contrario leur montrer que même s’ils nomment leur garçon Arthur, la probabilité qu’ils soient plusieurs à porter ce prénom dans sa classe de maternelle est finalement assez faible ?

Au final, on voit bien qu’en matière de réutilisation des données, l’intention aussi est importante : à partir d’un même jeu de données, on peut raconter mille histoires.

Infolab#1 : des données pour mettre en valeur le jardin du Thabor

Dans le cadre de Viva-Cités, j’anime du 2 au 7 octobre trois ateliers de découverte des données ouvertes à Rennes. Retour sur le premier infolab, consacré au Jardin du Thabor, une institution rennaise et un lieu de promenade pour les habitants et les visiteurs de la capitale bretonne… 

« Et vous, que venez-vous faire au Thabor ? » Les participants à ce 1er infolab organisé sur le Village numérique de Viva-Cités sont accueillis par une question. Chacun est invité à tracer son parcours au sein du parc puis à le décrire à ses voisins de table.

La volière, la roseraie, le jardin à la française, l’orangerie : quelques incontournables d’une promenade au Thabor se dégagent assez vite des échanges. On distingue aussi des parcours différents selon le contexte : en famille avec des enfants en bas âge on privilégie les jeux pour enfants, le bassin aux poissons rouges (au centre de la roseraie), voire un tour de manège… D’autres viennent au Thabor pour profiter des rayons du soleil, seul ou avec des amis : sur les pelouses autorisés (!) ou dans les chaises longues du jardin à la française. Les passionnés de botanique eux se tiennent au courant des dates de floraison de la roseraie, une période-clé pour leur visite. Au final, on voit bien qu’il y a beaucoup de manières de visiter le Thabor … et que les attentes en matière d’information sont elles aussi très variées.

Repérer les « points d’intérêts » du Thabor

Nous listons collectivement toutes les informations dont nous pourrions avoir besoin pour préparer une visite au Thabor. Spontanément, les participants citent la météo comme la principale information utile avant toute promenade ! Les horaires, le plan du parc, les évènements en cours viennent ensuite. Les habitués du parc évoquent l’idée d’une information du type « Quoi de neuf au Thabor ? » qui regroupe des informations dynamiques de nature très diverses : les expositions à l’orangerie, les concerts organisés dans le kiosque à musique, mais aussi les floraisons ou les travaux en cours.

Je distribue une cinquantaine de photographies prises dans le parc. Chacune représente un « point d’intérêt » que nous reportons ensuite sur une grande carte papier. On trace une croix pour les équipements (toilettes publiques, bancs, …), les entrées du parc (et leur accessibilité pour les personnes à mobilité réduite), les statues (nombreuses dans le parc, elles peuvent constituer un but de visite), les arbres remarquables, les « incontournables » déjà cités ci-dessus et les éléments à découvrir (les ruches du Thabor !).

Une matière première à enrichir et remixer 

Le portail open data de Rennes Métropole propose plusieurs jeux de données en rapport avec le Jardin du Thabor : la localisation des massifs et des arbres, les principaux équipements, les horaires d’ouverture. Nous nous intéressons plus particulièrement à celui qui recense les arbres du parc et précise pour chacun sa localisation et son espèce. Dans le cadre du concours open data, deux développeurs ont imaginé une application mobile Android « Promenade au Thabor« . Les participants à cet infolab ne sont pas tous capables de faire de la programmation informatique, quels usages peuvent-ils faire de ces données ?

Le fichier qui nous intéresse est géré par la direction des Jardins de la ville de Rennes, et est issu du système d’information géographique (SIG). Il est donc normal que sa présentation mettent en avant des données de type géographiques, cependant il faut faire un effort pour imaginer d’autres usages que la production de cartes. On peut par exemple faire un inventaire du Thabor sous la forme d’un quizz : quelle est l’espèce la plus courante dans le parc ? combien y-a-t-il d’arbres dans le parc (réponse : près de 1200) ? quel agrume peut-on trouver au Thabor (réponse : des citrons !) ?

J’invite ensuite les participants à imaginer des croisements de données à partir de plusieurs sources. Le site web de la Maison de la consommation et de l’environnement (MCE) propose par exemple un recensement des arbres remarquables de Bretagne, dont une vingtaine pour le Thabor. Nous pourrions croiser le fichier des arbres avec ces informations complémentaires : l’âge, la hauteur, l’envergure… voire intégrer les photographies (proposées sous licence Creative Commons). Autres sources de données à croiser : les bases cartographiques d’Open Street Map et notamment la localisation des escaliers présents dans le parc.

Nous imaginons ensuite une carte pour localiser les principaux arbres allergènes du Thabor, en combinant la donnée sur l’espèce de chaque arbre et la liste des espèces les plus allergènes publiée sur le site de l’ADEME

Des données pour informer, aider et mettre en valeur

L’introduction de l’atelier avait permis de mettre en lumière la très grande diversité des attentes en matière d’information des visiteurs du Thabor.

Le contexte (une visite en solo, avec des amis, des enfants), le but de la visite (pour flâner, pour faire du sport, pour découvrir le patrimoine botanique, …), la connaissance préalable du parc et même la météo influent sur le besoin d’information des visiteurs… Réutiliser les données issues de plusieurs sources (dont les données ouvertes par la collectivité), c’est aussi l’opportunité de répondre à une partie de ces attentes.

Le mot de la fin revient à l’un des participants, qui me faisait remarquer qu’il vient précisément au Thabor pour faire une pause et se détendre loin de son ordinateur… Il nous faut donc bien sûr imaginer d’autres médiations que celles des écrans. Une invitation pour les graphistes et autres designers d’informations à s’emparer des données ouvertes !

Les deux prochains ateliers infolab auront lieu le vendredi 5 octobre de 15h à 17h sur le thème des déplacements et le samedi 6 octobre de 10h à midi sur celui des prénoms des petits rennais. Inscription recommandée en ligne.

3 ateliers pour jouer avec les données ouvertes

En passant

3 ateliers pour jouer avec les données ouvertes !

Dans le cadre de Viva-Cités à Rennes, j’organise du 2 au 7 octobre prochain trois ateliers Infolab pour découvrir les données ouvertes et imaginer des réutilisations. L’open data, ce n’est pas (seulement) pour les développeurs ! Inscription gratuite et recommandée en ligne.

Les conflits liés aux données « fermées » se multiplient

La Deutsche Bahn ne veut pas ouvrir ses données ? OpenPlanB s’en charge …

Le récent conflit qui oppose le site FourmiSanté et l’Assurance Maladie (1) vient s’ajouter à une longue liste de confrontations liées à des données « fermées ». Partout en Europe, nous assistons à la multiplication de cas similaires.

Comment peut-on analyser ces conflits ? L’open data peut-il être une réponse aux défis qu’ils posent ?

En Allemagne le groupe de data hacktivists Open Plan B vient de publier les données de la Deutsche Bahn, en réponse expliquent-ils à l’immobilisme du transporteur en matière d’open data. En Suisse, c’est le site fédéral permettant de calculer le montant des primes d’assurance maladie qui a lui aussi fait la une de l’actualité, un député réclamant récemment l’ouverture des données fédérales. En Belgique, le groupe de développeurs iRail.be propose une interface non-officielle d’accès aux données de la compagnie ferroviaire nationale, … On voit donc que cette question n’est pas spécifique à la France. 

1 – A l’origine, la multiplication des services en ligne

La réutilisation non-autorisée de données n’est pas une invention de l’ère Internet. Qui se souvient par exemple du 36 17 ANNU, le premier annuaire inversé sur Minitel qui a fait la fortune du tycoon français Xavier Niel ? Les numéros des abonnés étaient récupérés à partir de l’annuaire 36 11 proposé par France Telecom, en veillant à ne pas dépasser la limite fatidique des 3 minutes, au-delà desquelles le service devenait payant. Une pratique qui a d’ailleurs valu à cet éditeur l’une des plus lourdes condamnations jamais prononcées en matière de bases de données en France (pour mémoire, 100 millions de francs et une astreinte de 4 millions supplémentaires par jour).

Aujourd’hui ce ne sont pas seulement la liste des abonnés au téléphone que l’on peut retrouver sur Internet, mais la plupart des services et administrations publics : localisation et horaires des équipements, informations détaillées sur les transports et leur qualité, données sur la qualité des établissements hospitaliers ou sur les tarifs pratiqués par les médecins, … Ce qui demandait, à l’époque du Minitel, une batterie de serveurs, est aujourd’hui accessible à n’importe quel individu un peu motivé et équipé. La « barrière à l’entrée » pour la collecte non-autorisée de données s’est donc très largement abaissée.

Ajoutons aussi que le travail de collecte est aussi largement facilité par le fait que nombre d’administrations et d’entreprises ont recours aux mêmes prestataires et aux mêmes systèmes pour mettre en ligne leurs données. C’est l’exemple du calculateur d’itinéraires développé en Allemagne par la société Hafas et largement utilisée par de très nombreux réseaux de transport en Europe et aux Etats-Unis. Une fois que l’accès au système Hafas via des API devient documenté pour une ville, il le devient rapidement pour toutes

2 – En face, la réutilisation non-autorisée se professionnalise

L’histoire se déroule souvent de cette manière : une entreprise (ou une administration) découvre un jour qu’une application non-officielle a fait son apparition sur l’AppStore. Parfois – trop souvent -, on s’aperçoit aussi que le dit-développeur avait d’ailleurs fait auparavant une demande officielle d’accès à ces données mais que, ne sachant pas quelle position adopter, on ne lui a pas répondu. Face au « fait accompli« , la première réaction est de mettre en route la machine juridique : mise en demeure, demande du retrait de l’application ou du service en ligne, …

La suite a un air de déjà-vu : le développeur un peu malin médiatise le conflit et interpelle les pouvoirs publics. D’ailleurs cela marche souvent et le changement de champ de bataille (du juridique au moral) tourne rarement à l’avantage de celui qui voit ses données utilisées sans son accord : les élus s’en mêlent, écrivent des lettres ouvertes comme à New-York en 2009 (le fait déclencheur de l’open data du transporteur new-yorkais) ou à Lyon plus récemment.

Le conflit est alors plutôt de type asymétrique : le détenteur des données a le sentiment d’avoir le droit de son côté (n’a-t-il d’ailleurs pas pris le soin de détailler des conditions d’utilisation sur son site web ?), mais le réutilisateur a les « cartes médiatiques » en main, et le moment « open data » (déjà évoqué dans un précédent billet) joue à plein. L’incompréhension est totale.

Mais il y a mieux que les applications non-officielles. J’ai cité plus haut l’exemple de Open Plan B en Allemagne, on peut aussi citer aussi la kyrielle d’API (interfaces de programmation) non-officielles qui se multiplient, à Montpellier, en Suisse, en Belgique. Ceux qui développent ces outils font en quelque sorte le boulot que les détenteurs de données ne veulent pas faire. En voulant contrôler leurs données, ils encouragent l’émergence de tels services et in fine, abandonnent encore davantage leur capacité à maîtriser l’usage qui en est fait.

3 – L’open data : ouvrir pour fournir un cadre à la réutilisation

Personne n’a intérêt à la réutilisation non-autorisée des données, même pas le développeur. En procédant hors d’un cadre technique et juridique clair, il doit faire face à une incertitude juridique qui freine aussi sûrement l’innovation que les redevances tarifaires. A Londres, c’est l’exemple de ce développeur d’une application très populaire qui a découvert un matin que son service ne fonctionnait plus : le site web de l’opérateur Transport for London (TfL) avait modifié la structure de ses pages web sans avertir personne, …

Le détenteur de données a lui aussi intérêt à préciser le cadre juridique, technique et économique de réutilisation des données. Les mises en demeures, les demandes de retrait d’application : cela fonctionne peut-être dans un premier temps (en témoigne la prudence affichée par les réutilisateurs concernés) mais in fine cela ne saurait constituer une politique en matière de diffusion et de valorisation des données.

Hier la RATP, aujourd’hui l’assurance maladie ou certains opérateurs ferroviaires européens : si vos données ne sont pas encore réutilisées sans votre accord, vous savez ce qu’il vous reste à faire : commencer à réfléchir sérieusement à votre politique open data

(1) : Il s’agit dans le cas présent de la réutilisation non-autorisée des tarifs des médecins publiés sur le site ameli-direct.

Oups, on a fait un infolab

A l’occasion du Forum des Usages coopératifs de l’Internet à Brest, j’ai eu le plaisir de co-animer une session consacrée à la fabrique des données avec Loïc Hay de La Fonderie (agence numérique d’Ile-de-France) et la Fondation Internet nouvelle génération. Ce billet retrace cette expérience pratique de mise en place d’un infolab, dans un temps et un lieu déterminé.

De droite à gauche : Denis Pansu (Fing), Loïc Haÿ (La Fonderie) et moi – crédit photo La Fonderie

1 – La fabrique des données

La fabrique des données propose d’illustrer une démarche de réutilisation de données ouvertes. De la recherche de la matière première, jusqu’à la réalisation de quelques infovisualisations, cet atelier combine dans un format court (2h30) une approche critique (d’où viennent les données ?) et pratique (comment les représenter ?).

2 – Le thème retenu : les prénoms

Nous avons retenu la thématique des prénoms pour ce premier atelier. Le prénom présente plusieurs avantages :
– d’abord on en a tous un ! (voire deux, trois ou quatre). Chacun peut se sentir concerné par cette thématique, a fortiori s’il a des enfants et s’est donc déjà retrouvé en position de choisir un prénom,
– ensuite, la matière première est disponible : les jeux concernant les prénoms les plus populaires sont disponibles sur les portails open data de Paris, Nantes et Rennes. Plutôt que de râler contre la non-disponibilité des données, utilisons celles qui sont déjà proposées !
– les jeux de données sont faciles à appréhender et à comprendre. Nul besoin de savoir développer une application mobile ou d’être un expert de la comptabilité publique pour s’en saisir.

Nous nous sommes ensuite appuyé sur une actualité de ce début juillet : la publication par Baptiste Coulmont (sociologue et auteur de « Sociologie des prénoms » aux éditions La Découverte) d’une étude sur les prénoms des candidats au bac ayant reçu la mention très bien. Elle révele des succès très différents pour les Eleonore et les Jessica, les Augustin et les Kevin.

Prénoms et mentions TB au bac par Baptiste Coulmont (source coulmont.com/blog)

La représentation graphique fait réagir la salle, et elle est surtout pour nous l’occasion de souligner la confusion fréquente entre corrélation et causalité – ce n’est pas le prénom qui détermine le résultat au bac (contrairement à ce que laissent penser nombre d’articles de presse qui ont repris l’information) !

Le prénom est un marqueur d’un milieu social ou d’une région. Ainsi, Loïc explique qu’on lui demande souvent quelles sont ses racines bretonnes (réponse : aucune). Bref le prénom laisse imaginer – à tort ou à raison – beaucoup de choses sur celui qui le porte … et sur celui qui le donne (voire sur celui qui le juge).

3 – D’abord, apprendre à lire les données

Après cette introduction sur les prénoms, j’aborde le « tronçon commun » de tous les ateliers que j’anime, c’est-à-dire une courte séquence pour expliquer la différence entre une donnée et une information, une donnée publique et une donnée ouverte… Donner des bases de compréhension me semble plus que jamais indispensable et c’est en tout cas un pré-requis avant de pénétrer dans la fabrique des données.

Nous proposons ensuite aux participants de découvrir les jeux de données disponibles sur les portails open data de Paris, Nantes et Rennes. Chacun est invité à suivre les liens à partir de son propre ordinateur. J’ai volontairement fourni l’adresse des pages descriptives des jeux de données (et non le lien de téléchargement) or la majorité de nos participants commencent d’abord par télécharger le fichier lui-même… Comment ce fichier a-t-il été constitué ? Que comprend-t-il ? Que nous raconte-t-il ? Quelle est la licence  juridique applicable ? On ne peut répondre à aucune de ces questions sans consulter la notice de chaque jeu de données – c’est une démonstration « par l’exemple » et une première illustration de l’importance des métadonnées.

crédit photo La Fonderie

Une dizaine de minutes sont consacrées à une lecture critique et comparée des trois jeux de données. Les participants notent ainsi que les stratégies de diffusion ne sont pas les mêmes selon les villes. Paris ne distingue pas les filles des garçons pour les naissances intervenues avant 2011 – Camille par exemple est un prénom populaire dans la capitale. Rennes et Paris proposent un fichier consolidé pour plusieurs années, alors que Nantes a scindé chaque année dans un fichier spécifique – un moyen pas bien méchant mais pas discret non plus de « gonfler » artificiellement le nombre de jeux de données disponibles…

On constate aussi que d’une manière générale les prénoms les plus populaires – ceux qui figurent dans le top10 – sont souvent les mêmes dans les 3 villes : Emma, Manon, Matthis, …

Les participants remarquent aussi, sur les portails de Rennes et Nantes, la mention d’une soi-disant recommandation de la CNIL sur les prénoms ayant été donnés moins de 6 fois au cours de l’année considérée (nous reviendrons dans un prochain billet sur cette « recommandation »… l’histoire vaut vraiment le détour !). Cela signifie en pratique que les fichiers ne comportent pas tous les prénoms donnés afin de respecter la vie privée des individus. Cela nous amène à évoquer rapidement les problématiques d’anonymisation à partir des données personnelles.

Ayant bien fait le tour de notre matière première, de ses atouts mais aussi de ses limites, je passe la main à Loïc Haÿ pour la suite de l’atelier. Maintenant que nous savons « lire » les données, on passe au niveau supérieur : l’écriture.

4 – Ensuite, apprendre à écrire

Loïc montre tout d’abord deux exemples de visualisations que l’on peut réaliser facilement : des « nuages de tag » reprenant les 150 prénoms les plus populaires à Rennes et Nantes pour l’année 2008. Il explique ensuite comment les réaliser à partir du site wordle.net.

« La Dataviz de la dataviz » par WeDoData pour Expoviz – La Fonderie

La Fonderie, agence numérique Ile de France est à l’origine de l’exposition Expoviz consacrée à la visualisation de données. A cette occasion, l’agence WeDoData a réalisé le poster « La Dataviz de la dataviz » que Loïc nous détaille. Il insiste notamment sur la grande diversité des modes de représentation possibles des données (dont la photovisualisation). La parole est ensuite donnée à la salle : et vous, comment aimeriez-vous représenter les données concernant les prénoms ?

Léa Lacroix explique le travail qu’elle a réalisée pour son site LesPtitsRennais, on évoque l’idée d’une photographie de petites Emma, Manon et Louise sur les marches d’un escalier, pour illustrer le classement qui change d’une année sur l’autre. L’idée de classement revient souvent et nous cherchons donc de l’inspiration du côté des résultats sportifs… Un participant nous fait à juste titre remarquer que l’on devrait d’abord définir ce que l’on cherche à montrer – avant de chercher le bon outil pour le faire !

Loïc présente différents outils de représentation de données dont Many Eyes. Certains sont accessibles au plus grand nombre, d’autres réclament plus de temps pour les maîtriser.

5 – Oups, on a fait un infolab !

Revenons maintenant sur le titre de ce billet, « oups, on a fait un infolab« . Le concept d’infolab a connu récemment un regain d’intérêt suite à l’article d’Internet Actu « Avons-nous besoin d’infolabs ?« , article qui reprend les réflexions en cours à la Fondation Internet nouvelle génération sur les modes d’appropriation des données. Notre atelier brestois s’est d’ailleurs conclu par une intervention de Denis Pansu de la FING sur ce propos.

On sent bien que la problématique de l’animation autour de l’open data, de son accès à un public plus large que les seuls développeurs suscite de nombreuses réflexions – le sujet était d’ailleurs central lors de la semaine européenne de l’open data. La Fonderie avec Expoviz, ou moi-même avec les ateliers autour des données de mobilité, nous expérimentons de nouveaux formats d’animation et de transmission…

Initialement une blague partagée avec Loïc, le titre de ce billet traduit aussi une conviction : ce dont nous avons avant tout besoin ce sont des médiateurs motivés (et si possible compétents)… qu’ils travaillent ou pas dans un « infolab ».

Les 3 leçons de l’ouverture des données de la RATP

C’était incontestablement l’actualité open data de l’été : la régie des transports parisiens a fait un premier pas en ouvrant quelques jeux de données. Au-delà du buzz généré par cette annonce, retour sur les leçons de l’ouverture des données façon RATP. Des leçons qui ne s’adressent pas uniquement au domaine de la mobilité … 

1 – L’ouverture des données est-elle inéluctable ?

L’open data et la RATP c’était déjà toute une histoire. Pour fédérer un mouvement, rien de tel que de se donner un ennemi commun, et il faut bien avouer que la régie a tout fait pour tenir au mieux le rôle du méchant. La très médiatisée affaire qui a opposé l’an dernier l’éditeur de l’application CheckMyMetro et la RATP en est le point de départ, le « moment » open data a fait le reste.

Je parle de « moment » parce qu’objectivement la situation était plus complexe que la fable de David contre Goliath. Le débat s’est dans un premier temps concentré sur l’usage non-autorisé du plan de métro parisien par la start-up. Or un plan c’est un document, pas une donnée. Evoquer l’open data dans ce cas, c’est tout à fait abusif. La CADA, qui avait été sollicitée pour rendre son avis a d’ailleurs très clairement précisé que le plan est le fruit d’une création intellectuelle et qu’il ne rentre donc pas dans le champ de la donnée publique.

La loi CADA de 1978 exonère d’ailleurs clairement certains établissements, dont la RATP, de certaines obligations en matière de réutilisation des données publiques. Précisons enfin que l’application CheckMyMetro permet à ses utilisateurs de signaler les contrôleurs. Une telle fonction, de nature à encourager la fraude, n’aide bien entendu pas à apaiser les relations !

Sur le papier donc, et si l’on se reporte aux textes juridiques, il n’y avait pas de raison que la RATP publie des données en open data. Elle n’y était pas obligée.

La première leçon de cette histoire, c’est la combinaison d’une maladresse initiale (la gestion du conflit), du « moment » open data et d’un emballement médiatique généralisé, renforcé par les prises de position répétées de l’ancien président du Conseil national du numérique.

Ce que la loi n’exigeait pas est devenu une obligation quasi-morale. Bref, à bien des points de vue, la RATP se trouvait alors dans une position défensive – et je suis prêt à parier que d’autres prendront bientôt la place de la régie dans cette position plutôt inconfortable (JC Decaux ?).

2 – Valoriser sa marque ou limiter l’usage sauvage des données ?

Comment dès lors passer d’une position défensive à une position offensive ? J’ai décrit dans un billet précédent 9 stratégies de diffusion des données. La RATP me semble une très bonne illustration des mouvements possibles pour passer d’une position défensive à une position offensive. Le premier problème à résoudre était celui de la réutilisation non-autorisée de son plan de métro et des éléments graphiques s’y référant. Le second était lié à l’utilisation sauvage des données horaires, récupérées à partir de son site Wap.

La RATP vient de résoudre la première question, en permettant un usage bien encadré de certains éléments graphiques – dont le fameux plan. « Volte-face » a écrit l’éditeur de CheckMyMetro dans une communiqué de presse à la tonalité victorieuse (poursuivant ainsi la fable de David contre Goliath).

J’y vois plutôt un mouvement habile de la part de la régie pour protéger et valoriser sa marque. On peut par exemple lire dans les conditions d’utilisation que seule la RATP peut utiliser le logo vert comme icône d’application mobile. En ce sens, on se rapproche davantage du programme « Don’t pretend to be us » des transports londoniens.

Force est de reconnaître que sur le deuxième sujet, celui des données, rien n’est acquis. Les jeux de données aujourd’hui publiés sur Etalab ne brillent pas par leur extraordinaire richesse. On est encore loin de ce que d’autres réseaux en France (Rennes, Nantes, Toulouse, …) ou ailleurs (New-York, San Francisco, Londres) ont pu proposer. La prochaine étape sera de passer des intentions aux actes, notamment en proposant des API sur un vrai site dédié, et non quelques fichiers sur le portail gouvernemental. Mais la régie aura au moins su faire baisser la pression médiatique sur le sujet… et c’est déjà beaucoup !

3 – Qui doit gérer l’ouverture des données « publiques » ?

Le premier pas de la RATP marque aussi une tendance : ce sont de plus en plus les exploitants de services – et non les administrations et autorités organisatrices – qui gèrent l’ouverture des données. En région Ile-de-France, cela est particulièrement flagrant : Transilien et la régie se sont lancés dans l’open data bien avant le STIF, pourtant l’autorité qui organise les transports sur ce territoire.

Cette troisième et dernière leçon ne concerne pas uniquement le domaine de la mobilité mais s’adresse à tous ceux qui gèrent des délégations de service public, pour l’eau, l’énergie ou les déchets. Cette mission d’ouverture (et le travail d’animation qui va de pair) va-t-elle peu à peu être intégrée dans de futurs appels d’offres ?

Rendre visible les données ouvertes de Rennes, Nantes et Marseille

Comment rendre visibles les données ouvertes ? J’ai déjà eu l’occasion de raconter l’atelier que j’ai animé à Rennes pour les étudiants de Sciences Po sur le thème des données de mobilité dans la ville. J’ai eu l’opportunité de proposer deux nouvelles sessions, l’une à Nantes lors de la Semaine européenne de l’open data, et l’autre à Marseille lors des rencontres régionales Open PACA. Je vous propose un regard croisé sur ces 3 ateliers…

1 – La chasse aux données en quelques mots

Pour rappel, l’ambition de cette animation est de fournir en 2 heures les éléments de base pour comprendre les données ouvertes et être capable de les repérer dans la ville. La thématique de la mobilité a été choisie pour de multiples raisons, déjà amplement détaillées dans de précédents billets. Chaque atelier regroupe une douzaine de participants et se déroule en 3 temps. On débute tout d’abord par une séance de remue-méninge collectif : « Comment se déplace-t-on aujourd’hui à Rennes / Nantes / Marseille ? Quelles sont les informations nécessaires pour se déplacer en vélo / en bus / à pied / en voiture ? ». Un court exposé théorique permet de faire la distinction entre une donnée et une information, une donnée publique et une donnée ouverte.

Chaque groupe (de 3 à 4 participants) se voit remettre un plan du quartier (une photographie aérienne ou une carte Open Street Map), des gommettes de couleur correspondant à des modes de déplacements (en l’occurrence : la voiture individuelle, le bus et métro, le vélo). Panneaux de signalisation, fiche horaire de bus, information de voirie, … Tout ce qui permet de se déplacer est répertorié et photographié. La dernière partie de l’atelier est consacrée à une mise en commun de nos « découvertes » et surtout à une première lecture critique des données (ou de leurs artefacts pour être plus exact) : à quoi et à qui sert cette donnée ? Qui la collecte et la gère ? Quelle réutilisation peut-on en imaginer ?

2 – Rennes, Nantes et Marseille : les terrains de notre chasse aux données

La Cantine numérique rennaise a accueilli la première session en mars 2012. Situé au sein de l’équipement culturel Les Champs Libres, le lieu est à proximité immédiate du quartier de la gare, hub important des transports rennais. On y trouve notamment les gares routières et ferroviaires, une ligne de métro, de nombreux arrêts de bus urbain, des stations de vélo en libre-service, …

La seconde session s’est déroulée en mai 2012 à la Cantine numérique de Nantes et le terrain choisi pour notre chasse était les environs de la place du Commerce, lui aussi un hub important des transports de la ville (stations de tram, bus, parkings souterrains, stations de vélo en libre-service, …) bien que plus éloigné de la gare. A noter, les nantais sont les seuls français à pouvoir jouir d’un mode de transport ancestral : l’éléphant (quoique sous une forme largement modernisée et plutôt destinée aux touristes).

Les rencontres régionales de l’open data en région Provence Alpes Côte d’Azur ont fourni le cadre de la troisième session à Marseille en juillet 2012. L’atelier s’est déroulé dans les environs immédiats du siège du Conseil régional, dans le quartier de la Porte d’Aix. Si vous êtes déjà venus à Marseille en voiture, vous connaissez cet endroit car jusqu’à récemment c’était la fin de l’autoroute… Mais le quartier est aussi desservi par le métro et de nombreux bus.

J’ai détaillé les terrains de notre chasse aux données car il me semble évident qu’ils ne sont pas étrangers aux différents résultats obtenus. La session rennaise a fait l’objet d’un compte-rendu détaillé, je vous invite donc à le consulter. Voici les points marquants de mon rapport d’étonnement pour Nantes et Marseille.

3  – En vélo, tu iras à Nantes … mais pas toujours en open data

La part modale du vélo s’établit à environ 2% dans la capitale ligérienne (pour mémoire, cet indicateur mesure la part des déplacements qui sont effectués à l’aide de ce mode de transport), contre 4% à Rennes et 1% à Marseille (source des données Fubicy et EPOMM). Les participants nantais de l’atelier ont ainsi pu repérer de très nombreuses données et informations sur cette thématique autour de la place du Commerce : indication de pistes cyclables et de parking vélos, itinéraires vélo, …

Le service de vélo en libre-service Bicloo a attiré l’attention du groupe. En effet, la plate-forme nantaise open data propose bien un jeu de données sur le service Bicloo mais celui-ci ne concerne que la localisation des stations… et non les données les plus utiles pour les réutilisateurs à savoir la disponibilité en temps réel des vélos et des places restantes.

« Mais pourtant, le site web du Bicloo c’est bien celui de Nantes Métropole, non ? » m’a fait remarquer l’un des participants à cet atelier. Une remarque de bon sens évidemment, puisque le visiteur du site bicloo.nantesmetropole.fr devra consulter les mentions légales pour constater que le site est géré par JC Decaux, l’exploitant du système de vélo en libre-service… et non pas Nantes Métropole, dont le logo apparaît pourtant en bonne place.

Cet exemple a permis au groupe d’illustrer la différence entre une donnée et une donnée publique – JC Decaux n’exerçant pas dans le cas présent une « mission de service public » et n’étant donc pas concerné par la loi CADA de 1978. La lecture des conditions générales d’utilisation de l’application iPhone officielle de JC Decaux démontre aussi parfaitement ce que n’est pas une donnée ouverte. Le design de l’application AllBikesNow et ses écrans de pub sont en tant que tels des pousses-au-crime, en l’occurrence une véritable incitation à la réutilisation sauvage. Vu la qualité des développements internes, il sera difficile de justifier longtemps le contrôle exercé sur les données…

4  – A Marseille en voiture tu iras … et patient tu seras

Marseille, le Vieux-Port, la vue depuis Notre Dame de la Garde, les plages … J’aime beaucoup la ville, surtout depuis que j’y viens en TGV et que je m’y déplace en tram et à pied… Mais ma vision de touriste n’était pas celle des participants à la 3è session de cet atelier. Le groupe « vélo » a sillonné le quartier pendant près d’une heure et sans grand succès. Mis à part une station de vélo en libre-service, peu d’informations disponibles pour les rares cyclistes de la capitale du Sud… Le groupe « voiture » a par contre repéré plusieurs dizaines de points d’intérêt pour l’automobiliste : des parkings, des panneaux de signalisation, de nombreuses déviations, des plots pour empêcher les automobilistes de se garer sur les trottoirs, …

Devant la profusion des informations (des ordres et des contre-ordres), l’information la plus claire n’est pas toujours là où on l’attend : c’est le panneau publicitaire géant pour une grande chaîne hôtelière qui indique le plus sûrement son chemin à l’automobiliste qui veut rejoindre l’A55 et le quartier de la Joliette ! Dernier élément de curiosité : les panneaux qui indiquent le fast-food le plus proche sont très intelligemment (et sans doute aussi très illégalement) disposés. A chaque carrefour important, depuis les principaux arrêts de bus, à partir de la sortie du métro : celui qui cherche le Mac Donald’s ne peut pas se perdre !

Au-delà de leur caractère anecdotique, ces deux exemples montrent que les données utiles pour la mobilité ne sont pas l’apanage exclusif des acteurs publics ou des grands opérateurs. Si elle se veut complète, l’ouverture des données doit donc aussi impliquer ces acteurs qui ne relèvent d’une mission de service public – et échappent donc ainsi à la loi CADA de 1978 (voir à ce sujet mon précédent billet : pourquoi ouvrir ses données quand la loi ne vous y oblige pas ?).

5 – Comment améliorer cet atelier ?

L’ambition de ce format d’animation est de fournir en un temps court les bases de compréhension des données et de montrer leur réalité dans notre vie quotidienne. La thématique de la mobilité n’est au final qu’un prétexte, et je travaille d’ailleurs sur de nouveaux ateliers avec d’autres thématiques (la culture, le tourisme, la petite enfance, …).

Je pense que cet objectif de « vue d’ensemble » est à peu près atteint (si vous avez participé à cet atelier et/ou que vous souhaitez proposer des idées, n’hésitez pas à commenter ce billet). Cependant, j’en vois aussi les limites et je m’interroge sur plusieurs points :

– l’intérêt de la carte comme support de découverte : cet atelier n’est pas une cartopartie, on ne vise pas l’exhaustivité mais plutôt la diversité des points d’intérêt. La carte sert aussi à délimiter le terrain de jeu, mais est-elle vraiment utile ?

– le caractère parfois déceptif de l’exercice : cet atelier vise aussi à susciter l’intérêt et la curiosité pour les données ouvertes or parfois, comme dans l’exemple du Bicloo à Nantes, on peut en ressortir en se disant « qu’on ne peut rien faire avec les données ouvertes à ce jour… » En 2 heures on ne produit pas de réalisations concrètes, on pose juste les bases de compréhension du contexte juridique de l’open data en France,

– la capacité à porter un regard critique sur la donnée : ce format permet de montrer qu’avant la réutilisation il y a une utilisation… mais c’est à peu près tout en matière de critique de la donnée brute. Je pense que c’est en grande partie dû à la thématique retenue, celle de la mobilité qui se prête peut-être moins à l’exercice que d’autres sujets…

Je travaille actuellement à la définition de formats d’animation autour de la culture de la donnée. Un prochain billet racontera l’atelier que j’ai eu le plaisir de co-animer la semaine dernière à Brest, une pierre de plus à l’édifice d’un « truc » genre infolab. A suivre 😉

Pourquoi partager ses données (quand la loi ne vous y oblige pas) ?

Nombre d’acteurs, notamment privés, s’interrogent aujourd’hui sur leur position en matière de diffusion et de partage de leurs données. Ils ne sont souvent pas concernés par la loi CADA de 1978 : ils ne remplissent pas de mission de service public ou font partie des nombreuses exceptions prévues par le législateur … Mais au-delà de l’obligation légale, il y a souvent un intérêt réel à partager ses données.

Ce billet tente de répondre à la question : mais pourquoi donc devrais-je diffuser mes données si la loi ne m’y oblige pas ? Je propose une grille de lecture pour comprendre les stratégies à l’oeuvre dans ce domaine. Une remarque préalable et importante : les exemples cités couvrent l’ensemble des trois univers de diffusion détaillés dans un précédent billet et pas uniquement la diffusion des données en open data.

La grille de lecture que je propose distingue d’abord deux axes :

– l’objectif prioritaire : s’agit-il de s’inscrire dans une démarche de transparence et/ou de participation ? Bien évidemment, les deux objectifs ne sont pas contradictoires, mais les enjeux sont différents. Si l’on cherche la participation, il faudra stimuler la réutilisation, alors qu’un pur objectif de transparence peut se limiter à la diffusion des données,

– la posture de départ : l’acteur qui réfléchit à sa stratégie se positionne-t-il en mode défensif (faire face) ou offensif (prendre ou reprendre la main) ? Le graphique que je propose illustre quelques stratégies d’acteurs et surtout des dynamiques, c’est-à-dire la capacité à passer d’une position défensive à une position offensive.

1/ Stratégies participatives en mode « offensif »

Dans les 3 premières stratégies, l’acteur diffuse volontairement (sans pression préalable) un ensemble de jeux de données dans l’optique d’en favoriser la réutilisation. Ses objectifs peuvent être de :

– « valoriser ses actifs informationnels et sa marque » [1] : en mettant à disposition ses données, on peut mieux les valoriser qu’en en limitant la diffusion sur son seul site web.

Une très bonne illustration de cette stratégie est le portail d’ouverture de données touristiques data.visitprovence.com. Face à la concurrence accrue de nouveaux sites de diffusion de l’info touristique (TripAdvisor, AirBnB, Homelidays, …) et à la diffusion de nouveaux supports (le mobile aujourd’hui, la TV connectée demain), ne vaut-il pas mieux se concentrer sur la valorisation de ses données plutôt que de s’engager dans une coûteuse course à l’audience pour ramener des visiteurs vers son site « officiel » ? Dans un tout autre domaine, l’agence d’information financière Bloomberg propose aussi des accès partiels à ses données.

– « jouer l’externalité de réseaux » [2] : la seconde stratégie est basée sur la notion d’externalité de réseaux. Les entreprises du web – par exemple Twitter – donnent accès à une partie de leurs données (via des API) à des tiers pour qu’ils développent des services et des applications tierces. Ils profitent ainsi de l’effet « boule de neige » des externalités de réseau : plus il y a d’utilisateurs du service, plus le service a d’intérêt pour un nouvel utilisateur.

– « faire développer par des tiers » [3] : cette dernière stratégie est souvent mise en oeuvre dans le domaine des transports, mais peut s’appliquer à de nombreux domaines.

Si l’on cherche à offrir un service d’information complet à ses usagers ou clients, il faut aujourd’hui couvrir une palette de plus en plus large de terminaux et de besoins spécifiques. Il faut un site web, un site mobile, des applications pour iPhone, pour Android, pour BlackBerry, pour Windows Phone, … Sans compter des services dédiés à des cibles particulières. Pour reprendre l’exemple des données touristiques, il y a sûrement intérêt à concevoir un service dédié pour les camping-caristes mais un comité départemental du tourisme a-t-il les moyens (et la volonté) de le faire lui-même ? On le voit, diffuser ses données c’est aussi valoriser sa marque.

2/ Stratégies participatives en mode « défensif »

Certains acteurs abordent aujourd’hui la diffusion et le partage de données dans une posture initiale défensive. Les deux stratégies qui sous-tendent leurs approches sont les suivantes :

– « prevenir l’usage sauvage » [4]: JC Decaux (pour son service de vélo en libre-service) ou la RATP par exemple ont été confrontés à des réutilisations sauvages de leurs données. Rappelons que les premières applications dédiées au vélo en libre-service rennais ont vu le jour avant le programme d’ouverture des données de Rennes Métropole et Keolis Rennes – et elles se sont précisément appuyées sur un usage sauvage donc non contrôlé des données.

– « contrôler ma marque » [5] : corollaire de l’utilisation sauvage des données, le contrôle de la marque est aussi une préoccupation courante. L’autorité en charge des transports londoniens (TfL – Transport for London), a ainsi mis en place un programme de contrôle de sa marque pour les réutilisateurs des données. « Don’t pretend to be us » fixe un cadre précis pour s’assurer que les clients usagers du réseau de transport seront bien en mesure de distinguer les applications « officielles » de celles développées par des tiers.

Il faut noter que nombre d’acteurs, initialement positionnés dans une posture défensive se sont redéployés de manière offensive. Ainsi TfL mentionné plus haut, mais aussi l’opérateur rennais ou new-yorkais (MTA), …

De même nombre de stratégies offensives sont des miroirs de stratégies défensives (par ex. prévenir l’usage sauvage >; valoriser ses actifs informationnels).

3/ Stratégies transparence en mode « défensif »

Pour rappel, dans une optique de transparence l’important est davantage de diffuser et de mettre à disposition des données plutôt que d’en encourager la réutilisation.

En mode défensif, je distingue deux stratégies :

– « rendre des comptes » [6] : certaines activités sont soumises à la pression publique (en particulier dans le domaine de l’énergie ou de la finance) et/ou au droit de regard exercé par un régulateur de marché. L’obligation de rendre des comptes fait alors partie des déclencheurs d’une démarche de partage et de diffusion des données,

– « datawashing » [7] : similaire à l’éco-blanchiment (greenwashing) le datawashing consiste à publier des jeux de données (présentant souvent peu d’intérêt pour les réutilisateurs) afin de se donner une image de transparence. L’opérateur d’énergie italien Enel a ainsi récemment fait parler de lui en publiant sur un portail open data dédié des données… que l’on retrouve dans son rapport annuel de responsabilité sociale et environnementale. Aux Etats-Unis, la société Nike a de même fait un effort de transparence qui n’est sans doute pas étranger aux polémiques sur les conditions de fabrication de ses produits.

On notera d’ailleurs avec grand intérêt que les compagnies les plus avancées dans le domaine de l’ouverture de leurs données sont aussi celles soumises le plus régulièrement à la critique, dans les domaines de l’énergie, de l’environnement, de la finance ou des transports…

4/ Stratégies transparence en mode « offensif »

La transparence ne se limite pas au contexte défensif. Je distingue trois stratégies déployées par des acteurs qui souhaitent (re)prendre la main :

– « répondre à un enjeu de gouvernance » [8] : anticiper la demande de transparence en publiant des données sur le fonctionnement de son activité ou de ses missions, fournir à toutes les parties prenantes (stakeholders) les mêmes éléments de compréhension et d’action. Cet enjeu de gouvernance a par exemple été souligné lors d’un rapport de la Cour des Comptes sur les transports ferroviaires en Ile-de-France,

– « (compenser) la qualité de service par l’information » [9] : pour les activités de services, le fait même de fournir une information sur la qualité du service tend à améliorer sa perception par les usagers. Un exemple : ce ne sont pas les données ouvertes par la SNCF qui font arriver les trains à l’heure, par contre il est clair que l’effort de transparence est jugé positivement par les voyageurs,

– « préparer au changement » [10] : diffuser des données peut aussi aider à préparer au changement, à poser les bases d’un diagnostic commun. Bien évidemment, cette stratégie peut être le miroir du « datawashing », donc on restera prudent dans sa mise en oeuvre… et critique quand on la verra à l’oeuvre !