5 ans d’open data: qu’avons-nous appris ?

J’étais l’invité hier à Lausanne de la conférence Opendata.ch/2016, le rassemblement annuel de la communauté suisse des données ouvertes. J’ai profité de l’occasion pour prendre un peu de recul sur mes cinq premières années d’open data. Retour sur les principaux éléments de cette présentation.

L’époque des chasseurs-cueilleurs

M0005264 Kirikoraha ceremony.

Kirikoraha ceremony, Sri Lanka, circa 1910 Credit: Wellcome Library, London

Il y a cinq ans, nous étions tous des chasseurs-cueilleurs. Nos « armes » étaient rudimentaires: nos bras, notre arc et quelques flèches. Ou plutôt: des lois sur le droit d’accès à l’information, un momentum politique au niveau international – dont l’icône était Obama version 2008 (c’est-à-dire avant Prism) -,  une soif de transparence exprimée par la société civile et des mouvements citoyens plus ou moins organisés.

C’était une belle époque. Mais comme tous les chasseurs-cueilleurs nous avons surtout « attrapé » les animaux les moins rapides et les fruits les plus accessibles selon l’expression consacrée (« low-hanging fruits »). Les jeux de données qui présentaient le plus d’enjeux , en termes de transparence mais aussi de potentiel économique nous restaient largement inaccessibles.

Des échelles pour cueillir les « fruits les moins accessibles »

Alors, comment attraper les fruits les moins accessibles ? L’Homme a inventé l’échelle – et l’homo data sapiens a fait pareil.

L0026403 Two men carrying a ladder. Colour lithograph.

Credit: Wellcome Library, London

Nous avons passé ces dernières années à imaginer, construire et poser des échelles. La première d’entre elles, cela a été de construire un rapport de force favorable, en mettant le sujet sur l’agenda politique. La seconde échelle, c’est de faire évoluer la loi – ou plutôt les lois. On a parfois critiqué la difficulté à s’y retrouver dans les nombreux textes qui parlent maintenant d’open data, qu’il s’agisse de la loi sur la gratuité des données (loi Valter), le projet de loi République numérique (loi Lemaire) et les multiples dispositions sectorielles (santé, transports, biodiversité, …). OK. Mais ce sont autant d’échelles qui ont été posées. La troisième échelle ce sont les engagements internationaux;  c’est à mon avis le bénéfice le plus concret que l’open data peut tirer de l’adhésion de la France à l’Open Government Partnership. Des engagements ont été pris et il y a déjà des résultats concrets, par exemple sur la commande publique. La quatrième échelle c’est de maintenir la pression citoyenne, qu’elle soit spontanée ou un peu téléguidée comme dans le cas récent de la pétition Citymapper vs. Ratp.

Donc, on a construit des échelles. Et on attrapé des fruits que nous regardions avec envie il y a quelques années encore, que ce soit dans le domaine de la transparence, de la santé, ou de l’économie.

50 nuances de data

A force de cueillir des fruits, on a fini par apprendre une leçon: toutes les données ne se ressemblent pas et ne génèrent pas les mêmes usages. Certaines relèvent du champ de la transparence et du « droit de demander des comptes à tout agent de son administration » (déclaration des droits de l’homme et du citoyen, 1789), par exemple la réserve parlementaire. D’autres ont un potentiel local de services (par exemple des horaires d’ouverture des équipements publics). Et certaines ont une place à part, car elles constituent des références (au sens des données de référence du service public de la donnée).

On a toujours eu un peu de mal à accepter cette idée dans le mouvement open data; de peur sans doute que l’administration soit la seule à décider de ce qui « mérite » d’être ouvert…

Produire, pas uniquement ouvrir

Progressivement les cueilleurs sont devenus des agriculteurs. Et nous avons fait de même: après nous être nous-même nourri de notre cueillette (« eat your own dog food !« ) nous avons commencé à produire nous-même des données. Je pense que la création de la Base adresse nationale représente à ce titre un tournant important, et le fait qu’elle associe des institutions comme La Poste ou l’IGN et les contributeurs d’OpenStreetMap est tout à fait essentiel. La culture de l’open se diffuse par capillarité: d’abord sur la diffusion des données puis maintenant sur leur mode de production lui-même. Les sciences participatives, qui ne datent pas d’hier, ont beaucoup de choses à nous apprendre sur ces pratiques.

L’ouverture est une bataille culturelle

Mais la principale leçon de ces cinq dernières années c’est que l’ouverture est une bataille culturelle. Ouvrir les données, les codes sources mais aussi plus globalement la manière de prendre des décisions et d’agir. Peut-être sommes nous convaincus que l’ouverture, la circulation et la collaboration sont des valeurs partagées par tous – mais c’est une bataille qui vient à peine de commencer. Je repense par exemple à ce sénateur qui répond à l’une de ses collègues que « la loi ne s’écrit pas avec les internautes » alors même que le texte dont ils discutaient avait fait l’objet d’une consultation tout à fait originale en ligne.

Le propre des batailles culturelles c’est qu’elles sont toujours longue à mener … Et il faut bien se l’avouer: nous baignons tellement dans le bouillon numérique que nous avons du mal avec le temps long et sommes naturellement plutôt portés sur les quick wins.

Etes-vous prêt pour les 15 prochaines années ?

 

 

Donnée brute ou donnée contextualisée ?

La mission gouvernementale Etalab lance une consultation autour de l’évolution du portail data.gouv.fr. Vous êtes invités à contribuer à cette démarche de co-design. C’est aussi l’occasion de repenser plus globalement la conception des portails open data… A quoi et à qui servent-ils ? Comment doit-on présenter les données ? Je vous propose une série de billets sur ce thème. Le premier traite de la donnée elle-même et de la tension entre donnée brute et donnée contextualisée…

1 – Un cas pratique : la fréquentation des musées

J’ai récemment animé un atelier de sensibilisation à l’open data pour les acteurs culturels d’une collectivité. A cette occasion, j’ai repéré un jeu de données disponible sur le portail gouvernemental. Ce fichier propose les chiffres de la fréquentation des musées de France, de 2006 à 2010. Je vous invite à télécharger celui qui concerne la région Bretagne (pour plus de facilité, je vous propose aussi une copie d’écran ci-dessous, que vous pouvez agrandir en cliquant).

(cliquer pour l'agrandir) - fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr

La fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr (cliquer pour agrandir l’image)

Le tableau présente les chiffres de fréquentation pour chaque « musée de France » situé dans la région. On a donc le nom du musée (ex. « musée des beaux-arts »), une ville, puis les chiffres de fréquentation répartis en 2 colonnes « total » et « grat ». On peut raisonnablement supposer qu’il s’agit des entrées gratuites (mais rien ne le précise formellement, ni dans le fichier, ni dans la fiche de métadonnées). D’autres colonnes précisent l’évolution de la fréquentation d’une année sur l’autre.

Le code couleur est expliqué en pied de page du fichier. La couleur noire représente des « données confidentielles », avec la mention « contacter le chef d’établissement », les autres couleurs viennent apporter des éléments de contexte sur la fréquentation de tel ou tel musée. En l’occurence il y est surtout question d’évènements exceptionnels susceptibles d’expliquer le chiffre de fréquentation : fermeture ou réouverture d’un musée, exposition temporaire ayant entraîné une fréquentation exceptionnelle, …

Plus intéressant, la première colonne du tableau contient un numéro de référence, qui **semble** être un identifiant unique accordé à chaque musée de France.

2 – La tension « brutification » vs. contextualisation

La lecture de ce fichier permet d’illustrer la tension entre deux tendances qui s’expriment aujourd’hui dans le monde de l’open data.

La première tendance est liée à une demande de « brutification ». Je reprends ici le terme évoqué par Samuel Goeta et Jérôme Denis pour décrire l’une des actions qui se déroulent dans les coulisses de l’open data (le thème de la thèse de Samuel à Telecom Paris Tech).

Pour permettre la mise en place d’un ensemble de services sur le portail open data, il faudrait que la donnée proposée soit la plus brute possible (et je parle bien là d’une donnée brute techniquement, pas en termes sociologiques).

Parmi ces « services » on peut citer par exemple la pré-visualisation des jeux de données sans avoir à ouvrir le fichier (une fonctionnalité très utile et déjà mis en oeuvre ailleurs), la datavisualisation ou représentation cartographique par défaut (un exemple ici), ou enfin même les API (des interfaces de programmation qui font aujourd’hui cruellement défaut dans la plupart des portails, à quelques exceptions près). Sans même parler d’un pas vers le web des données et le Linked Data, une attente forte des acteurs du web sémantique.

Reprenons le fichier sur la fréquentation des musées : pour proposer tous ces services il faudrait donc faire un travail *supplémentaire* de brutification : retirer les codes couleurs, ignorer les colonnes qui proposent une donnée recalculée (le taux d’évolution d’une année sur l’autre, les totaux, …) et plus globalement retirer tout ce qui concerne la mise en forme du fichier. On pourrait d’autre part mieux utiliser des données qui y figurent déjà, ainsi le fameux numéro de référence.

J’ai trouvé sur le portail un autre fichier qui fournit des informations complémentaires sur les musées de France : leur adresse postale, le site web, les horaires et jours d’ouverture. Problème : ce fichier ne propose aucun identifiant unique. On a là une occasion manquée de permettre une mise en relation et un enrichissement de deux fichiers (open data 1 – web sémantique 0).

La donnée proposée ici n’est donc pas tout à fait « brute » … mais elle n’est pas tout à fait contextualisée non plus !

La seconde demande qui émerge – et qui de prime abord peut sembler contradictoire avec la brutification – est liée à la contextualisation de la donnée.

J’ai déjà eu l’occasion ici de parler de l’importance d’une lecture critique des données. Si l’on considère le fichier sur la fréquentation des musées, ce besoin de contextualisation apparaît rapidement : qu’est-ce qu’un « musée de France » ? comment les données de fréquentation sont-elles collectées ? quel est l’usage initial des données ? qui la collecte et pour quoi faire ? Et enfin, la meilleure : pourquoi certaines données sont-elles considérées comme « confidentielles » (celles dont les cases portent la couleur noire) ?

La réponse à bon nombre de ces questions se trouve sur le site du Ministère de la Culture (précision importante : j’ai trouvé cela via Google, pas depuis la fiche de métadonnées). On y apprend qu’un service du ministère publie annuellement un très intéressant document de 75 pages, appelé « MuséoStat« . J’ai ainsi pu comprendre que le terme « musée de France » correspond à une appellation officielle (accordée et retirée par les services du ministère), que les variations de fréquentation sont très souvent liées à des expositions temporaires (d’où l’importance des annotations colorées), que la notion de gratuité a elle aussi une définition officielle précise, …

Le document reproduit aussi le questionnaire envoyé aux différents responsables de musée, questionnaire très détaillé puisqu’il précise aussi le mode de mesure de la fréquentation (comptage manuel, automatisée, estimation, …). Enfin, on peut apercevoir en fin de questionnaire une case à cocher par les répondants : « acceptez-vous que ces chiffres soient diffusés ? ». Voilà donc l’origine de cette formule un peu ambigüe de « données confidentielles » !

Cette demande de contextualisation me semble tout aussi pertinente que la demande de brutification du jeu de données. On doit pouvoir y répondre en repensant profondément la manière de documenter les jeux de données – c’est à la fois le rôle des métadonnées mais aussi plus globalement la fonction éditoriale des portails open data.

3 – Sortir de l’opposition « qualité vs. quantité » des données

Le fichier de la fréquentation des musées ne représente bien sûr pas à lui seul la diversité et la richesse des jeux de données disponibles, sur data.gouv.fr ou ailleurs … Mais cet exemple illustre quand même je pense la situation actuelle : des données ni tout à fait brutes, ni tout à fait contextualisées.

La particularité du ni-ni est qu’il ne satisfait ni ceux qui attendent des services plus poussés (API, Linked Data pour les développeurs), ni ceux qui militent pour une meilleure appropriation des données par tous (façon Infolab) – bien qu’ils ne faillent pas opposer les uns et les autres.

Dans le débat qui va s’ouvrir sur les fonctions des portails open data, il y a à mon avis un écueil majeur à éviter : réduire cela à une opposition « qualité vs. quantité » des jeux de données.

La qualité ne peut s’évaluer qu’à l’aune de l’objectif : un développeur, un chercheur ou un associatif qui veut évaluer la fréquentation des musées de sa région ont tous besoin de fichiers de qualité.

C’est la manière dont ils expriment ce besoin qui diffère (notre tension brutification / contextualisation). Il nous faut donc à la fois de la qualité ET de la quantité…

4 – De qui est-ce le travail ?

Reste la question du rôle de chaque acteur impliqué : qui doit assurer ces tâches de brutification et de contextualisation ? Est-ce la mission du service détenteur de la donnée ou du service qui met en oeuvre le portail, en l’occurence Etalab ? Les réutilisateurs  enrichissent eux-aussi les jeux de données, par exemple en reliant deux fichiers via des identifiants, peut-on imaginer qu’un portail officiel puisse héberger, ou faire un lien vers le fruit de leur travail ?

On voit qu’à partir d’une question précise – quelles fonctions pour les portails open data ? – on en arrive à interroger le périmètre même des portails et des organisations qui les mettent en oeuvre…

4 pistes pour un open data des biens communs

A l’occasion du lancement de l’antenne française de l’Open Knowledge Foundation le 12 décembre à la Cantine Paris, je suis intervenu pour présenter 4 pistes pour un open data des biens communs. Retour sur cette intervention sous forme d’interpellation…

L’open data et les biens communs, une (trop) vieille histoire ?

"Open Data Commons" (photo by jwyg)

« Open Data Commons » (photo by jwyg)

Il y a une filiation entre le mouvement d’ouverture des données et la philosophie des biens communs. Les données ouvertes sont une illustration de la notion de biens communs informationnels proposé par Elinor Ostrom, « prix Nobel » d’économie en 2009. Les données ouvertes nous appartiennent à tous et, contrairement à l’eau ou à l’air (d’autres biens communs), elles sont dites non-soustractibles : leur usage par l’un n’empêche pas les usages par les autres. En d’autres termes : si je réutilise une donnée ouverte, cela n’empêche pas un autre réutilisateur de faire de même.

Cette proximité biens communs / open data se traduit aussi par la présence de l’instigateur des licences Creative Commons, Lawrence Lessig lors de la réunion de Sebastopol de 2007 qui a permis de définir le concept même de données publiques ouvertes.

Malgré cette relation historique et féconde, il me semble que nous, acteurs de l’open data, sommes parfois trop timides à réaffirmer le caractère commun de certaines données ouvertes. Trop timides parce que, contents que l’idée d’open data fasse son chemin auprès des acteurs publics et privés, nous ne voulons pas en rajouter… Les quatre pistes que je propose et détaille ici ne visent donc qu’un objectif : ne pas lâcher l’affaire sur le sujet !

Piste 1 : défendre un vrai choix en matière de licences open data (pro-choice)

Sur le papier, cela semble clair : il y a en France un vrai choix en matière de licences open data. D’un côté la licence ouverte proposée par Etalab, de l’autre l’ODbL. Les services de l’Etat se doivent d’utiliser la première, certaines collectivités ont choisi la seconde solution, en revendiquant de manière plus ou moins affirmée le caractère commun des données ouvertes.

Dans la pratique, le choix apparent se heurte aux difficultés, réelles ou perçues, liées à la licence ODbL. Je rappelle que ce qui distingue les deux licences c’est l’obligation de partage à l’identique (le share-alike) qui répond clairement à un enjeu de pot commun (si j’utilise, je dois recontribuer). Entendez-vous la petite musique qui monte et qui met en garde contre le recours à une licence « contaminante » (terme preféré à celui de « virale ») ? L’ODbL est accusée d’être anti-business, d’être venue de l’étranger, d’être source de dangers imprévisibles (le risque de contrefaçon de bonne foi), …

Nous nous retrouvons donc dans la situation où, au moment même où les grands projets collaboratifs (comme Open Street Map) adoptent l’ODbL, les nouveaux entrants de l’open data appliquent parfois, en toute bonne foi, le principe du moindre effort : « ça a l’air compliqué ce truc de partage à l’identique, on a pas une vision très claire des risques potentiels, je vais plutôt choisir la licence ouverte« .

Il me semble qu’en tant qu’instigateur de la licence ODbL, l’Open Knowledge Foundation devrait en être le premier promoteur*, pour en expliquer les mécanismes, les obligations et les opportunités (et pas uniquement celle d’embêter Google). Pour qu’un vrai choix soit possible en matière de licences open data (pro-choice !).

La licence a elle seule ne saurait garantir le caractère commun des données ouvertes. Je propose trois autres pistes d’action et de réflexion.

Piste 2 : la D.I.G. : donnée d’intérêt général

Prenons un problème qui nous concerne tous et que nous avons abordé lors d’un récent atelier Net:Lab : le logement et son accessibilité. Qui possède aujourd’hui l’une des meilleures visions du marché de la location ? Qui recense avec la plus grande acuité et en temps réel le montant des loyers, avec une adresse et un descriptif précis du logement ? Un indice : ce ne sont ni les mairies, ni les services des impôts, ni même le ministère du logement… mais un acteur privé de la petite annonce immobilière.

En France, on a une loi pour la donnée personnelle (loi CNIL), une autre pour la donnée publique (loi CADA)… Mais quid des données – personnelles, publiques ou privées – dont l’ouverture répond à l’intérêt général ? En ayant une vision plus claire et dynamique des loyers pratiqués, on pourrait imaginer que tout un chacun soit mieux informé sur les prix réels du marché (en prenant soin, bien sûr, de limiter les efforts de bord de la transparence).

Sans aller jusqu’à la réquisition des données (comme celle des logements vacants), on peut imaginer une fiscalité du numérique qui encouragerait la mise à disposition de ces données par les acteurs privés. Il y a bien un crédit d’impôt recherche, pourquoi pas un crédit d’impôt open data ?

Il faudrait donc, comme cela a déjà été évoqué, définir une nouvelle classe de données, la D.I.G. (donnée d’intérêt général) à laquelle serait associée des droits particuliers d’accès et de réutilisation… « Tout ne s’arrête pas au clivage public / privé« .

(Bien évidemment, la D.I.G. pose autant de questions qu’elle n’apporte de réponses. En voilà une première : qui va définir l’intérêt général ?).

Piste 3 : le peering de contribution : je contribue / je reçois

Le premier temps de l’open data a vu des acteurs publics (collectivités ou gouvernements) mettre des données ouvertes à la disposition des réutilisateurs, principalement des développeurs.

L’open data qui est en train d’émerger est infiniment plus riche et plus complexe. La répartition des rôles entre producteur et réutilisateur de la donnée semblait bien établie, elle évolue pourtant : les données publiques et collaboratives commencent à s’enrichir mutuellement, des entreprises travaillent à rendre à leurs clients une partie des données les concernant. Dès lors, comment concevoir des mécanismes de contribution qui tiennent compte de ces évolutions dans une optique de « pot commun des données » ?

La troisième piste est celle d’un peering de contribution, tel qu’il existe déjà pour les données de positionnement des bateaux (données AIS). Le site collaboratif Marine Traffic lancé en 2007 est aujourd’hui le premier site de suivi du trafic maritime mondial. Plus de 1000 contributeurs (équipés d’un récepteur AIS connecté à Internet) permettent de suivre quotidiennement les mouvements de 65 000 bateaux. Le site affiche aujourd’hui deux millions de pages vues… par jour (source : entretien S. Chignard avec Dimitris Lekkas, l’universitaire grec à l’origine du projet).

Tout un chacun peut visualiser les données à partir de la carte proposée sur le site, mais celui qui veut accéder aux données brutes peut le faire à la condition expresse de contribuer à la couverture du service en connectant un nouveau récepteur AIS… Le peering de contribution encourage donc bien chacun à participer à l’amélioration du service (Marine Traffic n’est pas le seul site à procéder ainsi, voir par exemple AIS Hub qui propose des conditions encore plus permissives).

Piste 4 : la tarification contributive à l’usage (GET > POST)

Dernière piste de travail, la tarification à l’usage, déjà évoquée sur ce blog à propos des données transport. Il s’agit de penser un modèle de tarification mixte pour l’usage des données. Les API se prêtent particulièrement bien à ce mode de fonctionnement.

On peut imaginer que l’accès à nos D.I.G. soit gratuit pour tous, mais qu’une contribution soit demandée aux plus gros utilisateurs de l’API qui ont un comportement proche de celui du passager clandestin (j’utilise sans jamais contribuer). Libre ensuite à chacun de choisir s’il veut contribuer en améliorant la donnée (en la mettant à jour, en la corrigeant, …) ou en payant de sa poche !

* quelques pistes, ludiques et sérieuses, pour promouvoir la licence ODbL en France : une campagne de communication « j’ai été contaminée et j’en suis très heureuse » (avec des témoignages de bases de données en ODbL), un séminaire pratique pour les collectivités, un guide pratique en français avec une réponse aux questions fréquentes, une hotline « toutes vos questions sur l’ODbL », un ODbL-day pour mettre en valeur les données publiées sous cette licence, une infographie « toutes ces données sous proposées sous licences ODbL » ….

Mais pourquoi contribue-t-on ?

La question des motivations revient dès que l’on évoque les mécanismes de contribution dans l’open data ou les données collaboratives. On a parfois du mal à comprendre pourquoi des individus a priori sains de corps et d’esprit consacrent une partie de leur temps libre à ce type d’activité, qu’il s’agisse de développer une application mobile sans grand espoir de gain, ou de cartographier son quartier pour Open Street Map…

Les processus contributifs et participatifs sont au coeur de l’open data. Dans le concours organisé par Rennes Métropole en 2010, deux tiers des participants étaient des particuliers. Il y avait certes parmi eux quelques apprentis entrepreneurs et quelques rares militants de la cause du logiciel libre et de l’open source, mais plus généralement les motivations n’étaient ni pécuniaires ni politiques. Dès lors, pour sortir de l’image d’Epinal du geek à la vie sociale (entendez : vie sexuelle) limitée, il m’a semblé intéressant de se pencher sur la question : mais, diable, pourquoi contribue-t-on ?

1 – Une approche par les motivations : mais pourquoi contribuez-vous ?

Une recherche sur le sujet à partir de la littérature scientifique (références des travaux universitaires utilisés à la fin de ce billet) m’a permis de recenser quelques ressorts de la motivations des contributeurs.

En résumé, les grandes catégories de motivations sont :

– la réciprocité : « je le fais parce que j’aimerai qu’on le fasse pour moi »
– le sentiment d’utilité : « je le fais parce c’est utile pour moi / pour ma communauté »
– l’appartenance, l’identité, l’affiliation : « je le fais parce que je crois aux valeurs du projet / ça me ressemble / ça me constitue / en opposition à quelque chose »
– le jeu et l’apprentissage : « je le fais parce que c’est amusant / parce que j’apprends des choses »
– la recherche du gain (direct ou indirect) : « je le fais parce que je vais y gagner quelque chose, plus ou moins directement »
– la réputation : « ce que je fais contribue aussi à ma réputation sur le sujet »
– le sentiment de communauté : « avec QUI je partage est aussi important que CE QUE je partage »

Bien entendu ces motivations sont aussi à mettre en relation avec deux autres facteurs :

– la dimension sociale : avec qui je partage ma contribution : des gens que je connais ou j’apprécie, des proches, des inconnus, tout le monde, …
– et enfin la dimension temporelle : dans quelle situation je me trouve à ce moment-là. Je peux être contributeur à un moment donné et pas du tout à un autre moment, sur le même sujet.

2 – Ni Mère Theresa, ni Rockfeller : des pratiques et des niveaux d’engagements variés

Les entretiens que j’ai pu mener auprès des développeurs qui participent à l’open data font bien apparaître une grande variété dans les motivations, ni totalement altruistes, ni totalement orientées vers la recherche d’un profit immédiat. Le jeu, l’apprentissage, la recherche de la notoriété (gagner le concours, ce n’est pas seulement toucher un chèque), la compétition aussi (faire mieux que le voisin) sont des motivations courantes.

J’ai aussi noté que, pour nombre de développeurs locaux, le fait que le concours se passe dans leur ville de résidence (ou de travail) n’était pas anodin. Les sentiments d’appartenance, d’utilité et de communauté se combinent : je développe une application utile pour les habitants de ma ville… parce que j’y habite aussi. D’après l’enquête menée par Socrata aux Etats-Unis, le sentiment d’utilité était l’une des toutes premières motivations citées par les réutilisateurs.

Message donc à ceux qui voient en eux de doux rêveurs qui se font gentiment exploiter : la plupart des réutilisateurs sont bien conscients que la fortune n’est pas au bout de l’App Store…

3 – Ne pas sous estimer le facteur d’opposition

Il est un facteur que j’ai souvent vu à l’oeuvre, de manière plus ou moins explicite dans la production de données collaboratives : l’opposition. Se donner un ennemi commun c’est un bon moyen de se fédérer (c’est aussi valable dans d’autres domaines : j’en tiens pour preuve le « tout sauf Sarkozy » ou le « tout sauf Ségolène » en 2007).

Open Street Map est souvent cité comme le meilleur exemple des processus contributifs, au même titre que Wikipédia. Au-delà de leur engagement pour une connaissance plus libre, il y a aussi bien sûr une part d’opposition à un ordre établi. Pour OSM, il me semble clair que l’opposition à Google – et à l’IGN – a pu (peut encore ?) jouer un rôle de motivation pour certains contributeurs, comme en témoignent les débats pour l’adoption de la licence ODbL.

La contribution ne se limite pas à Open Street Map ou à Wikipédia, on la retrouve parfois dans des actes en apparence plus anodins ou moins engageants. Ainsi, j’ai étudié l’an dernier l’émergence de comptes Twitter d’alertes contrôleurs dans les principaux réseaux de transport urbain de France. Ces comptes, créés et alimentés par des particuliers fournissent une information précieuse : la localisation des contrôles en cours dans le métro, le tram ou les bus. J’ai été frappé par le profil de la plupart des contributeurs et organisateurs de ces comptes : soit ils ne sont pas utilisateurs du réseau de transport, soit ils l’utilisent mais sont abonnés. En clair : ils ne sont pas a priori les destinataires du service et n’ont pas d’intérêt personnel à la fraude !

Il y a clairement dans cette pratique une part de jeu, mais aussi d’appartenance et d’opposition à un « ennemi » commun : l’exploitant du réseau de transport (« fuck la RATP !« ). Je me suis enfin souvenu que, sur la route des vacances, mon père pratiquait l’appel de phares entre conducteurs, une pratique non recommandable dont l’alerte contrôleurs pourrait être le pendant numérique. Pourquoi faisait-il celà ? Bien sûr pour la réciprocité attendue (« je le fais parce que j’aimerai que l’on fasse pour moi), le jeu, l’appartenance à la communauté des conducteurs qui ont déjà payé une amende pour excès de vitesse, mais aussi bien sûr par opposition au gendarme. Précisons enfin pour conclure que le père de ma mère était gendarme. Donc, si mon propre père faisait des appels de phare, c’était sans doute aussi un peu pour emmerder ma mère. Une motivation bien réelle mais qui dépasse largement le cadre de ce billet 😉

— Quelques lectures scientifiques que je vous conseille si le sujet vous intéresse :

«Mere Belonging» Gregory Walton et alii., Journal of Personality and Social psychology 2012 et «Motivation, reward size and contribution in idea crowdsourcing»,  Oguz Ali Acar, paper to be presented at DIME Conference 2011, Denmark

De retour de Bordeaux

En passant

J’étais hier à Bordeaux pour y parler Open Data à l’invitation de la Coopérative métropolitaine. A cette occasion, je vous invite à lire l’interview réalisée par l’AEC (Aquitaine Europe Communication) sur le thème de l’appropriation des données. Ma présentation a donné lieu à un article de Cap Sciences « L’open data est une clé à molette » (la photo est sympa et en plus, je viens juste de changer de lunettes).

« S’il te plaît… dessine-moi l’open data »

Comment représenter et illustrer l’ouverture des données ? Quelles sont les métaphores graphiques les plus courantes pour représenter le mouvement open data ? Ce billet propose sans prétention aucune un premier recensement des figures imposées des données ouvertes, de la plus simple à la plus complexe…

(image par loop_oh sur Flickr)

« S’il te plaît … dessine-moi l’open data » : la demande revient souvent de la part de journalistes à la recherche d’illustrations sur les données ouvertes. Pas évident en effet de représenter l’open data : les mêmes métaphores reviennent très souvent pour illustrer les articles (un exemple ci-contre).

Cette approche par les représentations graphiques est un bon moyen de rentrer dans un univers et d’en saisir quelques facettes. En termes savants, cela s’appelle une recherche iconographique, mais plus prosaïquement on peut commencer par une recherche à l’aide de Google Images. Faîtes l’expérience avec le terme « ville intelligente » et vous verrez rapidement le mode de représentation dominant : des villes toujours verticales, souvent futuristes (les représentations en 3D et les vues d’artistes dominent) et dans tous les cas des villes où la place de l’humain est réduite. Bref, une vision de la ville intelligente tout droit sortie des récits de science-fiction… Qu’en est-il pour l’open data ? J’ai cherché les métaphores les plus courantes, à partir de Google Images mais aussi en regardant les comptes Flickr des organisations qui font la promotion du mouvement d’ouverture des données (Open Knowledge Foundation, Sunlight Foundation, Libertic).

1 – La métaphore du petit commerce : « entrez, c’est ouvert »

(source : OKFN)

Première métaphore rencontrée, celle du panneau annonçant que le commerce est ouvert. On reste dans une approche très simple (ouvert / open) et je ne crois pas qu’il faille y voir une allusion au potentiel économique et commercial de l’open data – ou alors sous une forme très très subliminale… L’image renvoie aussi immédiatement aux pays anglo-saxons. Peut-on d’ailleurs vraiment parler de métaphore dans ce cas ?

Dans le même ordre d’idée que cette image, on peut aussi citer la célèbre photo des stickers « Open Data » en bleu et blanc. Pas vraiment de signifiant profond, mais plutôt le révélateur d’un manque d’imagination … ou d’un manque de budget pour payer des illustrations !

2 – La métaphore de la clé à molette : la figure du hacker

Un grand classique de l’open data. Initialement développée par l’Open Knowledge Foundation (OKFN), reprise et adaptée, notamment en France par Libertic, l’idée de la clé à molette est déjà plus intéressante que celle du commerce. Elle renvoie à l’imaginaire du bricoleur, de la bidouille, bref du « hacker » dans sa définition première.

(source : OKFN)

La clé à molette, c’est un outil dans la mallette de celui qui intervient pour réparer quelque chose (la démocratie ?). En plus, la clé à molette permet d’ouvrir et donc de débloquer ce qui coince… a priori c’est une image positive et qui colle bien à l’idéal d’ouverture. Soit dit en passant, vous aurez remarqué que l’outil peut aussi servir à serrer et à fermer (en tous cas, je l’ai bien noté dimanche dernier en réglant la selle du vélo de mon fils). Intéressant double-sens donc que la métaphore de l’open data puisse aussi servir à « serrer la vis » 😉

3 – La métaphore du cadenas ouvert : la libération et le trésor

Troisième métaphore identifiée, celle du cadenas. On la retrouve sous plusieurs formes, plus ou moins complexes, certaines avec des 0 et des 1 en toile de fond (les données numériques). Le cadenas est déjà ouvert sur toutes les représentations que j’ai pu identifier. Il a dû servir à protéger un trésor (les données publiques ?), un coffre ou une mallette. On reste bien évidemment dans l’idée de la « libération » des données que jusqu’ici les détenteurs gardaient jalousement à l’abri des regards et des réutilisateurs. Curieusement je n’ai identité que quelques rares images avec des menottes : la donnée n’est donc pas personnifiée (ce qui pourtant aurait fait une bonne métaphore de la libération, non ?).

4 – La métaphore du bâtiment ouvert : l’open gouvernement

(source : Libertic)

Cette quatrième métaphore a été repérée par Samuel Goeta dans son mémoire du CELSA « Open Data : qu’ouvre-t-on avec les données publiques ? » (page 24, mais plus globalement je vous en conseille chaudement la lecture). On y voit un bâtiment symbolisant le pouvoir (le Capitole) dont la toiture s’ouvre sous l’effet de l’open data.

Samuel fait remonter son origine au premier concours AppsForDemocracy organisé à Washington D.C. en 2007. L’image a depuis été reprise et adaptée partout dans le monde. Sa dernière résurgence est nantaise. La métaphore est intéressante : ouvrir les données c’est ouvrir le toit du lieu où se prennent les décisions politiques. L’image résume la transparence, l’approche du gouvernement ouvert (open government), le regard public (public scrutiny).

5 – Et plein de combinaisons possibles

(source : Sunlight Foundation)

On peut bien sûr combiner ces différentes métaphores, avec plus ou moins de bonheur. Le logo de l’évènement « Transparency Camp » organisé dès 2009 par la Sunlight Foundation propose ainsi un remix intéressant des métaphores du cadenas et du bâtiment ouvert. La combinaison a toutefois un inconvénient : elle devient parfois difficile à comprendre pour celui qui la visualise…

Je suis sûr que vous aurez pu identifier d’autres figures classiques de la représentation de l’open data… Partagez-les dans les commentaires de ce billet !

Le mobile, la mobilité et l’open data


Vendredi soir dernier j’étais invité au lancement des HackDays de Transilien. La filiale Ile-de-France de la SNCF a ouvert des premiers jeux de données et organise un hackaton durant 48 heures à la Cantine de Paris. A cette occasion, j’ai traité du rapport entre le (téléphone) mobile, la mobilité (les transports) et les données ouvertes. Extrait de cette intervention. 

Pourquoi les applications mobiles pour les transports représentent-elles la face la plus visible de l’open data ? Comment expliquer le lien très fort entre le mobile, la mobilité et les données ouvertes ? Cet billet se propose d’explorer les dimensions de cette relation à trois. Une relation historique et relativement féconde.

1 – Le mobile et la mobilité : temps de transport, temps perdu ?

La téléportation, un moyen de transport ? (photo by PauliePaul)

Depuis plus de 50 ans, le temps de transport est resté globalement stable dans les pays développés. Chacun passe en moyenne une heure par jour à se déplacer – quel que soit le motif de ce déplacement (aller au travail, visiter des amis, faire du tourisme, se déplacer pour ses loisirs, …). Mais cette étonnante stabilité cache en réalité deux évolutions importantes, la première étant bien entendu l’accroissement des distances parcourues. La seconde évolution est liée à l’occupation de ce temps de transport.

On considère souvent le temps de transport comme du temps perdu, un temps à minimiser au maximum (l’évaluation économique d’un nouveau projet d’autoroute ou d’une nouvelle ligne de métro s’appuie d’ailleurs largement sur cette idée de temps à re-gagner). L’article « The Gift of travel time » publié en 2007 dans le très sérieux Journal of Transport Geography remet justement en cause ce dogme. Les deux chercheurs britanniques, sociologues des transports, se sont attachés à comprendre comment nous utilisons notre temps pendant que nous nous déplaçons.

Dans une bonne logique utilitariste, si le temps de transport est exclusivement un temps perdu, alors chacun d’entre nous devrait chercher à le réduire à zéro. D’où l’hypothèse de la téléportation que les deux chercheurs ont testé (on parle bien là d’hypothèse dans la mesure où la téléportation n’existe pas encore en dehors des films de science-fiction…) : « et si votre temps de transport était réduit à zéro et que vous puissiez vous rendre instantanément d’un point à l’autre, de votre bureau à votre salon ?« . Curieusement, peu de personnes interrogées se sont montrées intéressées par un tel scénario.

L’article explique que le temps de transport a une valeur en tant que telle pour les voyageurs. On parle notamment d’un temps de transition (transition time), d’un sas entre deux lieux, deux moments, deux rôles. Je quitte mon travail en fin de journée et mon trajet me permet aussi de me préparer à arriver dans mon foyer. Mais le plus intéressant dans cet article de 2007 est la notion de temps équipé. Si le temps de transport n’est pas exclusivement du temps perdu, c’est aussi parce que nous l’équipons d’un ensemble d’outils, numériques ou pas, pour le rendre « utile » mais pas seulement.

Equiper le temps de transport – avant l’iPhone (photo by Rockheim)

Bien avant l’arrivée de l’iPhone, on savait déjà « équiper » le temps de transport. La lecture d’un livre ou de la presse en est l’illustration. On peut d’ailleurs souligner que sans métro et RER, il n’y aurait pas de presse gratuite. La grande innovation, pour les voyageurs, date de 1979 et s’est vendu à plus de 200 millions d’exemplaires. Le Walkman propose une expérience inédite, celle de l’écoute musicale en ballade qui permet de se re-créer une bulle personnelle au milieu des autres passagers. En un mot, d’individualiser un transport collectif. Les téléphones mobiles permettent de passer des appels mais aussi d’envoyer des SMS. Cette dernière fonction, moins intrusive, est largement répandue dans les transports. Le succès de l’i-mode au Japon au début des années 2000 préfigure celui de l’Internet mobile. On explique d’ailleurs en partie cet engouement des japonais pour l’i-mode par le fait qu’ils sont de grands commuters

2 – Le smartphone : gagner du temps et faire passer le temps

Le smartphone réconcilie les deux temps du transport. Lorsque je consulte les horaires de passage de mon RER, que j’identifie la sortie la plus proche de ma correspondance, que je prépare mon prochain déplacement en réservant un billet de train et une chambre d’hôtel, que je confirme à ma compagne que je vais bien chercher notre fille à la crèche, je gagne du temps. Mais au cours du même trajet, je vais aussi regarder les résultats de mon équipe de foot favorite, visionner une vidéo de ma fille, perfectionner mon niveau à Angry Birds ou Cut the Rope, commenter la photo d’un ami sur Facebook ou signaler via Twitter qu’il y a des contrôleurs à Saint-Lazare… Bref je vais faire passer le temps (ou le « tuer »).

Le lien fort entre smartphone et mobilité tient en partie à cette double dimension de time-saver et time-killer. La proximité entre l’outil (le téléphone mobile) et l’activité (se déplacer) est naturelle : ils ont des gènes en commun.

3 – L’open data et le mobile : pourquoi d’abord des applications mobiles ?

Les applications mobiles représentent la face la plus visible de l’open data – au risque d’ailleurs d’occulter toutes les autres réutilisations possibles des données ouvertes. Comment peut-on expliquer cette sur-représentation ?

Apps For Democracy : l’un des tous premiers concours open data

Cela tient en partie au mode d’animation principal de l’open data, à savoir les concours. Les premiers concours de réutilisation des données ouvertes (Washington D.C., New-York, San Francisco, Chicago, Londres, …) sont des concours d’applications mobiles. Le contexte technologique n’y est sans doute pas étranger : dans les années 2008-2009 les applications mobiles deviennent à la mode. Quand Rennes lance son concours en 2010, l’accent est clairement mis sur ce type de réutilisation (comme plus récemment à Nantes ou en Saône-et-Loire d’ailleurs). L’open data des territoires oriente aussi les réutilisateurs vers des services utiles au quotidien – et les applications mobiles en font partie.

Il y a d’ailleurs une certaine ironie de l’histoire à faire des applications mobiles la face la plus visible de l’open data. Comme je l’ai déjà souligné dans un précédent billet, il n’y a pas d’open data sans open source. Or, que peut-on imaginer de plus antinomique à l’ouverture qu’une application mobile pour iPhone ? Si Tim Berners-Lee était déjà mort, il se retournerait dans sa tombe !

4 – La mobilité, une place à part

Enfin, la question de la mobilité et des transports occupe une place à part dans le domaine des données ouvertes. La demande des réutilisateurs est forte (voir par exemple les résultats de l’enquête menée par Socrata en 2011 ou celle réalisée pour mon bouquin en France). De tous les jeux de données ouvrables, ce sont ceux qui concernent la mobilité (au sens large : les transports collectifs mais aussi le vélo, la marche à pied, les parkings, …) qui sont les plus demandés.

C’est aussi dans le champ de la mobilité que l’on trouve le plus de réutilisation « sauvage » en cas de non-ouverture des données. Le cas de CheckMyMetro a été largement médiatisé, de même que les multiples déboires des développeurs avec l’exploitant du Vélib’.
Lors de mon récent déplacement à Montpellier, j’ai découvert le travail remarquable du développeur qui a crée Api Tam, une API qui permet d’interroger les horaires du réseau de transport montpelliérain. C’est du grand art : au lieu de développer une application mobile, il a conçu des outils qui permettent à tous les réutilisateurs d’utiliser les données pas encore ouvertes par l’opérateur local de transport (la TAM) … En prime, il reste fidèle à l’open source puisque tout est redistribué sur GitHub.

La demande pour ce type de données est forte et elle se traduit aussi par de nombreuses réalisations concrètes. La majorité des applications mobiles développées dans le cadre des concours (tant aux Etats-Unis qu’en Europe) ont un rapport avec cette thématique.

En conclusion, on voit donc bien que le lien entre le mobile, la mobilité et l’open data est fort et fécond. Reste la question de l’oeuf et de la poule, que j’ai encore un peu de mal à identifier avec précision. Est-ce que l’on a beaucoup d’applis de transport parce que les concours ont orienté les réutilisateurs vers ce type de développement ? L’appétit pour les données transport vient-il justement de cette orientation particulière qui date des années 2008-2009 ou est-elle plus générique ? Vos commentaires et éclairages sont les bienvenus !