J’ai testé Google Dataset Search, le moteur de recherche open data

Google vient de lancer en mode bêta Google Dataset Research un moteur de recherche dédié à la découverte des jeux de données ouvertes. L’annonce a été diversement accueillie au sein de la communauté de l’open data, certains y voyant une confirmation que l’open data est devenu un vrai sujet grand public, d’autres s’inquiétant du rôle que pourrait jouer à terme Google comme point d’accès unique à l’offre de données ouvertes.

Je vous propose dans ce billet de découvrir les fonctionnalités de ce nouveau outil, d’en expliquer rapidement le fonctionnement et in fine d’en montrer les limites. Car il n’y a pas de miracle: la découvrabilité des données est un problème complexe que Google, malgré sa bonne volonté et son expertise n’a pas (encore) réussi à résoudre.

Qu’est-ce Google Dataset Search ?

Google Dataset Search est accessible en ligne via un sous-domaine de Google.com. Le moteur de recherche fonctionne à la manière de Google Scholar: il référence des jeux de données indépendamment du portail sur lequel ils sont hébergés. 

De prime abord, l’utilisateur du moteur de recherche « classique » Google ne sera pas dépaysé: la page d’accueil propose un unique champ de recherche, comme sur le moteur Google.fr. Quand on commence à saisir une expression de recherche, un système d’auto-complétion vous propose plusieurs résultats.

L’auto-complétion de Google Dataset Search

L’auto-complétion montre rapidement ses limites dans cette version bêta. Ainsi si l’on commence à taper l’expression « réser … » (par exemple pour trouver la réserve parlementaire) Google Dataset Search nous renvoie une liste de résultats très hétéroclites, bien moins que cohérente que les suggestions de l’auto-complétion pour la même expression du moteur Google (ci-dessous): « réserve parlementaire, réservez votre ferry au meilleur prix (sic: le site est lancé depuis 1 semaine, mais les apprentis sorciers du SEO s’en emparent déjà!), information cadastrale pour la réserve indienne du village des Hurons Wendake, réserve de salmonidés de l’Estuaire de l’Orne, … »


On peut imaginer que cette fonctionnalité va s’améliorer avec le temps, cette première version ne disposant pas, pour l’instant, de retours utilisateurs pour déterminer les jeux de données les plus pertinents pour une requête. 

Le nombre de citations, une idée séduisante (dans l’absolu)

L’impression de familiarité qui se dégageait de la page d’accueil disparaît totalement dès la présentation des résultats. La liste figure à gauche (sous la forme d’onglets) et la page présente les méta-données du jeu de données ainsi que le logo du producteur, quand il est disponible.

Résultats pour la requête « réserve parlementaire »

Comme cela a déjà été souligné par d’autres, notamment ce billet de Singapour, l’expérience utilisateur n’est pas à la hauteur de la qualité à laquelle Google nous avait habitué, même en mode bêta. Ici le moteur ne propose ni recherche par facette, ni tri selon la date de fraîcheur ou format de fichier par exemple. C’est minimaliste.

Chaque résultat mentionne le titre du jeu de données, le ou les site(s) sur lesquels on peut le télécharger ainsi qu’un ensemble de métadonnées: la date de création, de dernière mise à jour, le nom du producteur, la licence et les formats disponibles. 

Plus intriguante est la fonction qui liste le nombre de citations du jeu de données dans Google Scholar (le portail de Google qui recense les articles scientifiques publiés en ligne). L’idée est très séduisante: compter le nombre d’articles scientifiques qui utilisent un jeu de données pourrait amener une autre manière de mesurer l’impact de l’open data. Hélas, trois fois hélas, là encore l’expérience proposée par Google Dataset Search est décevante. Sur les 158 articles qui sont censés citer les données de la réserve parlementaire, une très grande majorité ne font en réalité qu’évoquer l’existence de cette réserve parlementaire. Bien peu d’entre eux citent le jeu de données lui-même ou les données qu’il contient.

J’ai fait le même test sur les « prévisions Météo-France« , un jeu de données disponible sur data.gouv.fr et indexé par Google Dataset Search. Parmi les résultats liés dans Google Scholar on retrouve même un vieil article scientifique avec la phrase suivante: « faute d’accès aux prévisions Météo-France, nous avons eu recours à une autre source de données« . Ce qui compte comme une citation est donc en fait un non-usage (sic). 

Il y a donc encore du travail pour faire de cette métrique une mesure objective et fiable de l’utilisation des données ouvertes par la recherche.

Le problème de la découvrabilité

Le jugement peut paraître sévère mais, dans cette première version bêta, Google Dataset Search ne fait pas vraiment le job. Il répond de manière incomplète à l’enjeu principal, celui de la découvrabilité des jeux de données.

La découvrabilité est aujourd’hui l’une des grandes difficultés à laquelle nous sommes confrontés tant en France qu’à l’étranger. L’offre de données est plus importante que jamais, mais elle n’est pour autant pas facile à trouver.

Pourquoi ? On peut avancer plusieurs explications:

  • la multiplicité des portails et des sources de données: rien qu’au niveau français l’observatoire de l’open data des territoires a recensé plus d’une centaine de plateformes, portails ou sites web qui hébergent des données ouvertes, cela joue d’ailleurs clairement en faveur de Google Dataset Search qui offre un point d’accès unique,
  • l’extrême diversité des thématiques couvertes par les jeux de données et l’absence de standardisation pour une très grande majorité des jeux de données,
  • des niveaux de complétude des méta-données très variables d’un producteur à l’autre. Un jeu de données qui traite de la même thématique peut porter des titres très différents selon deux régions… alors on imagine ce que cela donne entre deux pays !
  • la difficulté à analyser le contenu lui-même des jeux de données, c’est à dire à ne pas se limiter aux méta-données.

Dans cet article de janvier 2017, publié sur le blog Google AI (tiens, tiens) et consacré justement au problème de la découvrabilité des jeux de données on peut y lire la phrase suivante: « there is no reason why searching for datasets shouldn’t be as easy as searching for recipes, or jobs, or movies« . Heu… Comment dire… ? Des raisons on en voit au contraire beaucoup, j’ai commencé ci-dessus à en citer quelques unes. Mais l’approche par les méta-données, telle que Google l’a retenu est un sacré pari.  

Ce pari, c’est celui de s’en remettre aux producteurs de données pour qu’ils fournissent des méta-données les plus complètes et les plus pertinentes possibles. L’expérience montre que le travail de sensibilisation des producteurs  sur ce point reste encore largement devant nous. Et c’est là que Google Dataset Search peut y contribuer.

Avec Google Dataset Search, le géant américain pourrait reproduire ce qu’il a déjà réussi dans le domaine de l’information transport: encourager les producteurs à adopter un standard (de données ou de méta-données) en leur faisant miroiter une visibilité accrue via leur présence dans les produits Google.

l

De la même manière que, pour apparaître dans Google Transit il faut publier ses données au format GTFS, pour apparaître dans Google Dataset Search il faut adopter le modèle de méta-données défini par schema.org, organisation à but non lucratif dont le premier sponsor est… Google.

L’alternative à cette approche par les méta-données consisterait à regarder le contenu lui-même des jeux de données pour être par exemple capable de reconnaître un identifiant comme un numéro SIRET. Or, comme le confirme cet article de Nature pour le moment Google n’a pas prévu de regarder le contenu des jeux de données eux-mêmes.

Comment faisait-on avant Google ?

Tous les éditeurs de plateforme de données ouvertes ont tenté, avec un succès plus ou moins relatif, de répondre à cet enjeu de découvrabilité. La recherche par facette, que l’on retrouve sur quasiment tous les portails, est un moyen de rendre les données plus faciles à identifier. Ainsi on peut raffiner progressivement les résultats d’une recherche en affinant sur le producteur, la date de mise à jour, la couverture géographique et bien d’autres critères. Data.gouv.fr, les plateformes OpenDataSoft ou encore Enigma et Socrata de l’autre côté de l’Atlantique procèdent ainsi. Certains proposent aussi des approches thématique, des tags, des catégories, etc. D’autres pistes consistent à identifier des liens entre les jeux de données, par exemple ceux qui partagent un identifiant commun.

Enigma enrichit la recherche avec des classifications, de la taxonomie et de l’éditorialisation (public.enigma.com)

Je ne dis pas que les solutions existantes sont parfaites. C’est encore très loin d’être le cas. Quand le catalogue de données est important il est parfois malaisé de savoir si une recherche infructueuse signifie que le jeu de données n’existe pas… ou qu’on n’a pas su le trouver ! 

Quelles implications pour l’open data ? 

A ce stade les producteurs de données et les responsables de plateformes open data n’ont rien à perdre à rendre leur offre découvrable par Google. Tout ce qui peut rendre un jeu de données plus facile à découvrir est bon à prendre.

L’impact en terme d’audience reste à confirmer, mais pour le moment il est faible. Pour data.gouv.fr par exemple, Google Dataset Search a amené la semaine dernière un peu plus de 550 visites … sur un total de 81 000. Bien sûr on peut imaginer que cet apport d’audience pourrait être beaucoup plus important si cette nouvelle fonctionnalité de recherche de données est à terme intégrée dans le moteur Google lui-même – au même titre que la recherche dans les images ou les actualités, qui étaient autrefois autant de produits Google distincts avant d’être intégrés dans le moteur principal.

Il sera alors temps de se poser la question du risque de désintermédiation des plateformes open data au profit du moteur de recherche, risque que nous avions déjà évoqué il y a quelques années pour les sites de cinéma…

Et vous, qu’en pensez-vous ? Faut-il se réjouir de cette nouvelle initiative ou s’en inquiéter ? 

5 ans d’open data: qu’avons-nous appris ?

J’étais l’invité hier à Lausanne de la conférence Opendata.ch/2016, le rassemblement annuel de la communauté suisse des données ouvertes. J’ai profité de l’occasion pour prendre un peu de recul sur mes cinq premières années d’open data. Retour sur les principaux éléments de cette présentation.

L’époque des chasseurs-cueilleurs

M0005264 Kirikoraha ceremony.

Kirikoraha ceremony, Sri Lanka, circa 1910 Credit: Wellcome Library, London

Il y a cinq ans, nous étions tous des chasseurs-cueilleurs. Nos « armes » étaient rudimentaires: nos bras, notre arc et quelques flèches. Ou plutôt: des lois sur le droit d’accès à l’information, un momentum politique au niveau international – dont l’icône était Obama version 2008 (c’est-à-dire avant Prism) -,  une soif de transparence exprimée par la société civile et des mouvements citoyens plus ou moins organisés.

C’était une belle époque. Mais comme tous les chasseurs-cueilleurs nous avons surtout « attrapé » les animaux les moins rapides et les fruits les plus accessibles selon l’expression consacrée (« low-hanging fruits »). Les jeux de données qui présentaient le plus d’enjeux , en termes de transparence mais aussi de potentiel économique nous restaient largement inaccessibles.

Des échelles pour cueillir les « fruits les moins accessibles »

Alors, comment attraper les fruits les moins accessibles ? L’Homme a inventé l’échelle – et l’homo data sapiens a fait pareil.

L0026403 Two men carrying a ladder. Colour lithograph.

Credit: Wellcome Library, London

Nous avons passé ces dernières années à imaginer, construire et poser des échelles. La première d’entre elles, cela a été de construire un rapport de force favorable, en mettant le sujet sur l’agenda politique. La seconde échelle, c’est de faire évoluer la loi – ou plutôt les lois. On a parfois critiqué la difficulté à s’y retrouver dans les nombreux textes qui parlent maintenant d’open data, qu’il s’agisse de la loi sur la gratuité des données (loi Valter), le projet de loi République numérique (loi Lemaire) et les multiples dispositions sectorielles (santé, transports, biodiversité, …). OK. Mais ce sont autant d’échelles qui ont été posées. La troisième échelle ce sont les engagements internationaux;  c’est à mon avis le bénéfice le plus concret que l’open data peut tirer de l’adhésion de la France à l’Open Government Partnership. Des engagements ont été pris et il y a déjà des résultats concrets, par exemple sur la commande publique. La quatrième échelle c’est de maintenir la pression citoyenne, qu’elle soit spontanée ou un peu téléguidée comme dans le cas récent de la pétition Citymapper vs. Ratp.

Donc, on a construit des échelles. Et on attrapé des fruits que nous regardions avec envie il y a quelques années encore, que ce soit dans le domaine de la transparence, de la santé, ou de l’économie.

50 nuances de data

A force de cueillir des fruits, on a fini par apprendre une leçon: toutes les données ne se ressemblent pas et ne génèrent pas les mêmes usages. Certaines relèvent du champ de la transparence et du « droit de demander des comptes à tout agent de son administration » (déclaration des droits de l’homme et du citoyen, 1789), par exemple la réserve parlementaire. D’autres ont un potentiel local de services (par exemple des horaires d’ouverture des équipements publics). Et certaines ont une place à part, car elles constituent des références (au sens des données de référence du service public de la donnée).

On a toujours eu un peu de mal à accepter cette idée dans le mouvement open data; de peur sans doute que l’administration soit la seule à décider de ce qui « mérite » d’être ouvert…

Produire, pas uniquement ouvrir

Progressivement les cueilleurs sont devenus des agriculteurs. Et nous avons fait de même: après nous être nous-même nourri de notre cueillette (« eat your own dog food !« ) nous avons commencé à produire nous-même des données. Je pense que la création de la Base adresse nationale représente à ce titre un tournant important, et le fait qu’elle associe des institutions comme La Poste ou l’IGN et les contributeurs d’OpenStreetMap est tout à fait essentiel. La culture de l’open se diffuse par capillarité: d’abord sur la diffusion des données puis maintenant sur leur mode de production lui-même. Les sciences participatives, qui ne datent pas d’hier, ont beaucoup de choses à nous apprendre sur ces pratiques.

L’ouverture est une bataille culturelle

Mais la principale leçon de ces cinq dernières années c’est que l’ouverture est une bataille culturelle. Ouvrir les données, les codes sources mais aussi plus globalement la manière de prendre des décisions et d’agir. Peut-être sommes nous convaincus que l’ouverture, la circulation et la collaboration sont des valeurs partagées par tous – mais c’est une bataille qui vient à peine de commencer. Je repense par exemple à ce sénateur qui répond à l’une de ses collègues que « la loi ne s’écrit pas avec les internautes » alors même que le texte dont ils discutaient avait fait l’objet d’une consultation tout à fait originale en ligne.

Le propre des batailles culturelles c’est qu’elles sont toujours longue à mener … Et il faut bien se l’avouer: nous baignons tellement dans le bouillon numérique que nous avons du mal avec le temps long et sommes naturellement plutôt portés sur les quick wins.

Etes-vous prêt pour les 15 prochaines années ?

 

 

Donnée brute ou donnée contextualisée ?

La mission gouvernementale Etalab lance une consultation autour de l’évolution du portail data.gouv.fr. Vous êtes invités à contribuer à cette démarche de co-design. C’est aussi l’occasion de repenser plus globalement la conception des portails open data… A quoi et à qui servent-ils ? Comment doit-on présenter les données ? Je vous propose une série de billets sur ce thème. Le premier traite de la donnée elle-même et de la tension entre donnée brute et donnée contextualisée…

1 – Un cas pratique : la fréquentation des musées

J’ai récemment animé un atelier de sensibilisation à l’open data pour les acteurs culturels d’une collectivité. A cette occasion, j’ai repéré un jeu de données disponible sur le portail gouvernemental. Ce fichier propose les chiffres de la fréquentation des musées de France, de 2006 à 2010. Je vous invite à télécharger celui qui concerne la région Bretagne (pour plus de facilité, je vous propose aussi une copie d’écran ci-dessous, que vous pouvez agrandir en cliquant).

(cliquer pour l'agrandir) - fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr

La fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr (cliquer pour agrandir l’image)

Le tableau présente les chiffres de fréquentation pour chaque « musée de France » situé dans la région. On a donc le nom du musée (ex. « musée des beaux-arts »), une ville, puis les chiffres de fréquentation répartis en 2 colonnes « total » et « grat ». On peut raisonnablement supposer qu’il s’agit des entrées gratuites (mais rien ne le précise formellement, ni dans le fichier, ni dans la fiche de métadonnées). D’autres colonnes précisent l’évolution de la fréquentation d’une année sur l’autre.

Le code couleur est expliqué en pied de page du fichier. La couleur noire représente des « données confidentielles », avec la mention « contacter le chef d’établissement », les autres couleurs viennent apporter des éléments de contexte sur la fréquentation de tel ou tel musée. En l’occurence il y est surtout question d’évènements exceptionnels susceptibles d’expliquer le chiffre de fréquentation : fermeture ou réouverture d’un musée, exposition temporaire ayant entraîné une fréquentation exceptionnelle, …

Plus intéressant, la première colonne du tableau contient un numéro de référence, qui **semble** être un identifiant unique accordé à chaque musée de France.

2 – La tension « brutification » vs. contextualisation

La lecture de ce fichier permet d’illustrer la tension entre deux tendances qui s’expriment aujourd’hui dans le monde de l’open data.

La première tendance est liée à une demande de « brutification ». Je reprends ici le terme évoqué par Samuel Goeta et Jérôme Denis pour décrire l’une des actions qui se déroulent dans les coulisses de l’open data (le thème de la thèse de Samuel à Telecom Paris Tech).

Pour permettre la mise en place d’un ensemble de services sur le portail open data, il faudrait que la donnée proposée soit la plus brute possible (et je parle bien là d’une donnée brute techniquement, pas en termes sociologiques).

Parmi ces « services » on peut citer par exemple la pré-visualisation des jeux de données sans avoir à ouvrir le fichier (une fonctionnalité très utile et déjà mis en oeuvre ailleurs), la datavisualisation ou représentation cartographique par défaut (un exemple ici), ou enfin même les API (des interfaces de programmation qui font aujourd’hui cruellement défaut dans la plupart des portails, à quelques exceptions près). Sans même parler d’un pas vers le web des données et le Linked Data, une attente forte des acteurs du web sémantique.

Reprenons le fichier sur la fréquentation des musées : pour proposer tous ces services il faudrait donc faire un travail *supplémentaire* de brutification : retirer les codes couleurs, ignorer les colonnes qui proposent une donnée recalculée (le taux d’évolution d’une année sur l’autre, les totaux, …) et plus globalement retirer tout ce qui concerne la mise en forme du fichier. On pourrait d’autre part mieux utiliser des données qui y figurent déjà, ainsi le fameux numéro de référence.

J’ai trouvé sur le portail un autre fichier qui fournit des informations complémentaires sur les musées de France : leur adresse postale, le site web, les horaires et jours d’ouverture. Problème : ce fichier ne propose aucun identifiant unique. On a là une occasion manquée de permettre une mise en relation et un enrichissement de deux fichiers (open data 1 – web sémantique 0).

La donnée proposée ici n’est donc pas tout à fait « brute » … mais elle n’est pas tout à fait contextualisée non plus !

La seconde demande qui émerge – et qui de prime abord peut sembler contradictoire avec la brutification – est liée à la contextualisation de la donnée.

J’ai déjà eu l’occasion ici de parler de l’importance d’une lecture critique des données. Si l’on considère le fichier sur la fréquentation des musées, ce besoin de contextualisation apparaît rapidement : qu’est-ce qu’un « musée de France » ? comment les données de fréquentation sont-elles collectées ? quel est l’usage initial des données ? qui la collecte et pour quoi faire ? Et enfin, la meilleure : pourquoi certaines données sont-elles considérées comme « confidentielles » (celles dont les cases portent la couleur noire) ?

La réponse à bon nombre de ces questions se trouve sur le site du Ministère de la Culture (précision importante : j’ai trouvé cela via Google, pas depuis la fiche de métadonnées). On y apprend qu’un service du ministère publie annuellement un très intéressant document de 75 pages, appelé « MuséoStat« . J’ai ainsi pu comprendre que le terme « musée de France » correspond à une appellation officielle (accordée et retirée par les services du ministère), que les variations de fréquentation sont très souvent liées à des expositions temporaires (d’où l’importance des annotations colorées), que la notion de gratuité a elle aussi une définition officielle précise, …

Le document reproduit aussi le questionnaire envoyé aux différents responsables de musée, questionnaire très détaillé puisqu’il précise aussi le mode de mesure de la fréquentation (comptage manuel, automatisée, estimation, …). Enfin, on peut apercevoir en fin de questionnaire une case à cocher par les répondants : « acceptez-vous que ces chiffres soient diffusés ? ». Voilà donc l’origine de cette formule un peu ambigüe de « données confidentielles » !

Cette demande de contextualisation me semble tout aussi pertinente que la demande de brutification du jeu de données. On doit pouvoir y répondre en repensant profondément la manière de documenter les jeux de données – c’est à la fois le rôle des métadonnées mais aussi plus globalement la fonction éditoriale des portails open data.

3 – Sortir de l’opposition « qualité vs. quantité » des données

Le fichier de la fréquentation des musées ne représente bien sûr pas à lui seul la diversité et la richesse des jeux de données disponibles, sur data.gouv.fr ou ailleurs … Mais cet exemple illustre quand même je pense la situation actuelle : des données ni tout à fait brutes, ni tout à fait contextualisées.

La particularité du ni-ni est qu’il ne satisfait ni ceux qui attendent des services plus poussés (API, Linked Data pour les développeurs), ni ceux qui militent pour une meilleure appropriation des données par tous (façon Infolab) – bien qu’ils ne faillent pas opposer les uns et les autres.

Dans le débat qui va s’ouvrir sur les fonctions des portails open data, il y a à mon avis un écueil majeur à éviter : réduire cela à une opposition « qualité vs. quantité » des jeux de données.

La qualité ne peut s’évaluer qu’à l’aune de l’objectif : un développeur, un chercheur ou un associatif qui veut évaluer la fréquentation des musées de sa région ont tous besoin de fichiers de qualité.

C’est la manière dont ils expriment ce besoin qui diffère (notre tension brutification / contextualisation). Il nous faut donc à la fois de la qualité ET de la quantité…

4 – De qui est-ce le travail ?

Reste la question du rôle de chaque acteur impliqué : qui doit assurer ces tâches de brutification et de contextualisation ? Est-ce la mission du service détenteur de la donnée ou du service qui met en oeuvre le portail, en l’occurence Etalab ? Les réutilisateurs  enrichissent eux-aussi les jeux de données, par exemple en reliant deux fichiers via des identifiants, peut-on imaginer qu’un portail officiel puisse héberger, ou faire un lien vers le fruit de leur travail ?

On voit qu’à partir d’une question précise – quelles fonctions pour les portails open data ? – on en arrive à interroger le périmètre même des portails et des organisations qui les mettent en oeuvre…

4 pistes pour un open data des biens communs

A l’occasion du lancement de l’antenne française de l’Open Knowledge Foundation le 12 décembre à la Cantine Paris, je suis intervenu pour présenter 4 pistes pour un open data des biens communs. Retour sur cette intervention sous forme d’interpellation…

L’open data et les biens communs, une (trop) vieille histoire ?

"Open Data Commons" (photo by jwyg)

« Open Data Commons » (photo by jwyg)

Il y a une filiation entre le mouvement d’ouverture des données et la philosophie des biens communs. Les données ouvertes sont une illustration de la notion de biens communs informationnels proposé par Elinor Ostrom, « prix Nobel » d’économie en 2009. Les données ouvertes nous appartiennent à tous et, contrairement à l’eau ou à l’air (d’autres biens communs), elles sont dites non-soustractibles : leur usage par l’un n’empêche pas les usages par les autres. En d’autres termes : si je réutilise une donnée ouverte, cela n’empêche pas un autre réutilisateur de faire de même.

Cette proximité biens communs / open data se traduit aussi par la présence de l’instigateur des licences Creative Commons, Lawrence Lessig lors de la réunion de Sebastopol de 2007 qui a permis de définir le concept même de données publiques ouvertes.

Malgré cette relation historique et féconde, il me semble que nous, acteurs de l’open data, sommes parfois trop timides à réaffirmer le caractère commun de certaines données ouvertes. Trop timides parce que, contents que l’idée d’open data fasse son chemin auprès des acteurs publics et privés, nous ne voulons pas en rajouter… Les quatre pistes que je propose et détaille ici ne visent donc qu’un objectif : ne pas lâcher l’affaire sur le sujet !

Piste 1 : défendre un vrai choix en matière de licences open data (pro-choice)

Sur le papier, cela semble clair : il y a en France un vrai choix en matière de licences open data. D’un côté la licence ouverte proposée par Etalab, de l’autre l’ODbL. Les services de l’Etat se doivent d’utiliser la première, certaines collectivités ont choisi la seconde solution, en revendiquant de manière plus ou moins affirmée le caractère commun des données ouvertes.

Dans la pratique, le choix apparent se heurte aux difficultés, réelles ou perçues, liées à la licence ODbL. Je rappelle que ce qui distingue les deux licences c’est l’obligation de partage à l’identique (le share-alike) qui répond clairement à un enjeu de pot commun (si j’utilise, je dois recontribuer). Entendez-vous la petite musique qui monte et qui met en garde contre le recours à une licence « contaminante » (terme preféré à celui de « virale ») ? L’ODbL est accusée d’être anti-business, d’être venue de l’étranger, d’être source de dangers imprévisibles (le risque de contrefaçon de bonne foi), …

Nous nous retrouvons donc dans la situation où, au moment même où les grands projets collaboratifs (comme Open Street Map) adoptent l’ODbL, les nouveaux entrants de l’open data appliquent parfois, en toute bonne foi, le principe du moindre effort : « ça a l’air compliqué ce truc de partage à l’identique, on a pas une vision très claire des risques potentiels, je vais plutôt choisir la licence ouverte« .

Il me semble qu’en tant qu’instigateur de la licence ODbL, l’Open Knowledge Foundation devrait en être le premier promoteur*, pour en expliquer les mécanismes, les obligations et les opportunités (et pas uniquement celle d’embêter Google). Pour qu’un vrai choix soit possible en matière de licences open data (pro-choice !).

La licence a elle seule ne saurait garantir le caractère commun des données ouvertes. Je propose trois autres pistes d’action et de réflexion.

Piste 2 : la D.I.G. : donnée d’intérêt général

Prenons un problème qui nous concerne tous et que nous avons abordé lors d’un récent atelier Net:Lab : le logement et son accessibilité. Qui possède aujourd’hui l’une des meilleures visions du marché de la location ? Qui recense avec la plus grande acuité et en temps réel le montant des loyers, avec une adresse et un descriptif précis du logement ? Un indice : ce ne sont ni les mairies, ni les services des impôts, ni même le ministère du logement… mais un acteur privé de la petite annonce immobilière.

En France, on a une loi pour la donnée personnelle (loi CNIL), une autre pour la donnée publique (loi CADA)… Mais quid des données – personnelles, publiques ou privées – dont l’ouverture répond à l’intérêt général ? En ayant une vision plus claire et dynamique des loyers pratiqués, on pourrait imaginer que tout un chacun soit mieux informé sur les prix réels du marché (en prenant soin, bien sûr, de limiter les efforts de bord de la transparence).

Sans aller jusqu’à la réquisition des données (comme celle des logements vacants), on peut imaginer une fiscalité du numérique qui encouragerait la mise à disposition de ces données par les acteurs privés. Il y a bien un crédit d’impôt recherche, pourquoi pas un crédit d’impôt open data ?

Il faudrait donc, comme cela a déjà été évoqué, définir une nouvelle classe de données, la D.I.G. (donnée d’intérêt général) à laquelle serait associée des droits particuliers d’accès et de réutilisation… « Tout ne s’arrête pas au clivage public / privé« .

(Bien évidemment, la D.I.G. pose autant de questions qu’elle n’apporte de réponses. En voilà une première : qui va définir l’intérêt général ?).

Piste 3 : le peering de contribution : je contribue / je reçois

Le premier temps de l’open data a vu des acteurs publics (collectivités ou gouvernements) mettre des données ouvertes à la disposition des réutilisateurs, principalement des développeurs.

L’open data qui est en train d’émerger est infiniment plus riche et plus complexe. La répartition des rôles entre producteur et réutilisateur de la donnée semblait bien établie, elle évolue pourtant : les données publiques et collaboratives commencent à s’enrichir mutuellement, des entreprises travaillent à rendre à leurs clients une partie des données les concernant. Dès lors, comment concevoir des mécanismes de contribution qui tiennent compte de ces évolutions dans une optique de « pot commun des données » ?

La troisième piste est celle d’un peering de contribution, tel qu’il existe déjà pour les données de positionnement des bateaux (données AIS). Le site collaboratif Marine Traffic lancé en 2007 est aujourd’hui le premier site de suivi du trafic maritime mondial. Plus de 1000 contributeurs (équipés d’un récepteur AIS connecté à Internet) permettent de suivre quotidiennement les mouvements de 65 000 bateaux. Le site affiche aujourd’hui deux millions de pages vues… par jour (source : entretien S. Chignard avec Dimitris Lekkas, l’universitaire grec à l’origine du projet).

Tout un chacun peut visualiser les données à partir de la carte proposée sur le site, mais celui qui veut accéder aux données brutes peut le faire à la condition expresse de contribuer à la couverture du service en connectant un nouveau récepteur AIS… Le peering de contribution encourage donc bien chacun à participer à l’amélioration du service (Marine Traffic n’est pas le seul site à procéder ainsi, voir par exemple AIS Hub qui propose des conditions encore plus permissives).

Piste 4 : la tarification contributive à l’usage (GET > POST)

Dernière piste de travail, la tarification à l’usage, déjà évoquée sur ce blog à propos des données transport. Il s’agit de penser un modèle de tarification mixte pour l’usage des données. Les API se prêtent particulièrement bien à ce mode de fonctionnement.

On peut imaginer que l’accès à nos D.I.G. soit gratuit pour tous, mais qu’une contribution soit demandée aux plus gros utilisateurs de l’API qui ont un comportement proche de celui du passager clandestin (j’utilise sans jamais contribuer). Libre ensuite à chacun de choisir s’il veut contribuer en améliorant la donnée (en la mettant à jour, en la corrigeant, …) ou en payant de sa poche !

* quelques pistes, ludiques et sérieuses, pour promouvoir la licence ODbL en France : une campagne de communication « j’ai été contaminée et j’en suis très heureuse » (avec des témoignages de bases de données en ODbL), un séminaire pratique pour les collectivités, un guide pratique en français avec une réponse aux questions fréquentes, une hotline « toutes vos questions sur l’ODbL », un ODbL-day pour mettre en valeur les données publiées sous cette licence, une infographie « toutes ces données sous proposées sous licences ODbL » ….

Mais pourquoi contribue-t-on ?

La question des motivations revient dès que l’on évoque les mécanismes de contribution dans l’open data ou les données collaboratives. On a parfois du mal à comprendre pourquoi des individus a priori sains de corps et d’esprit consacrent une partie de leur temps libre à ce type d’activité, qu’il s’agisse de développer une application mobile sans grand espoir de gain, ou de cartographier son quartier pour Open Street Map…

Les processus contributifs et participatifs sont au coeur de l’open data. Dans le concours organisé par Rennes Métropole en 2010, deux tiers des participants étaient des particuliers. Il y avait certes parmi eux quelques apprentis entrepreneurs et quelques rares militants de la cause du logiciel libre et de l’open source, mais plus généralement les motivations n’étaient ni pécuniaires ni politiques. Dès lors, pour sortir de l’image d’Epinal du geek à la vie sociale (entendez : vie sexuelle) limitée, il m’a semblé intéressant de se pencher sur la question : mais, diable, pourquoi contribue-t-on ?

1 – Une approche par les motivations : mais pourquoi contribuez-vous ?

Une recherche sur le sujet à partir de la littérature scientifique (références des travaux universitaires utilisés à la fin de ce billet) m’a permis de recenser quelques ressorts de la motivations des contributeurs.

En résumé, les grandes catégories de motivations sont :

– la réciprocité : « je le fais parce que j’aimerai qu’on le fasse pour moi »
– le sentiment d’utilité : « je le fais parce c’est utile pour moi / pour ma communauté »
– l’appartenance, l’identité, l’affiliation : « je le fais parce que je crois aux valeurs du projet / ça me ressemble / ça me constitue / en opposition à quelque chose »
– le jeu et l’apprentissage : « je le fais parce que c’est amusant / parce que j’apprends des choses »
– la recherche du gain (direct ou indirect) : « je le fais parce que je vais y gagner quelque chose, plus ou moins directement »
– la réputation : « ce que je fais contribue aussi à ma réputation sur le sujet »
– le sentiment de communauté : « avec QUI je partage est aussi important que CE QUE je partage »

Bien entendu ces motivations sont aussi à mettre en relation avec deux autres facteurs :

– la dimension sociale : avec qui je partage ma contribution : des gens que je connais ou j’apprécie, des proches, des inconnus, tout le monde, …
– et enfin la dimension temporelle : dans quelle situation je me trouve à ce moment-là. Je peux être contributeur à un moment donné et pas du tout à un autre moment, sur le même sujet.

2 – Ni Mère Theresa, ni Rockfeller : des pratiques et des niveaux d’engagements variés

Les entretiens que j’ai pu mener auprès des développeurs qui participent à l’open data font bien apparaître une grande variété dans les motivations, ni totalement altruistes, ni totalement orientées vers la recherche d’un profit immédiat. Le jeu, l’apprentissage, la recherche de la notoriété (gagner le concours, ce n’est pas seulement toucher un chèque), la compétition aussi (faire mieux que le voisin) sont des motivations courantes.

J’ai aussi noté que, pour nombre de développeurs locaux, le fait que le concours se passe dans leur ville de résidence (ou de travail) n’était pas anodin. Les sentiments d’appartenance, d’utilité et de communauté se combinent : je développe une application utile pour les habitants de ma ville… parce que j’y habite aussi. D’après l’enquête menée par Socrata aux Etats-Unis, le sentiment d’utilité était l’une des toutes premières motivations citées par les réutilisateurs.

Message donc à ceux qui voient en eux de doux rêveurs qui se font gentiment exploiter : la plupart des réutilisateurs sont bien conscients que la fortune n’est pas au bout de l’App Store…

3 – Ne pas sous estimer le facteur d’opposition

Il est un facteur que j’ai souvent vu à l’oeuvre, de manière plus ou moins explicite dans la production de données collaboratives : l’opposition. Se donner un ennemi commun c’est un bon moyen de se fédérer (c’est aussi valable dans d’autres domaines : j’en tiens pour preuve le « tout sauf Sarkozy » ou le « tout sauf Ségolène » en 2007).

Open Street Map est souvent cité comme le meilleur exemple des processus contributifs, au même titre que Wikipédia. Au-delà de leur engagement pour une connaissance plus libre, il y a aussi bien sûr une part d’opposition à un ordre établi. Pour OSM, il me semble clair que l’opposition à Google – et à l’IGN – a pu (peut encore ?) jouer un rôle de motivation pour certains contributeurs, comme en témoignent les débats pour l’adoption de la licence ODbL.

La contribution ne se limite pas à Open Street Map ou à Wikipédia, on la retrouve parfois dans des actes en apparence plus anodins ou moins engageants. Ainsi, j’ai étudié l’an dernier l’émergence de comptes Twitter d’alertes contrôleurs dans les principaux réseaux de transport urbain de France. Ces comptes, créés et alimentés par des particuliers fournissent une information précieuse : la localisation des contrôles en cours dans le métro, le tram ou les bus. J’ai été frappé par le profil de la plupart des contributeurs et organisateurs de ces comptes : soit ils ne sont pas utilisateurs du réseau de transport, soit ils l’utilisent mais sont abonnés. En clair : ils ne sont pas a priori les destinataires du service et n’ont pas d’intérêt personnel à la fraude !

Il y a clairement dans cette pratique une part de jeu, mais aussi d’appartenance et d’opposition à un « ennemi » commun : l’exploitant du réseau de transport (« fuck la RATP !« ). Je me suis enfin souvenu que, sur la route des vacances, mon père pratiquait l’appel de phares entre conducteurs, une pratique non recommandable dont l’alerte contrôleurs pourrait être le pendant numérique. Pourquoi faisait-il celà ? Bien sûr pour la réciprocité attendue (« je le fais parce que j’aimerai que l’on fasse pour moi), le jeu, l’appartenance à la communauté des conducteurs qui ont déjà payé une amende pour excès de vitesse, mais aussi bien sûr par opposition au gendarme. Précisons enfin pour conclure que le père de ma mère était gendarme. Donc, si mon propre père faisait des appels de phare, c’était sans doute aussi un peu pour emmerder ma mère. Une motivation bien réelle mais qui dépasse largement le cadre de ce billet 😉

— Quelques lectures scientifiques que je vous conseille si le sujet vous intéresse :

«Mere Belonging» Gregory Walton et alii., Journal of Personality and Social psychology 2012 et «Motivation, reward size and contribution in idea crowdsourcing»,  Oguz Ali Acar, paper to be presented at DIME Conference 2011, Denmark

De retour de Bordeaux

En passant

J’étais hier à Bordeaux pour y parler Open Data à l’invitation de la Coopérative métropolitaine. A cette occasion, je vous invite à lire l’interview réalisée par l’AEC (Aquitaine Europe Communication) sur le thème de l’appropriation des données. Ma présentation a donné lieu à un article de Cap Sciences « L’open data est une clé à molette » (la photo est sympa et en plus, je viens juste de changer de lunettes).

« S’il te plaît… dessine-moi l’open data »

Comment représenter et illustrer l’ouverture des données ? Quelles sont les métaphores graphiques les plus courantes pour représenter le mouvement open data ? Ce billet propose sans prétention aucune un premier recensement des figures imposées des données ouvertes, de la plus simple à la plus complexe…

(image par loop_oh sur Flickr)

« S’il te plaît … dessine-moi l’open data » : la demande revient souvent de la part de journalistes à la recherche d’illustrations sur les données ouvertes. Pas évident en effet de représenter l’open data : les mêmes métaphores reviennent très souvent pour illustrer les articles (un exemple ci-contre).

Cette approche par les représentations graphiques est un bon moyen de rentrer dans un univers et d’en saisir quelques facettes. En termes savants, cela s’appelle une recherche iconographique, mais plus prosaïquement on peut commencer par une recherche à l’aide de Google Images. Faîtes l’expérience avec le terme « ville intelligente » et vous verrez rapidement le mode de représentation dominant : des villes toujours verticales, souvent futuristes (les représentations en 3D et les vues d’artistes dominent) et dans tous les cas des villes où la place de l’humain est réduite. Bref, une vision de la ville intelligente tout droit sortie des récits de science-fiction… Qu’en est-il pour l’open data ? J’ai cherché les métaphores les plus courantes, à partir de Google Images mais aussi en regardant les comptes Flickr des organisations qui font la promotion du mouvement d’ouverture des données (Open Knowledge Foundation, Sunlight Foundation, Libertic).

1 – La métaphore du petit commerce : « entrez, c’est ouvert »

(source : OKFN)

Première métaphore rencontrée, celle du panneau annonçant que le commerce est ouvert. On reste dans une approche très simple (ouvert / open) et je ne crois pas qu’il faille y voir une allusion au potentiel économique et commercial de l’open data – ou alors sous une forme très très subliminale… L’image renvoie aussi immédiatement aux pays anglo-saxons. Peut-on d’ailleurs vraiment parler de métaphore dans ce cas ?

Dans le même ordre d’idée que cette image, on peut aussi citer la célèbre photo des stickers « Open Data » en bleu et blanc. Pas vraiment de signifiant profond, mais plutôt le révélateur d’un manque d’imagination … ou d’un manque de budget pour payer des illustrations !

2 – La métaphore de la clé à molette : la figure du hacker

Un grand classique de l’open data. Initialement développée par l’Open Knowledge Foundation (OKFN), reprise et adaptée, notamment en France par Libertic, l’idée de la clé à molette est déjà plus intéressante que celle du commerce. Elle renvoie à l’imaginaire du bricoleur, de la bidouille, bref du « hacker » dans sa définition première.

(source : OKFN)

La clé à molette, c’est un outil dans la mallette de celui qui intervient pour réparer quelque chose (la démocratie ?). En plus, la clé à molette permet d’ouvrir et donc de débloquer ce qui coince… a priori c’est une image positive et qui colle bien à l’idéal d’ouverture. Soit dit en passant, vous aurez remarqué que l’outil peut aussi servir à serrer et à fermer (en tous cas, je l’ai bien noté dimanche dernier en réglant la selle du vélo de mon fils). Intéressant double-sens donc que la métaphore de l’open data puisse aussi servir à « serrer la vis » 😉

3 – La métaphore du cadenas ouvert : la libération et le trésor

Troisième métaphore identifiée, celle du cadenas. On la retrouve sous plusieurs formes, plus ou moins complexes, certaines avec des 0 et des 1 en toile de fond (les données numériques). Le cadenas est déjà ouvert sur toutes les représentations que j’ai pu identifier. Il a dû servir à protéger un trésor (les données publiques ?), un coffre ou une mallette. On reste bien évidemment dans l’idée de la « libération » des données que jusqu’ici les détenteurs gardaient jalousement à l’abri des regards et des réutilisateurs. Curieusement je n’ai identité que quelques rares images avec des menottes : la donnée n’est donc pas personnifiée (ce qui pourtant aurait fait une bonne métaphore de la libération, non ?).

4 – La métaphore du bâtiment ouvert : l’open gouvernement

(source : Libertic)

Cette quatrième métaphore a été repérée par Samuel Goeta dans son mémoire du CELSA « Open Data : qu’ouvre-t-on avec les données publiques ? » (page 24, mais plus globalement je vous en conseille chaudement la lecture). On y voit un bâtiment symbolisant le pouvoir (le Capitole) dont la toiture s’ouvre sous l’effet de l’open data.

Samuel fait remonter son origine au premier concours AppsForDemocracy organisé à Washington D.C. en 2007. L’image a depuis été reprise et adaptée partout dans le monde. Sa dernière résurgence est nantaise. La métaphore est intéressante : ouvrir les données c’est ouvrir le toit du lieu où se prennent les décisions politiques. L’image résume la transparence, l’approche du gouvernement ouvert (open government), le regard public (public scrutiny).

5 – Et plein de combinaisons possibles

(source : Sunlight Foundation)

On peut bien sûr combiner ces différentes métaphores, avec plus ou moins de bonheur. Le logo de l’évènement « Transparency Camp » organisé dès 2009 par la Sunlight Foundation propose ainsi un remix intéressant des métaphores du cadenas et du bâtiment ouvert. La combinaison a toutefois un inconvénient : elle devient parfois difficile à comprendre pour celui qui la visualise…

Je suis sûr que vous aurez pu identifier d’autres figures classiques de la représentation de l’open data… Partagez-les dans les commentaires de ce billet !

Le mobile, la mobilité et l’open data


Vendredi soir dernier j’étais invité au lancement des HackDays de Transilien. La filiale Ile-de-France de la SNCF a ouvert des premiers jeux de données et organise un hackaton durant 48 heures à la Cantine de Paris. A cette occasion, j’ai traité du rapport entre le (téléphone) mobile, la mobilité (les transports) et les données ouvertes. Extrait de cette intervention. 

Pourquoi les applications mobiles pour les transports représentent-elles la face la plus visible de l’open data ? Comment expliquer le lien très fort entre le mobile, la mobilité et les données ouvertes ? Cet billet se propose d’explorer les dimensions de cette relation à trois. Une relation historique et relativement féconde.

1 – Le mobile et la mobilité : temps de transport, temps perdu ?

La téléportation, un moyen de transport ? (photo by PauliePaul)

Depuis plus de 50 ans, le temps de transport est resté globalement stable dans les pays développés. Chacun passe en moyenne une heure par jour à se déplacer – quel que soit le motif de ce déplacement (aller au travail, visiter des amis, faire du tourisme, se déplacer pour ses loisirs, …). Mais cette étonnante stabilité cache en réalité deux évolutions importantes, la première étant bien entendu l’accroissement des distances parcourues. La seconde évolution est liée à l’occupation de ce temps de transport.

On considère souvent le temps de transport comme du temps perdu, un temps à minimiser au maximum (l’évaluation économique d’un nouveau projet d’autoroute ou d’une nouvelle ligne de métro s’appuie d’ailleurs largement sur cette idée de temps à re-gagner). L’article « The Gift of travel time » publié en 2007 dans le très sérieux Journal of Transport Geography remet justement en cause ce dogme. Les deux chercheurs britanniques, sociologues des transports, se sont attachés à comprendre comment nous utilisons notre temps pendant que nous nous déplaçons.

Dans une bonne logique utilitariste, si le temps de transport est exclusivement un temps perdu, alors chacun d’entre nous devrait chercher à le réduire à zéro. D’où l’hypothèse de la téléportation que les deux chercheurs ont testé (on parle bien là d’hypothèse dans la mesure où la téléportation n’existe pas encore en dehors des films de science-fiction…) : « et si votre temps de transport était réduit à zéro et que vous puissiez vous rendre instantanément d’un point à l’autre, de votre bureau à votre salon ?« . Curieusement, peu de personnes interrogées se sont montrées intéressées par un tel scénario.

L’article explique que le temps de transport a une valeur en tant que telle pour les voyageurs. On parle notamment d’un temps de transition (transition time), d’un sas entre deux lieux, deux moments, deux rôles. Je quitte mon travail en fin de journée et mon trajet me permet aussi de me préparer à arriver dans mon foyer. Mais le plus intéressant dans cet article de 2007 est la notion de temps équipé. Si le temps de transport n’est pas exclusivement du temps perdu, c’est aussi parce que nous l’équipons d’un ensemble d’outils, numériques ou pas, pour le rendre « utile » mais pas seulement.

Equiper le temps de transport – avant l’iPhone (photo by Rockheim)

Bien avant l’arrivée de l’iPhone, on savait déjà « équiper » le temps de transport. La lecture d’un livre ou de la presse en est l’illustration. On peut d’ailleurs souligner que sans métro et RER, il n’y aurait pas de presse gratuite. La grande innovation, pour les voyageurs, date de 1979 et s’est vendu à plus de 200 millions d’exemplaires. Le Walkman propose une expérience inédite, celle de l’écoute musicale en ballade qui permet de se re-créer une bulle personnelle au milieu des autres passagers. En un mot, d’individualiser un transport collectif. Les téléphones mobiles permettent de passer des appels mais aussi d’envoyer des SMS. Cette dernière fonction, moins intrusive, est largement répandue dans les transports. Le succès de l’i-mode au Japon au début des années 2000 préfigure celui de l’Internet mobile. On explique d’ailleurs en partie cet engouement des japonais pour l’i-mode par le fait qu’ils sont de grands commuters

2 – Le smartphone : gagner du temps et faire passer le temps

Le smartphone réconcilie les deux temps du transport. Lorsque je consulte les horaires de passage de mon RER, que j’identifie la sortie la plus proche de ma correspondance, que je prépare mon prochain déplacement en réservant un billet de train et une chambre d’hôtel, que je confirme à ma compagne que je vais bien chercher notre fille à la crèche, je gagne du temps. Mais au cours du même trajet, je vais aussi regarder les résultats de mon équipe de foot favorite, visionner une vidéo de ma fille, perfectionner mon niveau à Angry Birds ou Cut the Rope, commenter la photo d’un ami sur Facebook ou signaler via Twitter qu’il y a des contrôleurs à Saint-Lazare… Bref je vais faire passer le temps (ou le « tuer »).

Le lien fort entre smartphone et mobilité tient en partie à cette double dimension de time-saver et time-killer. La proximité entre l’outil (le téléphone mobile) et l’activité (se déplacer) est naturelle : ils ont des gènes en commun.

3 – L’open data et le mobile : pourquoi d’abord des applications mobiles ?

Les applications mobiles représentent la face la plus visible de l’open data – au risque d’ailleurs d’occulter toutes les autres réutilisations possibles des données ouvertes. Comment peut-on expliquer cette sur-représentation ?

Apps For Democracy : l’un des tous premiers concours open data

Cela tient en partie au mode d’animation principal de l’open data, à savoir les concours. Les premiers concours de réutilisation des données ouvertes (Washington D.C., New-York, San Francisco, Chicago, Londres, …) sont des concours d’applications mobiles. Le contexte technologique n’y est sans doute pas étranger : dans les années 2008-2009 les applications mobiles deviennent à la mode. Quand Rennes lance son concours en 2010, l’accent est clairement mis sur ce type de réutilisation (comme plus récemment à Nantes ou en Saône-et-Loire d’ailleurs). L’open data des territoires oriente aussi les réutilisateurs vers des services utiles au quotidien – et les applications mobiles en font partie.

Il y a d’ailleurs une certaine ironie de l’histoire à faire des applications mobiles la face la plus visible de l’open data. Comme je l’ai déjà souligné dans un précédent billet, il n’y a pas d’open data sans open source. Or, que peut-on imaginer de plus antinomique à l’ouverture qu’une application mobile pour iPhone ? Si Tim Berners-Lee était déjà mort, il se retournerait dans sa tombe !

4 – La mobilité, une place à part

Enfin, la question de la mobilité et des transports occupe une place à part dans le domaine des données ouvertes. La demande des réutilisateurs est forte (voir par exemple les résultats de l’enquête menée par Socrata en 2011 ou celle réalisée pour mon bouquin en France). De tous les jeux de données ouvrables, ce sont ceux qui concernent la mobilité (au sens large : les transports collectifs mais aussi le vélo, la marche à pied, les parkings, …) qui sont les plus demandés.

C’est aussi dans le champ de la mobilité que l’on trouve le plus de réutilisation « sauvage » en cas de non-ouverture des données. Le cas de CheckMyMetro a été largement médiatisé, de même que les multiples déboires des développeurs avec l’exploitant du Vélib’.
Lors de mon récent déplacement à Montpellier, j’ai découvert le travail remarquable du développeur qui a crée Api Tam, une API qui permet d’interroger les horaires du réseau de transport montpelliérain. C’est du grand art : au lieu de développer une application mobile, il a conçu des outils qui permettent à tous les réutilisateurs d’utiliser les données pas encore ouvertes par l’opérateur local de transport (la TAM) … En prime, il reste fidèle à l’open source puisque tout est redistribué sur GitHub.

La demande pour ce type de données est forte et elle se traduit aussi par de nombreuses réalisations concrètes. La majorité des applications mobiles développées dans le cadre des concours (tant aux Etats-Unis qu’en Europe) ont un rapport avec cette thématique.

En conclusion, on voit donc bien que le lien entre le mobile, la mobilité et l’open data est fort et fécond. Reste la question de l’oeuf et de la poule, que j’ai encore un peu de mal à identifier avec précision. Est-ce que l’on a beaucoup d’applis de transport parce que les concours ont orienté les réutilisateurs vers ce type de développement ? L’appétit pour les données transport vient-il justement de cette orientation particulière qui date des années 2008-2009 ou est-elle plus générique ? Vos commentaires et éclairages sont les bienvenus !

En finir avec le mythe de la donnée brute

A l’occasion de la semaine européenne de l’open data (Open Data Week) à Nantes la semaine dernière, j’ai traité de la sensibilisation du grand public aux données, et par extension aux données ouvertes (open data). Il y a notamment été question d’en finir avec le mythe de la donnée brute. Extrait et complément à cette intervention.

« Je fume donc je vis ? »

Tout commence lors de la dernière rentrée scolaire, la première pour mon fils. L’année de sa naissance son prénom – Nathan – figurait parmi les plus populaires au niveau national. J’étais donc surpris de constater qu’il était le seul petit garçon à s’appeler ainsi dans l’école maternelle de notre quartier rennais. Il y avait bien plusieurs Maxime et Quentin, mais un seul Nathan, pourquoi ? Et si, par hasard, ce prénom était beaucoup moins populaire à Rennes qu’ailleurs en France, à Paris ou Nantes par exemple ?  

La liste des prénoms les plus populaires fait partie des données ouvertes par ces trois villes. C’est en cherchant le nombre total de naissances que j’ai trouvé une curiosité. Paris propose cette donnée sur son portail open data, l’INSEE aussi. Mais … les deux chiffres ne coincident pas ! Comment expliquer ce décalage entre deux faits que j’imaginais pourtant bruts ? La ville recense toutes les naissances ayant eu lieu sur son territoire (c’est-à-dire dans les maternités, les hôpitaux, les rames de métro ou ailleurs) alors que notre institut statistique national comptabilise lui les nouveaux-nés au domicile de leur mère.

Si une femme domiciliée à Montrouge accouche dans une maternité parisienne, son enfant – quel que soit son prénom ! – sera comptabilisé à Paris (selon la Ville) et à Vanves (selon l’INSEE). Pour la seule année 2010, il y a ainsi un décalage de plus de 10 000 naissances (un quart du total). Il y a donc deux méthodes de calcul : qui a tort, qui a raison ?

1- La donnée brute n’existe pas

Je pense que l’open data devrait intègrer une dimension plus critique vis-à-vis des données ouvertes et réutilisées. Il me semble indispensable de comprendre l’origine des données et les buts initiaux de la collecte. Pourquoi cette donnée existe-t-elle ? A quoi et à qui sert-elle initialement ? Car, soulignons-le, avant la ré-utilisation il y a l’utilisation tout court.

Pour revenir à notre exemple, personne n’a raison ou tort d’appliquer sa propre méthode de calcul. Si l’INSEE retient comme critère le domicile de la mère c’est pour mieux refleter la réalité démographique des territoires – après tout, dans le cadre du recensement on comptabilise la population selon leur lieu d’habitation, pas seulement leur lieu de naissance.

J’ai pris conscience, avec mes modestes moyens, de ce que les chercheurs en sciences sociales savent depuis fort longtemps (lire à ce sujet le commentaire argumenté de Jérôme Denis sur Internet Actu) : il n’y a pas plus de fait brut que de données brutes. Une donnée est toujours le résultat d’une intention, d’une méthode de calcul, de la volonté de représenter ou de mesurer une certaine partie de la réalité. La donnée ne résume pas le Monde qu’elle cherche à décrire.

2- Pour une critique de la donnée

Quiconque met les mains dans le cambouis des données ouvertes se rend très vite compte qu’il est indispensable de faire un détour par les «cuisines» de la data avant d’envisager toute réutilisation sérieuse (d’où l’importance d’ailleurs de la documentation des jeux de données). L’exemple de la comptabilisation des naissances n’est pas une exception, je pense au contraire que c’est une règle.

Savons-nous par exemple que la comptabilisation des morts sur la route n’est pas la même selon les services de l’Etat concernés. On pourrait pourtant penser qu’un décès c’est tout de même un fait brut par excellence : soit tu es mort, soit tu es vivant point barre (troisième possibilité : tu es dans un vieux clip du défunt roi de la pop). Et pourtant les services ne le comptabilisent pas de manière identique : certains recensent les personnes décédées sur le lieu-même de l’accident, d’autres prennent en compte les décès intervenus dans les 3 jours suivants. Pour la DDE (direction départementale de l’équipement) ou pour le SAMU, être mort ne veut pas tout à fait dire la même chose !

Etre critique de la donnée c’est donc essayer de comprendre pourquoi et comment l’information initiale est collectée et à quoi elle sert. Ensuite, c’est accepter l’idée que les données ne nous racontent pas tout, bref remettre en cause le dogme de la toute puissance de la donnée.

Un dernier exemple pour nous en convaincre : certaines collectivités publient la liste des subventions aux associations de leur territoire dans une optique de transparence. Ces données ont été collectées dans un but précis : permettre la délibération des conseils municipaux qui attribuent ces aides. On a donc un fichier avec le nom d’une association, un montant, un numéro de délibération. Comme l’a montré l’expérience menée par Bug , cette donnée ne nous permet de mesurer le soutien de la ville au secteur associatif, ni de mesurer si certaines associations sont «sous perfusion» de subventions publiques (en effet on ne dispose pas de leur budget global et l’on ne sait donc pas si l’aide représente 10% … ou 80% des ressources de la structure).

Etre critique de la donnée ce serait donc aussi parfois s’interroger : qu’est-ce que cette donnée ne nous raconte pas ?

Les données ne sont donc pas aussi neutres que l’on voudrait nous le faire croire. Mais il faudrait, pour être plus complet, intégrer aussi les effets de la donnée et les phénomènes de rétroaction. On a par exemple récemment discuté de l’effet de renforcement des classements des lycées ou des hôpitaux publiés par la presse. Les parents d’élèves qui le peuvent vont choisir le meilleur lycée pour leur enfant, renforcant ainsi le phénomène initial. Ignorer les effets potentiels de la donnée et de sa divulgation c’est faire preuve d’une grande naïveté.

3- La visualisation nous sauvera tous ?

La visualisation et l’infographie sont-elles des solutions pour faciliter l’appropriation et la compréhension des données, notamment les plus complexes, par le grand public ? La dataviz est à la mode c’est sûr (et leur histoire est très riche, comme en témoigne la présentation de Gaëtan Gaborit lors de l’Open Data Week). Mais nous sauvera-t-elle tous pour autant ?

Le site GapMinder permet depuis des années de visualiser simplement des statistiques mondiales liés à la santé, l’économie, le développement, … La vidéo de son créateur Hans Rosling lors de la conférence TED a marqué les esprits et comptabilise plus de 4 millions de vues. Gapminder a fait de l’open data avant l’heure : on peut y télécharger les jeux de données «brutes» pour créer ses propres visualisations. L’ambition du site se résume dans sa promesse : «Unveiling the beauty of statistics for a fact-based world view».

« Je fume donc je vis » ?

Le graphique que j’ai produit met en relation la part des fumeurs dans la population et l’espérance de vie à la naissance (les données sont issues de l’OMS et datent de 2005). Mon tableur favori m’a proposé de tracer la courbe de corrélation entre ces deux variables.  On peut ainsi constater que, dans les pays où l’on fume le plus, l’espérance de vie est la plus élevée.

Peut-on pour autant remettre en question la nocivité du tabac à partir de ce graphique ? Ce qui est en jeu ici c’est la différence entre corrélation et causalité… Il me semble que dans ce cas la visualisation, plutôt que de nous éclairer sur la réalité aurait tendance à nous embrouiller (ou, dans le cas d’espèce, à nous enfumer).

L’infographie a parfois cet effet pervers d’anihilier tout sens critique. Ainsi celle présentant le baromètre de l’open data en France, infographie qui a connu un grand succès en ligne. L’image nous explique, carte de France à l’appui, que 19 acteurs publics ont lancé leurs portails open data. Viennent ensuite les résultats de l’observatoire et notamment la phrase suivante : «3% des acteurs ont libéré au moins 4 jeux de données sur le volet budgétaire». De prime abord j’ai trouvé cela bizarre, ce que m’a confirmé ma calculette : 3% de 19 acteurs celà fait 0,57 acteur. Donc, cette infographie nous dit : «0,57 acteur ont libéré au moins 4 jeux de données budgétaires». Qu’est-ce que celà peut bien vouloir dire ? Qu’un seul acteur a libéré au moins 8 jeux de données ? 😉

4 – Comment sensibiliser le grand public ?

Force est de constater que les dispositifs d’animation actuels de l’open data ont du mal à atteindre le grand public. Les concours et les appels à projets ne visent bien souvent qu’une cible particulière, celle des développeurs réutilisateurs. Les cartoparties ou les ateliers de chasse aux données adressent un public plus large mais ne sont cependant pas suffisantes.

Développer un sens critique de la donnée passe sans doute par l’exposition des conditions de sa production… C’est non seulement en visitant cette «fabrique des données», mais aussi en mettant soi-même les mains dans le cambouis que l’on peut espérer faciliter une plus large appropriation.

Comment l’open data est devenu un objet politique …

A la suite de ma conférence pour le Social Media Club sur le thème de la démocratie ouverte, je vous propose une série d’articles sur les promesses politiques de l’open data. Ce premier billet raconte la genèse : comment l’open data est-il devenu un objet politique ? Retour en quatre actes sur le lien entre open data, gouvernement ouvert et open source.
ACTE 1 - OBAMA

Le 1er jour d'Obama (photo The White House)

Le 1er jour d’Obama (photo The White House)

Le 21 janvier 2009,  le 44 ème président des Etats-Unis prend ses fonctions. Barack Obama signe ce jour-là trois mémorandums, dont deux concernent le gouvernement ouvert et la transparence. C’est un acte politique majeur, qui marque un engagement fort de la part de la nouvelle administration et est souvent cité comme une étape importante pour l’open government. Un acte fondateur ?Peut-être, mais fruit du hasard, sûrement pas.

ACTE 2 - O'REILLY, LESSIG ET LES AUTRES

Près d’un an avant l’entrée en fonction d’Obama, un groupe d’une trentaine d’activistes et de praticiens de l’open government se sont retrouvés à Sebastopol en Californie, à l’invitation de Tim O’Reilly et de Carl Malamud. On connaît bien le premier : auteur et éditeur américain, il a souvent été à l’avant-garde des mouvements de l’informatique et de l’Internet, de l’open source jusqu’à l’expression-même de Web 2.0 qu’il a défini et popularisé. Carl Malamud est une figure moins connue, du moins en France mais tout aussi intéressante. Ingénieur, il est notamment à l’origine des protocoles qui permettent la diffusion de la radio sur Internet. Il s’est ensuite beaucoup investi dans la mise en ligne des informations gouvernementales.

Ils ont défini l’open government data … (photo David Orban)

L’invitation mentionnait déjà l’ambition de la rencontre : définir les principes de l’open data et, si possible, les faire adopter par les candidats à l’élection présidentielle qui devait se dérouler l’année suivante.

La photographie du groupe ressemble à un Who’s Who de l’open government et du mouvement free culture. Outre O’Reilly et Malamud, on y reconnaît Lawrence Lessig, professeur de droit à Stanford et créateur des licences Creative Commons mais aussi les fondateur de GovTrack.us (l’un des tous premiers sites de suivi de l’activité du gouvernement fédéral), My Society (qui a mis en place au Royaume-Uni le site FixMyStreet) et d’EveryBlock (initié à Chicago, la ville d’Obama)… Diverses fondations y sont représentées dont bien sûr la Sunlight Foundation (co-sponsor de la rencontre avec Yahoo et Google) et l’Electronic Frontier Foundation (EFF).

Le Who’s Who de l’open government (photo David Orban)

Le groupe a échangé pendant deux jours afin de définir les 8 principes qui permettent de définir le concept d’open government data. On notera que le fruit de leur travail est passé à la postérité, car ce sont d’ailleurs souvent ces principes que l’on cite encore aujourd’hui – la Sunlight Foundation a par la suite rajouté deux principes à cette liste, dont la gratuité (cet épisode mériterait à lui seul un billet, j’y reviendrais ultérieurement).

ACTE 3 - STALLMAN ET RAYMOND

A l’issue de la réunion, Lawrence Lessig donne une interview où il compare l’effort de définition de l’open government data à celui réalisé par le mouvement open source. Arrêtons-nous un instant sur cette comparaison. Près d’une dizaine d’années avant cette

Richard Stallman (photo Victor Powell)

rencontre à Sebastopol, une ligne de fracture apparaît dans le domaine du logiciel libre entre les tenants du free software (Richard Stallman en tête) et les promoteurs de l’open source, menés par Eric S. Raymond (l’auteur de la Cathédrale et le Bazar). Le premier mettait en avant des vertus politiques et morales dans les valeurs du logiciel libre – il insistait beaucoup sur la notion de liberté. Le second trouvait que le logiciel libre avait avant tout une supériorité en termes de performances et que si on voulait favoriser une adoption plus large de ces outils, il fallait mettre de côté le discours en termes moraux – d’où l’idée aussi de promouvoir le terme d’open source plutôt que de free software. La biographie de Richard Stallman (Libre comme Liberté, éditions Framablog) revient en détail sur cet épisode.Tim O’Reilly a été l’un des plus ardents promoteurs de l’open source. Et, près de dix ans plus tard, il perçoit clairement l’intérêt à poser sa propre définition de l’open data…

ACTE 4  - (OPEN GOV) DATA ou OPEN (GOV DATA) ?

La définition proposée par le groupe de Sébastopol ressemble d’ailleurs davantage à celle de l’open source qu’à celle du free software. A aucun moment, il n’est fait mention de principes politiques ou moraux (même pas en introduction). On aurait pu imaginer que certains de ces principes fassent explicitement appel aux valeurs politiques de l’ouverture, de la transparence, de la société ouverte, … Les rédacteurs se sont concentrés sur l’expression de critères techniques – et non moraux.

Le titre de leur déclaration (8 principles on Open Government Data) est par ailleurs source de malentendus. Pour reprendre l’expression d’un chargé de mission de la Banque Mondiale, l’expression « Open Government Data » peut se comprendre de deux manières. (Open Governement) Data met l’accent sur la transparence de l’action publique (l’expression de gouvernement ouvert désignait traditionnellement la publication d’informations inédites sur les affaires publiques) alors que « Open (Governement Data) » est davantage porteur d’une promesse de participation.

Participation, transparence : voilà les deux principales promesses politiques de l’open data. Certains universitaires anglo-saxons (voir notamment l’analyse de Yul et Robinson aux Etats-Unis et les articles publiés dans le dernier numéro de Community Informatics) soulignent déjà les tensions entre ces deux promesses, et l’une des principales responsables du programme open government d’Obama, Beth Simone Noveck regrette le choix de ce terme pour décrire son action. Nous verrons dans un prochain billet pourquoi les promesses de transparence et de participation peuvent potentiellement s’opposer … et comment elles prennent forme en France.