Moderniser l’action publique par l’open data ?

Moderniser l’action publique par l’open data, c’est le sens du nouveau rattachement de la mission Etalab en charge de la politique gouvernementale d’ouverture des données. Cela passe notamment par la capacité à faire (enfin) jouer la boucle de rétroaction : que les données permettent d’améliorer les services publics. Revue des initiatives existantes et propositions d’actions : comment boucler la boucle de l’open data ?

Central Park (photo NYC Parks)

Central Park, New-York
(photo NYC Parks)

En septembre dernier, j’ai suivi avec un grand intérêt l’annonce d’un hackaton dédié aux parcs et jardins new-yorkais (NYC Government DataKind). La politique open data de Big Apple reste pour moi une référence, tout comme son plan global pour le numérique.

A l’époque, je préparais des ateliers de réutilisations des données liées aux arbres du parc du Thabor et j’imaginais donc y trouver des sources d’inspiration pour des applications ou des services originaux ou ludiques… J’ai été très agréablement surpris par la qualité et le niveau des projets développés lors de cet évènement DataKind – pourtant aucune application mobile flashy n’a été développée ! Mieux, les résultats illustrent bien comment l’open data peut répondre à des questions concrètes et contribuer in fine a améliorer l’action publique.

1 – DataKind : des questions, des données, des réponses

L’organisation DataKind se propose de mettre à disposition des compétences liées aux données pour répondre à des problèmes concrets. L’ancien nom de DataKind – Data Without Borders (données sans frontières) – traduit par cette ambition d’un peace corps dédié aux données. Leur slogan « Using data in the service of humanity » m’a bien fait marrer (sauver le monde par la technologie, une idée très anglo-saxonne), mais leur action est bien sérieuse. DataKind organise régulièrement des hackatons, toujours en relation avec des institutions (associations, ONG ou villes) qui accueillent l’évènement et posent les questions. Pour cette édition new-yorkaise, le partenaire était le service des Parcs et Jardins de la ville (NYC Parks). Pour vous et moi, les jardins new-yorkais cela se résume sans doute à Central Park… mais en tout cela représente 600 000 arbres d’alignements (dans les rues) et plus de 2 millions dans les parcs publics !

En amont de la manifestation, NYC Parks et DataKind ont identifié les problèmes qui seront soumis aux participants. J’ai retenu deux questions qui ont donné lieu à des projets : pouvons-nous prédire où une future tempête risque de faire le plus de dégâts dans nos parcs ? Les opérations préventives d’élagage ont-elles un impact sur les demandes ultérieures d’intervention, notamment par les habitants ?

Les organisateurs ont aussi recensé un ensemble de jeux de données, en grande partie déjà ouvertes sur le portail open data comme tous les appels au 311 (le numéro des services urbains pour les demandes d’intervention), les travaux programmés (work orders), mais aussi des sources extérieures (les principaux événements météorologiques, l’historique des interventions liées aux précédentes tempêtes). L’ensemble a fait l’objet d’un brief que l’on peut retrouver en ligne.

Les participants (des data-scientists) n’ont pas développé des services en ligne, ils ont proposé des modèles pour répondre aux questions posées. Ainsi, un groupe a proposé un index de risque de tempête pour chaque bloc, en fonction des arbres que l’on y trouve et de leur ancienneté. Un autre a remis en question, à partir des données brutes et d’un modèle mathématique, l’intérêt de la politique préventive d’élagage. Bref, ils ont répondu à des questions concrètes et ont permis d’améliorer l’action publique sur ce champ précis.

2 – La boucle de rétroaction de l’open data V.2

Par contraste, l’exemple de DataKind illustre bien ce qui fait aujourd’hui défaut dans notre approche de l’open data : nous ne bouclons pas la boucle. Le modèle actuel est le suivant : un acteur public (ou privé) met à la disposition des réutilisateurs des données ouvertes. Ces derniers développent des services, des applications, souvent utiles, parfois ludiques mais bien souvent aucune d’entre elles n’impacte la manière de faire de l’organisation. Avec des horaires de bus on peut certes développer des services d’information voyageurs, mais l’on peut aussi analyser la desserte de chaque quartier et – potentiellement – proposer des améliorations au gestionnaire du réseau de transport.

Ce qui nous manque donc c’est l’application de la boucle de rétroaction (feedback loop) : une organisation ouvre des données, qui servent ensuite à des tiers pour améliorer les actions de l’organisation… une sorte d’open data  version 2.

Le principe de la boucle de rétroaction est l’un des éléments fondateurs de la cybernétique (j’ai eu l’occasion dans mon livre d’évoquer le lien entre l’open data et les théories de Norbert Wiener). Vous pouvez en voir un exemple à l’oeuvre dans la plupart des villages de France avec l’affichage en temps réel de la vitesse de votre véhicule… Il suffit d’offrir au conducteur une information qu’il possède pourtant déjà sur son tableau de bord pour qu’il réduise en moyenne de 10% sa vitesse… Cet article de Wired raconte la genèse de ce dispositif et explique pourquoi l’efficacité n’en diminue pas avec le temps.

3 – Des projets pour l’action publique

Je reviens sur l’exemple de New-York. La ville s’était déjà illustrée par son équipe interne de data-scientists et son approche très pragmatique des données (tant big data que open data). Toutes les villes n’ont pas les moyens du maire de New-York, mais la plupart des acteurs publics qui ouvrent aujourd’hui leurs données pourraient travailler sur la boucle de rétroaction. Je vous propose deux exemples pour tenter de vous en convaincre.

Projet 1 : du marketing achats avec l’open data

Une partie de la modernisation de l’action publique passe par une maîtrise des dépenses. Mieux acheter est une source importante d’économies. L’open data pourrait faciliter la mise en place d’une démarche de marketing achats. L’opérateur des transports londoniens (TfL) met en ligne sur son portail open data toutes les dépenses d’achats et d’équipements supérieures à 500 livres. Ainsi, un nouveau fournisseur peut se positionner pour faire la meilleure offre, en connaissant le détail et le prix des prestations acquises par TfL…

Projet 2 : les « Happy Hours » de la piscine municipale

Dans ma ville, on peut accéder à la piscine municipale avec sa carte de transport (genre pass Navigo). La mise en place du système a accompagné l’introduction d’une tarification horaire, où l’on paie en fonction du temps passé dans le bassin. Les services de la ville disposent donc d’une grande masse de données sur la fréquentation des piscines et le système fournit aussi une vision en temps réel du nombre de nageurs.

Comme tout équipement, la piscine municipale connaît des pics de fréquentation, certains liés à des variations saisonnières (été/hiver) ou à la météo du moment… En ouvrant la donnée de fréquentation en temps réel, on pourrait informer les usagers de l’affluence qu’ils risquent d’y trouver à cet instant. Mieux, en anonymisant les données de fréquentation on pourrait proposer, sur le modèle de DataKind, d’imaginer des formules d’incitation pour aller nager aux heures creuses.

L’idée : j’ouvre 3 mois d’historique de fréquentation, je fournis des données sur les événements météorologiques ou autres (les vacances scolaires, …) et je lance un challenge avec une question : « aidez-nous à définir les Happy Hours de la piscine !« .

Les deux exemples présentés ici sont plutôt anecdotiques, mais ils sont réalisables à plus ou moins court terme. On peut aussi imaginer travailler sur d’autres champs de l’action publique avec des questions plus ambitieuses... Celles du logement ou de la prise en charge de la petite enfance par exemple.

4 – En pratique, comment faire ?

Comment boucler la boucle de l’open data ? Il va tout d’abord falloir revoir notre manière de procéder. Les formules d’incitation (type concours ou hackatons) ne devraient pas partir des données disponibles mais plutôt des questions et des problèmes concrets. Bien entendu, la puissance publique n’est pas la seule à pouvoir définir les problèmes, la société civile peut aussi jouer son rôle (DataKind a par exemple organisé un évènement londonien avec plusieurs ONG).

Le plan de route serait donc le suivant :

– définir une question, un problème de politique publique,

documenter la problématique et les principaux enjeux,

– recenser, lister et ouvrir les jeux de données pertinents,

– s’appuyer sur des médiateurs tiers,

– proposer des challenges, des concours, des hackatons pour inviter les participants à répondre à la question… (souvenons-nous que les sites data.gov et challenge.gov vont de pair),

faciliter la réintégration des résultats au sein des services et des administrations (leur implication est amont dans la définition des questions est un bon levier pour cela).

Il ne s’agit pas pour autant de brider les réutilisateurs dans leur créativité, libres à eux de participer ou non aux actions proposées. Libres à eux de développer l’application de leurs rêves.

Mais n’ayons pas non plus peur de partager les questions qui se posent quotidiennement dans l’action publique. Ainsi, nous ferons le lien entre l’ouverture des données publiques et la cohérence des politiques publiques, un argument développé par ceux qui ne veulent pas ouvrir leurs données

Que faire avec les données ouvertes de mobilité ?

Le 19 décembre 2012 j’ai animé à la Cantine de Rennes une soirée spéciale sur les données ouvertes de mobilité. A cette occasion, j’ai présenté un tour du monde des réutilisations possibles de ces données. L’objectif : démontrer, par l’exemple, que l’open data transport ne sert pas uniquement à produire des applications mobiles !

1 – L’information voyageur ne se limite pas aux applications mobiles

The City Dashboard (Casa - UCL)

The City Dashboard
(Casa – UCL)

L’application mobile d’information voyageur est bien souvent la face la plus visible de l’open data pour le grand public, en témoigne le grand nombre de services mobiles proposés lors des concours et autres hackatons de données ouvertes. Cependant, cette focalisation sur un seul type de réutilisation génère aussi une incapacité à appréhender tous les usages possibles des données de mobilité.

La problématique de diffusion et de partage de la donnée transport s’inscrit aujourd’hui dans une double tendance : accroissement de la demande d’information voyageur (en tous lieux, en tous temps et sur tous supports) et difficulté à proposer une offre institutionnelle qui couvre l’ensemble des besoins, aussi spécifiques soient-ils.

Dès lors, l’open data est une piste pour répondre à cette diversité de besoins. L’info de mobilité prend son sens à partir du moment où elle est disponible au moment où on en a besoin, dans sa poche, dans l’écran du bus, sur le site Internet du réseau mais aussi – et surtout – dans tous les lieux où elle est aujourd’hui absente. Trois exemples pour illustrer cet usage de « consultation » de la donnée de mobilité (je reprends ici la grille de 4 classes de réutilisation développée dans mon ouvrage) :

Le City Dashboard a été développé par des universitaires britanniques. Ils proposent en un seul écran un tableau de bord de la ville, en particulier sur les questions de mobilité. On y retrouve notamment le taux d’utilisation en temps réel des stations de vélo en libre-service, mais aussi les perturbations dans le métro et l’état du trafic routier… mais aussi la météo, les dernières actualités ou les tendances locales sur Twitter… Le City Dashboard a été conçu pour être déployé partout via un simple écran de PC.

The Muni-Watch(Joe Hugues)

The Muni-Watch
(Joe Hugues)

La montre « Muni Watch » (du nom du réseau de transport municipal de San Francisco) a été développé par Joe Hughes. La montre indique les 3 prochains horaires de passage pour l’arrêt de bus le plus proche – elle communique en Bluetooth avec un smartphone Android. A noter que le projet a été l’un des premiers initiés suite à l’ouverture des données de cette ville californienne… et date de 2008 !

Plus près de nous, dans le cadre du LabFab rennais, Baptiste Gaultier a conçu « La Boîte » sur une base Arduino (électronique open source). Cette petite boîte, qui trouvera  sa place dans votre salon, indique la météo, le nombre de minutes avant le prochain passage d’un bus ou le nombre d’emails reçus…

Aussi anecdotiques puissent-ils paraître, ces deux derniers projets montrent que l’on peut encore imaginer de nouvelles formes de diffusion de l’information de mobilité. Il y a sans aucun doute des pistes à creuser du côté de l’ambient computing pour créer des objets communicants qui nous informent tout en restant le moins intrusif possible. Le lapin Nabaztag, la star de Noël (en 2006…), ou la lampe Orb étaient de bons candidats pour afficher l’imminence du passage d’un bus avec des codes couleurs très simples…

2 – Des médiations : rendre visible les mobilités dans la ville

5 millions de trajets vélo (Jo Wood - City University London)

5 millions de trajets vélo en une image
(Jo Wood – City University London)

Les médiations – notamment visuelles – permettent de représenter les flux de mobilité dans la ville. La représentation cartographique pré-existait bien entendu au mouvement d’ouverture des données, mais l’open data lui a donné un nouveau souffle. Les visualisations peuvent être ludiques ou avoir un objectif professionnel – par exemple dans le domaine de l’analyse de l’accessibilité. Trois exemples pour illustrer ce second type de réutilisation des données de mobilité (la médiation) :

L’opérateur des transports londoniens (TfL) a mis en ligne un fichier comportant le 1er million de trajets effectués par le service de vélo en libre-service de la capitale Barclays Cycle Hire (connu sous le surnom de Boris Bikes, le prénom du maire). Ces données historiques ont donné lieu à plusieurs représentations : l’effet d’une grève du métro sur l’utilisation du service de vélo, le repérage des principaux noeuds de circulation ou encore les jours de fréquentation record du service…

Melbourne Pedestrian Map

Melbourne Pedestrian Map (City of Melbourne)

La municipalité de Melbourne en Australie dispose d’une série de 18 capteurs piétonniers répartis dans le centre-ville. Ils enregistrent en temps réel le nombre de piétons qui empruntent un trajet particulier. Ces données ont donné lieu à une représentation interactive, on peut ainsi visualiser les flux de piétons heure par heure ou « rejouer » une journée d’affluence exceptionnelle (la parade annuelle par exemple). A noter que Melbourne propose les données brutes en téléchargement, ce qui permet donc de construire sa propre visualisation ou – encore mieux – d’utiliser ces données comme matière première (cf. la prochaine classe d’utilisation).

Enfin, dans le cadre du concours Rennes Métropole en accès libre, la société Isokron avait réalisé une très intéressante vidéo « Un lundi à Rennes » qui répondait visuellement à la question : jusqu’où peut-on se aller en 10, 15 ou 30 minutes en n’empruntant que les transports publics ? Cette dernière visualisation est clairement plus ludique qu’informative, mais elle propose une autre représentation du réseau de transport urbain…

3 – La donnée de mobilité comme matière première

La donnée de mobilité peut aussi être utilisée comme une matière première, pour un usage qui n’est pas directement lié à la mobilité. En effet, la question de l’accessibilité d’un lieu – que ce soit à pied, en voiture ou en transport en commun – est un sujet qui intéresse bien au-delà des opérateurs de mobilité. Les gestionnaires de grands équipements sportifs, ou encore de centres commerciaux, utilisent la donnée de mobilité comme un intrant dans un processus, par exemple au moment de prendre des décisions d’investissement. Cette question intéresse aussi au plus haut point le marché de l’immobilier.

Transit-friendly apartment search (TransitScore)

Transit-friendly apartment search (TransitScore)

Aux Etats-Unis, la société WalkScore (issue de la fondation FrontSeat) propose une note d’accessibilité pour chaque adresse d’une ville américaine ou canadienne. Le WalkScore (et son équivalent le TransitScore) est un indice qui évalue sur une échelle de 1 à 100 la marchabilité d’un lieu, c’est à dire la capacité à y effectuer la plupart des actes de la vie quotidienne sans avoir à prendre sa voiture. On voit déjà apparaître les premières annonces immobilières qui font figurer ce score dans le descriptif du bien… L’impact de cet indice sur le niveau des prix a lui aussi été évalué. Le plus intéressant dans le WalkScore est la monétisation de cet indice : la société propose un service en ligne à destination des agents immobiliers indépendants.

Ainsi, chacun peut créer une affiche personnalisée avec l’adresse du bien, son score d’accessibilité, une carte des principaux équipements et services de proximité (paramétrables selon le profil des acheteurs pressentis) et bien sûr le contact de l’agent immobilier…. Chaque fiche est facturée 5 dollars, la reproduction étant assurée directement par l’utilisateur du service. WalkScore propose aussi un ensemble de services de syndication de son contenu et de ses données… Bref, l’open data est ici à la fois une matière première et une partie de la production de la société.

Les croisements entre donnée de mobilité et d’autres sources de données restent encore largement à imaginer et à travailler. Un exemple : croiser les données issues de mon Fitbit (le nombre de pas parcourus, le nombre d’étages gravis quotidiennement) avec celles de ma carte de transport, pour montrer concrètement comment l’on peut faire de l’activité physique en prenant les transports en commun (par exemple en n’utilisant jamais les escalators ou les ascenseurs…).

4 – L’art et le jeu, d’autres modes de réutilisations

Je propose de finir ce tour du monde de la réutilisation des données par deux approches différentes et résolument non-utilitaristes de l’open data : le jeu et l’art. Les données de mobilité, notamment par leur caractère souvent urbain, se prêtent bien à des jeux grandeur nature. L’un des premiers exemples est le jeu Chromaroma, qui réutilise (initialement de manière un peu sauvage, aujourd’hui de manière bien encadrée) les données des Oyster Cards (l’équivalent des pass Navigo à Paris). Chromaroma est un véritable jeu dans la ville où les joueurs, regroupés en équipes, accomplissent des challenges et prennent possession – virtuellement bien sûr – de stations de métro (sur le modèle du maire d’un lieu Foursquare).

Dans le domaine artistique, le projet Conductor: MTA.me propose une représentation poétique des mouvements du métro new-yorkais : chaque ligne est une corde de guitare et les croisements génère une mélodie étrange qui évolue au cours de la journée et de l’activité du réseau…

Bref, les données ouvertes de mobilité offrent un éventail de réutilisations très larges, qui dépassent de loin les premières applications mobiles qui ont déjà été développées…

4 pistes pour un open data des biens communs

A l’occasion du lancement de l’antenne française de l’Open Knowledge Foundation le 12 décembre à la Cantine Paris, je suis intervenu pour présenter 4 pistes pour un open data des biens communs. Retour sur cette intervention sous forme d’interpellation…

L’open data et les biens communs, une (trop) vieille histoire ?

"Open Data Commons" (photo by jwyg)

« Open Data Commons » (photo by jwyg)

Il y a une filiation entre le mouvement d’ouverture des données et la philosophie des biens communs. Les données ouvertes sont une illustration de la notion de biens communs informationnels proposé par Elinor Ostrom, « prix Nobel » d’économie en 2009. Les données ouvertes nous appartiennent à tous et, contrairement à l’eau ou à l’air (d’autres biens communs), elles sont dites non-soustractibles : leur usage par l’un n’empêche pas les usages par les autres. En d’autres termes : si je réutilise une donnée ouverte, cela n’empêche pas un autre réutilisateur de faire de même.

Cette proximité biens communs / open data se traduit aussi par la présence de l’instigateur des licences Creative Commons, Lawrence Lessig lors de la réunion de Sebastopol de 2007 qui a permis de définir le concept même de données publiques ouvertes.

Malgré cette relation historique et féconde, il me semble que nous, acteurs de l’open data, sommes parfois trop timides à réaffirmer le caractère commun de certaines données ouvertes. Trop timides parce que, contents que l’idée d’open data fasse son chemin auprès des acteurs publics et privés, nous ne voulons pas en rajouter… Les quatre pistes que je propose et détaille ici ne visent donc qu’un objectif : ne pas lâcher l’affaire sur le sujet !

Piste 1 : défendre un vrai choix en matière de licences open data (pro-choice)

Sur le papier, cela semble clair : il y a en France un vrai choix en matière de licences open data. D’un côté la licence ouverte proposée par Etalab, de l’autre l’ODbL. Les services de l’Etat se doivent d’utiliser la première, certaines collectivités ont choisi la seconde solution, en revendiquant de manière plus ou moins affirmée le caractère commun des données ouvertes.

Dans la pratique, le choix apparent se heurte aux difficultés, réelles ou perçues, liées à la licence ODbL. Je rappelle que ce qui distingue les deux licences c’est l’obligation de partage à l’identique (le share-alike) qui répond clairement à un enjeu de pot commun (si j’utilise, je dois recontribuer). Entendez-vous la petite musique qui monte et qui met en garde contre le recours à une licence « contaminante » (terme preféré à celui de « virale ») ? L’ODbL est accusée d’être anti-business, d’être venue de l’étranger, d’être source de dangers imprévisibles (le risque de contrefaçon de bonne foi), …

Nous nous retrouvons donc dans la situation où, au moment même où les grands projets collaboratifs (comme Open Street Map) adoptent l’ODbL, les nouveaux entrants de l’open data appliquent parfois, en toute bonne foi, le principe du moindre effort : « ça a l’air compliqué ce truc de partage à l’identique, on a pas une vision très claire des risques potentiels, je vais plutôt choisir la licence ouverte« .

Il me semble qu’en tant qu’instigateur de la licence ODbL, l’Open Knowledge Foundation devrait en être le premier promoteur*, pour en expliquer les mécanismes, les obligations et les opportunités (et pas uniquement celle d’embêter Google). Pour qu’un vrai choix soit possible en matière de licences open data (pro-choice !).

La licence a elle seule ne saurait garantir le caractère commun des données ouvertes. Je propose trois autres pistes d’action et de réflexion.

Piste 2 : la D.I.G. : donnée d’intérêt général

Prenons un problème qui nous concerne tous et que nous avons abordé lors d’un récent atelier Net:Lab : le logement et son accessibilité. Qui possède aujourd’hui l’une des meilleures visions du marché de la location ? Qui recense avec la plus grande acuité et en temps réel le montant des loyers, avec une adresse et un descriptif précis du logement ? Un indice : ce ne sont ni les mairies, ni les services des impôts, ni même le ministère du logement… mais un acteur privé de la petite annonce immobilière.

En France, on a une loi pour la donnée personnelle (loi CNIL), une autre pour la donnée publique (loi CADA)… Mais quid des données – personnelles, publiques ou privées – dont l’ouverture répond à l’intérêt général ? En ayant une vision plus claire et dynamique des loyers pratiqués, on pourrait imaginer que tout un chacun soit mieux informé sur les prix réels du marché (en prenant soin, bien sûr, de limiter les efforts de bord de la transparence).

Sans aller jusqu’à la réquisition des données (comme celle des logements vacants), on peut imaginer une fiscalité du numérique qui encouragerait la mise à disposition de ces données par les acteurs privés. Il y a bien un crédit d’impôt recherche, pourquoi pas un crédit d’impôt open data ?

Il faudrait donc, comme cela a déjà été évoqué, définir une nouvelle classe de données, la D.I.G. (donnée d’intérêt général) à laquelle serait associée des droits particuliers d’accès et de réutilisation… « Tout ne s’arrête pas au clivage public / privé« .

(Bien évidemment, la D.I.G. pose autant de questions qu’elle n’apporte de réponses. En voilà une première : qui va définir l’intérêt général ?).

Piste 3 : le peering de contribution : je contribue / je reçois

Le premier temps de l’open data a vu des acteurs publics (collectivités ou gouvernements) mettre des données ouvertes à la disposition des réutilisateurs, principalement des développeurs.

L’open data qui est en train d’émerger est infiniment plus riche et plus complexe. La répartition des rôles entre producteur et réutilisateur de la donnée semblait bien établie, elle évolue pourtant : les données publiques et collaboratives commencent à s’enrichir mutuellement, des entreprises travaillent à rendre à leurs clients une partie des données les concernant. Dès lors, comment concevoir des mécanismes de contribution qui tiennent compte de ces évolutions dans une optique de « pot commun des données » ?

La troisième piste est celle d’un peering de contribution, tel qu’il existe déjà pour les données de positionnement des bateaux (données AIS). Le site collaboratif Marine Traffic lancé en 2007 est aujourd’hui le premier site de suivi du trafic maritime mondial. Plus de 1000 contributeurs (équipés d’un récepteur AIS connecté à Internet) permettent de suivre quotidiennement les mouvements de 65 000 bateaux. Le site affiche aujourd’hui deux millions de pages vues… par jour (source : entretien S. Chignard avec Dimitris Lekkas, l’universitaire grec à l’origine du projet).

Tout un chacun peut visualiser les données à partir de la carte proposée sur le site, mais celui qui veut accéder aux données brutes peut le faire à la condition expresse de contribuer à la couverture du service en connectant un nouveau récepteur AIS… Le peering de contribution encourage donc bien chacun à participer à l’amélioration du service (Marine Traffic n’est pas le seul site à procéder ainsi, voir par exemple AIS Hub qui propose des conditions encore plus permissives).

Piste 4 : la tarification contributive à l’usage (GET > POST)

Dernière piste de travail, la tarification à l’usage, déjà évoquée sur ce blog à propos des données transport. Il s’agit de penser un modèle de tarification mixte pour l’usage des données. Les API se prêtent particulièrement bien à ce mode de fonctionnement.

On peut imaginer que l’accès à nos D.I.G. soit gratuit pour tous, mais qu’une contribution soit demandée aux plus gros utilisateurs de l’API qui ont un comportement proche de celui du passager clandestin (j’utilise sans jamais contribuer). Libre ensuite à chacun de choisir s’il veut contribuer en améliorant la donnée (en la mettant à jour, en la corrigeant, …) ou en payant de sa poche !

* quelques pistes, ludiques et sérieuses, pour promouvoir la licence ODbL en France : une campagne de communication « j’ai été contaminée et j’en suis très heureuse » (avec des témoignages de bases de données en ODbL), un séminaire pratique pour les collectivités, un guide pratique en français avec une réponse aux questions fréquentes, une hotline « toutes vos questions sur l’ODbL », un ODbL-day pour mettre en valeur les données publiées sous cette licence, une infographie « toutes ces données sous proposées sous licences ODbL » ….

Animer l’open data, mille possibilités

Animer-opendata-chignard.001« Animer, animer et encore animer » : Hubert Guillaud résumait ainsi pour Internet Actu une partie des échanges lors de la Semaine européenne de l’open data en mai dernier. L’animation de l’open data est aujourd’hui à la fois un enjeu reconnu par tous et une « expression-valise ». Proposition d’une grille d’analyse pour recenser la grande diversité des pratiques.

Passé les premiers temps de l’effervescence, tous ceux qui – acteurs publics ou privés – ont ouvert des données se posent les mêmes questions. Pourquoi animer ? Comment, selon quels formats ? Auprès de quels publics ? Pour quels résultats ? … La question de l’animation rejoint en partie celle de l’appropriation par le plus grand nombre, mais elle est à mon avis plus large. Un concours de développement d’applications, un hackaton sont autant de formats qui visent à stimuler la réutilisation sans pour autant viser le grand public.

Si le constat semble partagé, il n’en est pas de même des réponses mises en oeuvre. L’observateur attentif de l’actualité open data aura remarqué que les dispositifs d’animation se déploient aujourd’hui partout en France, avec parfois des modalités très différentes. Du concours DataConnexions d’Etalab aux Infolabs citoyens de la FING, du week-end BeMyApp Tourisme au Hackdays internes de SNCF Transilien, autant de manière d’animer l’open data…

La grille d’analyse : animer l’open data en 5 questions

Animer-opendata-chignard.001

Je vous propose une grille d’analyse de l’animation de l’open data, en 5 questions :

pourquoi ? identifier les objectifs de l’animation (de la stimulation de la réutilisation à une sensibilisation à la culture de la donnée, les enjeux sont différents),

comment ? les modalités varient, on peut notamment citer le concours de développement d’applications, les hackatons et challenges courts, les appels à projets et concours d’idées, les ateliers et workshop (data journalisme, …) et les infolabs,

pour qui ? les publics cibles, destinataires de ces animations peuvent être multiples : réutilisateurs (développeurs, journalistes, étudiants, …), le « grand » public, les médiateurs traditionnels du numérique (et notamment les espaces publics numériques), les détenteurs (decideurs publics ou privés, élus et agents des services),

quand ? ces actions peuvent être proposées en amont du lancement du portail open data (par exemple les animations internes autour du repérage des données), au lancement du portail (les concours par exemple) ou au long cours, par exemple pour pérenniser la démarche,

par qui ? les acteurs qui portent ces animations peuvent aussi être très divers : l’acteur (public ou privé) qui ouvre les données, mais aussi des tiers-lieux (les Cantines numériques, les espaces publics numériques), les collectifs open data, les « agences numériques » (par exemple l’AEC en Aquitaine) voire des prestataires spécialisés (par exemple les organisateurs de BeMyApp).

En mixant les différentes options, on arrive au final à près de 1200 combinaisons possibles pour animer l’open data ! Certaines sont bien documentées (les concours en phase de lancement), d’autres beaucoup moins (en particulier les actions internes ou celles au long cours).

Comment utiliser cette grille d’analyse ?

On peut utiliser cette grille d’analyse de plusieurs manières. La première est de s’en servir pour recenser et classer les initiatives déjà recensées, en France et en Europe. Quelques illustrations à partir des exemples cités précédemment :

Concours DataConnexions #2 proposé par Etalab : stimuler la réalisation de services par des réutilisateurs (plutôt start-ups mais pas exclusivement) par l’organisation d’un concours / appel à projet, au long-cours,

Infolab Paris Citoyens proposé par la FING : sensibiliser à la culture de la donnée, imaginer des services par le biais d’un dispositif Infolab éphémère, pour un public d’acteurs associatifs,

Week-end Open Tourisme organisé par Be My App avec Google et Bouches du Rhône Tourisme : un hackaton pour imaginer et réaliser des services avec des données ouvertes, plutôt pour une cible de développeurs, en accompagnement du portail data.visitprovence.com, par un prestataire spécialisé,

Le Hackaton des Cheminots de SNCF Transilien : un week-end de développement réservé aux cheminots, sur le modèle des HackDays « tous publics » de l’été dernier, pour un public de réutilisateurs internes, en animation au long-cours de la démarche,

les ateliers du collectif Open Data Rennes lors de VivaCités : sensibiliser un public scolaire aux données, par une approche graphique et ludique des données d’abord personnelles, la « dataviz des enfants ».

Une autre utilisation possible de la grille d’analyse est d’imaginer des croisements à partir des 5 questions pour identifier de nouvelles pistes d’animation… A vous de jouer !

Mais pourquoi contribue-t-on ?

La question des motivations revient dès que l’on évoque les mécanismes de contribution dans l’open data ou les données collaboratives. On a parfois du mal à comprendre pourquoi des individus a priori sains de corps et d’esprit consacrent une partie de leur temps libre à ce type d’activité, qu’il s’agisse de développer une application mobile sans grand espoir de gain, ou de cartographier son quartier pour Open Street Map…

Les processus contributifs et participatifs sont au coeur de l’open data. Dans le concours organisé par Rennes Métropole en 2010, deux tiers des participants étaient des particuliers. Il y avait certes parmi eux quelques apprentis entrepreneurs et quelques rares militants de la cause du logiciel libre et de l’open source, mais plus généralement les motivations n’étaient ni pécuniaires ni politiques. Dès lors, pour sortir de l’image d’Epinal du geek à la vie sociale (entendez : vie sexuelle) limitée, il m’a semblé intéressant de se pencher sur la question : mais, diable, pourquoi contribue-t-on ?

1 – Une approche par les motivations : mais pourquoi contribuez-vous ?

Une recherche sur le sujet à partir de la littérature scientifique (références des travaux universitaires utilisés à la fin de ce billet) m’a permis de recenser quelques ressorts de la motivations des contributeurs.

En résumé, les grandes catégories de motivations sont :

– la réciprocité : « je le fais parce que j’aimerai qu’on le fasse pour moi »
– le sentiment d’utilité : « je le fais parce c’est utile pour moi / pour ma communauté »
– l’appartenance, l’identité, l’affiliation : « je le fais parce que je crois aux valeurs du projet / ça me ressemble / ça me constitue / en opposition à quelque chose »
– le jeu et l’apprentissage : « je le fais parce que c’est amusant / parce que j’apprends des choses »
– la recherche du gain (direct ou indirect) : « je le fais parce que je vais y gagner quelque chose, plus ou moins directement »
– la réputation : « ce que je fais contribue aussi à ma réputation sur le sujet »
– le sentiment de communauté : « avec QUI je partage est aussi important que CE QUE je partage »

Bien entendu ces motivations sont aussi à mettre en relation avec deux autres facteurs :

– la dimension sociale : avec qui je partage ma contribution : des gens que je connais ou j’apprécie, des proches, des inconnus, tout le monde, …
– et enfin la dimension temporelle : dans quelle situation je me trouve à ce moment-là. Je peux être contributeur à un moment donné et pas du tout à un autre moment, sur le même sujet.

2 – Ni Mère Theresa, ni Rockfeller : des pratiques et des niveaux d’engagements variés

Les entretiens que j’ai pu mener auprès des développeurs qui participent à l’open data font bien apparaître une grande variété dans les motivations, ni totalement altruistes, ni totalement orientées vers la recherche d’un profit immédiat. Le jeu, l’apprentissage, la recherche de la notoriété (gagner le concours, ce n’est pas seulement toucher un chèque), la compétition aussi (faire mieux que le voisin) sont des motivations courantes.

J’ai aussi noté que, pour nombre de développeurs locaux, le fait que le concours se passe dans leur ville de résidence (ou de travail) n’était pas anodin. Les sentiments d’appartenance, d’utilité et de communauté se combinent : je développe une application utile pour les habitants de ma ville… parce que j’y habite aussi. D’après l’enquête menée par Socrata aux Etats-Unis, le sentiment d’utilité était l’une des toutes premières motivations citées par les réutilisateurs.

Message donc à ceux qui voient en eux de doux rêveurs qui se font gentiment exploiter : la plupart des réutilisateurs sont bien conscients que la fortune n’est pas au bout de l’App Store…

3 – Ne pas sous estimer le facteur d’opposition

Il est un facteur que j’ai souvent vu à l’oeuvre, de manière plus ou moins explicite dans la production de données collaboratives : l’opposition. Se donner un ennemi commun c’est un bon moyen de se fédérer (c’est aussi valable dans d’autres domaines : j’en tiens pour preuve le « tout sauf Sarkozy » ou le « tout sauf Ségolène » en 2007).

Open Street Map est souvent cité comme le meilleur exemple des processus contributifs, au même titre que Wikipédia. Au-delà de leur engagement pour une connaissance plus libre, il y a aussi bien sûr une part d’opposition à un ordre établi. Pour OSM, il me semble clair que l’opposition à Google – et à l’IGN – a pu (peut encore ?) jouer un rôle de motivation pour certains contributeurs, comme en témoignent les débats pour l’adoption de la licence ODbL.

La contribution ne se limite pas à Open Street Map ou à Wikipédia, on la retrouve parfois dans des actes en apparence plus anodins ou moins engageants. Ainsi, j’ai étudié l’an dernier l’émergence de comptes Twitter d’alertes contrôleurs dans les principaux réseaux de transport urbain de France. Ces comptes, créés et alimentés par des particuliers fournissent une information précieuse : la localisation des contrôles en cours dans le métro, le tram ou les bus. J’ai été frappé par le profil de la plupart des contributeurs et organisateurs de ces comptes : soit ils ne sont pas utilisateurs du réseau de transport, soit ils l’utilisent mais sont abonnés. En clair : ils ne sont pas a priori les destinataires du service et n’ont pas d’intérêt personnel à la fraude !

Il y a clairement dans cette pratique une part de jeu, mais aussi d’appartenance et d’opposition à un « ennemi » commun : l’exploitant du réseau de transport (« fuck la RATP !« ). Je me suis enfin souvenu que, sur la route des vacances, mon père pratiquait l’appel de phares entre conducteurs, une pratique non recommandable dont l’alerte contrôleurs pourrait être le pendant numérique. Pourquoi faisait-il celà ? Bien sûr pour la réciprocité attendue (« je le fais parce que j’aimerai que l’on fasse pour moi), le jeu, l’appartenance à la communauté des conducteurs qui ont déjà payé une amende pour excès de vitesse, mais aussi bien sûr par opposition au gendarme. Précisons enfin pour conclure que le père de ma mère était gendarme. Donc, si mon propre père faisait des appels de phare, c’était sans doute aussi un peu pour emmerder ma mère. Une motivation bien réelle mais qui dépasse largement le cadre de ce billet 😉

— Quelques lectures scientifiques que je vous conseille si le sujet vous intéresse :

«Mere Belonging» Gregory Walton et alii., Journal of Personality and Social psychology 2012 et «Motivation, reward size and contribution in idea crowdsourcing»,  Oguz Ali Acar, paper to be presented at DIME Conference 2011, Denmark

« S’il te plaît… dessine-moi l’open data »

Comment représenter et illustrer l’ouverture des données ? Quelles sont les métaphores graphiques les plus courantes pour représenter le mouvement open data ? Ce billet propose sans prétention aucune un premier recensement des figures imposées des données ouvertes, de la plus simple à la plus complexe…

(image par loop_oh sur Flickr)

« S’il te plaît … dessine-moi l’open data » : la demande revient souvent de la part de journalistes à la recherche d’illustrations sur les données ouvertes. Pas évident en effet de représenter l’open data : les mêmes métaphores reviennent très souvent pour illustrer les articles (un exemple ci-contre).

Cette approche par les représentations graphiques est un bon moyen de rentrer dans un univers et d’en saisir quelques facettes. En termes savants, cela s’appelle une recherche iconographique, mais plus prosaïquement on peut commencer par une recherche à l’aide de Google Images. Faîtes l’expérience avec le terme « ville intelligente » et vous verrez rapidement le mode de représentation dominant : des villes toujours verticales, souvent futuristes (les représentations en 3D et les vues d’artistes dominent) et dans tous les cas des villes où la place de l’humain est réduite. Bref, une vision de la ville intelligente tout droit sortie des récits de science-fiction… Qu’en est-il pour l’open data ? J’ai cherché les métaphores les plus courantes, à partir de Google Images mais aussi en regardant les comptes Flickr des organisations qui font la promotion du mouvement d’ouverture des données (Open Knowledge Foundation, Sunlight Foundation, Libertic).

1 – La métaphore du petit commerce : « entrez, c’est ouvert »

(source : OKFN)

Première métaphore rencontrée, celle du panneau annonçant que le commerce est ouvert. On reste dans une approche très simple (ouvert / open) et je ne crois pas qu’il faille y voir une allusion au potentiel économique et commercial de l’open data – ou alors sous une forme très très subliminale… L’image renvoie aussi immédiatement aux pays anglo-saxons. Peut-on d’ailleurs vraiment parler de métaphore dans ce cas ?

Dans le même ordre d’idée que cette image, on peut aussi citer la célèbre photo des stickers « Open Data » en bleu et blanc. Pas vraiment de signifiant profond, mais plutôt le révélateur d’un manque d’imagination … ou d’un manque de budget pour payer des illustrations !

2 – La métaphore de la clé à molette : la figure du hacker

Un grand classique de l’open data. Initialement développée par l’Open Knowledge Foundation (OKFN), reprise et adaptée, notamment en France par Libertic, l’idée de la clé à molette est déjà plus intéressante que celle du commerce. Elle renvoie à l’imaginaire du bricoleur, de la bidouille, bref du « hacker » dans sa définition première.

(source : OKFN)

La clé à molette, c’est un outil dans la mallette de celui qui intervient pour réparer quelque chose (la démocratie ?). En plus, la clé à molette permet d’ouvrir et donc de débloquer ce qui coince… a priori c’est une image positive et qui colle bien à l’idéal d’ouverture. Soit dit en passant, vous aurez remarqué que l’outil peut aussi servir à serrer et à fermer (en tous cas, je l’ai bien noté dimanche dernier en réglant la selle du vélo de mon fils). Intéressant double-sens donc que la métaphore de l’open data puisse aussi servir à « serrer la vis » 😉

3 – La métaphore du cadenas ouvert : la libération et le trésor

Troisième métaphore identifiée, celle du cadenas. On la retrouve sous plusieurs formes, plus ou moins complexes, certaines avec des 0 et des 1 en toile de fond (les données numériques). Le cadenas est déjà ouvert sur toutes les représentations que j’ai pu identifier. Il a dû servir à protéger un trésor (les données publiques ?), un coffre ou une mallette. On reste bien évidemment dans l’idée de la « libération » des données que jusqu’ici les détenteurs gardaient jalousement à l’abri des regards et des réutilisateurs. Curieusement je n’ai identité que quelques rares images avec des menottes : la donnée n’est donc pas personnifiée (ce qui pourtant aurait fait une bonne métaphore de la libération, non ?).

4 – La métaphore du bâtiment ouvert : l’open gouvernement

(source : Libertic)

Cette quatrième métaphore a été repérée par Samuel Goeta dans son mémoire du CELSA « Open Data : qu’ouvre-t-on avec les données publiques ? » (page 24, mais plus globalement je vous en conseille chaudement la lecture). On y voit un bâtiment symbolisant le pouvoir (le Capitole) dont la toiture s’ouvre sous l’effet de l’open data.

Samuel fait remonter son origine au premier concours AppsForDemocracy organisé à Washington D.C. en 2007. L’image a depuis été reprise et adaptée partout dans le monde. Sa dernière résurgence est nantaise. La métaphore est intéressante : ouvrir les données c’est ouvrir le toit du lieu où se prennent les décisions politiques. L’image résume la transparence, l’approche du gouvernement ouvert (open government), le regard public (public scrutiny).

5 – Et plein de combinaisons possibles

(source : Sunlight Foundation)

On peut bien sûr combiner ces différentes métaphores, avec plus ou moins de bonheur. Le logo de l’évènement « Transparency Camp » organisé dès 2009 par la Sunlight Foundation propose ainsi un remix intéressant des métaphores du cadenas et du bâtiment ouvert. La combinaison a toutefois un inconvénient : elle devient parfois difficile à comprendre pour celui qui la visualise…

Je suis sûr que vous aurez pu identifier d’autres figures classiques de la représentation de l’open data… Partagez-les dans les commentaires de ce billet !

L’open data et le grand public : on n’attrape pas les mouches avec du vinaigre

La question de l’appropriation des données ouvertes est, avec celle du potentiel économique, l’un des sujets chauds de l’open data. Ayant eu l’opportunité de tester plusieurs formats d’animation et de sensibilisation au cours des derniers mois, je vous propose un billet sous forme de retour d’expérience. Vos commentaires, idées et réactions sont les bienvenus !

1 – Pour le grand public, le problème dans « open data » c’est d’abord la « data »

L’infolab « données de mobilité »
(photo Ville de Rennes)

J’avais fait cette remarque à l’occasion de la Semaine européenne de l’open data qui s’est tenue à Nantes avant l’été; pour les entreprises, le problème de l’open data c’est plutôt le côté « open« , mais pour le grand public c’est d’abord l’objet « donnée » qui constitue une difficulté.

Les data sont partout autour de nous, elles sont indispensables au bon fonctionnement des services de notre quotidien (de la crèche aux transports), mais pourtant cet objet reste largement méconnu. J’ai développé dans un précédent billet les différents formats d’animation de l’open data, en particulier en fonction des cibles visées; les ateliers dont je fais mention ici visent à développer une culture de la donnée au sens large (et pas uniquement de la donnée ouverte).

2 – D’abord, partir d’une thématique (et surtout pas de l’open data)

Le proverbe dit que l’on n’attrape pas les mouches avec le vinaigre. Je trouve, toutes comparaisons malveillantes mises à part, qu’il s’adapte bien à la question de l’appropriation de l’open data par le grand public.

Faîtes l’expérience : proposez à vos amis de participer à une séance de sensibilisation aux données ouvertes. Qu’allez-vous entendre ? L’anti-geek : « oh, tu sais moi je suis pas trop branché par les trucs informatiques, cela ne m’intéresse pas trop« , l’apprenti geek : « ah oui bonne idée, justement j’avais des problèmes avec Open Office… tu me parles bien de cela, non ?« , la père divorcé : « Ah oui, cela aurait été avec plaisir mais à cette heure-là j’ai kiné/piscine/les enfants à aller chercher à l’école, parce que tu connais mon ex, hein…« .

Je caricature un peu mais vous avez compris le message : l’open data pour l’open data, cela n’attire pas les foules ! L’une des pistes, pour sensibiliser à la culture de la donnée, est de partir d’un thème auquel chacun puisse facilement s’identifier. On n’invite pas à « découvrir l’open data » mais à parler du jardin botanique, des déplacements en vélo dans la ville, ou encore des prénoms. Le thème n’est pas qu’un « hameçon« : je l’ai choisi parce qu’il correspond à chaque fois à des jeux de données déjà ouverts… Ce n’est pas seulement un prétexte, c’est une opportunité pour parler des données, à travers des exemples concrets et accessibles.

3 – Les médiations

Les trois ateliers que j’ai eu le plaisir d’animer à Rennes durant l’évènement Viva-Cités auront permis de tester plusieurs formes de médiation. Le format est de type infolab éphémère : un lieu, un temps déterminé, une méthodologie d’animation pour « faire des trucs » avec l’open data.

Ces trois ateliers, bien qu’ayant des approches très différentes, ont des points communs : aucun participant n’avait à manipuler un ordinateur. On a utilisé des photographies, des plans, des crayons de couleur, des gommettes, … Tout pourvu que l’on n’ait pas besoin d’informatique ! Tous les ateliers ont commencé par des mises en situation, afin que chaque participant puisse faire sien le sujet que nous allions aborder.

Trois exemples de question que j’ai posé en introduction : « Pourriez-vous me dessiner votre parcours-type lorsque vous allez au Jardin du Thabor ?« , « Comment peut-on se déplacer aujourd’hui à Rennes ?« , « Quels sont les prénoms qui figurent sur vos papiers d’identité ?« …

Cette introduction a souvent permis de briser la glace entre les participants qui ne se connaissaient pas avant l’atelier. Elle a surtout permis d’éviter le tour de table des présentations un peu formelles. En effet, j’avais invité sur chacun des ateliers un représentant des services de la Ville en relation avec le jeu de donnée qui nous intéressait… et je ne souhaitais qu’ils se placent, ou soient placés par les autres, « hors du groupe« .

Nous avons ensuite utilisé des méthodes et des supports d’animation très différents pour chaque atelier. Pour celui concernant le Jardin du Thabor, j’ai distribué une cinquantaine de tirages de photographies que j’avais réalisé. Nous avons décrit chaque photo puis placé sur le plan du jardin ces différents « points d’intérêts » (les arbres, les statues, les toilettes, les entrées et sorties du parc…).

L’atelier sur les déplacements s’est déroulé sous le mode d’une chasse aux données. Chaque groupe est parti équipé d’un kit comprenant une photo aérienne du quartier, des gommettes de couleur et des instructions pour prendre des photos sur le mode « rapport d’étonnement ». Enfin, pour le dernier atelier j’avais imprimé sur des grandes feuilles A3 la liste des prénoms les plus populaires (toujours dans l’idée de ne pas avoir à utiliser un tableur Excel…).

4 – Au programme de ces infolabs

Chaque atelier aura permis d’aborder une ou plusieurs facettes des données ouvertes.

L’infolab « Thabor » a montré la richesse et la diversité des sources de données (publiques avec le portail open data de la Ville, mais aussi collaboratives avec la carte Open Street Map). Nous avons insisté sur la possibilité de mixer deux sources de données pour donner naissance à une troisième (à l’instar de la carte des arbres allergènes du parc, réalisée à partir du mix entre la localisation et l’espèce des arbres et la liste des espèces allergènes publiée sur le site de l’ADEME).

L’infolab « données de mobilité » était une invitation à ouvrir l’oeil (et le bon !) pour découvrir les données, signes et informations pertinentes pour se déplacer dans un quartier. Nous avons pu faire le lien entre un objet concret (un ascenseur), la donnée ouverte le concernant (l’état de fonctionnement interrogeable sous la forme d’API) et surtout sa réutilisation possible. J’avais déjà proposé cet atelier à Rennes, Nantes et Marseille et pourtant je continue encore à découvrir de nouvelles choses en observant les participants : par exemple le fait que la majorité des signes s’adressant aux piétons sont des injonctions négatives : « attention travaux, traversée obligatoire pour les piétons », « zone interdite aux piétons », « le petit bonhomme est rouge, on ne passe pas », …

Infolab prénoms
(photo Franck Hamon / Ville de Rennes)

L’infolab « prénoms » aura surtout mis l’accent sur la lecture critique des données (où naît-on vraiment ? comment le fichier est-il constitué ? pour quel usage initial ?). Nous avons aussi pu voir concrètement que chaque visualisation est l’objet d’une intention (ce que l’on veut montrer) et que la manière dont les données sont mises à disposition a un impact sur les réutilisations possibles…

Bref, nous avons essayé de poser les bases d’un programme pédagogique (lire / écrire / compter) pour des  infolabs « culture de la donnée ». C’est bien, maismais… j’entends déjà la question qui se murmure dans le milieu de l’open data :

5 – … à quoi cela sert tout cela ?

La première critique concerne le type de donnée auquel je me suis intéressé. La seconde à l‘ambition qui est poursuivie.

« Les données sur les arbres, ça sert à rien, ce qu’il faut ce sont des **vraies** données sur la transparence des budgets » : ainsi s’exprimait l’ancien président du Conseil national du numérique. J’ai déjà entendu ce point de vue : il y aurait des données « bonnes à ouvrir » et puis les autres, le jugement dépendant bien sûr de celui qui l’exprime. « Il nous faut des données **utiles** » a précisé un intervenant britannique lors de la dernière conférence parisienne sur le sujet. Qu’est-ce qu’une donnée utile ? Celle avec laquelle on peut faire des applications mobiles ? Des applications mobiles rentables ? Celle qui nous sert à appuyer la thèse que l’on défend ? Celle qui est populaire ? …

Bien sûr, il faut des données sur la transparence budgétaire ! D’ailleurs, certaines collectivités qui proposent la localisation des arbres (ou les prénoms populaires) proposent aussi ce type de jeu de données. Est-ce qu’il faut encourager les acteurs publics à ne publier que des données sur les prénoms ? Non ! Est-ce qu’il faut clouer au pilori celles qui publient aussi ce genre de données ? Non, non plus !

La seconde critique tient à l’ambition que l’on se fixe : est-ce que je crois sérieusement qu’un atelier sur les prénoms va répondre à la promesse de capacitation citoyenne et de renforcement démocratique de l’open data ?

Mon ambition n’était pas celle-là, il s’agissait juste d’essayer de transmettre deux ou trois idées sur les données ouvertes et leur intérêt (et malheureusement, cela aurait été plus difficile à faire avec les données budgétaires). Je suis convaincu que nous avons besoin de multiplier les formes d’animation autour du sujet, que ce soit vers les associations, les entreprises ou le grand public.

Les conflits liés aux données « fermées » se multiplient

La Deutsche Bahn ne veut pas ouvrir ses données ? OpenPlanB s’en charge …

Le récent conflit qui oppose le site FourmiSanté et l’Assurance Maladie (1) vient s’ajouter à une longue liste de confrontations liées à des données « fermées ». Partout en Europe, nous assistons à la multiplication de cas similaires.

Comment peut-on analyser ces conflits ? L’open data peut-il être une réponse aux défis qu’ils posent ?

En Allemagne le groupe de data hacktivists Open Plan B vient de publier les données de la Deutsche Bahn, en réponse expliquent-ils à l’immobilisme du transporteur en matière d’open data. En Suisse, c’est le site fédéral permettant de calculer le montant des primes d’assurance maladie qui a lui aussi fait la une de l’actualité, un député réclamant récemment l’ouverture des données fédérales. En Belgique, le groupe de développeurs iRail.be propose une interface non-officielle d’accès aux données de la compagnie ferroviaire nationale, … On voit donc que cette question n’est pas spécifique à la France. 

1 – A l’origine, la multiplication des services en ligne

La réutilisation non-autorisée de données n’est pas une invention de l’ère Internet. Qui se souvient par exemple du 36 17 ANNU, le premier annuaire inversé sur Minitel qui a fait la fortune du tycoon français Xavier Niel ? Les numéros des abonnés étaient récupérés à partir de l’annuaire 36 11 proposé par France Telecom, en veillant à ne pas dépasser la limite fatidique des 3 minutes, au-delà desquelles le service devenait payant. Une pratique qui a d’ailleurs valu à cet éditeur l’une des plus lourdes condamnations jamais prononcées en matière de bases de données en France (pour mémoire, 100 millions de francs et une astreinte de 4 millions supplémentaires par jour).

Aujourd’hui ce ne sont pas seulement la liste des abonnés au téléphone que l’on peut retrouver sur Internet, mais la plupart des services et administrations publics : localisation et horaires des équipements, informations détaillées sur les transports et leur qualité, données sur la qualité des établissements hospitaliers ou sur les tarifs pratiqués par les médecins, … Ce qui demandait, à l’époque du Minitel, une batterie de serveurs, est aujourd’hui accessible à n’importe quel individu un peu motivé et équipé. La « barrière à l’entrée » pour la collecte non-autorisée de données s’est donc très largement abaissée.

Ajoutons aussi que le travail de collecte est aussi largement facilité par le fait que nombre d’administrations et d’entreprises ont recours aux mêmes prestataires et aux mêmes systèmes pour mettre en ligne leurs données. C’est l’exemple du calculateur d’itinéraires développé en Allemagne par la société Hafas et largement utilisée par de très nombreux réseaux de transport en Europe et aux Etats-Unis. Une fois que l’accès au système Hafas via des API devient documenté pour une ville, il le devient rapidement pour toutes

2 – En face, la réutilisation non-autorisée se professionnalise

L’histoire se déroule souvent de cette manière : une entreprise (ou une administration) découvre un jour qu’une application non-officielle a fait son apparition sur l’AppStore. Parfois – trop souvent -, on s’aperçoit aussi que le dit-développeur avait d’ailleurs fait auparavant une demande officielle d’accès à ces données mais que, ne sachant pas quelle position adopter, on ne lui a pas répondu. Face au « fait accompli« , la première réaction est de mettre en route la machine juridique : mise en demeure, demande du retrait de l’application ou du service en ligne, …

La suite a un air de déjà-vu : le développeur un peu malin médiatise le conflit et interpelle les pouvoirs publics. D’ailleurs cela marche souvent et le changement de champ de bataille (du juridique au moral) tourne rarement à l’avantage de celui qui voit ses données utilisées sans son accord : les élus s’en mêlent, écrivent des lettres ouvertes comme à New-York en 2009 (le fait déclencheur de l’open data du transporteur new-yorkais) ou à Lyon plus récemment.

Le conflit est alors plutôt de type asymétrique : le détenteur des données a le sentiment d’avoir le droit de son côté (n’a-t-il d’ailleurs pas pris le soin de détailler des conditions d’utilisation sur son site web ?), mais le réutilisateur a les « cartes médiatiques » en main, et le moment « open data » (déjà évoqué dans un précédent billet) joue à plein. L’incompréhension est totale.

Mais il y a mieux que les applications non-officielles. J’ai cité plus haut l’exemple de Open Plan B en Allemagne, on peut aussi citer aussi la kyrielle d’API (interfaces de programmation) non-officielles qui se multiplient, à Montpellier, en Suisse, en Belgique. Ceux qui développent ces outils font en quelque sorte le boulot que les détenteurs de données ne veulent pas faire. En voulant contrôler leurs données, ils encouragent l’émergence de tels services et in fine, abandonnent encore davantage leur capacité à maîtriser l’usage qui en est fait.

3 – L’open data : ouvrir pour fournir un cadre à la réutilisation

Personne n’a intérêt à la réutilisation non-autorisée des données, même pas le développeur. En procédant hors d’un cadre technique et juridique clair, il doit faire face à une incertitude juridique qui freine aussi sûrement l’innovation que les redevances tarifaires. A Londres, c’est l’exemple de ce développeur d’une application très populaire qui a découvert un matin que son service ne fonctionnait plus : le site web de l’opérateur Transport for London (TfL) avait modifié la structure de ses pages web sans avertir personne, …

Le détenteur de données a lui aussi intérêt à préciser le cadre juridique, technique et économique de réutilisation des données. Les mises en demeures, les demandes de retrait d’application : cela fonctionne peut-être dans un premier temps (en témoigne la prudence affichée par les réutilisateurs concernés) mais in fine cela ne saurait constituer une politique en matière de diffusion et de valorisation des données.

Hier la RATP, aujourd’hui l’assurance maladie ou certains opérateurs ferroviaires européens : si vos données ne sont pas encore réutilisées sans votre accord, vous savez ce qu’il vous reste à faire : commencer à réfléchir sérieusement à votre politique open data

(1) : Il s’agit dans le cas présent de la réutilisation non-autorisée des tarifs des médecins publiés sur le site ameli-direct.

Oups, on a fait un infolab

A l’occasion du Forum des Usages coopératifs de l’Internet à Brest, j’ai eu le plaisir de co-animer une session consacrée à la fabrique des données avec Loïc Hay de La Fonderie (agence numérique d’Ile-de-France) et la Fondation Internet nouvelle génération. Ce billet retrace cette expérience pratique de mise en place d’un infolab, dans un temps et un lieu déterminé.

De droite à gauche : Denis Pansu (Fing), Loïc Haÿ (La Fonderie) et moi – crédit photo La Fonderie

1 – La fabrique des données

La fabrique des données propose d’illustrer une démarche de réutilisation de données ouvertes. De la recherche de la matière première, jusqu’à la réalisation de quelques infovisualisations, cet atelier combine dans un format court (2h30) une approche critique (d’où viennent les données ?) et pratique (comment les représenter ?).

2 – Le thème retenu : les prénoms

Nous avons retenu la thématique des prénoms pour ce premier atelier. Le prénom présente plusieurs avantages :
– d’abord on en a tous un ! (voire deux, trois ou quatre). Chacun peut se sentir concerné par cette thématique, a fortiori s’il a des enfants et s’est donc déjà retrouvé en position de choisir un prénom,
– ensuite, la matière première est disponible : les jeux concernant les prénoms les plus populaires sont disponibles sur les portails open data de Paris, Nantes et Rennes. Plutôt que de râler contre la non-disponibilité des données, utilisons celles qui sont déjà proposées !
– les jeux de données sont faciles à appréhender et à comprendre. Nul besoin de savoir développer une application mobile ou d’être un expert de la comptabilité publique pour s’en saisir.

Nous nous sommes ensuite appuyé sur une actualité de ce début juillet : la publication par Baptiste Coulmont (sociologue et auteur de « Sociologie des prénoms » aux éditions La Découverte) d’une étude sur les prénoms des candidats au bac ayant reçu la mention très bien. Elle révele des succès très différents pour les Eleonore et les Jessica, les Augustin et les Kevin.

Prénoms et mentions TB au bac par Baptiste Coulmont (source coulmont.com/blog)

La représentation graphique fait réagir la salle, et elle est surtout pour nous l’occasion de souligner la confusion fréquente entre corrélation et causalité – ce n’est pas le prénom qui détermine le résultat au bac (contrairement à ce que laissent penser nombre d’articles de presse qui ont repris l’information) !

Le prénom est un marqueur d’un milieu social ou d’une région. Ainsi, Loïc explique qu’on lui demande souvent quelles sont ses racines bretonnes (réponse : aucune). Bref le prénom laisse imaginer – à tort ou à raison – beaucoup de choses sur celui qui le porte … et sur celui qui le donne (voire sur celui qui le juge).

3 – D’abord, apprendre à lire les données

Après cette introduction sur les prénoms, j’aborde le « tronçon commun » de tous les ateliers que j’anime, c’est-à-dire une courte séquence pour expliquer la différence entre une donnée et une information, une donnée publique et une donnée ouverte… Donner des bases de compréhension me semble plus que jamais indispensable et c’est en tout cas un pré-requis avant de pénétrer dans la fabrique des données.

Nous proposons ensuite aux participants de découvrir les jeux de données disponibles sur les portails open data de Paris, Nantes et Rennes. Chacun est invité à suivre les liens à partir de son propre ordinateur. J’ai volontairement fourni l’adresse des pages descriptives des jeux de données (et non le lien de téléchargement) or la majorité de nos participants commencent d’abord par télécharger le fichier lui-même… Comment ce fichier a-t-il été constitué ? Que comprend-t-il ? Que nous raconte-t-il ? Quelle est la licence  juridique applicable ? On ne peut répondre à aucune de ces questions sans consulter la notice de chaque jeu de données – c’est une démonstration « par l’exemple » et une première illustration de l’importance des métadonnées.

crédit photo La Fonderie

Une dizaine de minutes sont consacrées à une lecture critique et comparée des trois jeux de données. Les participants notent ainsi que les stratégies de diffusion ne sont pas les mêmes selon les villes. Paris ne distingue pas les filles des garçons pour les naissances intervenues avant 2011 – Camille par exemple est un prénom populaire dans la capitale. Rennes et Paris proposent un fichier consolidé pour plusieurs années, alors que Nantes a scindé chaque année dans un fichier spécifique – un moyen pas bien méchant mais pas discret non plus de « gonfler » artificiellement le nombre de jeux de données disponibles…

On constate aussi que d’une manière générale les prénoms les plus populaires – ceux qui figurent dans le top10 – sont souvent les mêmes dans les 3 villes : Emma, Manon, Matthis, …

Les participants remarquent aussi, sur les portails de Rennes et Nantes, la mention d’une soi-disant recommandation de la CNIL sur les prénoms ayant été donnés moins de 6 fois au cours de l’année considérée (nous reviendrons dans un prochain billet sur cette « recommandation »… l’histoire vaut vraiment le détour !). Cela signifie en pratique que les fichiers ne comportent pas tous les prénoms donnés afin de respecter la vie privée des individus. Cela nous amène à évoquer rapidement les problématiques d’anonymisation à partir des données personnelles.

Ayant bien fait le tour de notre matière première, de ses atouts mais aussi de ses limites, je passe la main à Loïc Haÿ pour la suite de l’atelier. Maintenant que nous savons « lire » les données, on passe au niveau supérieur : l’écriture.

4 – Ensuite, apprendre à écrire

Loïc montre tout d’abord deux exemples de visualisations que l’on peut réaliser facilement : des « nuages de tag » reprenant les 150 prénoms les plus populaires à Rennes et Nantes pour l’année 2008. Il explique ensuite comment les réaliser à partir du site wordle.net.

« La Dataviz de la dataviz » par WeDoData pour Expoviz – La Fonderie

La Fonderie, agence numérique Ile de France est à l’origine de l’exposition Expoviz consacrée à la visualisation de données. A cette occasion, l’agence WeDoData a réalisé le poster « La Dataviz de la dataviz » que Loïc nous détaille. Il insiste notamment sur la grande diversité des modes de représentation possibles des données (dont la photovisualisation). La parole est ensuite donnée à la salle : et vous, comment aimeriez-vous représenter les données concernant les prénoms ?

Léa Lacroix explique le travail qu’elle a réalisée pour son site LesPtitsRennais, on évoque l’idée d’une photographie de petites Emma, Manon et Louise sur les marches d’un escalier, pour illustrer le classement qui change d’une année sur l’autre. L’idée de classement revient souvent et nous cherchons donc de l’inspiration du côté des résultats sportifs… Un participant nous fait à juste titre remarquer que l’on devrait d’abord définir ce que l’on cherche à montrer – avant de chercher le bon outil pour le faire !

Loïc présente différents outils de représentation de données dont Many Eyes. Certains sont accessibles au plus grand nombre, d’autres réclament plus de temps pour les maîtriser.

5 – Oups, on a fait un infolab !

Revenons maintenant sur le titre de ce billet, « oups, on a fait un infolab« . Le concept d’infolab a connu récemment un regain d’intérêt suite à l’article d’Internet Actu « Avons-nous besoin d’infolabs ?« , article qui reprend les réflexions en cours à la Fondation Internet nouvelle génération sur les modes d’appropriation des données. Notre atelier brestois s’est d’ailleurs conclu par une intervention de Denis Pansu de la FING sur ce propos.

On sent bien que la problématique de l’animation autour de l’open data, de son accès à un public plus large que les seuls développeurs suscite de nombreuses réflexions – le sujet était d’ailleurs central lors de la semaine européenne de l’open data. La Fonderie avec Expoviz, ou moi-même avec les ateliers autour des données de mobilité, nous expérimentons de nouveaux formats d’animation et de transmission…

Initialement une blague partagée avec Loïc, le titre de ce billet traduit aussi une conviction : ce dont nous avons avant tout besoin ce sont des médiateurs motivés (et si possible compétents)… qu’ils travaillent ou pas dans un « infolab ».

Rendre visible les données ouvertes de Rennes, Nantes et Marseille

Comment rendre visibles les données ouvertes ? J’ai déjà eu l’occasion de raconter l’atelier que j’ai animé à Rennes pour les étudiants de Sciences Po sur le thème des données de mobilité dans la ville. J’ai eu l’opportunité de proposer deux nouvelles sessions, l’une à Nantes lors de la Semaine européenne de l’open data, et l’autre à Marseille lors des rencontres régionales Open PACA. Je vous propose un regard croisé sur ces 3 ateliers…

1 – La chasse aux données en quelques mots

Pour rappel, l’ambition de cette animation est de fournir en 2 heures les éléments de base pour comprendre les données ouvertes et être capable de les repérer dans la ville. La thématique de la mobilité a été choisie pour de multiples raisons, déjà amplement détaillées dans de précédents billets. Chaque atelier regroupe une douzaine de participants et se déroule en 3 temps. On débute tout d’abord par une séance de remue-méninge collectif : « Comment se déplace-t-on aujourd’hui à Rennes / Nantes / Marseille ? Quelles sont les informations nécessaires pour se déplacer en vélo / en bus / à pied / en voiture ? ». Un court exposé théorique permet de faire la distinction entre une donnée et une information, une donnée publique et une donnée ouverte.

Chaque groupe (de 3 à 4 participants) se voit remettre un plan du quartier (une photographie aérienne ou une carte Open Street Map), des gommettes de couleur correspondant à des modes de déplacements (en l’occurrence : la voiture individuelle, le bus et métro, le vélo). Panneaux de signalisation, fiche horaire de bus, information de voirie, … Tout ce qui permet de se déplacer est répertorié et photographié. La dernière partie de l’atelier est consacrée à une mise en commun de nos « découvertes » et surtout à une première lecture critique des données (ou de leurs artefacts pour être plus exact) : à quoi et à qui sert cette donnée ? Qui la collecte et la gère ? Quelle réutilisation peut-on en imaginer ?

2 – Rennes, Nantes et Marseille : les terrains de notre chasse aux données

La Cantine numérique rennaise a accueilli la première session en mars 2012. Situé au sein de l’équipement culturel Les Champs Libres, le lieu est à proximité immédiate du quartier de la gare, hub important des transports rennais. On y trouve notamment les gares routières et ferroviaires, une ligne de métro, de nombreux arrêts de bus urbain, des stations de vélo en libre-service, …

La seconde session s’est déroulée en mai 2012 à la Cantine numérique de Nantes et le terrain choisi pour notre chasse était les environs de la place du Commerce, lui aussi un hub important des transports de la ville (stations de tram, bus, parkings souterrains, stations de vélo en libre-service, …) bien que plus éloigné de la gare. A noter, les nantais sont les seuls français à pouvoir jouir d’un mode de transport ancestral : l’éléphant (quoique sous une forme largement modernisée et plutôt destinée aux touristes).

Les rencontres régionales de l’open data en région Provence Alpes Côte d’Azur ont fourni le cadre de la troisième session à Marseille en juillet 2012. L’atelier s’est déroulé dans les environs immédiats du siège du Conseil régional, dans le quartier de la Porte d’Aix. Si vous êtes déjà venus à Marseille en voiture, vous connaissez cet endroit car jusqu’à récemment c’était la fin de l’autoroute… Mais le quartier est aussi desservi par le métro et de nombreux bus.

J’ai détaillé les terrains de notre chasse aux données car il me semble évident qu’ils ne sont pas étrangers aux différents résultats obtenus. La session rennaise a fait l’objet d’un compte-rendu détaillé, je vous invite donc à le consulter. Voici les points marquants de mon rapport d’étonnement pour Nantes et Marseille.

3  – En vélo, tu iras à Nantes … mais pas toujours en open data

La part modale du vélo s’établit à environ 2% dans la capitale ligérienne (pour mémoire, cet indicateur mesure la part des déplacements qui sont effectués à l’aide de ce mode de transport), contre 4% à Rennes et 1% à Marseille (source des données Fubicy et EPOMM). Les participants nantais de l’atelier ont ainsi pu repérer de très nombreuses données et informations sur cette thématique autour de la place du Commerce : indication de pistes cyclables et de parking vélos, itinéraires vélo, …

Le service de vélo en libre-service Bicloo a attiré l’attention du groupe. En effet, la plate-forme nantaise open data propose bien un jeu de données sur le service Bicloo mais celui-ci ne concerne que la localisation des stations… et non les données les plus utiles pour les réutilisateurs à savoir la disponibilité en temps réel des vélos et des places restantes.

« Mais pourtant, le site web du Bicloo c’est bien celui de Nantes Métropole, non ? » m’a fait remarquer l’un des participants à cet atelier. Une remarque de bon sens évidemment, puisque le visiteur du site bicloo.nantesmetropole.fr devra consulter les mentions légales pour constater que le site est géré par JC Decaux, l’exploitant du système de vélo en libre-service… et non pas Nantes Métropole, dont le logo apparaît pourtant en bonne place.

Cet exemple a permis au groupe d’illustrer la différence entre une donnée et une donnée publique – JC Decaux n’exerçant pas dans le cas présent une « mission de service public » et n’étant donc pas concerné par la loi CADA de 1978. La lecture des conditions générales d’utilisation de l’application iPhone officielle de JC Decaux démontre aussi parfaitement ce que n’est pas une donnée ouverte. Le design de l’application AllBikesNow et ses écrans de pub sont en tant que tels des pousses-au-crime, en l’occurrence une véritable incitation à la réutilisation sauvage. Vu la qualité des développements internes, il sera difficile de justifier longtemps le contrôle exercé sur les données…

4  – A Marseille en voiture tu iras … et patient tu seras

Marseille, le Vieux-Port, la vue depuis Notre Dame de la Garde, les plages … J’aime beaucoup la ville, surtout depuis que j’y viens en TGV et que je m’y déplace en tram et à pied… Mais ma vision de touriste n’était pas celle des participants à la 3è session de cet atelier. Le groupe « vélo » a sillonné le quartier pendant près d’une heure et sans grand succès. Mis à part une station de vélo en libre-service, peu d’informations disponibles pour les rares cyclistes de la capitale du Sud… Le groupe « voiture » a par contre repéré plusieurs dizaines de points d’intérêt pour l’automobiliste : des parkings, des panneaux de signalisation, de nombreuses déviations, des plots pour empêcher les automobilistes de se garer sur les trottoirs, …

Devant la profusion des informations (des ordres et des contre-ordres), l’information la plus claire n’est pas toujours là où on l’attend : c’est le panneau publicitaire géant pour une grande chaîne hôtelière qui indique le plus sûrement son chemin à l’automobiliste qui veut rejoindre l’A55 et le quartier de la Joliette ! Dernier élément de curiosité : les panneaux qui indiquent le fast-food le plus proche sont très intelligemment (et sans doute aussi très illégalement) disposés. A chaque carrefour important, depuis les principaux arrêts de bus, à partir de la sortie du métro : celui qui cherche le Mac Donald’s ne peut pas se perdre !

Au-delà de leur caractère anecdotique, ces deux exemples montrent que les données utiles pour la mobilité ne sont pas l’apanage exclusif des acteurs publics ou des grands opérateurs. Si elle se veut complète, l’ouverture des données doit donc aussi impliquer ces acteurs qui ne relèvent d’une mission de service public – et échappent donc ainsi à la loi CADA de 1978 (voir à ce sujet mon précédent billet : pourquoi ouvrir ses données quand la loi ne vous y oblige pas ?).

5 – Comment améliorer cet atelier ?

L’ambition de ce format d’animation est de fournir en un temps court les bases de compréhension des données et de montrer leur réalité dans notre vie quotidienne. La thématique de la mobilité n’est au final qu’un prétexte, et je travaille d’ailleurs sur de nouveaux ateliers avec d’autres thématiques (la culture, le tourisme, la petite enfance, …).

Je pense que cet objectif de « vue d’ensemble » est à peu près atteint (si vous avez participé à cet atelier et/ou que vous souhaitez proposer des idées, n’hésitez pas à commenter ce billet). Cependant, j’en vois aussi les limites et je m’interroge sur plusieurs points :

– l’intérêt de la carte comme support de découverte : cet atelier n’est pas une cartopartie, on ne vise pas l’exhaustivité mais plutôt la diversité des points d’intérêt. La carte sert aussi à délimiter le terrain de jeu, mais est-elle vraiment utile ?

– le caractère parfois déceptif de l’exercice : cet atelier vise aussi à susciter l’intérêt et la curiosité pour les données ouvertes or parfois, comme dans l’exemple du Bicloo à Nantes, on peut en ressortir en se disant « qu’on ne peut rien faire avec les données ouvertes à ce jour… » En 2 heures on ne produit pas de réalisations concrètes, on pose juste les bases de compréhension du contexte juridique de l’open data en France,

– la capacité à porter un regard critique sur la donnée : ce format permet de montrer qu’avant la réutilisation il y a une utilisation… mais c’est à peu près tout en matière de critique de la donnée brute. Je pense que c’est en grande partie dû à la thématique retenue, celle de la mobilité qui se prête peut-être moins à l’exercice que d’autres sujets…

Je travaille actuellement à la définition de formats d’animation autour de la culture de la donnée. Un prochain billet racontera l’atelier que j’ai eu le plaisir de co-animer la semaine dernière à Brest, une pierre de plus à l’édifice d’un « truc » genre infolab. A suivre 😉