Open Data Transport : les enjeux du débat à venir

Où va l'open data transport ?

Où va l’open data transport ?

La feuille de route gouvernementale sur l’ouverture des données publiques (open data) prévoit l’organisation de six débats thématiques et ouverts. L’un d’eux doit précisement s’intéresser aux données du transport.  Ce billet de blog se propose de commencer à identifer les enjeux et les questions du débat à venir.

(Edité le 3 juin pour rajouter un schéma sur les données déjà ouvertes et préciser les questions liées aux formats de mise à disposition).

1 – Le contexte actuel et les objectifs des débats thématiques

Les débats thématiques ont plusieurs objectifs décrits dans la feuille de route : ils doivent permettre d’identifier et de publier de nouveaux jeux de données stratégiques et de qualité, mais aussi d’étudier la possibilité d’élargir et d’étendre la politique d’ouverture des données à l’ensemble des acteurs : collectivités territoriales, délégataires de service public, entreprises publiques, établissements publics à caractère industriel ou commercial, … On voit bien que l’enjeu pour l’open data transport est important, car les changements pourraient concerner l’ensemble des acteurs de la mobilité et des transports.

Par ailleurs, ce débat à venir s’inscrit plus généralement dans la réaffirmation, tant en France qu’aux Etats-Unis, des principes de l’ouverture des données « par défaut » et de la gratuité des données brutes comme l’un des leviers / piliers de cette politique. L’acte 3 de la décentralisation explicite d’ailleurs ce principe d’open data par défaut. Certes, la perspective de son adoption s’éloigne un peu – ce qui pourrait soulager ceux qui sont inquiets des risques que feraient peser, selon eux, la généralisation de l’open data. Mais l’Europe ne reste pas non plus inactive, avec l’adoption de la nouvelle directive PSI (public sector information) qui fixe des orientations assez fortes (et notamment le principe access = reuse) et finalement assez proches des principes défendus par la feuille de route gouvernemental.

Il y aura donc un débat thématique sur les données du transport et de la mobilité. La perspective d’un open data « par défaut », et non d’un open data comme une « option » éclaire  bien sûr d’une lumière nouvelle les questions à venir. En voici quelques unes.

2 – Quelles données ?

Les données du transport, et plus globalement de la mobilité sont diverses et variées. On y retrouve tous les types de données que nous manions quotidiennement dans le domaine de l’open data : données brutes / données enrichies, données historiques / données prédictives, données en stock / données en flux, données de description / données d’exploitation ou de commercialisation, …

Dans une optique de mobilité au sens large, il faut aussi prendre en compte un grand nombre de modes : piéton, vélo, automobile, transports en commun, … Enfin, et ce n’est pas là la moindre difficulté, les données de mobilité sont produites / collectées / gérées par un très grand nombre d’acteurs aux statuts juridiques et aux stratégies parfois incompatibles.

Nous avons donc potentiellement un très grand nombre de données concernées, elles-mêmes très diverses dans leurs caractéristiques, leurs statuts juridiques, leurs valeurs identifiées, réalisées ou perçues. L’un des enjeux du débat sera donc de tenter de classer ces données et de leur attribuer une priorité d’ouverture – un peu à la manière des données « stratégiques » citées par la feuille de route gouvernementale.

OpenDataTransport-donneesdejaouvertes.009Une rapide analyse des sites open data des réseaux de New-York (MTA), Londres (TfL, Transport for London), Paris (Ratp, Transilien) et Rennes (Star) permet déjà d’identifier une très grande diversité dans les données déjà ouvertes.

Le schéma ci-contre en présente une sélection, classée selon deux axes : l’objectif (transparence / participation) et le type de données (dynamiques / statiques).

La question de la valeur des données sera bien sûr au coeur des échanges. Par essence, cette valeur est multiple (valeur monétaire, valeur d’usage, valeur de ré-utilisation, valeur d’image, …) et dépend en partie de ceux qui réutilisent la donnée – et de ceux qui la réutiliseront demain ! Nous aurons donc – et ce ne sera pas facile – à discuter du partage de la valeur de données alors que nous n’avons qu’une vision assez partielle de leur vraie valeur actuelle et future pour l’ensemble des acteurs de la chaîne…

Concernant les critères de priorisation, il y aura aussi à coup sûr un débat dans le débat. Faut-il considérer les données selon l’usage qu’elles permettent (par exemple le calcul d’itinéraires) ou alors selon le statut (AOT, exploitant) de celui qui va l’ouvrir ? Faut-il prendre comme premier critère l’impact économique, social et sociétal de la donnée ? Et si oui, comment faire ? Nous pourrions imaginer par exemple de favoriser l’ouverture de données qui encouragent le transfert modal vers des modes de déplacements moins polluants que la voiture individuelle – c’est une piste parmi d’autres.

(Le débat devra par contre permettre de clarifier le statut juridique de la donnée de transport, et ce sera déjà une grande avancée)

3 – Quels acteurs ?

Le second enjeu est bien sûr lié aux acteurs qui seront concernés par l’ouverture des données du transport. Il faudra trouver une certaine concordance entre la loi d’organisation des transports (LOTI) et les futurs ajustements liés à l’open data. Certaines autorités organisatrices des transports craignent que l’obligation qui pourrait les viser « épargne » leur exploitant si celui est une entreprise publique ou un EPIC ou un EPA (on parle bien sûr de la SNCF ou de la RATP).

La question des acteurs rejoint celle du périmètre de l’ouverture et l’Etat n’est pas tout à fait un acteur neutre. L’open data pourrait figurer parmi les objectifs assignés aux systèmes d’informations multimodaux, qu’il s’agisse de SIM départementaux, régionaux ou nationaux. On pourrait aller un peu plus loin et imaginer que l’Etat et l’Europe réservent leurs co-financements aux seuls projets de SIM mettant en oeuvre des politiques d’ouverture et de partage des données – mais, encore une fois, ce n’est qu’une piste parmi d’autres.

4 – Quelles modalités d’ouverture ?

Les deux premiers enjeux que j’ai cité correspondent donc aux questions du « quoi ? » et du « qui ? ». La question des modalités de l’ouverture – le « comment » – est bien sûr l’une des plus importantes.

Premier élément des modalités de l’ouverture : le degré d’obligation. Va-t-on être dans le domaine de la bonne pratique, de l’incitation (si besoin avec des mécanismes financiers du type subvention conditionnée à la mise en place d’une politique open data) ou de l’obligation (mandatory) ? Bien sûr il y aura toute une palette de réponses, selon les types de données, les acteurs ou les usages pressentis.

Second élément : la licence applicable à ces données.  Certaines collectivités ont déjà fait part de leurs craintes sur des réutilisations de « leurs » données contraires à leurs objectifs de politique publique. Le Grand Lyon par exemple a ainsi conçu une approche SmartData, avec trois licences différentes dont l’une avec des données payantes – c’est leur réponse à l’open data et aux périls qu’ils ont déjà eu l’occasion de dénoncer. Le débat devra donc aussi trancher : pourra-t-on à l’avenir proposer une diversité de licences ou la licence ouverte, proposée et mise en oeuvre par Etalab, va-t-elle s’imposer à tous ?

Troisième élément : les « formats » de mise à disposition. Ce terme peut s’entendre de deux manières. La première concerne le mode de mise à disposition, le second les formats des données elles-mêmes. Concernant les modes de mise à disposition, certains acteurs des transports privilégient la mise en oeuvre de services (webservices, API),  plutôt que de la mise à disposition de données en téléchargement – une opposition qui n’est pas irréductible à mon avis, les deux modes correspondant à des usages et des cibles de réutilisateurs différents. A propos des formats, la plupart des réseaux mettent une partie de leurs données à disposition en GTFS, le standard de facto pour la réutilisation de données transport en mode open data. Le gouvernement va-t-il inciter à – ou imposer – l’usage d’autres formats (mieux connus du domaine des transports) ? Ou alors va-t-il laisser ces éléments au libre choix des acteurs ?

Dernier élément, qui va souvent de pair avec la question de la licence : la monétisation et le partage de la valeur. Doit-on imposer un partage des revenus avec les autorités organisatrices en cas de réutilisation commerciale des données ? Doit-on discriminer les utilisateurs selon l’usage des données (la non-discrimination entre utilisateurs étant, rappelons-le, l’un des principes fondamentaux de l’open data).

5 – Un débat qui ne se limite pas au domaine des transports publics

On voit donc que le débat à venir sera sans doute très riche, passionnant et porteur d’enjeux importants.

Mais je voudrais ici rappeler (amicalement) aux acteurs du monde des transports que ce débat thématique ne sera que l’un des six qui sont prévus.

Dans la galaxie du sujet open data, le transport est l’une des thématiques mais pas la seule. Les débat sur les données de santé, ou les données culturelles, seront à coup sûr tout aussi impliquant pour l’open data. L’idée d’une licence dédiée pour les données transports, par exemple, me semble devoir être confronté à ce « moment Galilée« .

Les acteurs du transport ne sont pas plus légitimes que les acteurs de la santé ou de la culture pour réclamer une licence propre et un régime d’exception (la culture en bénéficie déjà)… je doute que ce voeu puisse donc être exaucé, ou alors l’Etat accepte de céder une situation avec une licence (sans doute critique, mais lisible) pour une kyrielle de licences thématiques (c’est possible, mais j’émets des doutes sérieux).

Sans compter que la galaxie de l’open data en France tourne elle-même d’un astre encore plus large, la politique européenne en matière de réutilisations des données publiques. Et dans ce domaine, au regard de la nouvelle directive européenne, l’heure n’est pas à définir de nouvelles redevances mais plutôt à les limiter… Un vrai moment Galilée !

Je profite de ce billet pour vous inviter à suivre les travaux de la journée d’échange sur l’Open Data Transport, que je co-organise avec le GART et Christophe Duquesne. Rien de tel qu’une bonne discussion pour trouver des réponses !

L’open data renforce-t-il le risque de désintermédiation ?

Mercredi dernier, j’ai emmené mon fils au cinéma. Pour préparer notre sortie j’ai recherché les horaires de cinéma. Google m’a proposé – avant les résultats des sites web correspondant à ma requête – la liste des films projetés actuellement dans ma ville, et un simple clic m’a permis de voir les prochaines séances. 

Les horaires des films à Rennes (Google Movies)

Les horaires des films à Rennes (Google)

A aucun moment je n’ai quitté la page du moteur de recherche, j’ai obtenu l’information recherchée sans consulter ni le site du cinéma, ni les multiples intermédiaires tels qu’Allociné ou Cinéfil.com.

En tant qu’utilisateur, j’ai trouvé le service plutôt pratique (et en tant que père j’ai passé un bon moment avec mon fils). Mais pour nombre d’acteurs que je rencontre (des entreprises, mais aussi des acteurs publics) cela représente plutôt un bien mauvais signal.

Cela s’appelle de la désintermédiation, ou plutôt une nouvelle intermédiation par un nouvel acteur. Le risque de désintermédiation est donc une réalité et ne se réduit pas à la discussion sur la position de Google et autres dans l’économie numérique. L’open data est-il un facteur d’accélération de cette désintermédiation ? Après tout, ouvrir des données data facilite l’émergence de services tiers, c’est même souvent l’un des objectifs recherchés.

Dit autrement : est-on en train de faire entrer le loup dans la bergerie ? (Même si en l’occurence on est toujours l’agneau de quelqu’un d’autre, tout dépend du contexte…).

1 – Le risque de désintermédiation cela concerne tout le monde (faites-vous dépister !)

Imaginons quelques scénarii pour illustrer les différentes formes du risque.

Ce matin je veux aller à la piscine, je consulte donc les horaires via l’application mobile développée dans la cadre d’un concours open data. L’après-midi je veux acheter un billet de train et mon moteur de recherche favori me propose, en plus des horaires et de l’information sur la ponctualité de mon train (des données aujourd’hui ouvertes…), un achat direct en ligne. A un autre moment de la journée je consulte mes comptes bancaires via un service tiers développé lui aussi à partir de données mises à disposition (pas en open data certes, mais plutôt en mode API semi-ouverte,… ).

Plaçons nous maintenant du côté de ceux qui ont ouvert les données.

Le service des sports de ma ville vient de mettre en place un nouveau service de paiement via une carte sans contact et il aimerait bien m’en informer. Et pour celà le plus simple serait que je consulte les horaires directement sur le site de la municipalité.

L’opérateur de transport lui aussi aimerait ne pas perdre la relation client, et surtout pas sur la partie distribution de son métier. Enfin ma banque, qui voyait plutôt d’un bon oeil l’émergence de services complémentaires commence à se poser des questions. Surtout depuis qu’un nouveau service en ligne, développé par des plus malins qu’elle, a carrément désintermédié la relation client et me propose une assistance de très bon niveau (une sorte de super assistant personnel à qui j’ai confié les clés de ma banque en ligne).

Le risque de désintermédiation ne concerne d’ailleurs pas que la relation à l’usager ou au client. Quand le service de la mobilité urbaine du Grand Lyon explique qu’il ne veut pas que l’ouverture des données aboutisse à des usages contraires à ses objectifs de politique publique, il ne dit pas autre chose (même si les termes sont différents).

Dernier exemple : les autorités organisatrices des transports ont elles aussi peur de se faire désintermédier par la SNCF … et par Google à la fois !

2 – Un risque vieux comme l’Internet : les désintermédiateurs d’aujourd’hui sont les désintermédiés de demain

Les chaînes d’hôtellerie, les compagnies aériennes, les exploitants de salles de cinéma, … Tous ces acteurs économiques (et bien d’autres) ont connu ces phénomènes de désintermédiation. Certains sont directement imputables au web (on pense à l’émergence des comparateurs de prix dans l’aérien), d’autres sont plus anciens que l’Internet (l’invention du traitement de texte sur les ordinateurs personnels a désintermédié la sécretaire à qui l’on demandait autrefois de rédiger les courriers…).

Il me semble que chaque cycle technologique « rebat les cartes » de l’intermédiation. Prenons l’exemple du groupe hôtelier Accor (qui possède plusieurs marques, de l’Ibis au Sofitel). Qui vend aujourd’hui des nuits d’hôtels en ligne ? Les sites Booking.com, Hotels.com, les partenaires de TripAdvisor mais aussi voyages-sncf.com …

Bref le web a bien désintermédié les canaux de distribution installés. Cependant, le groupe Accor a su voir dans le mobile une opportunité pour se ré-intermédier : avec ses applications officielles, il peut à nouveau vendre directement à ses clients (et qui plus est aux clients les plus fidèles à sa marque).

Il n’est donc pas interdit de penser que les désintermédiateurs d’aujourd’hui seront les désintermédiés de demain.

L'infobox Google fournit directement l'adresse, le numéro de téléphone et l'itinéraire

L’infobox Google fournit directement l’adresse, le numéro de téléphone et l’itinéraire

Les premiers à souffrir de la désintermediation proposée par le moteur de recherche sont précisement les nouveaux intermédiaires qui se sont développés avec le web. Si l’on reprend l’exemple des horaires de cinéma, les perdants potentiels sont davantage à chercher du côté d’AlloCiné, de Cinéfil, de Pariscope, voire des Pages Jaunes ou Mappy (Google propose le numéro de téléphone et le plan d’accès au cinéma directement dans une infobox  – voir ci-contre). Tout compte fait, ce n’est peut-être pas une si mauvaise opération pour l’exploitant d’un réseau de salles de cinéma…

Un dernier exemple – prospectif celui-là- pour illustrer le caractère dynamique de la désintermédiation. Quand Apple introduit la fonction de reconnaissance vocale Siri dans ses téléphones, c’est Google lui-même qui est menacé de désintermédiation : si je peux obtenir, par la parole, les horaires de séance de cinéma, plus besoin (pour ce cas précis) du moteur de recherche qui paraît aujourd’hui incontournable. (Nota : l’émergence des Google Glass peuvent aussi se lire avec cette grille de lecture).

3 – Chaque cycle technologique rebat les cartes de l’intermédiation, et l’open data en est un …

Comment considérer la question du partage de la donnée à la lumière de ce risque de désintermédiation ?

Le premier élément de réponse est à chercher du côté du mix possible en matière de partage de la donnée. Il ne s’agit pas de tout ouvrir (ou à l’inverse) de ne rien ouvrir. Il faut plutôt identifier les données – et leurs modes de partage – qui présentent le meilleur ratio démultiplication de l’effet réseau / risque de désintermédiation.

A ce titre je vous invite à relire le billet que j’avais consacré il y a quelques mois aux univers de diffusion des données. Amazon par exemple a bâti une partie de son succès sur une politique de demi-ouverture des données, via des API. On peut facilement intégrer un « morceau» du catalogue de produits d’Amazon sur n’importe quel blog ou site web. Les partenaires d’Amazon disposent aussi d’une visibilité assez détaillée sur les ventes réalisées via « leur » canal de distribution.

Cette stratégie a permis au libraire en ligne de profiter à plein des phénomènes d’externalités de réseau. Qui peut dire en l’espèce que le partage des données a accru le risque de désintermédiation pour Amazon ?

Bien au contraire, cette politique participe de la capacité d’Amazon à désintermédier les réseaux de distribution de produits (culturels)…

Dans ce travail d’identification des données bonnes à ouvrir et partager, on pourra notamment jouer sur les critères de segmentation couramment utilisés dans le domaine de la data : données chaudes / données froides, données descriptives du service / données de tarification, de transaction ou de relation client, …

Parmi les pistes identifiées, figure par exemple la possibilité d’intégrer un module de vente (par exemple de billets de train) qui serait réservé aux seules applications tierces labellisés… Un moyen de jouer à la fois la démultiplication de l’effet réseau via l’open data et de préserver la relation client.

4 – Où est le problème ?

« Le problème ce n’est pas tant la question de l’intermédiaire que celle du partage de la valeur » me faisait judicieusement remarquer mon sparring- partner Louis-David Benyayer (WithoutModel) alors que nous discutions de ce sujet. Et de me citer de multiples exemples (hors de l’économie numérique) d’acteurs qui ont fait évoluer leur position dans la chaîne de la valeur (Décathlon qui distribue de plus en plus ses propres produits, les acteurs de la grande distribution qui mettent en place les marques de distributeurs,… ).

Il me semble que ce n’est pas le moindre mérite de l’open data que de  poser cette question du partage de la valeur via les données. Où est la valeur dans les données (dans leur caractère brut, dans leur mise en perspective, dans leur combinaison, …) ? Comment la partage-t-on (avec qui, selon quelles conditions, avec une gouvernance ouverte ou fermée) ?

Quelques conseils aux participants des concours et autres hackathons

Ce lundi j’interviens à Marseille lors d’un atelier ouvert aux participants du concours Open Data lancé par la région PACA. L’objectif : encourager la créativité des réutilisateurs et des développeurs. La saison des concours et des hackathons est bel et bien lancée ! Je vous propose des extraits de cette intervention, sous forme de conseils aux participants, illustrés de quelques réutilisations que j’ai repéré ces derniers mois…

1 – Parole de jury

TransitVis, l'un des lauréats du Urban Data Challenge

TransitVis, l’un des lauréats du Urban Data Challenge

Commençons par la fin de l’histoire. Vous avez fini vos développements, votre dossier de participation est complet, vous venez de soumettre votre service ou votre application. Le jury doit maintenant se réunir pour l’étudier et départager les vainqueurs parmi les participants.

En tant que candidat il ne faut jamais oublier qu’un concours (ou un hackathon) c’est une compétition, pas un examen (contrairement au bac, il ne suffit pas d’avoir la moyenne pour être reçu). Le jury est un élément essentiel de cette compétition. Sa composition est souvent rendue publique. Il rassemble généralement des représentants des organisateurs (collectivité ou entreprises), les partenaires du concours et, parfois, des personnalités qualifiées.

Le jury d’un concours devra identifier les lauréats parmi 40 à 50 participants, celui d’un hackathon aura deux heures pour départager 5 à 10 équipes… La clé de la compétition repose donc souvent sur la différenciation d’un dossier ou d’une application parmi l’ensemble des réutilisations (je parle bien de différenciation plutôt que d’originalité, je reviendrai ultérieurement sur cette distinction qui me semble essentiel). Comment proposer quelque chose de différent ? Je vous propose quelques pistes illustrées.

2 – La donnée, un ingrédient

A la base de tous les concours vous avez donc des données, que l’on peut considérer comme des ingrédients. Lisez bien le règlement du concours : il précise souvent les données que vous pouvez utiliser (uniquement celles de l’organisateur, toutes celles en rapport avec le thème ou le territoire, etc…).

Si je poursuis la métaphore culinaire, vous êtes donc, en tant que participant, le cuisinier. Votre premier travail sera d’évaluer tous les ingrédients qui rentrent dans votre cuisine. Cette donnée est-elle bien fraîche ? Comment pourrais-je l’utiliser ? Faut-il la modifier, l’arranger, la transformer ou peut-on la consommer « crue » ? Une très belle donnée, bien riche, peut parfois se consommer crue si l’on sait la présenter, par exemple à l’aide de visualisations…

L’erreur serait d’aller directement de l’ingrédient vers son utilisation la plus immédiate. La plupart des réutilisateurs qui se voient proposer un jeu de données sur les horaires de bus font des applications d’informations voyageurs, les plus malins en détournent l’usage (dit autrement : avec des pommes de terre on peut faire autre chose que des frites…). La différenciation, toujours !

Une donnée peut donc être l’ingrédient principal d’un plat, ou simplement un ingrédient parmi d’autres. Une donnée peut être proposée crue, mise en forme, transformée ou cuite avec d’autres … Autant de manières différentes d’utiliser ces ingrédients qui sont à votre disposition.

Le concours Urban Data Challenge fournit une très bonne illustration de ce principe de diversité. A partir d’un même jeu de données historiques sur les transports de San Francisco, Genève et Zurich, les participants ont mis en oeuvre des scénarios très différents. Urban Bus Race propose une course virtuelle entre les bus des 3 villes, TransitVis affiche une représentation des flux en 3 dimensions. D’autres participants ont ajouté une nouvelle donnée, par exemple en calculant un indice de frustration (qui combine la densité du nombre de passagers, le temps d’attente à un arrêt et les retards sur le réseau de bus)…

3 – Varier les supports  et les registres 

Une seconde piste de différenciation est liée aux supports que vous pouvez mettre en oeuvre (mobile, web, autres). J’ai déjà eu l’occasion sur ce blog d’expliquer le lien historique et fécond entre l’open data et les applications mobiles. Mais on peut faire beaucoup d’autres choses avec des données ouvertes : des sites web, des vidéos, des infographies, … Rien ne nous oblige par ailleurs à nous limiter à des médiations numériques, on peut très bien utiliser des données ouvertes pour concevoir des supports papiers (par exemple une lettre d’information à l’entrée d’un jardin public, avec l’aide des données ouvertes).

Enfin, on peut aussi rechercher de la différenciation du côté des registres d’expression. A partir d’un même jeu de données, on peut proposer quelque chose d’utile, de ludique, de décalé, … La variation entre les registres peut aussi être intéressante. Le service BrokenLifts s’appuie sur l’état de fonctionnement des ascenseurs des transports berlinois. La donnée est à la fois présentée sous une forme utile (« est-ce que cet ascenseur fonctionne ? ») mais aussi sur le registre de la  transparence et de l’accountability (« combien de jours de panne sur cet ascenseur géré par cette société ? ».

Un point de vigilance, cependant. La différenciation ne peut pas seulement passer par le choix d’un mode d’expression décalé. Le format « pitch » du hackathon encourage les discours décalés, mais la forme ne remplace pas complètement le fond.

Le site Brigand Futé (réalisé lors du HackIDF 2030) aide à planquer un cadavre en région parisienne, à partir des données du plan d’urbanisme… Le propos est donc décalé, mais la réalisation est d’un très bon niveau.

J’ai beaucoup moins accroché sur le récent lauréat d’un autre hackathon « a place to pee » qui, comme son nom l’indique, permet de localiser les toilettes dans la ville de Paris… Le sujet est pourtant bien réel (Rennes édite par exemple un guide papier très précis, réalisé avec des associations de malades), on aurait pu jouer sur plusieurs registres – et pas uniquement sur les multiples jeux de mots proposés par les concepteurs du service : « let piss a chance », « game of throne », …).

4 – Emprunter des pistes moins balisées

Il reste par ailleurs des pistes qui ont été jusqu’à présent peu explorées par les participants au concours, et notamment la conception d’outils pour les réutilisateurs et les développeurs. L’approche « business-to-developers » (B2D) plutôt que strictement « business-to-business » (B2B) ou « business-to-consumer » (B2C) est aussi une source de création de valeur. On peut citer par exemple la start-up britannique Placr qui a développé une API pour interroger les données des réseaux de transports urbains.

 

 

Donnée brute ou donnée contextualisée ?

La mission gouvernementale Etalab lance une consultation autour de l’évolution du portail data.gouv.fr. Vous êtes invités à contribuer à cette démarche de co-design. C’est aussi l’occasion de repenser plus globalement la conception des portails open data… A quoi et à qui servent-ils ? Comment doit-on présenter les données ? Je vous propose une série de billets sur ce thème. Le premier traite de la donnée elle-même et de la tension entre donnée brute et donnée contextualisée…

1 – Un cas pratique : la fréquentation des musées

J’ai récemment animé un atelier de sensibilisation à l’open data pour les acteurs culturels d’une collectivité. A cette occasion, j’ai repéré un jeu de données disponible sur le portail gouvernemental. Ce fichier propose les chiffres de la fréquentation des musées de France, de 2006 à 2010. Je vous invite à télécharger celui qui concerne la région Bretagne (pour plus de facilité, je vous propose aussi une copie d’écran ci-dessous, que vous pouvez agrandir en cliquant).

(cliquer pour l'agrandir) - fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr

La fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr (cliquer pour agrandir l’image)

Le tableau présente les chiffres de fréquentation pour chaque « musée de France » situé dans la région. On a donc le nom du musée (ex. « musée des beaux-arts »), une ville, puis les chiffres de fréquentation répartis en 2 colonnes « total » et « grat ». On peut raisonnablement supposer qu’il s’agit des entrées gratuites (mais rien ne le précise formellement, ni dans le fichier, ni dans la fiche de métadonnées). D’autres colonnes précisent l’évolution de la fréquentation d’une année sur l’autre.

Le code couleur est expliqué en pied de page du fichier. La couleur noire représente des « données confidentielles », avec la mention « contacter le chef d’établissement », les autres couleurs viennent apporter des éléments de contexte sur la fréquentation de tel ou tel musée. En l’occurence il y est surtout question d’évènements exceptionnels susceptibles d’expliquer le chiffre de fréquentation : fermeture ou réouverture d’un musée, exposition temporaire ayant entraîné une fréquentation exceptionnelle, …

Plus intéressant, la première colonne du tableau contient un numéro de référence, qui **semble** être un identifiant unique accordé à chaque musée de France.

2 – La tension « brutification » vs. contextualisation

La lecture de ce fichier permet d’illustrer la tension entre deux tendances qui s’expriment aujourd’hui dans le monde de l’open data.

La première tendance est liée à une demande de « brutification ». Je reprends ici le terme évoqué par Samuel Goeta et Jérôme Denis pour décrire l’une des actions qui se déroulent dans les coulisses de l’open data (le thème de la thèse de Samuel à Telecom Paris Tech).

Pour permettre la mise en place d’un ensemble de services sur le portail open data, il faudrait que la donnée proposée soit la plus brute possible (et je parle bien là d’une donnée brute techniquement, pas en termes sociologiques).

Parmi ces « services » on peut citer par exemple la pré-visualisation des jeux de données sans avoir à ouvrir le fichier (une fonctionnalité très utile et déjà mis en oeuvre ailleurs), la datavisualisation ou représentation cartographique par défaut (un exemple ici), ou enfin même les API (des interfaces de programmation qui font aujourd’hui cruellement défaut dans la plupart des portails, à quelques exceptions près). Sans même parler d’un pas vers le web des données et le Linked Data, une attente forte des acteurs du web sémantique.

Reprenons le fichier sur la fréquentation des musées : pour proposer tous ces services il faudrait donc faire un travail *supplémentaire* de brutification : retirer les codes couleurs, ignorer les colonnes qui proposent une donnée recalculée (le taux d’évolution d’une année sur l’autre, les totaux, …) et plus globalement retirer tout ce qui concerne la mise en forme du fichier. On pourrait d’autre part mieux utiliser des données qui y figurent déjà, ainsi le fameux numéro de référence.

J’ai trouvé sur le portail un autre fichier qui fournit des informations complémentaires sur les musées de France : leur adresse postale, le site web, les horaires et jours d’ouverture. Problème : ce fichier ne propose aucun identifiant unique. On a là une occasion manquée de permettre une mise en relation et un enrichissement de deux fichiers (open data 1 – web sémantique 0).

La donnée proposée ici n’est donc pas tout à fait « brute » … mais elle n’est pas tout à fait contextualisée non plus !

La seconde demande qui émerge – et qui de prime abord peut sembler contradictoire avec la brutification – est liée à la contextualisation de la donnée.

J’ai déjà eu l’occasion ici de parler de l’importance d’une lecture critique des données. Si l’on considère le fichier sur la fréquentation des musées, ce besoin de contextualisation apparaît rapidement : qu’est-ce qu’un « musée de France » ? comment les données de fréquentation sont-elles collectées ? quel est l’usage initial des données ? qui la collecte et pour quoi faire ? Et enfin, la meilleure : pourquoi certaines données sont-elles considérées comme « confidentielles » (celles dont les cases portent la couleur noire) ?

La réponse à bon nombre de ces questions se trouve sur le site du Ministère de la Culture (précision importante : j’ai trouvé cela via Google, pas depuis la fiche de métadonnées). On y apprend qu’un service du ministère publie annuellement un très intéressant document de 75 pages, appelé « MuséoStat« . J’ai ainsi pu comprendre que le terme « musée de France » correspond à une appellation officielle (accordée et retirée par les services du ministère), que les variations de fréquentation sont très souvent liées à des expositions temporaires (d’où l’importance des annotations colorées), que la notion de gratuité a elle aussi une définition officielle précise, …

Le document reproduit aussi le questionnaire envoyé aux différents responsables de musée, questionnaire très détaillé puisqu’il précise aussi le mode de mesure de la fréquentation (comptage manuel, automatisée, estimation, …). Enfin, on peut apercevoir en fin de questionnaire une case à cocher par les répondants : « acceptez-vous que ces chiffres soient diffusés ? ». Voilà donc l’origine de cette formule un peu ambigüe de « données confidentielles » !

Cette demande de contextualisation me semble tout aussi pertinente que la demande de brutification du jeu de données. On doit pouvoir y répondre en repensant profondément la manière de documenter les jeux de données – c’est à la fois le rôle des métadonnées mais aussi plus globalement la fonction éditoriale des portails open data.

3 – Sortir de l’opposition « qualité vs. quantité » des données

Le fichier de la fréquentation des musées ne représente bien sûr pas à lui seul la diversité et la richesse des jeux de données disponibles, sur data.gouv.fr ou ailleurs … Mais cet exemple illustre quand même je pense la situation actuelle : des données ni tout à fait brutes, ni tout à fait contextualisées.

La particularité du ni-ni est qu’il ne satisfait ni ceux qui attendent des services plus poussés (API, Linked Data pour les développeurs), ni ceux qui militent pour une meilleure appropriation des données par tous (façon Infolab) – bien qu’ils ne faillent pas opposer les uns et les autres.

Dans le débat qui va s’ouvrir sur les fonctions des portails open data, il y a à mon avis un écueil majeur à éviter : réduire cela à une opposition « qualité vs. quantité » des jeux de données.

La qualité ne peut s’évaluer qu’à l’aune de l’objectif : un développeur, un chercheur ou un associatif qui veut évaluer la fréquentation des musées de sa région ont tous besoin de fichiers de qualité.

C’est la manière dont ils expriment ce besoin qui diffère (notre tension brutification / contextualisation). Il nous faut donc à la fois de la qualité ET de la quantité…

4 – De qui est-ce le travail ?

Reste la question du rôle de chaque acteur impliqué : qui doit assurer ces tâches de brutification et de contextualisation ? Est-ce la mission du service détenteur de la donnée ou du service qui met en oeuvre le portail, en l’occurence Etalab ? Les réutilisateurs  enrichissent eux-aussi les jeux de données, par exemple en reliant deux fichiers via des identifiants, peut-on imaginer qu’un portail officiel puisse héberger, ou faire un lien vers le fruit de leur travail ?

On voit qu’à partir d’une question précise – quelles fonctions pour les portails open data ? – on en arrive à interroger le périmètre même des portails et des organisations qui les mettent en oeuvre…

[En vidéo] Master Class : innover avec l’Open Data

Webcast de la Master Class « Innover avec l’Open Data », à l’invitation de l’Executive MBA « Innovation in a digital world » de Telecom Ecole de Management (enregistrée à Paris le 28.02.2013).

Sommaire

0:00:00 – Présentation de l’Executive MBA « Innovation in a digital world » par Didier Tranchier, responsable du programme

0:06:30 – Début de la Master Class par Simon Chignard

0:08:45 – Open Data ? Définition, origines et enjeux de l’ouverture des données

0:30:15 – Les entreprises et l’Open Data : le double rôle

0:43:00 – Ouvrir les données d’entreprises : 10 stratégies génériques

1:03:00 – Demain l’Open Data : la donnée personnelle, la donnée collaborative

1:12:00 – Questions des participants : Big Data / Open Data, qualité des données, gouvernance, …

Un hackathon, sinon rien ?

Le hackathon est à la mode en ce début d’année 2013 ! Les développeurs qui s’intéressent à l’open data vont être très sollicités. C’est l’occasion de se pencher sur ce format d’animation original. A quoi sert un hackathon ? Quels en sont les valeurs mais aussi les limites ? 

(photo la Cantine Rennes)

(photo la Cantine Rennes)

Tout à la fois dispositif créatif et mode d’animation, le hackathon rassemble dans une unité de temps (généralement un week-end) et de lieu des réutilisateurs qui travaillent en mode projet. Il fait partie de la panoplie des outils d’animation que j’ai déjà eu l’occasion de détailler sur ce blog. Plus léger qu’un concours, a priori moins complexe à mettre en place que d’autres formes d’animation au long cours, le hackathon pose aussi ses propres défis.

Les 3 valeurs du hackathon

Le hackathon a d’abord une dimension de mobilisation, tant interne qu’externe. On pourra noter d’ailleurs que ce format est de plus en plus utilisé en amont de l’ouverture des données. C’est tout d’abord l’opportunité pour obtenir l’ouverture, même partielle ou limitée dans le temps, de jeux de données. Le hackathon est alors un prétexte en interne pour faire bouger les lignes, en arguant du caractère éphémère – donc perçu moins impliquant ou risqué – de l’opération.

Dans un curieux renversement de logique, on ne propose pas un hackaton parce que l’on a des données, on demande des données parce que justement un hackathon est organisé ! La dimension mobilisatrice est aussi importante en externe, c’est un excellent moyen de faire baisser la pression sur le sujet, mais aussi d’engager de premières relations avec un écosystème de réutilisateurs.

La seconde valeur du hackathon est liée à l‘expérience-même du hackaton par ses participants. Ceux qui ont eu l’occasion d’en vivre un vous le diront : ils ont vécu une expérience. Tout d’ailleurs dans l’organisation vise à renforcer cette dimension : l’unité de lieu (on vit en vase clos pendant 48 heures), le travail en petit groupe d’individus qui ne se connaissaient pas nécessairement auparavant (la colonie de vacances est l’archétype du team building, c’est bien connu), la contrainte de temps (à la fin chaque groupe présente son projet), voire la compétition (quand le hackathon donne lieu à un vote).

Le problème avec cette dimension expérientielle est qu’elle ne produit guère d’externalités pour ceux qui ne l’ont pas vécu. Je vais le dire autrement : soit vous avez vécu le hackathon – et vous en comprenez la valeur -, soit vous ne l’avez pas vécu. La transmission d’une expérience vécue est toujours délicate, hackathon ou pas – d’où l’importance de la documentation projet sur laquelle je reviendrai ultérieurement dans ce billet.

La troisième valeur du hackathon est liée à la communication. C’est un dispositif qui permet de donner corps à une démarche d’ouverture des données et constitue en tant que tel un objet de communication. Comment dès lors rendre compte des travaux et de l’ambiance générale ? Le hackathon permet certes d’avoir quelque chose à montrer de l’open data, mais cela ne peut pas se réduire à une photographie de quatre gars et une fille devant un ordinateur 😉

L’opération MuseoMix, largement disséquée dans cet article d’Hubert Guillaud d’Internet Actu ou, dans une moindre mesure, les hackathons organisés par Transilien SNCF, font l’objet d’un retour en ligne assez poussé : vidéos, témoignages de participants, présentation détaillée des projets réalisés (ou en cours de réalisation). Mais le budget nécessaire à cette couverture ne correspond pas tout à fait l’idée du hackathon comme formule d’animation un peu cheap et accessibles à toutes les bourses.

Et pourtant cette fonction de communication est essentielle pour essayer de transmettre aux non-participants un peu de l’essence de l' »expérience hackathon« . Il faut donc l’inclure dans son organisation et sans aucun doute la considérer comme une fonction à part entière. On retrouve ici l’idée de la documentation de projet au fil de l’eau mise en place notamment à la 27ème Région.

Les défis du hackathon

La question principale qui se pose aux organisateurs du hackathon est celle de la finalité : à quoi sert-il ? S’agit-il essentiellement de mettre en oeuvre des démarches agiles et des pratiques d’innovation plus légères, ce qui en soit présente déjà un intérêt comme le souligne Fréderic Charles dans son article « Un hackathon pour innover à la DSI en mode start-up » ? Ou le hackaton a-t-il un objectif de réalisation (de prototypes, de services) ?

Faute d’avoir défini, clarifié et partagé en amont les objectifs, on risque d’être un peu déçu par la réalité des réalisations. De la même manière qu’un Start-Up Week-End (marque déposée, sic) fait émerger des idées d’entreprises (et non des entreprises elles-même), le hackathon fait émerger des idées de service, éventuellement des prototypes. Mais le passage à la phase opérationnelle demande bien souvent un effort supplémentaire.

C’est aussi sur ce point que l’organisateur devra se positionner : comment souhaite-t-il accompagner la concrétisation ? Est-il prêt à financer les projets les plus intéressants ou considère-t-il que son action s’arrête le dimanche soir ? Le hackathon est peut-être finalement une formule un peu plus engageante et impliquante que nous pourrions initialement le penser. L’après-hackathon est un sujet à part entière.

L’autre question qui se pose – au hackathon mais aussi plus globalement aux autres formes d’animation ponctuelles comme les concours – est celle de la répétabilité. Peut-on répéter indéfiniment la formule sur un public cible de développeurs intéressés par l’open data, cible qui n’est pas -par définition – extensible à l’infini ? Dit autrement, un hackathon ca va, trois hackathons bonjour les dégâts ? Les équipes des premières éditions se concentrent sur la concrétisation de leurs idées, il faut donc être capables de mobiliser de nouveaux participants – et ce n’est pas toujours simple. Le premier semestre 2013 va être un bon test grandeur nature, vu le nombre important d’hackathons annoncés…

Ps : j’en profite pour vous conseiller la lecture du guide pratique d’organisation d’un hackathon, proposé par Open Data BC (British Columbia) en anglais, donc.

Moderniser l’action publique par l’open data ?

Moderniser l’action publique par l’open data, c’est le sens du nouveau rattachement de la mission Etalab en charge de la politique gouvernementale d’ouverture des données. Cela passe notamment par la capacité à faire (enfin) jouer la boucle de rétroaction : que les données permettent d’améliorer les services publics. Revue des initiatives existantes et propositions d’actions : comment boucler la boucle de l’open data ?

Central Park (photo NYC Parks)

Central Park, New-York
(photo NYC Parks)

En septembre dernier, j’ai suivi avec un grand intérêt l’annonce d’un hackaton dédié aux parcs et jardins new-yorkais (NYC Government DataKind). La politique open data de Big Apple reste pour moi une référence, tout comme son plan global pour le numérique.

A l’époque, je préparais des ateliers de réutilisations des données liées aux arbres du parc du Thabor et j’imaginais donc y trouver des sources d’inspiration pour des applications ou des services originaux ou ludiques… J’ai été très agréablement surpris par la qualité et le niveau des projets développés lors de cet évènement DataKind – pourtant aucune application mobile flashy n’a été développée ! Mieux, les résultats illustrent bien comment l’open data peut répondre à des questions concrètes et contribuer in fine a améliorer l’action publique.

1 – DataKind : des questions, des données, des réponses

L’organisation DataKind se propose de mettre à disposition des compétences liées aux données pour répondre à des problèmes concrets. L’ancien nom de DataKind – Data Without Borders (données sans frontières) – traduit par cette ambition d’un peace corps dédié aux données. Leur slogan « Using data in the service of humanity » m’a bien fait marrer (sauver le monde par la technologie, une idée très anglo-saxonne), mais leur action est bien sérieuse. DataKind organise régulièrement des hackatons, toujours en relation avec des institutions (associations, ONG ou villes) qui accueillent l’évènement et posent les questions. Pour cette édition new-yorkaise, le partenaire était le service des Parcs et Jardins de la ville (NYC Parks). Pour vous et moi, les jardins new-yorkais cela se résume sans doute à Central Park… mais en tout cela représente 600 000 arbres d’alignements (dans les rues) et plus de 2 millions dans les parcs publics !

En amont de la manifestation, NYC Parks et DataKind ont identifié les problèmes qui seront soumis aux participants. J’ai retenu deux questions qui ont donné lieu à des projets : pouvons-nous prédire où une future tempête risque de faire le plus de dégâts dans nos parcs ? Les opérations préventives d’élagage ont-elles un impact sur les demandes ultérieures d’intervention, notamment par les habitants ?

Les organisateurs ont aussi recensé un ensemble de jeux de données, en grande partie déjà ouvertes sur le portail open data comme tous les appels au 311 (le numéro des services urbains pour les demandes d’intervention), les travaux programmés (work orders), mais aussi des sources extérieures (les principaux événements météorologiques, l’historique des interventions liées aux précédentes tempêtes). L’ensemble a fait l’objet d’un brief que l’on peut retrouver en ligne.

Les participants (des data-scientists) n’ont pas développé des services en ligne, ils ont proposé des modèles pour répondre aux questions posées. Ainsi, un groupe a proposé un index de risque de tempête pour chaque bloc, en fonction des arbres que l’on y trouve et de leur ancienneté. Un autre a remis en question, à partir des données brutes et d’un modèle mathématique, l’intérêt de la politique préventive d’élagage. Bref, ils ont répondu à des questions concrètes et ont permis d’améliorer l’action publique sur ce champ précis.

2 – La boucle de rétroaction de l’open data V.2

Par contraste, l’exemple de DataKind illustre bien ce qui fait aujourd’hui défaut dans notre approche de l’open data : nous ne bouclons pas la boucle. Le modèle actuel est le suivant : un acteur public (ou privé) met à la disposition des réutilisateurs des données ouvertes. Ces derniers développent des services, des applications, souvent utiles, parfois ludiques mais bien souvent aucune d’entre elles n’impacte la manière de faire de l’organisation. Avec des horaires de bus on peut certes développer des services d’information voyageurs, mais l’on peut aussi analyser la desserte de chaque quartier et – potentiellement – proposer des améliorations au gestionnaire du réseau de transport.

Ce qui nous manque donc c’est l’application de la boucle de rétroaction (feedback loop) : une organisation ouvre des données, qui servent ensuite à des tiers pour améliorer les actions de l’organisation… une sorte d’open data  version 2.

Le principe de la boucle de rétroaction est l’un des éléments fondateurs de la cybernétique (j’ai eu l’occasion dans mon livre d’évoquer le lien entre l’open data et les théories de Norbert Wiener). Vous pouvez en voir un exemple à l’oeuvre dans la plupart des villages de France avec l’affichage en temps réel de la vitesse de votre véhicule… Il suffit d’offrir au conducteur une information qu’il possède pourtant déjà sur son tableau de bord pour qu’il réduise en moyenne de 10% sa vitesse… Cet article de Wired raconte la genèse de ce dispositif et explique pourquoi l’efficacité n’en diminue pas avec le temps.

3 – Des projets pour l’action publique

Je reviens sur l’exemple de New-York. La ville s’était déjà illustrée par son équipe interne de data-scientists et son approche très pragmatique des données (tant big data que open data). Toutes les villes n’ont pas les moyens du maire de New-York, mais la plupart des acteurs publics qui ouvrent aujourd’hui leurs données pourraient travailler sur la boucle de rétroaction. Je vous propose deux exemples pour tenter de vous en convaincre.

Projet 1 : du marketing achats avec l’open data

Une partie de la modernisation de l’action publique passe par une maîtrise des dépenses. Mieux acheter est une source importante d’économies. L’open data pourrait faciliter la mise en place d’une démarche de marketing achats. L’opérateur des transports londoniens (TfL) met en ligne sur son portail open data toutes les dépenses d’achats et d’équipements supérieures à 500 livres. Ainsi, un nouveau fournisseur peut se positionner pour faire la meilleure offre, en connaissant le détail et le prix des prestations acquises par TfL…

Projet 2 : les « Happy Hours » de la piscine municipale

Dans ma ville, on peut accéder à la piscine municipale avec sa carte de transport (genre pass Navigo). La mise en place du système a accompagné l’introduction d’une tarification horaire, où l’on paie en fonction du temps passé dans le bassin. Les services de la ville disposent donc d’une grande masse de données sur la fréquentation des piscines et le système fournit aussi une vision en temps réel du nombre de nageurs.

Comme tout équipement, la piscine municipale connaît des pics de fréquentation, certains liés à des variations saisonnières (été/hiver) ou à la météo du moment… En ouvrant la donnée de fréquentation en temps réel, on pourrait informer les usagers de l’affluence qu’ils risquent d’y trouver à cet instant. Mieux, en anonymisant les données de fréquentation on pourrait proposer, sur le modèle de DataKind, d’imaginer des formules d’incitation pour aller nager aux heures creuses.

L’idée : j’ouvre 3 mois d’historique de fréquentation, je fournis des données sur les événements météorologiques ou autres (les vacances scolaires, …) et je lance un challenge avec une question : « aidez-nous à définir les Happy Hours de la piscine !« .

Les deux exemples présentés ici sont plutôt anecdotiques, mais ils sont réalisables à plus ou moins court terme. On peut aussi imaginer travailler sur d’autres champs de l’action publique avec des questions plus ambitieuses... Celles du logement ou de la prise en charge de la petite enfance par exemple.

4 – En pratique, comment faire ?

Comment boucler la boucle de l’open data ? Il va tout d’abord falloir revoir notre manière de procéder. Les formules d’incitation (type concours ou hackatons) ne devraient pas partir des données disponibles mais plutôt des questions et des problèmes concrets. Bien entendu, la puissance publique n’est pas la seule à pouvoir définir les problèmes, la société civile peut aussi jouer son rôle (DataKind a par exemple organisé un évènement londonien avec plusieurs ONG).

Le plan de route serait donc le suivant :

– définir une question, un problème de politique publique,

documenter la problématique et les principaux enjeux,

– recenser, lister et ouvrir les jeux de données pertinents,

– s’appuyer sur des médiateurs tiers,

– proposer des challenges, des concours, des hackatons pour inviter les participants à répondre à la question… (souvenons-nous que les sites data.gov et challenge.gov vont de pair),

faciliter la réintégration des résultats au sein des services et des administrations (leur implication est amont dans la définition des questions est un bon levier pour cela).

Il ne s’agit pas pour autant de brider les réutilisateurs dans leur créativité, libres à eux de participer ou non aux actions proposées. Libres à eux de développer l’application de leurs rêves.

Mais n’ayons pas non plus peur de partager les questions qui se posent quotidiennement dans l’action publique. Ainsi, nous ferons le lien entre l’ouverture des données publiques et la cohérence des politiques publiques, un argument développé par ceux qui ne veulent pas ouvrir leurs données

Que faire avec les données ouvertes de mobilité ?

Le 19 décembre 2012 j’ai animé à la Cantine de Rennes une soirée spéciale sur les données ouvertes de mobilité. A cette occasion, j’ai présenté un tour du monde des réutilisations possibles de ces données. L’objectif : démontrer, par l’exemple, que l’open data transport ne sert pas uniquement à produire des applications mobiles !

1 – L’information voyageur ne se limite pas aux applications mobiles

The City Dashboard (Casa - UCL)

The City Dashboard
(Casa – UCL)

L’application mobile d’information voyageur est bien souvent la face la plus visible de l’open data pour le grand public, en témoigne le grand nombre de services mobiles proposés lors des concours et autres hackatons de données ouvertes. Cependant, cette focalisation sur un seul type de réutilisation génère aussi une incapacité à appréhender tous les usages possibles des données de mobilité.

La problématique de diffusion et de partage de la donnée transport s’inscrit aujourd’hui dans une double tendance : accroissement de la demande d’information voyageur (en tous lieux, en tous temps et sur tous supports) et difficulté à proposer une offre institutionnelle qui couvre l’ensemble des besoins, aussi spécifiques soient-ils.

Dès lors, l’open data est une piste pour répondre à cette diversité de besoins. L’info de mobilité prend son sens à partir du moment où elle est disponible au moment où on en a besoin, dans sa poche, dans l’écran du bus, sur le site Internet du réseau mais aussi – et surtout – dans tous les lieux où elle est aujourd’hui absente. Trois exemples pour illustrer cet usage de « consultation » de la donnée de mobilité (je reprends ici la grille de 4 classes de réutilisation développée dans mon ouvrage) :

Le City Dashboard a été développé par des universitaires britanniques. Ils proposent en un seul écran un tableau de bord de la ville, en particulier sur les questions de mobilité. On y retrouve notamment le taux d’utilisation en temps réel des stations de vélo en libre-service, mais aussi les perturbations dans le métro et l’état du trafic routier… mais aussi la météo, les dernières actualités ou les tendances locales sur Twitter… Le City Dashboard a été conçu pour être déployé partout via un simple écran de PC.

The Muni-Watch(Joe Hugues)

The Muni-Watch
(Joe Hugues)

La montre « Muni Watch » (du nom du réseau de transport municipal de San Francisco) a été développé par Joe Hughes. La montre indique les 3 prochains horaires de passage pour l’arrêt de bus le plus proche – elle communique en Bluetooth avec un smartphone Android. A noter que le projet a été l’un des premiers initiés suite à l’ouverture des données de cette ville californienne… et date de 2008 !

Plus près de nous, dans le cadre du LabFab rennais, Baptiste Gaultier a conçu « La Boîte » sur une base Arduino (électronique open source). Cette petite boîte, qui trouvera  sa place dans votre salon, indique la météo, le nombre de minutes avant le prochain passage d’un bus ou le nombre d’emails reçus…

Aussi anecdotiques puissent-ils paraître, ces deux derniers projets montrent que l’on peut encore imaginer de nouvelles formes de diffusion de l’information de mobilité. Il y a sans aucun doute des pistes à creuser du côté de l’ambient computing pour créer des objets communicants qui nous informent tout en restant le moins intrusif possible. Le lapin Nabaztag, la star de Noël (en 2006…), ou la lampe Orb étaient de bons candidats pour afficher l’imminence du passage d’un bus avec des codes couleurs très simples…

2 – Des médiations : rendre visible les mobilités dans la ville

5 millions de trajets vélo (Jo Wood - City University London)

5 millions de trajets vélo en une image
(Jo Wood – City University London)

Les médiations – notamment visuelles – permettent de représenter les flux de mobilité dans la ville. La représentation cartographique pré-existait bien entendu au mouvement d’ouverture des données, mais l’open data lui a donné un nouveau souffle. Les visualisations peuvent être ludiques ou avoir un objectif professionnel – par exemple dans le domaine de l’analyse de l’accessibilité. Trois exemples pour illustrer ce second type de réutilisation des données de mobilité (la médiation) :

L’opérateur des transports londoniens (TfL) a mis en ligne un fichier comportant le 1er million de trajets effectués par le service de vélo en libre-service de la capitale Barclays Cycle Hire (connu sous le surnom de Boris Bikes, le prénom du maire). Ces données historiques ont donné lieu à plusieurs représentations : l’effet d’une grève du métro sur l’utilisation du service de vélo, le repérage des principaux noeuds de circulation ou encore les jours de fréquentation record du service…

Melbourne Pedestrian Map

Melbourne Pedestrian Map (City of Melbourne)

La municipalité de Melbourne en Australie dispose d’une série de 18 capteurs piétonniers répartis dans le centre-ville. Ils enregistrent en temps réel le nombre de piétons qui empruntent un trajet particulier. Ces données ont donné lieu à une représentation interactive, on peut ainsi visualiser les flux de piétons heure par heure ou « rejouer » une journée d’affluence exceptionnelle (la parade annuelle par exemple). A noter que Melbourne propose les données brutes en téléchargement, ce qui permet donc de construire sa propre visualisation ou – encore mieux – d’utiliser ces données comme matière première (cf. la prochaine classe d’utilisation).

Enfin, dans le cadre du concours Rennes Métropole en accès libre, la société Isokron avait réalisé une très intéressante vidéo « Un lundi à Rennes » qui répondait visuellement à la question : jusqu’où peut-on se aller en 10, 15 ou 30 minutes en n’empruntant que les transports publics ? Cette dernière visualisation est clairement plus ludique qu’informative, mais elle propose une autre représentation du réseau de transport urbain…

3 – La donnée de mobilité comme matière première

La donnée de mobilité peut aussi être utilisée comme une matière première, pour un usage qui n’est pas directement lié à la mobilité. En effet, la question de l’accessibilité d’un lieu – que ce soit à pied, en voiture ou en transport en commun – est un sujet qui intéresse bien au-delà des opérateurs de mobilité. Les gestionnaires de grands équipements sportifs, ou encore de centres commerciaux, utilisent la donnée de mobilité comme un intrant dans un processus, par exemple au moment de prendre des décisions d’investissement. Cette question intéresse aussi au plus haut point le marché de l’immobilier.

Transit-friendly apartment search (TransitScore)

Transit-friendly apartment search (TransitScore)

Aux Etats-Unis, la société WalkScore (issue de la fondation FrontSeat) propose une note d’accessibilité pour chaque adresse d’une ville américaine ou canadienne. Le WalkScore (et son équivalent le TransitScore) est un indice qui évalue sur une échelle de 1 à 100 la marchabilité d’un lieu, c’est à dire la capacité à y effectuer la plupart des actes de la vie quotidienne sans avoir à prendre sa voiture. On voit déjà apparaître les premières annonces immobilières qui font figurer ce score dans le descriptif du bien… L’impact de cet indice sur le niveau des prix a lui aussi été évalué. Le plus intéressant dans le WalkScore est la monétisation de cet indice : la société propose un service en ligne à destination des agents immobiliers indépendants.

Ainsi, chacun peut créer une affiche personnalisée avec l’adresse du bien, son score d’accessibilité, une carte des principaux équipements et services de proximité (paramétrables selon le profil des acheteurs pressentis) et bien sûr le contact de l’agent immobilier…. Chaque fiche est facturée 5 dollars, la reproduction étant assurée directement par l’utilisateur du service. WalkScore propose aussi un ensemble de services de syndication de son contenu et de ses données… Bref, l’open data est ici à la fois une matière première et une partie de la production de la société.

Les croisements entre donnée de mobilité et d’autres sources de données restent encore largement à imaginer et à travailler. Un exemple : croiser les données issues de mon Fitbit (le nombre de pas parcourus, le nombre d’étages gravis quotidiennement) avec celles de ma carte de transport, pour montrer concrètement comment l’on peut faire de l’activité physique en prenant les transports en commun (par exemple en n’utilisant jamais les escalators ou les ascenseurs…).

4 – L’art et le jeu, d’autres modes de réutilisations

Je propose de finir ce tour du monde de la réutilisation des données par deux approches différentes et résolument non-utilitaristes de l’open data : le jeu et l’art. Les données de mobilité, notamment par leur caractère souvent urbain, se prêtent bien à des jeux grandeur nature. L’un des premiers exemples est le jeu Chromaroma, qui réutilise (initialement de manière un peu sauvage, aujourd’hui de manière bien encadrée) les données des Oyster Cards (l’équivalent des pass Navigo à Paris). Chromaroma est un véritable jeu dans la ville où les joueurs, regroupés en équipes, accomplissent des challenges et prennent possession – virtuellement bien sûr – de stations de métro (sur le modèle du maire d’un lieu Foursquare).

Dans le domaine artistique, le projet Conductor: MTA.me propose une représentation poétique des mouvements du métro new-yorkais : chaque ligne est une corde de guitare et les croisements génère une mélodie étrange qui évolue au cours de la journée et de l’activité du réseau…

Bref, les données ouvertes de mobilité offrent un éventail de réutilisations très larges, qui dépassent de loin les premières applications mobiles qui ont déjà été développées…

4 pistes pour un open data des biens communs

A l’occasion du lancement de l’antenne française de l’Open Knowledge Foundation le 12 décembre à la Cantine Paris, je suis intervenu pour présenter 4 pistes pour un open data des biens communs. Retour sur cette intervention sous forme d’interpellation…

L’open data et les biens communs, une (trop) vieille histoire ?

"Open Data Commons" (photo by jwyg)

« Open Data Commons » (photo by jwyg)

Il y a une filiation entre le mouvement d’ouverture des données et la philosophie des biens communs. Les données ouvertes sont une illustration de la notion de biens communs informationnels proposé par Elinor Ostrom, « prix Nobel » d’économie en 2009. Les données ouvertes nous appartiennent à tous et, contrairement à l’eau ou à l’air (d’autres biens communs), elles sont dites non-soustractibles : leur usage par l’un n’empêche pas les usages par les autres. En d’autres termes : si je réutilise une donnée ouverte, cela n’empêche pas un autre réutilisateur de faire de même.

Cette proximité biens communs / open data se traduit aussi par la présence de l’instigateur des licences Creative Commons, Lawrence Lessig lors de la réunion de Sebastopol de 2007 qui a permis de définir le concept même de données publiques ouvertes.

Malgré cette relation historique et féconde, il me semble que nous, acteurs de l’open data, sommes parfois trop timides à réaffirmer le caractère commun de certaines données ouvertes. Trop timides parce que, contents que l’idée d’open data fasse son chemin auprès des acteurs publics et privés, nous ne voulons pas en rajouter… Les quatre pistes que je propose et détaille ici ne visent donc qu’un objectif : ne pas lâcher l’affaire sur le sujet !

Piste 1 : défendre un vrai choix en matière de licences open data (pro-choice)

Sur le papier, cela semble clair : il y a en France un vrai choix en matière de licences open data. D’un côté la licence ouverte proposée par Etalab, de l’autre l’ODbL. Les services de l’Etat se doivent d’utiliser la première, certaines collectivités ont choisi la seconde solution, en revendiquant de manière plus ou moins affirmée le caractère commun des données ouvertes.

Dans la pratique, le choix apparent se heurte aux difficultés, réelles ou perçues, liées à la licence ODbL. Je rappelle que ce qui distingue les deux licences c’est l’obligation de partage à l’identique (le share-alike) qui répond clairement à un enjeu de pot commun (si j’utilise, je dois recontribuer). Entendez-vous la petite musique qui monte et qui met en garde contre le recours à une licence « contaminante » (terme preféré à celui de « virale ») ? L’ODbL est accusée d’être anti-business, d’être venue de l’étranger, d’être source de dangers imprévisibles (le risque de contrefaçon de bonne foi), …

Nous nous retrouvons donc dans la situation où, au moment même où les grands projets collaboratifs (comme Open Street Map) adoptent l’ODbL, les nouveaux entrants de l’open data appliquent parfois, en toute bonne foi, le principe du moindre effort : « ça a l’air compliqué ce truc de partage à l’identique, on a pas une vision très claire des risques potentiels, je vais plutôt choisir la licence ouverte« .

Il me semble qu’en tant qu’instigateur de la licence ODbL, l’Open Knowledge Foundation devrait en être le premier promoteur*, pour en expliquer les mécanismes, les obligations et les opportunités (et pas uniquement celle d’embêter Google). Pour qu’un vrai choix soit possible en matière de licences open data (pro-choice !).

La licence a elle seule ne saurait garantir le caractère commun des données ouvertes. Je propose trois autres pistes d’action et de réflexion.

Piste 2 : la D.I.G. : donnée d’intérêt général

Prenons un problème qui nous concerne tous et que nous avons abordé lors d’un récent atelier Net:Lab : le logement et son accessibilité. Qui possède aujourd’hui l’une des meilleures visions du marché de la location ? Qui recense avec la plus grande acuité et en temps réel le montant des loyers, avec une adresse et un descriptif précis du logement ? Un indice : ce ne sont ni les mairies, ni les services des impôts, ni même le ministère du logement… mais un acteur privé de la petite annonce immobilière.

En France, on a une loi pour la donnée personnelle (loi CNIL), une autre pour la donnée publique (loi CADA)… Mais quid des données – personnelles, publiques ou privées – dont l’ouverture répond à l’intérêt général ? En ayant une vision plus claire et dynamique des loyers pratiqués, on pourrait imaginer que tout un chacun soit mieux informé sur les prix réels du marché (en prenant soin, bien sûr, de limiter les efforts de bord de la transparence).

Sans aller jusqu’à la réquisition des données (comme celle des logements vacants), on peut imaginer une fiscalité du numérique qui encouragerait la mise à disposition de ces données par les acteurs privés. Il y a bien un crédit d’impôt recherche, pourquoi pas un crédit d’impôt open data ?

Il faudrait donc, comme cela a déjà été évoqué, définir une nouvelle classe de données, la D.I.G. (donnée d’intérêt général) à laquelle serait associée des droits particuliers d’accès et de réutilisation… « Tout ne s’arrête pas au clivage public / privé« .

(Bien évidemment, la D.I.G. pose autant de questions qu’elle n’apporte de réponses. En voilà une première : qui va définir l’intérêt général ?).

Piste 3 : le peering de contribution : je contribue / je reçois

Le premier temps de l’open data a vu des acteurs publics (collectivités ou gouvernements) mettre des données ouvertes à la disposition des réutilisateurs, principalement des développeurs.

L’open data qui est en train d’émerger est infiniment plus riche et plus complexe. La répartition des rôles entre producteur et réutilisateur de la donnée semblait bien établie, elle évolue pourtant : les données publiques et collaboratives commencent à s’enrichir mutuellement, des entreprises travaillent à rendre à leurs clients une partie des données les concernant. Dès lors, comment concevoir des mécanismes de contribution qui tiennent compte de ces évolutions dans une optique de « pot commun des données » ?

La troisième piste est celle d’un peering de contribution, tel qu’il existe déjà pour les données de positionnement des bateaux (données AIS). Le site collaboratif Marine Traffic lancé en 2007 est aujourd’hui le premier site de suivi du trafic maritime mondial. Plus de 1000 contributeurs (équipés d’un récepteur AIS connecté à Internet) permettent de suivre quotidiennement les mouvements de 65 000 bateaux. Le site affiche aujourd’hui deux millions de pages vues… par jour (source : entretien S. Chignard avec Dimitris Lekkas, l’universitaire grec à l’origine du projet).

Tout un chacun peut visualiser les données à partir de la carte proposée sur le site, mais celui qui veut accéder aux données brutes peut le faire à la condition expresse de contribuer à la couverture du service en connectant un nouveau récepteur AIS… Le peering de contribution encourage donc bien chacun à participer à l’amélioration du service (Marine Traffic n’est pas le seul site à procéder ainsi, voir par exemple AIS Hub qui propose des conditions encore plus permissives).

Piste 4 : la tarification contributive à l’usage (GET > POST)

Dernière piste de travail, la tarification à l’usage, déjà évoquée sur ce blog à propos des données transport. Il s’agit de penser un modèle de tarification mixte pour l’usage des données. Les API se prêtent particulièrement bien à ce mode de fonctionnement.

On peut imaginer que l’accès à nos D.I.G. soit gratuit pour tous, mais qu’une contribution soit demandée aux plus gros utilisateurs de l’API qui ont un comportement proche de celui du passager clandestin (j’utilise sans jamais contribuer). Libre ensuite à chacun de choisir s’il veut contribuer en améliorant la donnée (en la mettant à jour, en la corrigeant, …) ou en payant de sa poche !

* quelques pistes, ludiques et sérieuses, pour promouvoir la licence ODbL en France : une campagne de communication « j’ai été contaminée et j’en suis très heureuse » (avec des témoignages de bases de données en ODbL), un séminaire pratique pour les collectivités, un guide pratique en français avec une réponse aux questions fréquentes, une hotline « toutes vos questions sur l’ODbL », un ODbL-day pour mettre en valeur les données publiées sous cette licence, une infographie « toutes ces données sous proposées sous licences ODbL » ….

Animer l’open data, mille possibilités

Animer-opendata-chignard.001« Animer, animer et encore animer » : Hubert Guillaud résumait ainsi pour Internet Actu une partie des échanges lors de la Semaine européenne de l’open data en mai dernier. L’animation de l’open data est aujourd’hui à la fois un enjeu reconnu par tous et une « expression-valise ». Proposition d’une grille d’analyse pour recenser la grande diversité des pratiques.

Passé les premiers temps de l’effervescence, tous ceux qui – acteurs publics ou privés – ont ouvert des données se posent les mêmes questions. Pourquoi animer ? Comment, selon quels formats ? Auprès de quels publics ? Pour quels résultats ? … La question de l’animation rejoint en partie celle de l’appropriation par le plus grand nombre, mais elle est à mon avis plus large. Un concours de développement d’applications, un hackaton sont autant de formats qui visent à stimuler la réutilisation sans pour autant viser le grand public.

Si le constat semble partagé, il n’en est pas de même des réponses mises en oeuvre. L’observateur attentif de l’actualité open data aura remarqué que les dispositifs d’animation se déploient aujourd’hui partout en France, avec parfois des modalités très différentes. Du concours DataConnexions d’Etalab aux Infolabs citoyens de la FING, du week-end BeMyApp Tourisme au Hackdays internes de SNCF Transilien, autant de manière d’animer l’open data…

La grille d’analyse : animer l’open data en 5 questions

Animer-opendata-chignard.001

Je vous propose une grille d’analyse de l’animation de l’open data, en 5 questions :

pourquoi ? identifier les objectifs de l’animation (de la stimulation de la réutilisation à une sensibilisation à la culture de la donnée, les enjeux sont différents),

comment ? les modalités varient, on peut notamment citer le concours de développement d’applications, les hackatons et challenges courts, les appels à projets et concours d’idées, les ateliers et workshop (data journalisme, …) et les infolabs,

pour qui ? les publics cibles, destinataires de ces animations peuvent être multiples : réutilisateurs (développeurs, journalistes, étudiants, …), le « grand » public, les médiateurs traditionnels du numérique (et notamment les espaces publics numériques), les détenteurs (decideurs publics ou privés, élus et agents des services),

quand ? ces actions peuvent être proposées en amont du lancement du portail open data (par exemple les animations internes autour du repérage des données), au lancement du portail (les concours par exemple) ou au long cours, par exemple pour pérenniser la démarche,

par qui ? les acteurs qui portent ces animations peuvent aussi être très divers : l’acteur (public ou privé) qui ouvre les données, mais aussi des tiers-lieux (les Cantines numériques, les espaces publics numériques), les collectifs open data, les « agences numériques » (par exemple l’AEC en Aquitaine) voire des prestataires spécialisés (par exemple les organisateurs de BeMyApp).

En mixant les différentes options, on arrive au final à près de 1200 combinaisons possibles pour animer l’open data ! Certaines sont bien documentées (les concours en phase de lancement), d’autres beaucoup moins (en particulier les actions internes ou celles au long cours).

Comment utiliser cette grille d’analyse ?

On peut utiliser cette grille d’analyse de plusieurs manières. La première est de s’en servir pour recenser et classer les initiatives déjà recensées, en France et en Europe. Quelques illustrations à partir des exemples cités précédemment :

Concours DataConnexions #2 proposé par Etalab : stimuler la réalisation de services par des réutilisateurs (plutôt start-ups mais pas exclusivement) par l’organisation d’un concours / appel à projet, au long-cours,

Infolab Paris Citoyens proposé par la FING : sensibiliser à la culture de la donnée, imaginer des services par le biais d’un dispositif Infolab éphémère, pour un public d’acteurs associatifs,

Week-end Open Tourisme organisé par Be My App avec Google et Bouches du Rhône Tourisme : un hackaton pour imaginer et réaliser des services avec des données ouvertes, plutôt pour une cible de développeurs, en accompagnement du portail data.visitprovence.com, par un prestataire spécialisé,

Le Hackaton des Cheminots de SNCF Transilien : un week-end de développement réservé aux cheminots, sur le modèle des HackDays « tous publics » de l’été dernier, pour un public de réutilisateurs internes, en animation au long-cours de la démarche,

les ateliers du collectif Open Data Rennes lors de VivaCités : sensibiliser un public scolaire aux données, par une approche graphique et ludique des données d’abord personnelles, la « dataviz des enfants ».

Une autre utilisation possible de la grille d’analyse est d’imaginer des croisements à partir des 5 questions pour identifier de nouvelles pistes d’animation… A vous de jouer !