La ville: ouverte et/ou intelligente ?

« Smart city » et « open data » : les deux approches ont en commun de mettre la donnée au coeur du fonctionnement de la ville intelligente. Mais au-delà des questions liées à la production des données, les conditions de son partage font débat.

SafariScreenSnapz062Doit-on les ouvrir à tous, en s’appuyant sur une possible intelligence des foules ou au contraire en faire un objet de pilotage centralisé des activités urbaines, quitte à en réserver l’accès à quelques opérateurs urbains ? Illustré d’exemples français (Rennes Métropole, Grand Lyon) et internationaux (Singapour), ce billet se propose d’éclairer les évolutions en cours et les combats d’acteurs qui s’annoncent autour de ce « nouveau pétrole » que constitue la donnée urbaine… 

La version originale de cet article a été publiée dans le numéro 25 de la revue urbaine Place Publique RennesJe le reproduis ici avec leur aimable autorisation.

1 – La donnée, carburant des services urbains

La donnée (data) est au coeur du fonctionnement des villes et des territoires. Elle permet l’aide à la décision, pour des projets d’aménagement par exemple, ou l’évaluation des politiques publiques mises en oeuvre. Elle se révèle nécessaire au bon fonctionnement des services du quotidien, des transports à la vie culturelle en passant par les crèches ou les écoles. Les acteurs publics produisent aussi des données statistiques, liées à l’économie (création d’activités, enregistrement de sociétés, …), aux déplacements ou à la démographie (actes d’état-civil). La donnée est partout et de tout ordre.

La donnée est aujourd’hui au coeur de deux approches de la ville numérique : la ville intelligente (smart city) et l’ouverture des données (open data). Toutes les deux font de ces données l’un des éléments essentiels du pilotage et de la transformation de la ville par le numérique.

2 – La ville intelligente façon smart city, des contours flous

Il n’existe pas de définition unique et universelle du concept de ville intelligente. Le terme est souvent utilisé pour désigner tout à la fois la ville créative et la ville durable. La ville créative, telle que définie par le géographe américain Richard Florida, combine des facteurs économiques, sociaux et techniques pour attirer et retenir les « classes créatives ». Florida propose trois critères pour mesurer le degré d’adhésion d’une ville à ce concept : la part des emplois liées aux professions intellectuelles et à la création (designers, architectes, artistes, …), le nombre de brevets déposés sur le territoire et enfin la part des personnes homosexuelles parmi la population.

Cette approche de la ville créative intègre donc dans un même élan des dimensions économiques, technologiques et des choix individuels… Le concept de ville durable met pour sa part l’accent sur l’impératif environnemental et impose de revoir les politiques urbaines sous l’angle de la durabilité. Quelle que soit l’approche retenue pour la ville intelligente (ville créative, durable, numérique, …), les réseaux de communication y jouent un rôle essentiel. Ce sont eux qui permettent d’interconnecter les acteurs et les différents systèmes d’information par exemple liés à l’énergie ou aux transports. La ville intelligente est indéniablement aussi une ville technologique !

ImagesSmartCity.002A quoi ressemble la « smart city » ? Pour en dresser le portrait-robot, il suffit de taper le terme dans le moteur de recherche Google Images pour voir apparaître un grand nombre de représentations. Elles partagent quelques traits communs : la smart city est futuriste (héritée de la science-fiction) et verticale (la tour en est le trait distinctif). Elle ressemble d’ailleurs davantage à l’image que l’on se fait des mégapoles d’Asie du Sud-Est, Hong Kong ou Singapour plutôt qu’à nos villes européennes – ce qui reflète d’ailleurs bien l’histoire des premières smart cities.

La ville intelligente se reconnaît surtout par ses artefacts, dans le champ de la mobilité ou de l’énergie. Le péage urbain est l’un d’eux : le système technologique combine des capteurs placés sous la chaussée, des systèmes de reconnaissance des véhicules (via des badges sans-fil ou la lecture des plaques d’immatriculation), ainsi qu’un pilotage dynamique des tarifs selon l’heure, le type de véhicule ou la congestion liée à la circulation automobile sur les axes routiers à proximité. La Ville-Etat de Singapour a été la première à implanter ce type de péage urbain dès 1998. L’ERP (electronic road pricing) est alors présenté comme l’un des symboles de la modernité du territoire et sera ensuite déployé à Dubaï, Stockholm et Londres – avec des succès mitigés selon les territoires. La prédiction de trafic à une heure a, elle aussi, d’abord été testée à Singapour, avec le concours d’IBM.

Il s’agit ici de combiner une connaissance historique (les conditions de circulation sur les principaux axes routiers) et des mesures temps réel (l’état du trafic tel que mesuré par des capteurs enfouis sous la chaussée) pour alimenter un algorithme capable de prévoir les embouteillages avant qu’ils ne se forment… Dans le domaine de l’énergie, il s’agit d’expérimenter des réseaux intelligents (smart grids), à l’instar du projet mené sur le quartier Confluence à Lyon. Les compteurs intelligents, installés dans les foyers et les entreprises, sont l’une des composantes de ce système qui doit permettre in fine de mieux adapter la production et la consommation d’énergie électrique.

Dans ce modèle de ville intelligente, le pilotage des services urbains est souvent centralisé. L’une des images les plus fréquemment utilisées est celle de la salle de contrôle d’un réacteur nucléaire : toutes les informations apparaissent en temps réel sur des écrans, en provenance de sources multiples (des capteurs bien sûr, mais aussi des caméras et des informations remontées du terrain par les forces de police ou les pompiers, …). Le système informatique accompagne la prise de décision et peut contrôler à tout moment un ensemble d’équipements urbains. Ainsi, un évènement de type incendie déclenche dès l’appel des secours le passage au vert de l’ensemble des feux de signalisation du quartier, la mise en place d’itinéraires de déviation pour les bus ou l’envoi de SMS aux usagers concernés…

 3 – La ville intelligente c’est d’abord un nouveau marché

Le modèle intégré de la smart city puise sa valeur dans sa capacité à regrouper un grand nombre de données issues de systèmes hétérogènes au sein d’un seul et unique outil de pilotage. C’est l’approche « tout-en-un » dont les grands groupes informatiques européens et américains se font les champions.

En effet, la ville intelligente est aussi une opportunité de nouveaux débouchés pour ces acteurs économiques. Inspirés par la réussite des grands groupes de services aux collectivités (notamment la gestion de l’eau et des déchets), les entreprises de l’informatique souhaitent devenir à terme les opérateurs de la ville intelligente. Les frontières entre les activités et les métiers sont d’ailleurs moins nettes qu’autrefois. Des entreprises des télécommunications répondent à des appels d’offres pour la gestion des transports publics dans des villes d’Amérique latine. De même, tous les grands groupes de la gestion de l’eau ou des déchets intègrent aujourd’hui cette dimension d’infrastructure informationnelle dans leurs offres.

La smart city n’est pas réservée aux seules mégapoles asiatiques. La société IBM est par exemple très active en France sur ce sujet et vient d’annoncer la signature de contrat de partenariat et de fourniture avec Montpellier et Nice sur quatre grands domaines : la mobilité intelligente, la qualité environnementale, l’efficacité énergétique et la gestion des risques. Orange collabore à plusieurs projets, dont celui liés aux déplacements sur le territoire du Grand Lyon – la capitale des Gaules a d’ailleurs fait de son positionnement Smart City un élément de différenciation territoriale à l’échelle européenne. L’allemand Siemens (qui fournit par ailleurs les rames du métro rennais) a construit un bâtiment en plein coeur du quartier des docks à Londres. The Crystal est entièrement dédié aux problématiques de la ville intelligente et durable et se veut un lieu de débat et de démonstration. Toutes ces initiatives mettent en avant la capacité du numérique à répondre aux défis environnementaux. Bien sûr, le fait que chacune de ces entreprises maîtrise une partie de la solution technique mobilisée (les capteurs, les équipements et les réseaux de télécommunications, les bases de données, …) n’est pas non plus étranger à leur intérêt pour la ville éco-intelligente 😉

 4 – La boîte noire: l’essentiel est invisible

Le modèle intégré de la smart city possède aussi des limites intrinsèques. La plupart de ces systèmes fonctionnent comme des boîtes noires. Prenons l’exemple du système de prédiction du trafic à une heure: on en connaît les données d’entrée (historiques de trafic et mesures temps réel), on peut constater les données de sortie (la prédiction de trafic). Mais ce qui se passe dans la boîte noire – c’est-à-dire le processus qui permet de transformer ces données en élément de décision – reste invisible aux yeux extérieurs. La propriété de cet algorithme revient d’ailleurs souvent aux groupes informatiques qui l’ont mis en place, et non aux collectivités qui l’ont co-financé.

L’invisibilité (des technologies, des données, des algorithmes) est d’ailleurs l’une des critiques formulées par la sociologue Saskia Sassen de l’Université Columbia à l’égard de la smart city : « aujourd’hui, l’on tend à rendre ces technologies invisibles, en les cachant sous la chaussée ou derrière des murs – en procédant ainsi on met ces technologies en position de commande et non de dialogue avec les usagers de la ville ».

Les systèmes intégrés sont par essence opaques : pensez à la manière dont votre iPhone est entièrement maîtrisé par son constructeur qui détermine même quelles applications vous pouvez y installer et se réserve le droit d’y bannir celles qu’ils n’estiment pas « bonnes » pour ses clients – et donc pour vous. Selon quels critères sociaux ou moraux, selon quelles règles ces décisions sont-elles prises et appliquées ? L’enjeu reste somme toute assez limité quand il ne s’agit que de choisir un type de téléphone mobile. Mais quand l’approche intégrée devient le modèle de référence pour le pilotage des villes, il est permis de s’interroger un peu plus longuement. Peut-on imaginer un modèle de ville intelligente qui ne soit pas totalement intégré ? Rennes Métropole et la Ville de Rennes expérimentent depuis 2010 une approche complémentaire : celle de l’ouverture des données publiques (l’open data).

 5 – La question du partage de la donnée au coeur de l’Open Data

Le territoire rennais est en effet pionnier en France dans le domaine de l’ouverture des données publiques avec les portails data.rennes-metropole.fr et data.keolis-rennes.com.

Ce sont aujourd’hui près d’une quarantaine de territoires, ainsi que l’Etat (data.gouv.fr) qui ont mis en place des démarches open data. La France figure d’ailleurs dans les toutes premières places des classements européens sur le sujet (classement ePSI Forum). L’ouverture des données publiques ne remet pas en cause l’importance des systèmes d’information dans l’action publique, bien au contraire. En ce sens il ne s’oppose pas à la smart city sur les conditions de la production des données.

Ce qui distingue les deux approches, c’est la question du partage des données. Faut-il en limiter l’usage à quelques acteurs (les opérateurs de la ville intelligente) ou en promouvoir une appropriation et une réutilisation plus large par des tiers, entrepreneurs et innovateurs locaux ou nationaux ?

Le Grand Lyon restreint l’usage des données de mobilité à quelques acteurs sélectionnés, pour garantir que les applications développées ne « nuisent pas aux services commerciaux pilotés par la collectivité en délégation de service public ». En clair, il s’agit ici de protéger aussi les intérêts économiques de l’entreprise délégataire, au détriment d’un accès au plus grand nombre.

On voit clairement dans cet exemple la tension entre l’approche intégrée de la smart city et la logique de partage des données de l’open data. A contrario, le réseau de transport Star s’est récemment équipé d’un système d’aide à l’exploitation et à l’information voyageurs. Les bus métropolitains sont équipés de balises GPS qui renvoient leur position en temps réel et permettent ainsi à l’opérateur du service de transport (Keolis Rennes) de mieux piloter à distance sa flotte de véhicules. Les usagers des transports ne voient de ce système qu’une toute petite partie de l’information produite, sous la forme des horaires de passages à un arrêt (« ligne 2 direction Grand Quartier, prochain bus dans 7 minutes »). Cette donnée est restituée via des afficheurs (aux arrêts principaux) et via un site mobile dédié. Mais elle est aussi mise gratuitement à disposition des réutilisateurs. Les développeurs des applications mobiles Transports Rennes (Android) ou Rengo (iOS) ont ainsi pu facilement intégrer cette information temps réel.

Derrière la problématique de la gouvernance des données (modèle intégré vs. approche ouverte), c’est bien une question politique qui se pose : quel est le rôle de l’acteur public à l’heure de la ville intelligente ? Comment tirer parti des dynamiques naissantes sans pour autant abandonner toute souveraineté (numérique) aux opérateurs de la smart city ? En ce sens, le modèle de la ville «ouverte», tel qu’il s’invente et s’expérimente sur notre territoire et ailleurs, me semble proposer une alternative d’avenir.

Mesurer l’open data et ses effets

"Open Data Commons" (photo by jwyg)

« Open Data Commons » (by jwyg)

A l’occasion de la Semaine européenne de l’Open Data à Marseille, je suis invité à intervenir sur le sujet des indicateurs des politiques publiques d’ouverture des données.  Comment mesurer et évaluer les programmes Open Data ? Est-ce vraiment si difficile à faire ? Ce billet de blog vous propose un résumé de mon intervention.

1 – Des indicateurs pour chaque étape des projets

Le chercheur britannique Tim Davies recense sur son carnet de recherche en ligne plusieurs types d’outils d’évaluation et en propose une première classification. Il les distingue selon l’objectif poursuivi :

– mesurer un « état de préparation » (readiness assessment tool) : la boîte à outils développée par la Banque Mondiale comprend ainsi une check-list très complète des facteurs susceptibles de favoriser une politique durable d’ouverture des données,

– mesurer l’implémentation des politiques, leur mise en oeuvre: le plus connu (et sans aucun doute l’un des plus anciens) est le modèle des 5-étoiles défini par Tim Berners-Lee et le W3C (la classification met l’accent sur les critères techniques de mise à disposition des données, le 5ème étoile étant réservées aux approches de type web sémantique),

– enfin, mesurer l’impact des politiques open data, qu’ils soient directs (création de services ou d’applications à partir des données ouvertes) ou indirects (développement économique, renforcement de la transparence, contribution à l’atteinte des objectifs de politique publique,…).

Tim Davies souligne le fait que la plupart des outils disponibles se concentrent sur les deux premières étapes (l’état de préparation et l’implémentation) mais que l’on ne dispose pas à ce jour d’un modèle d’évaluation complet pour mesurer les impacts de l’open data. Je partage totalement cette analyse – et j’aurai l’occasion dans ce billet de proposer quelques pistes en ce sens.

Il y a exactement 2 ans, j’étais déjà invité à Marseille (qui refuserait une invitation dans la cité phocéenne au mois de juin ?) à l’occasion de l’Open Data Garage (ma présentation « évaluer l’impact économique de l’open data local » est toujours en ligne). Il y a deux ans, la plupart des outils et des modèles cités par Tim Davies n’existaient pas encore, il me semble donc que nous allons dans le bon sens… Pour vous en convaincre, je vous propose dans un premier temps de détailler quelques outils dont nous disposons aujourd’hui.

2 – Présentation de trois outils pour évaluer les politiques open data

La Banque Mondiale a développé un outil de mesure de l’état de préparation (readiness assessment tool, traduit en français) qu’elle utilise dans le cadre de ses missions d’audit et de conseil au niveau international – et plus particulièrement dans les pays émergents. A noter que ce document fait partie d’une très intéressante boîte à outils sur le sujet (lecture recommandée).

Cet outil se concentre sur les conditions favorables à une politique d’ouverture des données. Pour chaque élément évalué (leadership, cadre réglementaire, structure institutionnelle, données au sein du gouvernement, engagement citoyen, écosystème, financement), des exemples précis de questions sont formulés, ainsi que des éléments de preuve. A l’origine développé pour évaluer des pays, l’outil pourrait tout à fait s’adapter pour des évaluations au niveau local. L’attention portée notamment sur la gouvernance (et l’importance d’un appui politique explicite à la démarche) me semble valable quel que soit l’échelon étudié.

L’outil MELODA (methodology for releasing open data) est proposé par Alberto Abella, l’un des cofondateurs du chapitre espagnol de l’Open Knowledge Foundation. Meloda s’intéresse à la phase d’implémentation et mesure en particulier le degré d’ouverture des données.

L’outil mesure les sources de données (locales, nationales ou internationales) selon des critères juridiques, techniques et d’accessibilité de l’information. C’est l’un des outils les plus proches de la définition que je retiens d’une donnée ouverte. Chacun des 3 critères est évalué sur une échelle à 5 niveaux (par exemple pour le critère juridique, la plus forte note est attribuée aux sources de données n’imposant qu’une obligation d’attribution – une licence de type Licence Ouverte d’Etalab par exemple). L’auteur complète ainsi utilement les 5-étoiles de Berners-Lee. Je dis utilement parce qu’une donnée qui serait en tous points conformes aux objectifs du web sémantique mais proposée avec une licence non-ouverte n’aurait pas grand sens d’un point de vue pratique !

L’initiative Open Data Census de l’Open Knowledge Foundation vise à comparer les niveaux d’engagement dans l’open data de plusieurs pays. L’OKFN a ainsi défini une liste de 10 jeux de données. On y retrouve par exemple les résultats des élections, les budgets des Etats, le registre des entreprises, les codes postaux géolocalisés ou encore les horaires des transports publics. Chaque jeu de données est évalué, par pays, sur une échelle à 7 niveaux (disponibilité, ouverture, …).

Rien n’empêche d’adopter une approche semblable pour des initiatives locales d’open data. Nous pourrions ainsi définir une liste de 10 jeux de données qui nous semblent pertinents (selon quels critères ?) et évaluer leur disponibilité et ouverture sur les portails open data des collectivités français…

Il convient bien sûr de rajouter à cette courte liste (je vous renvoie vers le blog de Tim Davies pour un recensement plus exhaustif) quelques initiatives françaises : le référentiel OpQuast recense les bonnes pratiques en matière de portail open data. Il peut tout aussi bien servir à agir (préparer un portail) qu’à évaluer. Ce double usage (action / évaluation) est intéressant, mais on gardera toujours à l’esprit qu’un indicateur qui est aussi un objectif n’est plus un indicateur ! Enfin, on m’a signalé le projet Odalisk qui vise aussi à comparer les initiatives (le site principal ne fonctionne pas à l’heure où j’écris ces lignes, mais le code source est disponible sur GitHub – ce qui n’est pas si mauvais signe).

3 – Les 3 phases de l’ouverture des données : semer, faire pousser, récolter

Dans la panoplie d’outils dont nous commencons à disposer en France et à l’international, force est de constater que la mesure des impacts (économiques, sociaux, sociétaux, démocratiques, …) de l’open data n’est pas le champ le mieux documenté. Notons toutefois que plusieurs programmes sont en cours, notamment à l’UK ODI (et je vous renvoie en priorité à l’interview de Tim Berners-Lee qui déplore « nous n’avons pas d’économistes de la donnée« ), pour explorer en particulier la question de la valeur des données.

Pourquoi ne dispose-t-on pas aujourd’hui de la même richesse méthodologique que pour les autres phases de l’open data ? J’y vois plusieurs raisons, la première étant la perspective historique. Les outils d’évaluation de l’état de préparation ou d’implémentation sont aussi le fruit du retour d’expérience des premières initiatives d’open data qui ont en quelque sorte permet de définir des « bonnes pratiques » à partir du terrain.

La question de la mesure de l’impact, et en particulier de ses effets dans le temps, est une question qui se pose pour les initiatives qui ont déjà un peu de « bouteille » – et en France on ne parle là que d’une demi-douzaine d’initiatives ! Au-delà de ce côté « pionniers », le temps joue aussi à mon avis dans notre capacité à bien comprendre les impacts, et en particulier les impacts de second ou de troisième niveaux, des politiques d’ouverture des données publiques.

On a aujourd’hui un cadre théorique qui explique bien cet effet-retard de la mise à disposition des données, je pense notamment au rapport de Marc de Vries et Geoff Sawyer pour l’Agence spatiale européenne. Les deux auteurs distinguent ainsi 3 phases dans les effets de l’ouverture des données : une phase d’ensemencement (sowing phase), une phase de culture (growing phase) et une phase de récolte (harvesting phase).

Les 3 phases de l'ouverture des données - source Marc de Vries et Geoff Sawyer pour l'European Space Agency

Les 3 phases de l’ouverture des données – source : Marc de Vries et Geoff Sawyer pour l’European Space Agency

4 – Don’t ask, please tell !

Hormis le temps, la difficulté est d’identifier l’ensemble des réutilisations qui peuvent être réalisées à partir des données ouvertes. L’open data ne sert pas qu’à réaliser des applications mobiles, la donnée ouverte est aussi une matière première pour nombre d’organisations et d’entreprises.

Le principe du « don’t ask, don’t tell » est à mes yeux un élément essentiel de l’approche d’ouverture des données. On ne contrôle pas a priori les usages – sauf dans le cas de certaines licences proposées par le Grand Lyon qui imposent une déclaration préalable d’usage (j’y reviendrais dans un prochain billet).

Il faudrait donc passer au principe du don’t ask, please tell ! C’est-à-dire encourager les réutilisateurs à partager leurs expériences de réutilisation, à raconter les gains (économiques et sociaux) qu’ils tirent de la réutilisation des données ouvertes. Il faudrait expérimenter un principe de « trackback » pour les données, à l’instar de ce que l’on trouve sur les blogs.

5 – Des premières pistes pour avancer

Il n’est certes pas aisé de mesurer les impacts de l’open data pour les multiples raisons que je viens d’évoquer. Mais ce n’est pas une raison pour ne pas essayer à partir des éléments dont nous disposons déjà.

Je vois deux premières pistes que nous pourrions explorer : le suivi longitudinal des réutilisations de 1er niveau (ie. par exemple les applications ou services développés dans le cadre de concours) et la mesure des effets de type « boucle de rétroaction« .

Concernant les réutilisations de premier niveau, c’est-à-dire les applications ou services qui ont été réalisés à partir des données ouvertes, une bonne partie d’entre eux sont identifiables : soit ils ont participé aux actions d’animation (concours, hackathons, …), soit ils publient leurs services (une veille sur les boutiques d’applications mobiles, par exemple, s’impose).

L’intérêt ici n’est pas tant de mesurer le nombre de services crées, mais plutôt d’évaluer des dynamiques d’usage dans le temps: combien d’utilisateurs actifs sur une période de référence (une semaine, un mois) ?

Les programmes de labellisation sont aussi une occasion rêvée de demander aux développeurs de partager leurs chiffres d’utilisation (et la plupart l’accepteront volontiers en échange d’une meilleure visibilité pour leur réalisation). On compare ensuite ces données obtenues à des moyennes pour le même type de service rendu – ce ne sont pas les services d’analytics qui manquent en ligne, tant pour le web que pour le mobile…

Le second type d’évaluation que nous pourrions mettre en place est liée à l‘effet des boucles de rétroaction. On va pouvoir ainsi introduire un lien direct avec les objectifs de politique publique poursuivis par la collectivité. Ainsi, si l’on veut promouvoir l’usage des transports en commun ou des modes doux dans une ville, on peut chercher à identifier l’effet des différentes applications disponibles sur le report modal.

Objectif ambitieux me direz-vous, mais pourtant réalisable dès aujourd’hui: ainsi quand on réalise une enquête sur l’utilisation des vélos en libre-service (Vélib), pourquoi ne pas chercher à identifier la part des utilisateurs qui connaissent les applications, qui les ont déjà utilisées, et leur importance dans la décision de recourir à ce mode de déplacement… ? L’information peut aussi contribuer à changer un comportement, encore faut-il se donner les moyens de le mesurer !

L’open data renforce-t-il le risque de désintermédiation ?

Mercredi dernier, j’ai emmené mon fils au cinéma. Pour préparer notre sortie j’ai recherché les horaires de cinéma. Google m’a proposé – avant les résultats des sites web correspondant à ma requête – la liste des films projetés actuellement dans ma ville, et un simple clic m’a permis de voir les prochaines séances. 

Les horaires des films à Rennes (Google Movies)

Les horaires des films à Rennes (Google)

A aucun moment je n’ai quitté la page du moteur de recherche, j’ai obtenu l’information recherchée sans consulter ni le site du cinéma, ni les multiples intermédiaires tels qu’Allociné ou Cinéfil.com.

En tant qu’utilisateur, j’ai trouvé le service plutôt pratique (et en tant que père j’ai passé un bon moment avec mon fils). Mais pour nombre d’acteurs que je rencontre (des entreprises, mais aussi des acteurs publics) cela représente plutôt un bien mauvais signal.

Cela s’appelle de la désintermédiation, ou plutôt une nouvelle intermédiation par un nouvel acteur. Le risque de désintermédiation est donc une réalité et ne se réduit pas à la discussion sur la position de Google et autres dans l’économie numérique. L’open data est-il un facteur d’accélération de cette désintermédiation ? Après tout, ouvrir des données data facilite l’émergence de services tiers, c’est même souvent l’un des objectifs recherchés.

Dit autrement : est-on en train de faire entrer le loup dans la bergerie ? (Même si en l’occurence on est toujours l’agneau de quelqu’un d’autre, tout dépend du contexte…).

1 – Le risque de désintermédiation cela concerne tout le monde (faites-vous dépister !)

Imaginons quelques scénarii pour illustrer les différentes formes du risque.

Ce matin je veux aller à la piscine, je consulte donc les horaires via l’application mobile développée dans la cadre d’un concours open data. L’après-midi je veux acheter un billet de train et mon moteur de recherche favori me propose, en plus des horaires et de l’information sur la ponctualité de mon train (des données aujourd’hui ouvertes…), un achat direct en ligne. A un autre moment de la journée je consulte mes comptes bancaires via un service tiers développé lui aussi à partir de données mises à disposition (pas en open data certes, mais plutôt en mode API semi-ouverte,… ).

Plaçons nous maintenant du côté de ceux qui ont ouvert les données.

Le service des sports de ma ville vient de mettre en place un nouveau service de paiement via une carte sans contact et il aimerait bien m’en informer. Et pour celà le plus simple serait que je consulte les horaires directement sur le site de la municipalité.

L’opérateur de transport lui aussi aimerait ne pas perdre la relation client, et surtout pas sur la partie distribution de son métier. Enfin ma banque, qui voyait plutôt d’un bon oeil l’émergence de services complémentaires commence à se poser des questions. Surtout depuis qu’un nouveau service en ligne, développé par des plus malins qu’elle, a carrément désintermédié la relation client et me propose une assistance de très bon niveau (une sorte de super assistant personnel à qui j’ai confié les clés de ma banque en ligne).

Le risque de désintermédiation ne concerne d’ailleurs pas que la relation à l’usager ou au client. Quand le service de la mobilité urbaine du Grand Lyon explique qu’il ne veut pas que l’ouverture des données aboutisse à des usages contraires à ses objectifs de politique publique, il ne dit pas autre chose (même si les termes sont différents).

Dernier exemple : les autorités organisatrices des transports ont elles aussi peur de se faire désintermédier par la SNCF … et par Google à la fois !

2 – Un risque vieux comme l’Internet : les désintermédiateurs d’aujourd’hui sont les désintermédiés de demain

Les chaînes d’hôtellerie, les compagnies aériennes, les exploitants de salles de cinéma, … Tous ces acteurs économiques (et bien d’autres) ont connu ces phénomènes de désintermédiation. Certains sont directement imputables au web (on pense à l’émergence des comparateurs de prix dans l’aérien), d’autres sont plus anciens que l’Internet (l’invention du traitement de texte sur les ordinateurs personnels a désintermédié la sécretaire à qui l’on demandait autrefois de rédiger les courriers…).

Il me semble que chaque cycle technologique « rebat les cartes » de l’intermédiation. Prenons l’exemple du groupe hôtelier Accor (qui possède plusieurs marques, de l’Ibis au Sofitel). Qui vend aujourd’hui des nuits d’hôtels en ligne ? Les sites Booking.com, Hotels.com, les partenaires de TripAdvisor mais aussi voyages-sncf.com …

Bref le web a bien désintermédié les canaux de distribution installés. Cependant, le groupe Accor a su voir dans le mobile une opportunité pour se ré-intermédier : avec ses applications officielles, il peut à nouveau vendre directement à ses clients (et qui plus est aux clients les plus fidèles à sa marque).

Il n’est donc pas interdit de penser que les désintermédiateurs d’aujourd’hui seront les désintermédiés de demain.

L'infobox Google fournit directement l'adresse, le numéro de téléphone et l'itinéraire

L’infobox Google fournit directement l’adresse, le numéro de téléphone et l’itinéraire

Les premiers à souffrir de la désintermediation proposée par le moteur de recherche sont précisement les nouveaux intermédiaires qui se sont développés avec le web. Si l’on reprend l’exemple des horaires de cinéma, les perdants potentiels sont davantage à chercher du côté d’AlloCiné, de Cinéfil, de Pariscope, voire des Pages Jaunes ou Mappy (Google propose le numéro de téléphone et le plan d’accès au cinéma directement dans une infobox  – voir ci-contre). Tout compte fait, ce n’est peut-être pas une si mauvaise opération pour l’exploitant d’un réseau de salles de cinéma…

Un dernier exemple – prospectif celui-là- pour illustrer le caractère dynamique de la désintermédiation. Quand Apple introduit la fonction de reconnaissance vocale Siri dans ses téléphones, c’est Google lui-même qui est menacé de désintermédiation : si je peux obtenir, par la parole, les horaires de séance de cinéma, plus besoin (pour ce cas précis) du moteur de recherche qui paraît aujourd’hui incontournable. (Nota : l’émergence des Google Glass peuvent aussi se lire avec cette grille de lecture).

3 – Chaque cycle technologique rebat les cartes de l’intermédiation, et l’open data en est un …

Comment considérer la question du partage de la donnée à la lumière de ce risque de désintermédiation ?

Le premier élément de réponse est à chercher du côté du mix possible en matière de partage de la donnée. Il ne s’agit pas de tout ouvrir (ou à l’inverse) de ne rien ouvrir. Il faut plutôt identifier les données – et leurs modes de partage – qui présentent le meilleur ratio démultiplication de l’effet réseau / risque de désintermédiation.

A ce titre je vous invite à relire le billet que j’avais consacré il y a quelques mois aux univers de diffusion des données. Amazon par exemple a bâti une partie de son succès sur une politique de demi-ouverture des données, via des API. On peut facilement intégrer un « morceau» du catalogue de produits d’Amazon sur n’importe quel blog ou site web. Les partenaires d’Amazon disposent aussi d’une visibilité assez détaillée sur les ventes réalisées via « leur » canal de distribution.

Cette stratégie a permis au libraire en ligne de profiter à plein des phénomènes d’externalités de réseau. Qui peut dire en l’espèce que le partage des données a accru le risque de désintermédiation pour Amazon ?

Bien au contraire, cette politique participe de la capacité d’Amazon à désintermédier les réseaux de distribution de produits (culturels)…

Dans ce travail d’identification des données bonnes à ouvrir et partager, on pourra notamment jouer sur les critères de segmentation couramment utilisés dans le domaine de la data : données chaudes / données froides, données descriptives du service / données de tarification, de transaction ou de relation client, …

Parmi les pistes identifiées, figure par exemple la possibilité d’intégrer un module de vente (par exemple de billets de train) qui serait réservé aux seules applications tierces labellisés… Un moyen de jouer à la fois la démultiplication de l’effet réseau via l’open data et de préserver la relation client.

4 – Où est le problème ?

« Le problème ce n’est pas tant la question de l’intermédiaire que celle du partage de la valeur » me faisait judicieusement remarquer mon sparring- partner Louis-David Benyayer (WithoutModel) alors que nous discutions de ce sujet. Et de me citer de multiples exemples (hors de l’économie numérique) d’acteurs qui ont fait évoluer leur position dans la chaîne de la valeur (Décathlon qui distribue de plus en plus ses propres produits, les acteurs de la grande distribution qui mettent en place les marques de distributeurs,… ).

Il me semble que ce n’est pas le moindre mérite de l’open data que de  poser cette question du partage de la valeur via les données. Où est la valeur dans les données (dans leur caractère brut, dans leur mise en perspective, dans leur combinaison, …) ? Comment la partage-t-on (avec qui, selon quelles conditions, avec une gouvernance ouverte ou fermée) ?

[En vidéo] Master Class : innover avec l’Open Data

Webcast de la Master Class « Innover avec l’Open Data », à l’invitation de l’Executive MBA « Innovation in a digital world » de Telecom Ecole de Management (enregistrée à Paris le 28.02.2013).

Sommaire

0:00:00 – Présentation de l’Executive MBA « Innovation in a digital world » par Didier Tranchier, responsable du programme

0:06:30 – Début de la Master Class par Simon Chignard

0:08:45 – Open Data ? Définition, origines et enjeux de l’ouverture des données

0:30:15 – Les entreprises et l’Open Data : le double rôle

0:43:00 – Ouvrir les données d’entreprises : 10 stratégies génériques

1:03:00 – Demain l’Open Data : la donnée personnelle, la donnée collaborative

1:12:00 – Questions des participants : Big Data / Open Data, qualité des données, gouvernance, …

Moderniser l’action publique par l’open data ?

Moderniser l’action publique par l’open data, c’est le sens du nouveau rattachement de la mission Etalab en charge de la politique gouvernementale d’ouverture des données. Cela passe notamment par la capacité à faire (enfin) jouer la boucle de rétroaction : que les données permettent d’améliorer les services publics. Revue des initiatives existantes et propositions d’actions : comment boucler la boucle de l’open data ?

Central Park (photo NYC Parks)

Central Park, New-York
(photo NYC Parks)

En septembre dernier, j’ai suivi avec un grand intérêt l’annonce d’un hackaton dédié aux parcs et jardins new-yorkais (NYC Government DataKind). La politique open data de Big Apple reste pour moi une référence, tout comme son plan global pour le numérique.

A l’époque, je préparais des ateliers de réutilisations des données liées aux arbres du parc du Thabor et j’imaginais donc y trouver des sources d’inspiration pour des applications ou des services originaux ou ludiques… J’ai été très agréablement surpris par la qualité et le niveau des projets développés lors de cet évènement DataKind – pourtant aucune application mobile flashy n’a été développée ! Mieux, les résultats illustrent bien comment l’open data peut répondre à des questions concrètes et contribuer in fine a améliorer l’action publique.

1 – DataKind : des questions, des données, des réponses

L’organisation DataKind se propose de mettre à disposition des compétences liées aux données pour répondre à des problèmes concrets. L’ancien nom de DataKind – Data Without Borders (données sans frontières) – traduit par cette ambition d’un peace corps dédié aux données. Leur slogan « Using data in the service of humanity » m’a bien fait marrer (sauver le monde par la technologie, une idée très anglo-saxonne), mais leur action est bien sérieuse. DataKind organise régulièrement des hackatons, toujours en relation avec des institutions (associations, ONG ou villes) qui accueillent l’évènement et posent les questions. Pour cette édition new-yorkaise, le partenaire était le service des Parcs et Jardins de la ville (NYC Parks). Pour vous et moi, les jardins new-yorkais cela se résume sans doute à Central Park… mais en tout cela représente 600 000 arbres d’alignements (dans les rues) et plus de 2 millions dans les parcs publics !

En amont de la manifestation, NYC Parks et DataKind ont identifié les problèmes qui seront soumis aux participants. J’ai retenu deux questions qui ont donné lieu à des projets : pouvons-nous prédire où une future tempête risque de faire le plus de dégâts dans nos parcs ? Les opérations préventives d’élagage ont-elles un impact sur les demandes ultérieures d’intervention, notamment par les habitants ?

Les organisateurs ont aussi recensé un ensemble de jeux de données, en grande partie déjà ouvertes sur le portail open data comme tous les appels au 311 (le numéro des services urbains pour les demandes d’intervention), les travaux programmés (work orders), mais aussi des sources extérieures (les principaux événements météorologiques, l’historique des interventions liées aux précédentes tempêtes). L’ensemble a fait l’objet d’un brief que l’on peut retrouver en ligne.

Les participants (des data-scientists) n’ont pas développé des services en ligne, ils ont proposé des modèles pour répondre aux questions posées. Ainsi, un groupe a proposé un index de risque de tempête pour chaque bloc, en fonction des arbres que l’on y trouve et de leur ancienneté. Un autre a remis en question, à partir des données brutes et d’un modèle mathématique, l’intérêt de la politique préventive d’élagage. Bref, ils ont répondu à des questions concrètes et ont permis d’améliorer l’action publique sur ce champ précis.

2 – La boucle de rétroaction de l’open data V.2

Par contraste, l’exemple de DataKind illustre bien ce qui fait aujourd’hui défaut dans notre approche de l’open data : nous ne bouclons pas la boucle. Le modèle actuel est le suivant : un acteur public (ou privé) met à la disposition des réutilisateurs des données ouvertes. Ces derniers développent des services, des applications, souvent utiles, parfois ludiques mais bien souvent aucune d’entre elles n’impacte la manière de faire de l’organisation. Avec des horaires de bus on peut certes développer des services d’information voyageurs, mais l’on peut aussi analyser la desserte de chaque quartier et – potentiellement – proposer des améliorations au gestionnaire du réseau de transport.

Ce qui nous manque donc c’est l’application de la boucle de rétroaction (feedback loop) : une organisation ouvre des données, qui servent ensuite à des tiers pour améliorer les actions de l’organisation… une sorte d’open data  version 2.

Le principe de la boucle de rétroaction est l’un des éléments fondateurs de la cybernétique (j’ai eu l’occasion dans mon livre d’évoquer le lien entre l’open data et les théories de Norbert Wiener). Vous pouvez en voir un exemple à l’oeuvre dans la plupart des villages de France avec l’affichage en temps réel de la vitesse de votre véhicule… Il suffit d’offrir au conducteur une information qu’il possède pourtant déjà sur son tableau de bord pour qu’il réduise en moyenne de 10% sa vitesse… Cet article de Wired raconte la genèse de ce dispositif et explique pourquoi l’efficacité n’en diminue pas avec le temps.

3 – Des projets pour l’action publique

Je reviens sur l’exemple de New-York. La ville s’était déjà illustrée par son équipe interne de data-scientists et son approche très pragmatique des données (tant big data que open data). Toutes les villes n’ont pas les moyens du maire de New-York, mais la plupart des acteurs publics qui ouvrent aujourd’hui leurs données pourraient travailler sur la boucle de rétroaction. Je vous propose deux exemples pour tenter de vous en convaincre.

Projet 1 : du marketing achats avec l’open data

Une partie de la modernisation de l’action publique passe par une maîtrise des dépenses. Mieux acheter est une source importante d’économies. L’open data pourrait faciliter la mise en place d’une démarche de marketing achats. L’opérateur des transports londoniens (TfL) met en ligne sur son portail open data toutes les dépenses d’achats et d’équipements supérieures à 500 livres. Ainsi, un nouveau fournisseur peut se positionner pour faire la meilleure offre, en connaissant le détail et le prix des prestations acquises par TfL…

Projet 2 : les « Happy Hours » de la piscine municipale

Dans ma ville, on peut accéder à la piscine municipale avec sa carte de transport (genre pass Navigo). La mise en place du système a accompagné l’introduction d’une tarification horaire, où l’on paie en fonction du temps passé dans le bassin. Les services de la ville disposent donc d’une grande masse de données sur la fréquentation des piscines et le système fournit aussi une vision en temps réel du nombre de nageurs.

Comme tout équipement, la piscine municipale connaît des pics de fréquentation, certains liés à des variations saisonnières (été/hiver) ou à la météo du moment… En ouvrant la donnée de fréquentation en temps réel, on pourrait informer les usagers de l’affluence qu’ils risquent d’y trouver à cet instant. Mieux, en anonymisant les données de fréquentation on pourrait proposer, sur le modèle de DataKind, d’imaginer des formules d’incitation pour aller nager aux heures creuses.

L’idée : j’ouvre 3 mois d’historique de fréquentation, je fournis des données sur les événements météorologiques ou autres (les vacances scolaires, …) et je lance un challenge avec une question : « aidez-nous à définir les Happy Hours de la piscine !« .

Les deux exemples présentés ici sont plutôt anecdotiques, mais ils sont réalisables à plus ou moins court terme. On peut aussi imaginer travailler sur d’autres champs de l’action publique avec des questions plus ambitieuses... Celles du logement ou de la prise en charge de la petite enfance par exemple.

4 – En pratique, comment faire ?

Comment boucler la boucle de l’open data ? Il va tout d’abord falloir revoir notre manière de procéder. Les formules d’incitation (type concours ou hackatons) ne devraient pas partir des données disponibles mais plutôt des questions et des problèmes concrets. Bien entendu, la puissance publique n’est pas la seule à pouvoir définir les problèmes, la société civile peut aussi jouer son rôle (DataKind a par exemple organisé un évènement londonien avec plusieurs ONG).

Le plan de route serait donc le suivant :

– définir une question, un problème de politique publique,

documenter la problématique et les principaux enjeux,

– recenser, lister et ouvrir les jeux de données pertinents,

– s’appuyer sur des médiateurs tiers,

– proposer des challenges, des concours, des hackatons pour inviter les participants à répondre à la question… (souvenons-nous que les sites data.gov et challenge.gov vont de pair),

faciliter la réintégration des résultats au sein des services et des administrations (leur implication est amont dans la définition des questions est un bon levier pour cela).

Il ne s’agit pas pour autant de brider les réutilisateurs dans leur créativité, libres à eux de participer ou non aux actions proposées. Libres à eux de développer l’application de leurs rêves.

Mais n’ayons pas non plus peur de partager les questions qui se posent quotidiennement dans l’action publique. Ainsi, nous ferons le lien entre l’ouverture des données publiques et la cohérence des politiques publiques, un argument développé par ceux qui ne veulent pas ouvrir leurs données

Monétiser les données du transport public… chiche ?

Le groupement des autorités responsables des transports (GART) vient de prendre publiquement position en faveur de l’instauration d’une redevance liée à l’usage commercial des données du transport public.Le sujet est loin d’être anodin pour l’open data Comment concilier innovation et contribution, sans jeter le bébé avec l’eau du bain ?

1 – « Une utilisation à des fins commerciales qui pose question »

Le communiqué du GART fait mention dès les premières lignes du mouvement d’ouverture des données (open data) qui « vise avant tout l’émergence de services innovants et le développement d’initiatives locales » (souligné par mes soins). Mais les données ainsi ouvertes intéressent aussi « tout particulièrement les opérateurs de transport, les géants du web (moteurs de recherche tels que Google, sites web ou acteurs de l’industrie informatique comme Apple) qui monétisent ces informations via l’intermédiaire de la publicité« . Le texte indique par ailleurs que l’utilisation à des fins commerciales de ces données pose question, eu égard au financement de leur production par les autorités organisatrices des transports.

Il y a beaucoup d’idées dans les quelques lignes de ce communiqué, je vais essayer de les clarifier en les étudiant une par une.

Premier élément : l’open data, cela sert à faire émerger des initiatives locales (comprendre : des petites choses bien sympathiques par de gentils contributeurs locaux). Second point : attention les données intéressent aussi des grands acteurs du numérique (Google, Apple) et « des opérateurs de transport » (par exemple la SNCF qui pourrait intégrer dans ses services web des données issues des AOT ?). Troisième point : c’est choquant que ces données fassent l’objet d’une réutilisation commerciale alors que les ré-utilisateurs ne contribuent pas à leur financement.

On retrouve, dans ce troisième point, l’écho des discussions houleuses en cours entre Google et une partie des éditeurs de presse sur le partage des revenus publicitaires liés au service Google Actualités.

Là où le bât blesse me semble-t-il c’est que les données des transports dont nous parlons ici sont juridiquement des données publiques. La commission d’accès aux documents administratifs, dont l’avis avait été sollicité par l’AFIMB l’avait bien confirmé pour les données des horaires théoriques par exemple. Le législateur européen (directive de 2007) a introduit un principe de non-discrimination selon l’usage commercial ou non-commercial des données publiques.

En résumé : si les données du transport public sont des données publiques (à la CADA de le préciser), on ne peut pas justifier l’instauration d’une redevance uniquement par le fait que la réutilisation génère des revenus commerciaux (notamment via la publicité). Dura lex sed lex

Reste l’argument moral : pourquoi laisser des tiers (hormis peut-être les gentils développeurs locaux déjà mentionnés) faire de l’argent sans leur demander de contribuer au bon fonctionnement du système ? Cette question-là me semble beaucoup plus intéressante !

2 – Google, le passager clandestin de l’information transport 

Il n’y point de hasard dans le fait que le communiqué du GART désigne Google parmi les « passagers clandestins » de l’information transport. J’ai déjà eu l’occasion dans mon ouvrage (Open Data, comprendre l’ouverture des données publiques) d’expliquer le rôle de Google dans le domaine de l’information voyageur.

Le géant américain intervient à plusieurs niveaux de la chaîne. Il a porté sur les fonds baptismaux le format d’échange de données GTFS (General Transit Feed Specifications dont le G signifiait initialement Google) aujourd’hui largement utilisé dans les initiatives d’ouverture des données transport. Son service Google Transit propose du calcul d’itinéraires sur le web et les smartphones. Enfin, il ne faut pas être devin pour imaginer qu’à terme Google puisse intervenir lui aussi sur le marché des transports, par exemple en vendant directement des titres de transport via Google Wallet.

Plus généralement, il y a je pense une grande méfiance de la part du secteur des transports vis-à-vis de Google, méfiance partagée tant par les financeurs que par les exploitants. La tribune publiée à la rentrée par le P-DG de la SNCF évoquait la « dangereuse hégémonie des géants du Net et de leurs services commerciaux« .

Risquons ici une opinion personnelle : je pense que l’on tolère d’autant plus mal les « passagers clandestins » du numérique que Google, Apple et autres multinationales du numérique pratiquent une « optimisation fiscale » (un terme politiquement correct pour désigner les stratégies légales pour réduire l’impôt) qui commence à choquer, et pas seulement dans l’Hexagone (voir à ce propos les enquêtes détaillées et édifiantes de BFMTV et de Bloomberg, deux sources pourtant très business-friendly). En ces temps de disette des finances publiques, on comprend aisément que de telles pratiques puissent irriter…

Il y a donc une vraie question posée à ces entreprises mais pour autant il me semble que la position du GART risque, en voulant les cibler, de pénaliser une dynamique encore naissante en France autour de la réutilisation des données transports, dynamique qui n’est pas uniquement portée par des géants du Net.

3 – Des services utiles… pour qui ?

Prenons les quelques agglomérations qui ont ouvert leurs données transport en France. Pour Rennes ou Nantes par exemple, combien d’applications développées par des développeurs tiers pour une application officielle ? A qui servent ces applications ? A ceux qui les utilisent bien sûr, mais pas uniquement me semble-t-il.

De tels services d’infomobilité renforcent l’attractivité du transport public, et c’est bien un objectif partagé par les autorités responsables des transports. Combien de collectivités auront l’envie, les moyens et la créativité de développer un service de calculateurs d’itinéraires pour personnes à mobilité réduite à l’instar d’Handimap ? Combien d’autorités organisatrices des transports sont organisées pour développer des applications mobiles pour un nombre croissant de plateformes ? Dès lors, la position du GART suscite au moins trois interrogations :

– Pourquoi prendre le risque, en voulant cibler les « passagers clandestins » de décourager l’émergence de nouveaux services par de nouveaux entrants ?

– Pourquoi vouloir limiter l’open data à des initiatives locales non-marchandes et ne pas encourager les économies d’échelles pourtant bien nécessaires pour assurer la pérennité de ces services ?

– Pourquoi demander au gouvernement un projet de taxe sur l’usage commercial des données transport plutôt que la mise en place d’un référentiel commun d’ouverture de ces données, valable partout sur notre territoire ?

4 – Des pistes pour concilier innovation et contribution … et ne pas jeter le bébé avec l’eau du bain

Comment dès lors concilier la possibilité d’innover avec la contribution au financement du système ? Des solutions existent et elles dépassent largement l’idée d’une redevance telle que la propose le GART.

Première piste : si la cible c’est Google, alors ouvrons les données transport en privilégiant une licence OdBL ! Le moteur de recherche n’aime pas beaucoup les obligations liées à cette licence – et c’est d’ailleurs l’une des raisons de son adoption par Open Street Map (mémo : regardez aussi la licence utilisée par la SNCF).

Deuxième piste : une tarification à l’usage sans barrière à l’entrée. On peut imaginer que, pour couvrir les frais de mise à disposition des données temps réel via des API, on mette en place une tarification double : gratuite jusqu’à X requêtes (par jour, par minute, …) puis payante pour les utilisateurs les plus gourmands. C’est d’ailleurs exactement le modèle mis en place par Google lui-même pour son service Google Maps !

Troisième piste : distinguer l’usage des données et l’usage des éléments de marque. Plusieurs réseaux de transport publics étrangers, et notamment le MTA (New-York) et TfL (Transport for London) font contribuer les ré-utilisateurs non pas sur la donnée mais sur l’usage des éléments de marque : le logo du réseau, les codes graphiques, le nom, … New-York par exemple demande aux développeurs qui souhaitent les utiliser de signer un contrat et de payer des royalties en cas d’usage commercial. En clair, si l’application est gratuite (ce qui n’interdit pas la pub !) et que le développeur ne veut pas mettre le logo du réseau dans ses écrans, il ne paie rien à personne. Et son service présente un bénéfice pour tous, autorité organisatrice incluse !

[Vidéo] L’open data des entreprises à la Cité de la Réussite

En passant

J’ai participé dimanche 21 octobre à une table-ronde organisée à la Sorbonne dans le cadre de la Cité de la Réussite qui a réuni 150 intervenants sur le thème du partage. La table ronde « Les enjeux de l’open data pour les entreprises » était animé par Martin Duval (Bluenove), avec la participation de Patrick Ropert (SNCF), Margaux Pelen (Home’n’Go), Cyrille Vincey (QunB) et moi-même. Cet évènement est à revoir en ligne (le débat commence à 3’30…).

Les conflits liés aux données « fermées » se multiplient

La Deutsche Bahn ne veut pas ouvrir ses données ? OpenPlanB s’en charge …

Le récent conflit qui oppose le site FourmiSanté et l’Assurance Maladie (1) vient s’ajouter à une longue liste de confrontations liées à des données « fermées ». Partout en Europe, nous assistons à la multiplication de cas similaires.

Comment peut-on analyser ces conflits ? L’open data peut-il être une réponse aux défis qu’ils posent ?

En Allemagne le groupe de data hacktivists Open Plan B vient de publier les données de la Deutsche Bahn, en réponse expliquent-ils à l’immobilisme du transporteur en matière d’open data. En Suisse, c’est le site fédéral permettant de calculer le montant des primes d’assurance maladie qui a lui aussi fait la une de l’actualité, un député réclamant récemment l’ouverture des données fédérales. En Belgique, le groupe de développeurs iRail.be propose une interface non-officielle d’accès aux données de la compagnie ferroviaire nationale, … On voit donc que cette question n’est pas spécifique à la France. 

1 – A l’origine, la multiplication des services en ligne

La réutilisation non-autorisée de données n’est pas une invention de l’ère Internet. Qui se souvient par exemple du 36 17 ANNU, le premier annuaire inversé sur Minitel qui a fait la fortune du tycoon français Xavier Niel ? Les numéros des abonnés étaient récupérés à partir de l’annuaire 36 11 proposé par France Telecom, en veillant à ne pas dépasser la limite fatidique des 3 minutes, au-delà desquelles le service devenait payant. Une pratique qui a d’ailleurs valu à cet éditeur l’une des plus lourdes condamnations jamais prononcées en matière de bases de données en France (pour mémoire, 100 millions de francs et une astreinte de 4 millions supplémentaires par jour).

Aujourd’hui ce ne sont pas seulement la liste des abonnés au téléphone que l’on peut retrouver sur Internet, mais la plupart des services et administrations publics : localisation et horaires des équipements, informations détaillées sur les transports et leur qualité, données sur la qualité des établissements hospitaliers ou sur les tarifs pratiqués par les médecins, … Ce qui demandait, à l’époque du Minitel, une batterie de serveurs, est aujourd’hui accessible à n’importe quel individu un peu motivé et équipé. La « barrière à l’entrée » pour la collecte non-autorisée de données s’est donc très largement abaissée.

Ajoutons aussi que le travail de collecte est aussi largement facilité par le fait que nombre d’administrations et d’entreprises ont recours aux mêmes prestataires et aux mêmes systèmes pour mettre en ligne leurs données. C’est l’exemple du calculateur d’itinéraires développé en Allemagne par la société Hafas et largement utilisée par de très nombreux réseaux de transport en Europe et aux Etats-Unis. Une fois que l’accès au système Hafas via des API devient documenté pour une ville, il le devient rapidement pour toutes

2 – En face, la réutilisation non-autorisée se professionnalise

L’histoire se déroule souvent de cette manière : une entreprise (ou une administration) découvre un jour qu’une application non-officielle a fait son apparition sur l’AppStore. Parfois – trop souvent -, on s’aperçoit aussi que le dit-développeur avait d’ailleurs fait auparavant une demande officielle d’accès à ces données mais que, ne sachant pas quelle position adopter, on ne lui a pas répondu. Face au « fait accompli« , la première réaction est de mettre en route la machine juridique : mise en demeure, demande du retrait de l’application ou du service en ligne, …

La suite a un air de déjà-vu : le développeur un peu malin médiatise le conflit et interpelle les pouvoirs publics. D’ailleurs cela marche souvent et le changement de champ de bataille (du juridique au moral) tourne rarement à l’avantage de celui qui voit ses données utilisées sans son accord : les élus s’en mêlent, écrivent des lettres ouvertes comme à New-York en 2009 (le fait déclencheur de l’open data du transporteur new-yorkais) ou à Lyon plus récemment.

Le conflit est alors plutôt de type asymétrique : le détenteur des données a le sentiment d’avoir le droit de son côté (n’a-t-il d’ailleurs pas pris le soin de détailler des conditions d’utilisation sur son site web ?), mais le réutilisateur a les « cartes médiatiques » en main, et le moment « open data » (déjà évoqué dans un précédent billet) joue à plein. L’incompréhension est totale.

Mais il y a mieux que les applications non-officielles. J’ai cité plus haut l’exemple de Open Plan B en Allemagne, on peut aussi citer aussi la kyrielle d’API (interfaces de programmation) non-officielles qui se multiplient, à Montpellier, en Suisse, en Belgique. Ceux qui développent ces outils font en quelque sorte le boulot que les détenteurs de données ne veulent pas faire. En voulant contrôler leurs données, ils encouragent l’émergence de tels services et in fine, abandonnent encore davantage leur capacité à maîtriser l’usage qui en est fait.

3 – L’open data : ouvrir pour fournir un cadre à la réutilisation

Personne n’a intérêt à la réutilisation non-autorisée des données, même pas le développeur. En procédant hors d’un cadre technique et juridique clair, il doit faire face à une incertitude juridique qui freine aussi sûrement l’innovation que les redevances tarifaires. A Londres, c’est l’exemple de ce développeur d’une application très populaire qui a découvert un matin que son service ne fonctionnait plus : le site web de l’opérateur Transport for London (TfL) avait modifié la structure de ses pages web sans avertir personne, …

Le détenteur de données a lui aussi intérêt à préciser le cadre juridique, technique et économique de réutilisation des données. Les mises en demeures, les demandes de retrait d’application : cela fonctionne peut-être dans un premier temps (en témoigne la prudence affichée par les réutilisateurs concernés) mais in fine cela ne saurait constituer une politique en matière de diffusion et de valorisation des données.

Hier la RATP, aujourd’hui l’assurance maladie ou certains opérateurs ferroviaires européens : si vos données ne sont pas encore réutilisées sans votre accord, vous savez ce qu’il vous reste à faire : commencer à réfléchir sérieusement à votre politique open data

(1) : Il s’agit dans le cas présent de la réutilisation non-autorisée des tarifs des médecins publiés sur le site ameli-direct.

Pourquoi partager ses données (quand la loi ne vous y oblige pas) ?

Nombre d’acteurs, notamment privés, s’interrogent aujourd’hui sur leur position en matière de diffusion et de partage de leurs données. Ils ne sont souvent pas concernés par la loi CADA de 1978 : ils ne remplissent pas de mission de service public ou font partie des nombreuses exceptions prévues par le législateur … Mais au-delà de l’obligation légale, il y a souvent un intérêt réel à partager ses données.

Ce billet tente de répondre à la question : mais pourquoi donc devrais-je diffuser mes données si la loi ne m’y oblige pas ? Je propose une grille de lecture pour comprendre les stratégies à l’oeuvre dans ce domaine. Une remarque préalable et importante : les exemples cités couvrent l’ensemble des trois univers de diffusion détaillés dans un précédent billet et pas uniquement la diffusion des données en open data.

La grille de lecture que je propose distingue d’abord deux axes :

– l’objectif prioritaire : s’agit-il de s’inscrire dans une démarche de transparence et/ou de participation ? Bien évidemment, les deux objectifs ne sont pas contradictoires, mais les enjeux sont différents. Si l’on cherche la participation, il faudra stimuler la réutilisation, alors qu’un pur objectif de transparence peut se limiter à la diffusion des données,

– la posture de départ : l’acteur qui réfléchit à sa stratégie se positionne-t-il en mode défensif (faire face) ou offensif (prendre ou reprendre la main) ? Le graphique que je propose illustre quelques stratégies d’acteurs et surtout des dynamiques, c’est-à-dire la capacité à passer d’une position défensive à une position offensive.

1/ Stratégies participatives en mode « offensif »

Dans les 3 premières stratégies, l’acteur diffuse volontairement (sans pression préalable) un ensemble de jeux de données dans l’optique d’en favoriser la réutilisation. Ses objectifs peuvent être de :

– « valoriser ses actifs informationnels et sa marque » [1] : en mettant à disposition ses données, on peut mieux les valoriser qu’en en limitant la diffusion sur son seul site web.

Une très bonne illustration de cette stratégie est le portail d’ouverture de données touristiques data.visitprovence.com. Face à la concurrence accrue de nouveaux sites de diffusion de l’info touristique (TripAdvisor, AirBnB, Homelidays, …) et à la diffusion de nouveaux supports (le mobile aujourd’hui, la TV connectée demain), ne vaut-il pas mieux se concentrer sur la valorisation de ses données plutôt que de s’engager dans une coûteuse course à l’audience pour ramener des visiteurs vers son site « officiel » ? Dans un tout autre domaine, l’agence d’information financière Bloomberg propose aussi des accès partiels à ses données.

– « jouer l’externalité de réseaux » [2] : la seconde stratégie est basée sur la notion d’externalité de réseaux. Les entreprises du web – par exemple Twitter – donnent accès à une partie de leurs données (via des API) à des tiers pour qu’ils développent des services et des applications tierces. Ils profitent ainsi de l’effet « boule de neige » des externalités de réseau : plus il y a d’utilisateurs du service, plus le service a d’intérêt pour un nouvel utilisateur.

– « faire développer par des tiers » [3] : cette dernière stratégie est souvent mise en oeuvre dans le domaine des transports, mais peut s’appliquer à de nombreux domaines.

Si l’on cherche à offrir un service d’information complet à ses usagers ou clients, il faut aujourd’hui couvrir une palette de plus en plus large de terminaux et de besoins spécifiques. Il faut un site web, un site mobile, des applications pour iPhone, pour Android, pour BlackBerry, pour Windows Phone, … Sans compter des services dédiés à des cibles particulières. Pour reprendre l’exemple des données touristiques, il y a sûrement intérêt à concevoir un service dédié pour les camping-caristes mais un comité départemental du tourisme a-t-il les moyens (et la volonté) de le faire lui-même ? On le voit, diffuser ses données c’est aussi valoriser sa marque.

2/ Stratégies participatives en mode « défensif »

Certains acteurs abordent aujourd’hui la diffusion et le partage de données dans une posture initiale défensive. Les deux stratégies qui sous-tendent leurs approches sont les suivantes :

– « prevenir l’usage sauvage » [4]: JC Decaux (pour son service de vélo en libre-service) ou la RATP par exemple ont été confrontés à des réutilisations sauvages de leurs données. Rappelons que les premières applications dédiées au vélo en libre-service rennais ont vu le jour avant le programme d’ouverture des données de Rennes Métropole et Keolis Rennes – et elles se sont précisément appuyées sur un usage sauvage donc non contrôlé des données.

– « contrôler ma marque » [5] : corollaire de l’utilisation sauvage des données, le contrôle de la marque est aussi une préoccupation courante. L’autorité en charge des transports londoniens (TfL – Transport for London), a ainsi mis en place un programme de contrôle de sa marque pour les réutilisateurs des données. « Don’t pretend to be us » fixe un cadre précis pour s’assurer que les clients usagers du réseau de transport seront bien en mesure de distinguer les applications « officielles » de celles développées par des tiers.

Il faut noter que nombre d’acteurs, initialement positionnés dans une posture défensive se sont redéployés de manière offensive. Ainsi TfL mentionné plus haut, mais aussi l’opérateur rennais ou new-yorkais (MTA), …

De même nombre de stratégies offensives sont des miroirs de stratégies défensives (par ex. prévenir l’usage sauvage >; valoriser ses actifs informationnels).

3/ Stratégies transparence en mode « défensif »

Pour rappel, dans une optique de transparence l’important est davantage de diffuser et de mettre à disposition des données plutôt que d’en encourager la réutilisation.

En mode défensif, je distingue deux stratégies :

– « rendre des comptes » [6] : certaines activités sont soumises à la pression publique (en particulier dans le domaine de l’énergie ou de la finance) et/ou au droit de regard exercé par un régulateur de marché. L’obligation de rendre des comptes fait alors partie des déclencheurs d’une démarche de partage et de diffusion des données,

– « datawashing » [7] : similaire à l’éco-blanchiment (greenwashing) le datawashing consiste à publier des jeux de données (présentant souvent peu d’intérêt pour les réutilisateurs) afin de se donner une image de transparence. L’opérateur d’énergie italien Enel a ainsi récemment fait parler de lui en publiant sur un portail open data dédié des données… que l’on retrouve dans son rapport annuel de responsabilité sociale et environnementale. Aux Etats-Unis, la société Nike a de même fait un effort de transparence qui n’est sans doute pas étranger aux polémiques sur les conditions de fabrication de ses produits.

On notera d’ailleurs avec grand intérêt que les compagnies les plus avancées dans le domaine de l’ouverture de leurs données sont aussi celles soumises le plus régulièrement à la critique, dans les domaines de l’énergie, de l’environnement, de la finance ou des transports…

4/ Stratégies transparence en mode « offensif »

La transparence ne se limite pas au contexte défensif. Je distingue trois stratégies déployées par des acteurs qui souhaitent (re)prendre la main :

– « répondre à un enjeu de gouvernance » [8] : anticiper la demande de transparence en publiant des données sur le fonctionnement de son activité ou de ses missions, fournir à toutes les parties prenantes (stakeholders) les mêmes éléments de compréhension et d’action. Cet enjeu de gouvernance a par exemple été souligné lors d’un rapport de la Cour des Comptes sur les transports ferroviaires en Ile-de-France,

– « (compenser) la qualité de service par l’information » [9] : pour les activités de services, le fait même de fournir une information sur la qualité du service tend à améliorer sa perception par les usagers. Un exemple : ce ne sont pas les données ouvertes par la SNCF qui font arriver les trains à l’heure, par contre il est clair que l’effort de transparence est jugé positivement par les voyageurs,

– « préparer au changement » [10] : diffuser des données peut aussi aider à préparer au changement, à poser les bases d’un diagnostic commun. Bien évidemment, cette stratégie peut être le miroir du « datawashing », donc on restera prudent dans sa mise en oeuvre… et critique quand on la verra à l’oeuvre !

Comment diffuser et valoriser des données d’entreprises ?

Pourquoi l’open data devrait-il se limiter aux seuls acteurs publics ? Comment les entreprises peuvent-elles l’intégrer dans leur stratégie de diffusion et de valorisation de leurs données ? Pour répondre à ces questions, je vous propose un premier article consacré à la définition des univers de diffusion des données d’entreprises. On y parle open data, mais pas seulement.

Quelles données partager ? Avec quel public ? De prime abord, les interrogations sont identiques pour les secteurs privés et publics. En réalité, les deux approches se distingue par le contexte juridique qui s’applique. Il n’y a pas d’obligation pour les entreprises de mettre à disposition leurs données, hormis quelques exceptions précises (données environnementales et financières notamment). La démarche doit être d’autant plus volontariste pour les acteurs privés.

1- Quelles données diffuser ? auprès de quels acteurs ?

Définir une stratégie de diffusion passe d’abord par un état des lieux des données et des informations existantes au sein de l’entreprise. On cherche notamment à identifier et recenser les données que l’on souhaite diffuser, valoriser et, a contrario, les données que l’on souhaite protéger. En parallèle, pour chacun des types de données identifiés, on évalue les acteurs cibles avec lesquels on pourrait les partager. Il peut s’agir de quelques partenaires déjà sélectionnés ou d’un plus large public de réutilisateurs.

2 – Les 3 univers de diffusion des données

Le croisement entre les deux questions permet de repérer à minima trois univers de diffusion des données, comme le synthétise le schéma ci-dessus (en licence CC-BY rappelons-le). Par univers de diffusion on désigne un ensemble cohérent de critères techniques, juridiques et économiques liés à la diffusion et à la réutilisation des données.

Par exemple, dans l’univers bien connu de l’échange de données informatisées (EDI) – que l’on qualifie de modèle semi-ouvert, l’accès aux données est limité à quelques partenaires pré-selectionnés et avec lesquels le lien contractuel est fort (engagement de niveau de services, clause de semi-exclusivité, etc…).

Le modèle demi-ouvert a notamment été mis en oeuvre avec succès par les entreprises du web et certains fournisseurs d’information financière (Bloomberg, …). Il consiste à offrir un accès partiel aux données via des interfaces de programmation (API)Ce modèle est juridiquement moins contraignant que l’EDI et doit permettre une diffusion des données auprès d’un ensemble plus large de partenaires réutilisateurs. Il n’est cependant pas question, à l’instar de Twitter ou d’Amazon de permettre l’accès à la totalité des données brutes.

Enfin, le modèle ouvert est celui des données ouvertes (open data). L’ouverture est alors à la fois technique (la fourniture de données brutes dans un format ouvert et facilitant la réutilisation), juridique (l’utilisation de la licence ouverte proposée par Etalab, la licence ODbL) et économique (peu ou pas de redevances sur la réutilisation des données).

Mais la question de l’ouverture ne se limite pas à des critères formels, elle impose aussi une remise en cause des modèles de management pour passer d’un mode de contrôle a priori à un mode de modération a posteriori.

3 – Un impératif : respecter la cohérence des univers

Une erreur pour les entreprises serait de ne pas respecter la cohérence de chaque univers et de vouloir faire de l’open data « à leur sauce ». Cela se traduit notamment par la création d’une licence sur-mesure ou le souhait de rester dans le contrôle a priori. Rien aujourd’hui n’oblige les acteurs privés à faire de l’open data et, comme cet article l’illustre, il y a plusieurs moyens de diffuser des données. Par contre, il me semble essentiel, si l’on choisit un univers, d’en accepter les règles, même si parfois elles relèvent davantage des us et coutumes que de la loi !