Datanomics: "Open Data: show me the money !"

Open-exp-6-Show-me-the-money4 ans après les premières démarches d’ouverture des données publiques en France, la question économique reste entière. Pourquoi a-t-on toujours autant de mal à déterminer l’impact économique de l’open data, autrement qu’à grands coups de milliards de dollars façon Mc Kinsey… ? Elle est où la start-up qui va révolutionner le monde et qui doit tout aux données ouvertes ?

Louis-David Benyayer et Simon Chignard (Datanomics) proposent de considérer la question sous l’ange de la valeur des données: qu’est-ce que l’Open fait aux données ? Ce texte est publié simultanément sur withoutmodel.com et la vidéo réalisée lors d’Open Experience 6 est visible ici.

Elle est-où la super start-up qui doit tout à l’open data ?

Le débat sur la valorisation n’est pas nouveau et les mesures de la valeur de l’open data s’établissent selon deux logiques. Soit c’est la valeur du marché des informations publiques qui est mesurée (par exemple dans le cadre de l’étude MEPSIR de 2006) alors que nombre d’entre elles ne sont pas ouvertes. Soit ce sont les gains d’opportunité qui sont comptabilisés (Mc Kinsey Global Institute).

Suivant cette deuxième logique, les rapports se sont succédés et concluent tous à des montants colossaux. Le plus récent, celui de McKinsey en 2013, situe entre 3 220 et 5 290 milliards de dollars la valeur annuelle de l’open data. A titre de comparaison, le PIB de l’Allemagne, 4ème puissance mondiale est de 3 747 milliards.

Dans le même temps, les gouvernements ont été nombreux à mettre en place des politiques d’ouverture des données publiques pour des raisons politiques (une gouvernance plus ouverte), économiques (permettre le développement de nouvelles activités qui génèront des bénéfices économiques pour l’état et la société) ou pour impulser la modernisation de l’action publique.

Cependant, force est de constater aujourd’hui que peu d’exemples probants de valeur économique générée par des données publiques ouvertes sont disponibles: elle est où la start-up qui doit tout à l’open data ? De même, les entreprises ne s’engagent pas de façon très nette dans l’ouverture des données qu’elles détiennent, génèrent ou manipulent, à l’exception de quelques acteurs du secteur des transports et de la mobilité. Plus encore, on a parfois du mal à comprendre si l’open crée de la valeur pour les données… ou alors en détruit (par les mécanismes de gratuité, etc.).

Quelles raisons expliquent cette difficulté à mesurer l’impact économique et la valeur de l’Open Data ?

Trois hypothèses

Hypothèse 1 : c’est trop tôt

L’effet-retard est une première hypothèse que l’on peut mobiliser pour expliquer notre difficulté à mesurer les impacts économiques. Selon cette approche, développée notamment dans l’étude réalisée en 2012 par Marc de Vries et Geoff Sawyer pour le compte de l’Agence spatiale européenne. Les deux auteurs distinguent ainsi 3 phases dans les effets de l’ouverture des données : une phase d’ensemencement (sowing phase), une phase de culture (growing phase) et une phase de récolte (harvesting phase). Si l’on retient cette approche, il est donc logique de ne pas voir aujourd’hui les bénéfices économiques car nous ne serions pas encore rentrés dans la phase de récolte…

Hypothèse 2: parce que c’est trop diffus et/ou compliqué

Dans les rapports et évaluation de la valeur de l’open data, un élément important est souvent peu mis en lumière par les auteurs et les commentateurs qui explique en partie la difficulté à voir la réalisation des promesses avancées. Dans de nombreuses évaluations (et dans de nombreux cas d’utilisation des données ouvertes), la valeur de l’open data se réalise largement en combinaison avec d’autres données qui, elles, ne sont pas forcément ouvertes, ce qui est appelé généralement les big data.

Note de bas de page du rapport McKinsey de 2013 (page 2) :

Throughout this report we express value in terms of annual economic surplus in 2013 US dollars, not the discounted value of future cash flows; this valuation represents estimates based on initiatives where open data are necessary but not sufficient for realizing value. Often, value is achieved by combining analysis of open and proprietary information to identify ways to improve business or government practices. Given the interdependence of these factors, we did not attempt to estimate open data’s relative contribution; rather, our estimates represent the total value created.

Ainsi, selon cette hypothèse, pour que la valeur de l’open data se révèle, la disponibilité et l’utilisation d’autres données est déterminante. Ce n’est pas la seule mise à disposition qui produit l’intégralité de la valeur.

Hypothèse 3: parce qu’on ne connaît pas bien les réutilisateurs

Enfin, la dernière hypothèse est que les réutilisations de données publiques ouvertes ne sont pas toutes visibles, communiquées ou explicites.

Certaines réutilisations sont particulièrement visibles quand elles sont incarnées par des applications mobiles qui le revendiquent. En revanche, la majorité des réutilisations de données publiques ouvertes n’est pas communiquée à l’extérieur de l’organisation qui les utilise. On mesure donc difficilement ce qui ne nous est pas donné à voir.

Toutefois, des effort sont faits pour mieux identifier et révéler les utilisations, par exemple le site Open Data 500 qui les recense et la plateforme ouverte des données publiques data.gouv.fr qui permet aux utilisateurs de mettre en ligne les réutilisations qu’ils ont faites des données mises à disposition.

Pistes de réflexion Datanomics, qu’est-ce que l’open fait à la valeur des données ?

Pour tenter d’y voir plus clair dans cette questions de la valeur de l’open data, faisons un détour par la valeur des data. Dans le cadre de Datanomics, nous avons identifié une typologie de trois formes de valeur des données : les données comme matière première, les données comme levier et les données comme actif stratégique (nous avons fait une première descriptions de cette typologie dans cet article à propos des objets connectés).

Concentrons nous ici sur les données comme matière première. Les métaphores habituelles utilisées pour décrire la valeur des données (pétrole, diamant, blé ou l’or) nous ramènent assez vite dans cette conception de la valeur des données comme matière première. On y voit les données comme un combustible qui alimenterait une machine (le pétrole), comme une matière qui prend sa valeur une fois qu’elle est travaillée (le diamant) ou comme un produit qui peut être consommé ou utilisé pour se renouveler (le blé). Les limites de ces comparaisons sont nombreuses : à la différence du pétrole qui disparait avec son utilisation, les données peuvent être réutilisées à l’infini, à la différence de l’or, les données ne prennent pas de valeur de thésaurisation.

Un constat s’impose : avec des données ouvertes (dont, par définition, on ne monétise pas la transmission), la valeur monétaire, celle qu’on associe à la donnée comme matière première, est en grande partie liquidée. C’est d’ailleurs l’une des conclusions du rapport Trojette sur les redevances des données publiques publié en 2013.

Autre raison qui explique la liquidation de la valeur des données avec l’ouverture : la révolution des proxies. Comme de nombreuses sources sont disponibles pour mesurer le même phénomène et qu’une grande partie est accessible gratuitement, la rareté et l’exclusivité des données sont moins assurés: leur valeur monétaire tend à décroitre.

Cette explication est confortée par un autre constat concernant les acteurs de l’open data et leur modèle économique. Au démarrage des initiatives d’open data, des acteurs économiques sont apparus avec un positionnement d’infomédiaire ou de place de marché de données ouvertes (Infochimps et Data Publica par exemple). Aujourd’hui ces acteurs ont abandonné ce positionnement de pur intermédiaire (data broker) pour évoluer vers un positionnement de type service. Ce ne sont pas les données qui sont vendues mais les services qui permettent de l’exploiter (API, analyse ou visualisation par exemple).

C’est la forme de valeur des données comme levier qui correspond probablement le plus à la valeur de l’open data : elles permettent aux organisations qui utilisent des données ouvertes d’améliorer leur performance soit en évitant des coûts soit en développant des revenus (par une meilleure tarification ou par de nouvelles ventes)

Finalement

Les caractéristiques de la valeur de l’open data sont celles des données en général : la valeur est dans la réutilisation, elle est future et co-construite.

Dans la réutilisation car elle est n’est pas monétisé directement. Future car la valeur ne se révèle qu’une fois l’utilisation réalisée (elle s’évalue difficilement a priori). Co-construite car c’est rarement celui qui dispose des données qui peut en révéler toute la valeur.

In fine, l’ouverture des donées pose un grand nombre de défis aux acteurs privés : faut-il acter la liquidation de la valeur monétaire des données – c’est-à-dire renoncer à les vendre – pour mieux en exploiter la valeur stratégique et de levier ? Comme nous le disait un responsable d’un grand groupe, par ailleurs largement impliqué dans des démarches open data : “tant que personne ne fait d’argent avec nos données, cela ne nous pose pas de problème de les ouvrir”.

 

Image d’illustration par Hélène Pouille

 

Une Data Expedition, pas à pas

SafariScreenSnapz080J’ai récemment animé un atelier dans le cadre de l’Open Data Camp organisé par Etalab. Cette Data Expedition portait sur le thème de l’égalité hommes-femmes, en lien avec le projet de loi actuellement en discussion au Parlement. Je vous propose ici un retour détaillé sur l’un des 2 sujets que nous avons traité, à savoir la participation des femmes à la vie économique.

1 – Définir le sujet: la représentation féminine au sein des chambres consulaires

Le site du Sénat référence l’étude d’impact du projet de loi sur l’égalité hommes – femmes. Le document est dense (près de 140 pages) et il couvre de nombreux sujets (les inégalités salariales, les violences faites aux femmes, les impayés des pensions alimentaires, …). Je me suis particulièrement intéressé aux annexes, qui comprennent un grand nombre de tableaux avec des données. Le tableau ci-dessous recense le nombre de femmes élues au sein des chambres consulaires territoriales et régionales (CCI), pour la mandature en cours (2010-2015). Ce sera le point de départ de notre expédition: je vous laisse l’étudier rapidement.

Le tableau issu de l'étude d'impact

Le tableau issu de l’étude d’impact

2 – Comprendre les données

Le tableau n’est pas d’un abord aisé. Certaines colonnes concernent des données actuelles, d’autres des projections et mesurent l’impact du projet de loi sur cette question précise. Il m’a fallu relire les chapitres consacrés à cette disposition pour mieux cerner le sujet. J’ai ensuite retravaillé les données pour les extraire et les rendre réutilisables.

Il faut noter à ce stade que l’étude d’impact est proposée en deux formats sur le site du Sénat: en PDF et en HTML. Bien sûr, il est plus simple d’utiliser le second format pour importer les données. J’ai donc utilisé mon tableur favori pour copier toutes les cellules, puis j’ai procédé à un rapide reformatage, en me concentrant sur les CCI territoriales: suppression des colonnes relatives au CCI regionales et des données de projection, dé-fusionnage de cellules, …

3 – Le fichier base de travail

Voilà le travail à l’issue de ces premières opérations. Je précise qu’à ce stade toutes ces opérations se sont déroulées en amont de l’Open Data Camp, ce n’est qu’une étape de préparation des données. J’ai ensuite crée un document partagé à l’aide de Google Drive. En voici une copie d’écran ci-dessous.

Le fichier nettoyé

Le fichier nettoyé

Le matin du 28 novembre nous avons donc lancé cette expédition – un atelier parmi la demi-douzaine proposés par les participants. Mon sous-groupe était composé de Marie-Cécile Huet, Claudio Vandi, Louis-David Benyayer et de renforts ponctuels au cours de la journée. Nous avons donc commencé par nettoyer le fichier en corrigeant quelques erreurs et abréviations. Par exemple on pouvait lire "Puy-de-D." que nous avons transformé en "Puy-de-Dôme". La discussion a ensuite porté sur les réutilisations que nous pourrions imaginer: faire une carte, proposer un classement, proposer des pistes d’analyse, etc…

4 – Compléter et enrichir le fichier

Nous avons d’abord complété le fichier en rajoutant les adresses de chaque chambre de commerce. Le site CCI France propose un annuaire … mais aucune donnée en open data ! Une partie de l’équipe a donc rajouté manuellement toutes les adresses (NB: notre fichier comporte une centaine de lignes, il est probable que s’il avait compté 1000 lignes nous aurions cherché un moyen d’automatiser cette tâche). Puis, les adresses ont été géocodées (ie. transformées en coordonnées X,Y) à l’aide du site gpsfrance.net.

La fiche d'une CCI (source CCI France)

La fiche d’une CCI (source CCI France)

Autre enrichissement de la donnée initiale: le même site CCI France propose le nom du président et du directeur général pour chaque chambre de commerce de France. Nous avons donc rajouté 2 colonnes: le genre (H/F) pour ces deux fonctions. Là, nous avons été confronté à quelques cas plutôt amusants: beaucoup d’entre eux portent le prénom Dominique, un prénom unisexe (notons qu’il n’y a rien de très surprenant ici: les Dominique ont l’âge d’occuper de tels postes, pas encore les Kevin ou les Emma !). Nous avons donc recherché leur sexe via Google… et très majoritairement nos Dominique sont des hommes.

5 – Visualiser les données à l’aide de Google Fusion Tables

Nous avons ensuite importé les données dans l’outil Google Fusion Tables, l’un des (nombreux) services en ligne qui permettent de réaliser des visualisations basiques. A noter que Fusion Tables propose son propre outil de géocodage, qui produit des erreurs relativement faciles à repérer (ex. la ville de Vienne, située en Isère, est confondue avec son homonyme autrichienne).

Fusion Tables nous propose plusieurs visualisations, nous avons commencé par une carte de chaleur (heatmap), présentée ci-dessous.

La carte de chaleur

La carte de chaleur

La carte est jolie, mais elle est hors de propos ;-(

Ce qu’elle nous donne à voir ce n’est pas tant l’inégalité hommes-femmes que la densité territoriale des chambres de commerce ! Pour pouvoir faire une carte de chaleur, il nous faudrait des données beaucoup plus nombreuses, plus denses. Nous aurions aussi besoin d’une donnée non disponible: le découpage territorial de chaque chambre de commerce…

Nous avons donc travaillé sur une carte plus classique, avec des points colorés en fonction du taux de féminisation (qui varie de 0% à 30%).

Fusion Tables permet de personnaliser le nombre de classes différentes que l’on veut représenter: on peut souhaiter représenter les CCI selon un code avec 2, 3 ou même 6 couleurs. La fonction "use this range" (cf. détail ci-dessous) permet de répartir automatiquement chaque point dans l’une des classes. Gros souci: le choix des couleurs proposé par l’outil est inepte dès que l’on dépasse 3 niveaux différents… et le résultat n’est guère compréhensible, il vaudrait mieux utiliser des dégradés de couleurs (ou conseiller aux ingénieurs de Google de relire Bertin…).

Les options de Fusion Tables

Les options de Fusion Tables

Nous nous sommes donc limités à trois couleurs, avec un code simple à comprendre: en vert les 4 CCI qui ont un taux de féminisation supérieur à 30%, en rouge celles dont le taux est inférieur à 15% et en orange les autres… Bien sûr l’on peut rediscuter du choix des classes. Par exemple, nous pourrions tout aussi bien choisir de ne mettre en vert que les CCI où la parité est atteinte – au risque bien réel de n’avoir aucun point vert sur la carte !

Voilà la carte telle qu’elle est aujourd’hui publiée. Dans la version interactive, quand on clique sur un point on retrouve davantage d’informations: le nom du territoire, le nombre de sièges, le taux de féminisation et les genres des directeurs et présidents.

Le résultat

Le résultat (la légende est décrite dans le texte ci-dessus)

6 – Une histoire à raconter ?

Une fois la visualisation terminée, nous avons essayé de comprendre ce qu’elle nous racontait… Elle révèle bien sûr une inégalité hommes-femmes, mais nous espérions secrètement découvrir des motifs géographiques beaucoup plus nets. C’est le comble: nous attendions une confirmation de nos pires stéréotypes ("c’est vraiment des gros machos dans le Sud !").

Nous en étions là de notre relative déception quand Sabine Blanc est arrivée. Sabine est journaliste. Ex-Owni, elle signe notamment les nombreux papiers de la Gazette des Communes sur l’open data. Elle nous a rassuré en disant que la visualisation n’était sans doute pas l’histoire, mais qu’elle pouvait très bien accompagner un article, par exemple sur le fait que seules 4 CCI sur 117 ont plus d’un tiers de femmes parmi leurs élus !

7 – Pour aller plus loin

Le jeu de données est disponible en ligne, vous pouvez le compléter et l’enrichir. Il s’agit essentiellement de "densifier" les données existantes. Par exemple en ajoutant des données historiques: le jeu publié ne concerne que la mandature 2010-2015. On pourrait aussi poursuivre le travail de qualification: les femmes élues occupent-elles des places au sein du bureau des CCI ? Sont-elles davantage issues de l’industrie, du commerce ou des services ? On peut aussi imaginer des jeux de données pour compléter celui-ci. Par exemple le découpage territorial précis des CCI (astuce: on doit pouvoir le recomposer à partir du site CCI France qui indique, pour chaque commune de France, la CCI de rattachement)… A vous de jouer !

La donnée, une matière première bien étrange

Big Data, Open Data, données personnelles ou collaboratives: force est de constater que les données peuplent les discours de l’économie numérique. Les métaphores fleurissent pour qualifier cette nouvelle matière première: le pétrole, l’or, le diamant brut, … Aucune d’entre elles ne permet de saisir ce qui constituent les données. Mais chacune de ces analogies charrie son lot de fantasme et d’imaginaire… Tour d’horizon d’une bien étrange matière première.

1 – Une matière première qui ne s’épuise pas, qui n’est pas détruite lorsqu’on la consomme

La première métaphore est celle de l’or noir, ou du pétrole. Fréquemment mise en avant, elle est notamment couramment utilisée par la commissaire européenne Nelly Kroes. Il y a plusieurs niveaux de lecture de cette comparaison avec le pétrole. D’un point de vue économique, comme l’a déjà souligné et argumenté Henri Verdier, l’analogie n’a guère de sens.

Le pétrole est une matière première qui tend à s’épuiser, alors que la donnée est aujourd’hui de plus en plus disponible – tout à la fois parce que nous en produisons une quantité de plus en plus importante (la "datafication" du monde) et parce que les coûts de stockage sont de plus en plus faibles. D’autre part, la donnée, contrairement à l’hydrocarbure, n’est pas détruite lorsqu’on la consomme. Difficile de faire avancer 2 voitures avec le même litre d’essence, tout à fait possible de faire mille usages simultanés de la même donnée brute… (aux conditions d’accès près, bien sur).

2 – La donnée, un actif stratégique et géopolitique  ?

Mon second niveau de lecture n’est pas économique, mais plutôt métaphorique. Derrière l’analogie avec le pétrole, il y a aussi l’idée que les données représentent un gisement de richesses à exploiter et qu’elles pourraient redistribuer les cartes entre les Etats (et les entreprises). Il est clair aujourd’hui que les pays producteurs d’hydrocarbures sont, au niveau mondial, dans une position géostratégique favorable. Du recrutement du PSG à la création de la chaîne sportive BeInSport, tout le monde voit concrètement ce que l’on peut faire avec des pétrodollars plein les poches …

Pris dans ce sens métaphorique, l’idée de la donnée comme nouveau pétrole est plus intéressante. D’autant plus que la donnée personnelle est, PRISM mis à part, aujourd’hui plutôt un actif détenu par des acteurs non étatiques. Dit autrement: si la donnée personnelle est le carburant de l’économie numérique, alors les GAFA (Google, Amazon, Facebook et Apple) sont l’OPEP de demain… Avec tout ce que celà implique au niveau de la gouvernance internationale, de la souveraineté des Etats, etc… Le bras de fer entre Google et les CNIL européennes ne serait alors qu’un galop d’essai par rapport aux conflits à venir (bref, on a pas fini de rigoler…).

3 – Une matière première dont la valeur est plutôt dans la circulation que dans le stockage

Seconde métaphore utilisée: la mine d’or. Comme le pétrole, l’or est une ressource rare. Mais c’est aussi une valeur étalon, une valeur refuge. C’est là une différence majeure avec la donnée: la thésaurisation de l’or fait sens. La Banque de France stocke par exemple dans ses sous-sols près de 2500 tonnes du métal précieux, représentant une valeur de plus de 100 milliards d’euros. A l’inverse, la donnée stockée ne prend de la valeur que lorsqu’elle circule, qu’elle est utilisée.  Il n’est pas acquis non plus que la donnée prenne systématiquement de la valeur quand le temps passe…

A titre d’exemple: le fichier clients des magasins Virgin a été attribué, dans le cadre de la procédure de liquidation judiciaire de l’enseigne, à la FNAC. Cette dernière était la mieux-disante avec une offre à 54000 euros pour un fichier comprenant 1,6 million de clients. La valeur du dit-fichier n’augmente pas avec le temps, elle aurait plutôt une tendance inverse.

4 – Une matière première qui prend de la valeur quand on la transforme

Troisième métaphore convoquée dans les discours sur la donnée: celle du diamant brut. Le parallèle est plutôt valable dans la mesure où la donnée, comme le diamant, prend une très grande partie de sa valeur lors des opérations de transformation, de raffinage … La donnée brute possède intrinsèquement une valeur d’échange assez faible.

Une quatrième et dernière matière première – le blé – nous permettrait d’envisager une autre propriété des données : le potentiel de réutilisation. En effet, celui qui récolte la céréale peut la mettre dans le circuit de transformation (pour produire de la farine) ou la garder de côté pour la re-semer l’année suivante… On doit alors arbitrer entre un usage actuel et un usage futur.

5 –  Des métaphores qui en disent long sur notre incapacité à saisir la valeur des données

On voit bien qu’aucune des métaphores présentées ici ne permet de saisir l’essence des données. Mais ce n’est peut-être pas là l’objectif recherché dans les discours. Le recours à la métaphore traduit à mon avis notre incapacité à saisir la valeur des données, à en percevoir les multiples dimensions.

Tout se passe comme si, confronté à un objet donnée non identifié, nous aurions besoin de nous référer à des choses bien connues, bien maîtrisées, au risque d’appliquer à des problèmes actuels d’anciennes grilles de lecture et de compréhension.

Au mieux, ces métaphores alimentent la machine à fantasme type ‘patrimoine immatériel à faire fructifier’ (suivez mon regard…). Au pire, elles nous empêchent de voir que les données posent des problèmes inédits, qui bousculent nos fonctionnements et nos économies, un peu à la manière dont les drones armés remettent en cause, par leur existence même, tout ce que l’on croyait savoir sur les lois de la guerre et la souveraineté des Etats… Non, décidément, rien n’est simple avec les données !

La ville: ouverte et/ou intelligente ?

"Smart city" et "open data" : les deux approches ont en commun de mettre la donnée au coeur du fonctionnement de la ville intelligente. Mais au-delà des questions liées à la production des données, les conditions de son partage font débat.

SafariScreenSnapz062Doit-on les ouvrir à tous, en s’appuyant sur une possible intelligence des foules ou au contraire en faire un objet de pilotage centralisé des activités urbaines, quitte à en réserver l’accès à quelques opérateurs urbains ? Illustré d’exemples français (Rennes Métropole, Grand Lyon) et internationaux (Singapour), ce billet se propose d’éclairer les évolutions en cours et les combats d’acteurs qui s’annoncent autour de ce "nouveau pétrole" que constitue la donnée urbaine… 

La version originale de cet article a été publiée dans le numéro 25 de la revue urbaine Place Publique RennesJe le reproduis ici avec leur aimable autorisation.

1 – La donnée, carburant des services urbains

La donnée (data) est au coeur du fonctionnement des villes et des territoires. Elle permet l’aide à la décision, pour des projets d’aménagement par exemple, ou l’évaluation des politiques publiques mises en oeuvre. Elle se révèle nécessaire au bon fonctionnement des services du quotidien, des transports à la vie culturelle en passant par les crèches ou les écoles. Les acteurs publics produisent aussi des données statistiques, liées à l’économie (création d’activités, enregistrement de sociétés, …), aux déplacements ou à la démographie (actes d’état-civil). La donnée est partout et de tout ordre.

La donnée est aujourd’hui au coeur de deux approches de la ville numérique : la ville intelligente (smart city) et l’ouverture des données (open data). Toutes les deux font de ces données l’un des éléments essentiels du pilotage et de la transformation de la ville par le numérique.

2 – La ville intelligente façon smart city, des contours flous

Il n’existe pas de définition unique et universelle du concept de ville intelligente. Le terme est souvent utilisé pour désigner tout à la fois la ville créative et la ville durable. La ville créative, telle que définie par le géographe américain Richard Florida, combine des facteurs économiques, sociaux et techniques pour attirer et retenir les "classes créatives". Florida propose trois critères pour mesurer le degré d’adhésion d’une ville à ce concept : la part des emplois liées aux professions intellectuelles et à la création (designers, architectes, artistes, …), le nombre de brevets déposés sur le territoire et enfin la part des personnes homosexuelles parmi la population.

Cette approche de la ville créative intègre donc dans un même élan des dimensions économiques, technologiques et des choix individuels… Le concept de ville durable met pour sa part l’accent sur l’impératif environnemental et impose de revoir les politiques urbaines sous l’angle de la durabilité. Quelle que soit l’approche retenue pour la ville intelligente (ville créative, durable, numérique, …), les réseaux de communication y jouent un rôle essentiel. Ce sont eux qui permettent d’interconnecter les acteurs et les différents systèmes d’information par exemple liés à l’énergie ou aux transports. La ville intelligente est indéniablement aussi une ville technologique !

ImagesSmartCity.002A quoi ressemble la "smart city" ? Pour en dresser le portrait-robot, il suffit de taper le terme dans le moteur de recherche Google Images pour voir apparaître un grand nombre de représentations. Elles partagent quelques traits communs : la smart city est futuriste (héritée de la science-fiction) et verticale (la tour en est le trait distinctif). Elle ressemble d’ailleurs davantage à l’image que l’on se fait des mégapoles d’Asie du Sud-Est, Hong Kong ou Singapour plutôt qu’à nos villes européennes – ce qui reflète d’ailleurs bien l’histoire des premières smart cities.

La ville intelligente se reconnaît surtout par ses artefacts, dans le champ de la mobilité ou de l’énergie. Le péage urbain est l’un d’eux : le système technologique combine des capteurs placés sous la chaussée, des systèmes de reconnaissance des véhicules (via des badges sans-fil ou la lecture des plaques d’immatriculation), ainsi qu’un pilotage dynamique des tarifs selon l’heure, le type de véhicule ou la congestion liée à la circulation automobile sur les axes routiers à proximité. La Ville-Etat de Singapour a été la première à implanter ce type de péage urbain dès 1998. L’ERP (electronic road pricing) est alors présenté comme l’un des symboles de la modernité du territoire et sera ensuite déployé à Dubaï, Stockholm et Londres – avec des succès mitigés selon les territoires. La prédiction de trafic à une heure a, elle aussi, d’abord été testée à Singapour, avec le concours d’IBM.

Il s’agit ici de combiner une connaissance historique (les conditions de circulation sur les principaux axes routiers) et des mesures temps réel (l’état du trafic tel que mesuré par des capteurs enfouis sous la chaussée) pour alimenter un algorithme capable de prévoir les embouteillages avant qu’ils ne se forment… Dans le domaine de l’énergie, il s’agit d’expérimenter des réseaux intelligents (smart grids), à l’instar du projet mené sur le quartier Confluence à Lyon. Les compteurs intelligents, installés dans les foyers et les entreprises, sont l’une des composantes de ce système qui doit permettre in fine de mieux adapter la production et la consommation d’énergie électrique.

Dans ce modèle de ville intelligente, le pilotage des services urbains est souvent centralisé. L’une des images les plus fréquemment utilisées est celle de la salle de contrôle d’un réacteur nucléaire : toutes les informations apparaissent en temps réel sur des écrans, en provenance de sources multiples (des capteurs bien sûr, mais aussi des caméras et des informations remontées du terrain par les forces de police ou les pompiers, …). Le système informatique accompagne la prise de décision et peut contrôler à tout moment un ensemble d’équipements urbains. Ainsi, un évènement de type incendie déclenche dès l’appel des secours le passage au vert de l’ensemble des feux de signalisation du quartier, la mise en place d’itinéraires de déviation pour les bus ou l’envoi de SMS aux usagers concernés…

 3 – La ville intelligente c’est d’abord un nouveau marché

Le modèle intégré de la smart city puise sa valeur dans sa capacité à regrouper un grand nombre de données issues de systèmes hétérogènes au sein d’un seul et unique outil de pilotage. C’est l’approche "tout-en-un" dont les grands groupes informatiques européens et américains se font les champions.

En effet, la ville intelligente est aussi une opportunité de nouveaux débouchés pour ces acteurs économiques. Inspirés par la réussite des grands groupes de services aux collectivités (notamment la gestion de l’eau et des déchets), les entreprises de l’informatique souhaitent devenir à terme les opérateurs de la ville intelligente. Les frontières entre les activités et les métiers sont d’ailleurs moins nettes qu’autrefois. Des entreprises des télécommunications répondent à des appels d’offres pour la gestion des transports publics dans des villes d’Amérique latine. De même, tous les grands groupes de la gestion de l’eau ou des déchets intègrent aujourd’hui cette dimension d’infrastructure informationnelle dans leurs offres.

La smart city n’est pas réservée aux seules mégapoles asiatiques. La société IBM est par exemple très active en France sur ce sujet et vient d’annoncer la signature de contrat de partenariat et de fourniture avec Montpellier et Nice sur quatre grands domaines : la mobilité intelligente, la qualité environnementale, l’efficacité énergétique et la gestion des risques. Orange collabore à plusieurs projets, dont celui liés aux déplacements sur le territoire du Grand Lyon – la capitale des Gaules a d’ailleurs fait de son positionnement Smart City un élément de différenciation territoriale à l’échelle européenne. L’allemand Siemens (qui fournit par ailleurs les rames du métro rennais) a construit un bâtiment en plein coeur du quartier des docks à Londres. The Crystal est entièrement dédié aux problématiques de la ville intelligente et durable et se veut un lieu de débat et de démonstration. Toutes ces initiatives mettent en avant la capacité du numérique à répondre aux défis environnementaux. Bien sûr, le fait que chacune de ces entreprises maîtrise une partie de la solution technique mobilisée (les capteurs, les équipements et les réseaux de télécommunications, les bases de données, …) n’est pas non plus étranger à leur intérêt pour la ville éco-intelligente ;-)

 4 – La boîte noire: l’essentiel est invisible

Le modèle intégré de la smart city possède aussi des limites intrinsèques. La plupart de ces systèmes fonctionnent comme des boîtes noires. Prenons l’exemple du système de prédiction du trafic à une heure: on en connaît les données d’entrée (historiques de trafic et mesures temps réel), on peut constater les données de sortie (la prédiction de trafic). Mais ce qui se passe dans la boîte noire – c’est-à-dire le processus qui permet de transformer ces données en élément de décision – reste invisible aux yeux extérieurs. La propriété de cet algorithme revient d’ailleurs souvent aux groupes informatiques qui l’ont mis en place, et non aux collectivités qui l’ont co-financé.

L’invisibilité (des technologies, des données, des algorithmes) est d’ailleurs l’une des critiques formulées par la sociologue Saskia Sassen de l’Université Columbia à l’égard de la smart city : "aujourd’hui, l’on tend à rendre ces technologies invisibles, en les cachant sous la chaussée ou derrière des murs – en procédant ainsi on met ces technologies en position de commande et non de dialogue avec les usagers de la ville".

Les systèmes intégrés sont par essence opaques : pensez à la manière dont votre iPhone est entièrement maîtrisé par son constructeur qui détermine même quelles applications vous pouvez y installer et se réserve le droit d’y bannir celles qu’ils n’estiment pas "bonnes" pour ses clients – et donc pour vous. Selon quels critères sociaux ou moraux, selon quelles règles ces décisions sont-elles prises et appliquées ? L’enjeu reste somme toute assez limité quand il ne s’agit que de choisir un type de téléphone mobile. Mais quand l’approche intégrée devient le modèle de référence pour le pilotage des villes, il est permis de s’interroger un peu plus longuement. Peut-on imaginer un modèle de ville intelligente qui ne soit pas totalement intégré ? Rennes Métropole et la Ville de Rennes expérimentent depuis 2010 une approche complémentaire : celle de l’ouverture des données publiques (l’open data).

 5 – La question du partage de la donnée au coeur de l’Open Data

Le territoire rennais est en effet pionnier en France dans le domaine de l’ouverture des données publiques avec les portails data.rennes-metropole.fr et data.keolis-rennes.com.

Ce sont aujourd’hui près d’une quarantaine de territoires, ainsi que l’Etat (data.gouv.fr) qui ont mis en place des démarches open data. La France figure d’ailleurs dans les toutes premières places des classements européens sur le sujet (classement ePSI Forum). L’ouverture des données publiques ne remet pas en cause l’importance des systèmes d’information dans l’action publique, bien au contraire. En ce sens il ne s’oppose pas à la smart city sur les conditions de la production des données.

Ce qui distingue les deux approches, c’est la question du partage des données. Faut-il en limiter l’usage à quelques acteurs (les opérateurs de la ville intelligente) ou en promouvoir une appropriation et une réutilisation plus large par des tiers, entrepreneurs et innovateurs locaux ou nationaux ?

Le Grand Lyon restreint l’usage des données de mobilité à quelques acteurs sélectionnés, pour garantir que les applications développées ne "nuisent pas aux services commerciaux pilotés par la collectivité en délégation de service public". En clair, il s’agit ici de protéger aussi les intérêts économiques de l’entreprise délégataire, au détriment d’un accès au plus grand nombre.

On voit clairement dans cet exemple la tension entre l’approche intégrée de la smart city et la logique de partage des données de l’open data. A contrario, le réseau de transport Star s’est récemment équipé d’un système d’aide à l’exploitation et à l’information voyageurs. Les bus métropolitains sont équipés de balises GPS qui renvoient leur position en temps réel et permettent ainsi à l’opérateur du service de transport (Keolis Rennes) de mieux piloter à distance sa flotte de véhicules. Les usagers des transports ne voient de ce système qu’une toute petite partie de l’information produite, sous la forme des horaires de passages à un arrêt ("ligne 2 direction Grand Quartier, prochain bus dans 7 minutes"). Cette donnée est restituée via des afficheurs (aux arrêts principaux) et via un site mobile dédié. Mais elle est aussi mise gratuitement à disposition des réutilisateurs. Les développeurs des applications mobiles Transports Rennes (Android) ou Rengo (iOS) ont ainsi pu facilement intégrer cette information temps réel.

Derrière la problématique de la gouvernance des données (modèle intégré vs. approche ouverte), c’est bien une question politique qui se pose : quel est le rôle de l’acteur public à l’heure de la ville intelligente ? Comment tirer parti des dynamiques naissantes sans pour autant abandonner toute souveraineté (numérique) aux opérateurs de la smart city ? En ce sens, le modèle de la ville «ouverte», tel qu’il s’invente et s’expérimente sur notre territoire et ailleurs, me semble proposer une alternative d’avenir.

Open Data Transport : les enjeux du débat à venir

Où va l'open data transport ?

Où va l’open data transport ?

La feuille de route gouvernementale sur l’ouverture des données publiques (open data) prévoit l’organisation de six débats thématiques et ouverts. L’un d’eux doit précisement s’intéresser aux données du transport.  Ce billet de blog se propose de commencer à identifer les enjeux et les questions du débat à venir.

(Edité le 3 juin pour rajouter un schéma sur les données déjà ouvertes et préciser les questions liées aux formats de mise à disposition).

1 – Le contexte actuel et les objectifs des débats thématiques

Les débats thématiques ont plusieurs objectifs décrits dans la feuille de route : ils doivent permettre d’identifier et de publier de nouveaux jeux de données stratégiques et de qualité, mais aussi d’étudier la possibilité d’élargir et d’étendre la politique d’ouverture des données à l’ensemble des acteurs : collectivités territoriales, délégataires de service public, entreprises publiques, établissements publics à caractère industriel ou commercial, … On voit bien que l’enjeu pour l’open data transport est important, car les changements pourraient concerner l’ensemble des acteurs de la mobilité et des transports.

Par ailleurs, ce débat à venir s’inscrit plus généralement dans la réaffirmation, tant en France qu’aux Etats-Unis, des principes de l’ouverture des données "par défaut" et de la gratuité des données brutes comme l’un des leviers / piliers de cette politique. L’acte 3 de la décentralisation explicite d’ailleurs ce principe d’open data par défaut. Certes, la perspective de son adoption s’éloigne un peu – ce qui pourrait soulager ceux qui sont inquiets des risques que feraient peser, selon eux, la généralisation de l’open data. Mais l’Europe ne reste pas non plus inactive, avec l’adoption de la nouvelle directive PSI (public sector information) qui fixe des orientations assez fortes (et notamment le principe access = reuse) et finalement assez proches des principes défendus par la feuille de route gouvernemental.

Il y aura donc un débat thématique sur les données du transport et de la mobilité. La perspective d’un open data "par défaut", et non d’un open data comme une "option" éclaire  bien sûr d’une lumière nouvelle les questions à venir. En voici quelques unes.

2 – Quelles données ?

Les données du transport, et plus globalement de la mobilité sont diverses et variées. On y retrouve tous les types de données que nous manions quotidiennement dans le domaine de l’open data : données brutes / données enrichies, données historiques / données prédictives, données en stock / données en flux, données de description / données d’exploitation ou de commercialisation, …

Dans une optique de mobilité au sens large, il faut aussi prendre en compte un grand nombre de modes : piéton, vélo, automobile, transports en commun, … Enfin, et ce n’est pas là la moindre difficulté, les données de mobilité sont produites / collectées / gérées par un très grand nombre d’acteurs aux statuts juridiques et aux stratégies parfois incompatibles.

Nous avons donc potentiellement un très grand nombre de données concernées, elles-mêmes très diverses dans leurs caractéristiques, leurs statuts juridiques, leurs valeurs identifiées, réalisées ou perçues. L’un des enjeux du débat sera donc de tenter de classer ces données et de leur attribuer une priorité d’ouverture – un peu à la manière des données "stratégiques" citées par la feuille de route gouvernementale.

OpenDataTransport-donneesdejaouvertes.009Une rapide analyse des sites open data des réseaux de New-York (MTA), Londres (TfL, Transport for London), Paris (Ratp, Transilien) et Rennes (Star) permet déjà d’identifier une très grande diversité dans les données déjà ouvertes.

Le schéma ci-contre en présente une sélection, classée selon deux axes : l’objectif (transparence / participation) et le type de données (dynamiques / statiques).

La question de la valeur des données sera bien sûr au coeur des échanges. Par essence, cette valeur est multiple (valeur monétaire, valeur d’usage, valeur de ré-utilisation, valeur d’image, …) et dépend en partie de ceux qui réutilisent la donnée – et de ceux qui la réutiliseront demain ! Nous aurons donc – et ce ne sera pas facile – à discuter du partage de la valeur de données alors que nous n’avons qu’une vision assez partielle de leur vraie valeur actuelle et future pour l’ensemble des acteurs de la chaîne…

Concernant les critères de priorisation, il y aura aussi à coup sûr un débat dans le débat. Faut-il considérer les données selon l’usage qu’elles permettent (par exemple le calcul d’itinéraires) ou alors selon le statut (AOT, exploitant) de celui qui va l’ouvrir ? Faut-il prendre comme premier critère l’impact économique, social et sociétal de la donnée ? Et si oui, comment faire ? Nous pourrions imaginer par exemple de favoriser l’ouverture de données qui encouragent le transfert modal vers des modes de déplacements moins polluants que la voiture individuelle – c’est une piste parmi d’autres.

(Le débat devra par contre permettre de clarifier le statut juridique de la donnée de transport, et ce sera déjà une grande avancée)

3 – Quels acteurs ?

Le second enjeu est bien sûr lié aux acteurs qui seront concernés par l’ouverture des données du transport. Il faudra trouver une certaine concordance entre la loi d’organisation des transports (LOTI) et les futurs ajustements liés à l’open data. Certaines autorités organisatrices des transports craignent que l’obligation qui pourrait les viser "épargne" leur exploitant si celui est une entreprise publique ou un EPIC ou un EPA (on parle bien sûr de la SNCF ou de la RATP).

La question des acteurs rejoint celle du périmètre de l’ouverture et l’Etat n’est pas tout à fait un acteur neutre. L’open data pourrait figurer parmi les objectifs assignés aux systèmes d’informations multimodaux, qu’il s’agisse de SIM départementaux, régionaux ou nationaux. On pourrait aller un peu plus loin et imaginer que l’Etat et l’Europe réservent leurs co-financements aux seuls projets de SIM mettant en oeuvre des politiques d’ouverture et de partage des données – mais, encore une fois, ce n’est qu’une piste parmi d’autres.

4 – Quelles modalités d’ouverture ?

Les deux premiers enjeux que j’ai cité correspondent donc aux questions du "quoi ?" et du "qui ?". La question des modalités de l’ouverture – le "comment" – est bien sûr l’une des plus importantes.

Premier élément des modalités de l’ouverture : le degré d’obligation. Va-t-on être dans le domaine de la bonne pratique, de l’incitation (si besoin avec des mécanismes financiers du type subvention conditionnée à la mise en place d’une politique open data) ou de l’obligation (mandatory) ? Bien sûr il y aura toute une palette de réponses, selon les types de données, les acteurs ou les usages pressentis.

Second élément : la licence applicable à ces données.  Certaines collectivités ont déjà fait part de leurs craintes sur des réutilisations de "leurs" données contraires à leurs objectifs de politique publique. Le Grand Lyon par exemple a ainsi conçu une approche SmartData, avec trois licences différentes dont l’une avec des données payantes – c’est leur réponse à l’open data et aux périls qu’ils ont déjà eu l’occasion de dénoncer. Le débat devra donc aussi trancher : pourra-t-on à l’avenir proposer une diversité de licences ou la licence ouverte, proposée et mise en oeuvre par Etalab, va-t-elle s’imposer à tous ?

Troisième élément : les "formats" de mise à disposition. Ce terme peut s’entendre de deux manières. La première concerne le mode de mise à disposition, le second les formats des données elles-mêmes. Concernant les modes de mise à disposition, certains acteurs des transports privilégient la mise en oeuvre de services (webservices, API),  plutôt que de la mise à disposition de données en téléchargement – une opposition qui n’est pas irréductible à mon avis, les deux modes correspondant à des usages et des cibles de réutilisateurs différents. A propos des formats, la plupart des réseaux mettent une partie de leurs données à disposition en GTFS, le standard de facto pour la réutilisation de données transport en mode open data. Le gouvernement va-t-il inciter à – ou imposer – l’usage d’autres formats (mieux connus du domaine des transports) ? Ou alors va-t-il laisser ces éléments au libre choix des acteurs ?

Dernier élément, qui va souvent de pair avec la question de la licence : la monétisation et le partage de la valeur. Doit-on imposer un partage des revenus avec les autorités organisatrices en cas de réutilisation commerciale des données ? Doit-on discriminer les utilisateurs selon l’usage des données (la non-discrimination entre utilisateurs étant, rappelons-le, l’un des principes fondamentaux de l’open data).

5 – Un débat qui ne se limite pas au domaine des transports publics

On voit donc que le débat à venir sera sans doute très riche, passionnant et porteur d’enjeux importants.

Mais je voudrais ici rappeler (amicalement) aux acteurs du monde des transports que ce débat thématique ne sera que l’un des six qui sont prévus.

Dans la galaxie du sujet open data, le transport est l’une des thématiques mais pas la seule. Les débat sur les données de santé, ou les données culturelles, seront à coup sûr tout aussi impliquant pour l’open data. L’idée d’une licence dédiée pour les données transports, par exemple, me semble devoir être confronté à ce "moment Galilée".

Les acteurs du transport ne sont pas plus légitimes que les acteurs de la santé ou de la culture pour réclamer une licence propre et un régime d’exception (la culture en bénéficie déjà)… je doute que ce voeu puisse donc être exaucé, ou alors l’Etat accepte de céder une situation avec une licence (sans doute critique, mais lisible) pour une kyrielle de licences thématiques (c’est possible, mais j’émets des doutes sérieux).

Sans compter que la galaxie de l’open data en France tourne elle-même d’un astre encore plus large, la politique européenne en matière de réutilisations des données publiques. Et dans ce domaine, au regard de la nouvelle directive européenne, l’heure n’est pas à définir de nouvelles redevances mais plutôt à les limiter… Un vrai moment Galilée !

Je profite de ce billet pour vous inviter à suivre les travaux de la journée d’échange sur l’Open Data Transport, que je co-organise avec le GART et Christophe Duquesne. Rien de tel qu’une bonne discussion pour trouver des réponses !

L’open data renforce-t-il le risque de désintermédiation ?

Mercredi dernier, j’ai emmené mon fils au cinéma. Pour préparer notre sortie j’ai recherché les horaires de cinéma. Google m’a proposé – avant les résultats des sites web correspondant à ma requête – la liste des films projetés actuellement dans ma ville, et un simple clic m’a permis de voir les prochaines séances. 

Les horaires des films à Rennes (Google Movies)

Les horaires des films à Rennes (Google)

A aucun moment je n’ai quitté la page du moteur de recherche, j’ai obtenu l’information recherchée sans consulter ni le site du cinéma, ni les multiples intermédiaires tels qu’Allociné ou Cinéfil.com.

En tant qu’utilisateur, j’ai trouvé le service plutôt pratique (et en tant que père j’ai passé un bon moment avec mon fils). Mais pour nombre d’acteurs que je rencontre (des entreprises, mais aussi des acteurs publics) cela représente plutôt un bien mauvais signal.

Cela s’appelle de la désintermédiation, ou plutôt une nouvelle intermédiation par un nouvel acteur. Le risque de désintermédiation est donc une réalité et ne se réduit pas à la discussion sur la position de Google et autres dans l’économie numérique. L’open data est-il un facteur d’accélération de cette désintermédiation ? Après tout, ouvrir des données data facilite l’émergence de services tiers, c’est même souvent l’un des objectifs recherchés.

Dit autrement : est-on en train de faire entrer le loup dans la bergerie ? (Même si en l’occurence on est toujours l’agneau de quelqu’un d’autre, tout dépend du contexte…).

1 – Le risque de désintermédiation cela concerne tout le monde (faites-vous dépister !)

Imaginons quelques scénarii pour illustrer les différentes formes du risque.

Ce matin je veux aller à la piscine, je consulte donc les horaires via l’application mobile développée dans la cadre d’un concours open data. L’après-midi je veux acheter un billet de train et mon moteur de recherche favori me propose, en plus des horaires et de l’information sur la ponctualité de mon train (des données aujourd’hui ouvertes…), un achat direct en ligne. A un autre moment de la journée je consulte mes comptes bancaires via un service tiers développé lui aussi à partir de données mises à disposition (pas en open data certes, mais plutôt en mode API semi-ouverte,… ).

Plaçons nous maintenant du côté de ceux qui ont ouvert les données.

Le service des sports de ma ville vient de mettre en place un nouveau service de paiement via une carte sans contact et il aimerait bien m’en informer. Et pour celà le plus simple serait que je consulte les horaires directement sur le site de la municipalité.

L’opérateur de transport lui aussi aimerait ne pas perdre la relation client, et surtout pas sur la partie distribution de son métier. Enfin ma banque, qui voyait plutôt d’un bon oeil l’émergence de services complémentaires commence à se poser des questions. Surtout depuis qu’un nouveau service en ligne, développé par des plus malins qu’elle, a carrément désintermédié la relation client et me propose une assistance de très bon niveau (une sorte de super assistant personnel à qui j’ai confié les clés de ma banque en ligne).

Le risque de désintermédiation ne concerne d’ailleurs pas que la relation à l’usager ou au client. Quand le service de la mobilité urbaine du Grand Lyon explique qu’il ne veut pas que l’ouverture des données aboutisse à des usages contraires à ses objectifs de politique publique, il ne dit pas autre chose (même si les termes sont différents).

Dernier exemple : les autorités organisatrices des transports ont elles aussi peur de se faire désintermédier par la SNCF … et par Google à la fois !

2 – Un risque vieux comme l’Internet : les désintermédiateurs d’aujourd’hui sont les désintermédiés de demain

Les chaînes d’hôtellerie, les compagnies aériennes, les exploitants de salles de cinéma, … Tous ces acteurs économiques (et bien d’autres) ont connu ces phénomènes de désintermédiation. Certains sont directement imputables au web (on pense à l’émergence des comparateurs de prix dans l’aérien), d’autres sont plus anciens que l’Internet (l’invention du traitement de texte sur les ordinateurs personnels a désintermédié la sécretaire à qui l’on demandait autrefois de rédiger les courriers…).

Il me semble que chaque cycle technologique « rebat les cartes » de l’intermédiation. Prenons l’exemple du groupe hôtelier Accor (qui possède plusieurs marques, de l’Ibis au Sofitel). Qui vend aujourd’hui des nuits d’hôtels en ligne ? Les sites Booking.com, Hotels.com, les partenaires de TripAdvisor mais aussi voyages-sncf.com …

Bref le web a bien désintermédié les canaux de distribution installés. Cependant, le groupe Accor a su voir dans le mobile une opportunité pour se ré-intermédier : avec ses applications officielles, il peut à nouveau vendre directement à ses clients (et qui plus est aux clients les plus fidèles à sa marque).

Il n’est donc pas interdit de penser que les désintermédiateurs d’aujourd’hui seront les désintermédiés de demain.

L'infobox Google fournit directement l'adresse, le numéro de téléphone et l'itinéraire

L’infobox Google fournit directement l’adresse, le numéro de téléphone et l’itinéraire

Les premiers à souffrir de la désintermediation proposée par le moteur de recherche sont précisement les nouveaux intermédiaires qui se sont développés avec le web. Si l’on reprend l’exemple des horaires de cinéma, les perdants potentiels sont davantage à chercher du côté d’AlloCiné, de Cinéfil, de Pariscope, voire des Pages Jaunes ou Mappy (Google propose le numéro de téléphone et le plan d’accès au cinéma directement dans une infobox  – voir ci-contre). Tout compte fait, ce n’est peut-être pas une si mauvaise opération pour l’exploitant d’un réseau de salles de cinéma…

Un dernier exemple – prospectif celui-là- pour illustrer le caractère dynamique de la désintermédiation. Quand Apple introduit la fonction de reconnaissance vocale Siri dans ses téléphones, c’est Google lui-même qui est menacé de désintermédiation : si je peux obtenir, par la parole, les horaires de séance de cinéma, plus besoin (pour ce cas précis) du moteur de recherche qui paraît aujourd’hui incontournable. (Nota : l’émergence des Google Glass peuvent aussi se lire avec cette grille de lecture).

3 – Chaque cycle technologique rebat les cartes de l’intermédiation, et l’open data en est un …

Comment considérer la question du partage de la donnée à la lumière de ce risque de désintermédiation ?

Le premier élément de réponse est à chercher du côté du mix possible en matière de partage de la donnée. Il ne s’agit pas de tout ouvrir (ou à l’inverse) de ne rien ouvrir. Il faut plutôt identifier les données – et leurs modes de partage – qui présentent le meilleur ratio démultiplication de l’effet réseau / risque de désintermédiation.

A ce titre je vous invite à relire le billet que j’avais consacré il y a quelques mois aux univers de diffusion des données. Amazon par exemple a bâti une partie de son succès sur une politique de demi-ouverture des données, via des API. On peut facilement intégrer un « morceau» du catalogue de produits d’Amazon sur n’importe quel blog ou site web. Les partenaires d’Amazon disposent aussi d’une visibilité assez détaillée sur les ventes réalisées via "leur" canal de distribution.

Cette stratégie a permis au libraire en ligne de profiter à plein des phénomènes d’externalités de réseau. Qui peut dire en l’espèce que le partage des données a accru le risque de désintermédiation pour Amazon ?

Bien au contraire, cette politique participe de la capacité d’Amazon à désintermédier les réseaux de distribution de produits (culturels)…

Dans ce travail d’identification des données bonnes à ouvrir et partager, on pourra notamment jouer sur les critères de segmentation couramment utilisés dans le domaine de la data : données chaudes / données froides, données descriptives du service / données de tarification, de transaction ou de relation client, …

Parmi les pistes identifiées, figure par exemple la possibilité d’intégrer un module de vente (par exemple de billets de train) qui serait réservé aux seules applications tierces labellisés… Un moyen de jouer à la fois la démultiplication de l’effet réseau via l’open data et de préserver la relation client.

4 – Où est le problème ?

« Le problème ce n’est pas tant la question de l’intermédiaire que celle du partage de la valeur » me faisait judicieusement remarquer mon sparring- partner Louis-David Benyayer (WithoutModel) alors que nous discutions de ce sujet. Et de me citer de multiples exemples (hors de l’économie numérique) d’acteurs qui ont fait évoluer leur position dans la chaîne de la valeur (Décathlon qui distribue de plus en plus ses propres produits, les acteurs de la grande distribution qui mettent en place les marques de distributeurs,… ).

Il me semble que ce n’est pas le moindre mérite de l’open data que de  poser cette question du partage de la valeur via les données. Où est la valeur dans les données (dans leur caractère brut, dans leur mise en perspective, dans leur combinaison, …) ? Comment la partage-t-on (avec qui, selon quelles conditions, avec une gouvernance ouverte ou fermée) ?

Quelques conseils aux participants des concours et autres hackathons

Ce lundi j’interviens à Marseille lors d’un atelier ouvert aux participants du concours Open Data lancé par la région PACA. L’objectif : encourager la créativité des réutilisateurs et des développeurs. La saison des concours et des hackathons est bel et bien lancée ! Je vous propose des extraits de cette intervention, sous forme de conseils aux participants, illustrés de quelques réutilisations que j’ai repéré ces derniers mois…

1 – Parole de jury

TransitVis, l'un des lauréats du Urban Data Challenge

TransitVis, l’un des lauréats du Urban Data Challenge

Commençons par la fin de l’histoire. Vous avez fini vos développements, votre dossier de participation est complet, vous venez de soumettre votre service ou votre application. Le jury doit maintenant se réunir pour l’étudier et départager les vainqueurs parmi les participants.

En tant que candidat il ne faut jamais oublier qu’un concours (ou un hackathon) c’est une compétition, pas un examen (contrairement au bac, il ne suffit pas d’avoir la moyenne pour être reçu). Le jury est un élément essentiel de cette compétition. Sa composition est souvent rendue publique. Il rassemble généralement des représentants des organisateurs (collectivité ou entreprises), les partenaires du concours et, parfois, des personnalités qualifiées.

Le jury d’un concours devra identifier les lauréats parmi 40 à 50 participants, celui d’un hackathon aura deux heures pour départager 5 à 10 équipes… La clé de la compétition repose donc souvent sur la différenciation d’un dossier ou d’une application parmi l’ensemble des réutilisations (je parle bien de différenciation plutôt que d’originalité, je reviendrai ultérieurement sur cette distinction qui me semble essentiel). Comment proposer quelque chose de différent ? Je vous propose quelques pistes illustrées.

2 – La donnée, un ingrédient

A la base de tous les concours vous avez donc des données, que l’on peut considérer comme des ingrédients. Lisez bien le règlement du concours : il précise souvent les données que vous pouvez utiliser (uniquement celles de l’organisateur, toutes celles en rapport avec le thème ou le territoire, etc…).

Si je poursuis la métaphore culinaire, vous êtes donc, en tant que participant, le cuisinier. Votre premier travail sera d’évaluer tous les ingrédients qui rentrent dans votre cuisine. Cette donnée est-elle bien fraîche ? Comment pourrais-je l’utiliser ? Faut-il la modifier, l’arranger, la transformer ou peut-on la consommer "crue" ? Une très belle donnée, bien riche, peut parfois se consommer crue si l’on sait la présenter, par exemple à l’aide de visualisations…

L’erreur serait d’aller directement de l’ingrédient vers son utilisation la plus immédiate. La plupart des réutilisateurs qui se voient proposer un jeu de données sur les horaires de bus font des applications d’informations voyageurs, les plus malins en détournent l’usage (dit autrement : avec des pommes de terre on peut faire autre chose que des frites…). La différenciation, toujours !

Une donnée peut donc être l’ingrédient principal d’un plat, ou simplement un ingrédient parmi d’autres. Une donnée peut être proposée crue, mise en forme, transformée ou cuite avec d’autres … Autant de manières différentes d’utiliser ces ingrédients qui sont à votre disposition.

Le concours Urban Data Challenge fournit une très bonne illustration de ce principe de diversité. A partir d’un même jeu de données historiques sur les transports de San Francisco, Genève et Zurich, les participants ont mis en oeuvre des scénarios très différents. Urban Bus Race propose une course virtuelle entre les bus des 3 villes, TransitVis affiche une représentation des flux en 3 dimensions. D’autres participants ont ajouté une nouvelle donnée, par exemple en calculant un indice de frustration (qui combine la densité du nombre de passagers, le temps d’attente à un arrêt et les retards sur le réseau de bus)…

3 – Varier les supports  et les registres 

Une seconde piste de différenciation est liée aux supports que vous pouvez mettre en oeuvre (mobile, web, autres). J’ai déjà eu l’occasion sur ce blog d’expliquer le lien historique et fécond entre l’open data et les applications mobiles. Mais on peut faire beaucoup d’autres choses avec des données ouvertes : des sites web, des vidéos, des infographies, … Rien ne nous oblige par ailleurs à nous limiter à des médiations numériques, on peut très bien utiliser des données ouvertes pour concevoir des supports papiers (par exemple une lettre d’information à l’entrée d’un jardin public, avec l’aide des données ouvertes).

Enfin, on peut aussi rechercher de la différenciation du côté des registres d’expression. A partir d’un même jeu de données, on peut proposer quelque chose d’utile, de ludique, de décalé, … La variation entre les registres peut aussi être intéressante. Le service BrokenLifts s’appuie sur l’état de fonctionnement des ascenseurs des transports berlinois. La donnée est à la fois présentée sous une forme utile ("est-ce que cet ascenseur fonctionne ?") mais aussi sur le registre de la  transparence et de l’accountability ("combien de jours de panne sur cet ascenseur géré par cette société ?".

Un point de vigilance, cependant. La différenciation ne peut pas seulement passer par le choix d’un mode d’expression décalé. Le format "pitch" du hackathon encourage les discours décalés, mais la forme ne remplace pas complètement le fond.

Le site Brigand Futé (réalisé lors du HackIDF 2030) aide à planquer un cadavre en région parisienne, à partir des données du plan d’urbanisme… Le propos est donc décalé, mais la réalisation est d’un très bon niveau.

J’ai beaucoup moins accroché sur le récent lauréat d’un autre hackathon "a place to pee" qui, comme son nom l’indique, permet de localiser les toilettes dans la ville de Paris… Le sujet est pourtant bien réel (Rennes édite par exemple un guide papier très précis, réalisé avec des associations de malades), on aurait pu jouer sur plusieurs registres – et pas uniquement sur les multiples jeux de mots proposés par les concepteurs du service : "let piss a chance", "game of throne", …).

4 – Emprunter des pistes moins balisées

Il reste par ailleurs des pistes qui ont été jusqu’à présent peu explorées par les participants au concours, et notamment la conception d’outils pour les réutilisateurs et les développeurs. L’approche "business-to-developers" (B2D) plutôt que strictement "business-to-business" (B2B) ou "business-to-consumer" (B2C) est aussi une source de création de valeur. On peut citer par exemple la start-up britannique Placr qui a développé une API pour interroger les données des réseaux de transports urbains.

 

 

Donnée brute ou donnée contextualisée ?

La mission gouvernementale Etalab lance une consultation autour de l’évolution du portail data.gouv.fr. Vous êtes invités à contribuer à cette démarche de co-design. C’est aussi l’occasion de repenser plus globalement la conception des portails open data… A quoi et à qui servent-ils ? Comment doit-on présenter les données ? Je vous propose une série de billets sur ce thème. Le premier traite de la donnée elle-même et de la tension entre donnée brute et donnée contextualisée…

1 – Un cas pratique : la fréquentation des musées

J’ai récemment animé un atelier de sensibilisation à l’open data pour les acteurs culturels d’une collectivité. A cette occasion, j’ai repéré un jeu de données disponible sur le portail gouvernemental. Ce fichier propose les chiffres de la fréquentation des musées de France, de 2006 à 2010. Je vous invite à télécharger celui qui concerne la région Bretagne (pour plus de facilité, je vous propose aussi une copie d’écran ci-dessous, que vous pouvez agrandir en cliquant).

(cliquer pour l'agrandir) - fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr

La fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr (cliquer pour agrandir l’image)

Le tableau présente les chiffres de fréquentation pour chaque "musée de France" situé dans la région. On a donc le nom du musée (ex. "musée des beaux-arts"), une ville, puis les chiffres de fréquentation répartis en 2 colonnes "total" et "grat". On peut raisonnablement supposer qu’il s’agit des entrées gratuites (mais rien ne le précise formellement, ni dans le fichier, ni dans la fiche de métadonnées). D’autres colonnes précisent l’évolution de la fréquentation d’une année sur l’autre.

Le code couleur est expliqué en pied de page du fichier. La couleur noire représente des "données confidentielles", avec la mention "contacter le chef d’établissement", les autres couleurs viennent apporter des éléments de contexte sur la fréquentation de tel ou tel musée. En l’occurence il y est surtout question d’évènements exceptionnels susceptibles d’expliquer le chiffre de fréquentation : fermeture ou réouverture d’un musée, exposition temporaire ayant entraîné une fréquentation exceptionnelle, …

Plus intéressant, la première colonne du tableau contient un numéro de référence, qui **semble** être un identifiant unique accordé à chaque musée de France.

2 – La tension "brutification" vs. contextualisation

La lecture de ce fichier permet d’illustrer la tension entre deux tendances qui s’expriment aujourd’hui dans le monde de l’open data.

La première tendance est liée à une demande de "brutification". Je reprends ici le terme évoqué par Samuel Goeta et Jérôme Denis pour décrire l’une des actions qui se déroulent dans les coulisses de l’open data (le thème de la thèse de Samuel à Telecom Paris Tech).

Pour permettre la mise en place d’un ensemble de services sur le portail open data, il faudrait que la donnée proposée soit la plus brute possible (et je parle bien là d’une donnée brute techniquement, pas en termes sociologiques).

Parmi ces "services" on peut citer par exemple la pré-visualisation des jeux de données sans avoir à ouvrir le fichier (une fonctionnalité très utile et déjà mis en oeuvre ailleurs), la datavisualisation ou représentation cartographique par défaut (un exemple ici), ou enfin même les API (des interfaces de programmation qui font aujourd’hui cruellement défaut dans la plupart des portails, à quelques exceptions près). Sans même parler d’un pas vers le web des données et le Linked Data, une attente forte des acteurs du web sémantique.

Reprenons le fichier sur la fréquentation des musées : pour proposer tous ces services il faudrait donc faire un travail *supplémentaire* de brutification : retirer les codes couleurs, ignorer les colonnes qui proposent une donnée recalculée (le taux d’évolution d’une année sur l’autre, les totaux, …) et plus globalement retirer tout ce qui concerne la mise en forme du fichier. On pourrait d’autre part mieux utiliser des données qui y figurent déjà, ainsi le fameux numéro de référence.

J’ai trouvé sur le portail un autre fichier qui fournit des informations complémentaires sur les musées de France : leur adresse postale, le site web, les horaires et jours d’ouverture. Problème : ce fichier ne propose aucun identifiant unique. On a là une occasion manquée de permettre une mise en relation et un enrichissement de deux fichiers (open data 1 – web sémantique 0).

La donnée proposée ici n’est donc pas tout à fait "brute" … mais elle n’est pas tout à fait contextualisée non plus !

La seconde demande qui émerge – et qui de prime abord peut sembler contradictoire avec la brutification – est liée à la contextualisation de la donnée.

J’ai déjà eu l’occasion ici de parler de l’importance d’une lecture critique des données. Si l’on considère le fichier sur la fréquentation des musées, ce besoin de contextualisation apparaît rapidement : qu’est-ce qu’un "musée de France" ? comment les données de fréquentation sont-elles collectées ? quel est l’usage initial des données ? qui la collecte et pour quoi faire ? Et enfin, la meilleure : pourquoi certaines données sont-elles considérées comme "confidentielles" (celles dont les cases portent la couleur noire) ?

La réponse à bon nombre de ces questions se trouve sur le site du Ministère de la Culture (précision importante : j’ai trouvé cela via Google, pas depuis la fiche de métadonnées). On y apprend qu’un service du ministère publie annuellement un très intéressant document de 75 pages, appelé "MuséoStat". J’ai ainsi pu comprendre que le terme "musée de France" correspond à une appellation officielle (accordée et retirée par les services du ministère), que les variations de fréquentation sont très souvent liées à des expositions temporaires (d’où l’importance des annotations colorées), que la notion de gratuité a elle aussi une définition officielle précise, …

Le document reproduit aussi le questionnaire envoyé aux différents responsables de musée, questionnaire très détaillé puisqu’il précise aussi le mode de mesure de la fréquentation (comptage manuel, automatisée, estimation, …). Enfin, on peut apercevoir en fin de questionnaire une case à cocher par les répondants : "acceptez-vous que ces chiffres soient diffusés ?". Voilà donc l’origine de cette formule un peu ambigüe de "données confidentielles" !

Cette demande de contextualisation me semble tout aussi pertinente que la demande de brutification du jeu de données. On doit pouvoir y répondre en repensant profondément la manière de documenter les jeux de données – c’est à la fois le rôle des métadonnées mais aussi plus globalement la fonction éditoriale des portails open data.

3 – Sortir de l’opposition "qualité vs. quantité" des données

Le fichier de la fréquentation des musées ne représente bien sûr pas à lui seul la diversité et la richesse des jeux de données disponibles, sur data.gouv.fr ou ailleurs … Mais cet exemple illustre quand même je pense la situation actuelle : des données ni tout à fait brutes, ni tout à fait contextualisées.

La particularité du ni-ni est qu’il ne satisfait ni ceux qui attendent des services plus poussés (API, Linked Data pour les développeurs), ni ceux qui militent pour une meilleure appropriation des données par tous (façon Infolab) – bien qu’ils ne faillent pas opposer les uns et les autres.

Dans le débat qui va s’ouvrir sur les fonctions des portails open data, il y a à mon avis un écueil majeur à éviter : réduire cela à une opposition "qualité vs. quantité" des jeux de données.

La qualité ne peut s’évaluer qu’à l’aune de l’objectif : un développeur, un chercheur ou un associatif qui veut évaluer la fréquentation des musées de sa région ont tous besoin de fichiers de qualité.

C’est la manière dont ils expriment ce besoin qui diffère (notre tension brutification / contextualisation). Il nous faut donc à la fois de la qualité ET de la quantité…

4 – De qui est-ce le travail ?

Reste la question du rôle de chaque acteur impliqué : qui doit assurer ces tâches de brutification et de contextualisation ? Est-ce la mission du service détenteur de la donnée ou du service qui met en oeuvre le portail, en l’occurence Etalab ? Les réutilisateurs  enrichissent eux-aussi les jeux de données, par exemple en reliant deux fichiers via des identifiants, peut-on imaginer qu’un portail officiel puisse héberger, ou faire un lien vers le fruit de leur travail ?

On voit qu’à partir d’une question précise – quelles fonctions pour les portails open data ? – on en arrive à interroger le périmètre même des portails et des organisations qui les mettent en oeuvre…

[En vidéo] Master Class : innover avec l’Open Data

Webcast de la Master Class "Innover avec l’Open Data", à l’invitation de l’Executive MBA "Innovation in a digital world" de Telecom Ecole de Management (enregistrée à Paris le 28.02.2013).

Sommaire

0:00:00 – Présentation de l’Executive MBA "Innovation in a digital world" par Didier Tranchier, responsable du programme

0:06:30 – Début de la Master Class par Simon Chignard

0:08:45 – Open Data ? Définition, origines et enjeux de l’ouverture des données

0:30:15 – Les entreprises et l’Open Data : le double rôle

0:43:00 – Ouvrir les données d’entreprises : 10 stratégies génériques

1:03:00 – Demain l’Open Data : la donnée personnelle, la donnée collaborative

1:12:00 – Questions des participants : Big Data / Open Data, qualité des données, gouvernance, …

Un hackathon, sinon rien ?

Le hackathon est à la mode en ce début d’année 2013 ! Les développeurs qui s’intéressent à l’open data vont être très sollicités. C’est l’occasion de se pencher sur ce format d’animation original. A quoi sert un hackathon ? Quels en sont les valeurs mais aussi les limites ? 

(photo la Cantine Rennes)

(photo la Cantine Rennes)

Tout à la fois dispositif créatif et mode d’animation, le hackathon rassemble dans une unité de temps (généralement un week-end) et de lieu des réutilisateurs qui travaillent en mode projet. Il fait partie de la panoplie des outils d’animation que j’ai déjà eu l’occasion de détailler sur ce blog. Plus léger qu’un concours, a priori moins complexe à mettre en place que d’autres formes d’animation au long cours, le hackathon pose aussi ses propres défis.

Les 3 valeurs du hackathon

Le hackathon a d’abord une dimension de mobilisation, tant interne qu’externe. On pourra noter d’ailleurs que ce format est de plus en plus utilisé en amont de l’ouverture des données. C’est tout d’abord l’opportunité pour obtenir l’ouverture, même partielle ou limitée dans le temps, de jeux de données. Le hackathon est alors un prétexte en interne pour faire bouger les lignes, en arguant du caractère éphémère – donc perçu moins impliquant ou risqué – de l’opération.

Dans un curieux renversement de logique, on ne propose pas un hackaton parce que l’on a des données, on demande des données parce que justement un hackathon est organisé ! La dimension mobilisatrice est aussi importante en externe, c’est un excellent moyen de faire baisser la pression sur le sujet, mais aussi d’engager de premières relations avec un écosystème de réutilisateurs.

La seconde valeur du hackathon est liée à l‘expérience-même du hackaton par ses participants. Ceux qui ont eu l’occasion d’en vivre un vous le diront : ils ont vécu une expérience. Tout d’ailleurs dans l’organisation vise à renforcer cette dimension : l’unité de lieu (on vit en vase clos pendant 48 heures), le travail en petit groupe d’individus qui ne se connaissaient pas nécessairement auparavant (la colonie de vacances est l’archétype du team building, c’est bien connu), la contrainte de temps (à la fin chaque groupe présente son projet), voire la compétition (quand le hackathon donne lieu à un vote).

Le problème avec cette dimension expérientielle est qu’elle ne produit guère d’externalités pour ceux qui ne l’ont pas vécu. Je vais le dire autrement : soit vous avez vécu le hackathon – et vous en comprenez la valeur -, soit vous ne l’avez pas vécu. La transmission d’une expérience vécue est toujours délicate, hackathon ou pas – d’où l’importance de la documentation projet sur laquelle je reviendrai ultérieurement dans ce billet.

La troisième valeur du hackathon est liée à la communication. C’est un dispositif qui permet de donner corps à une démarche d’ouverture des données et constitue en tant que tel un objet de communication. Comment dès lors rendre compte des travaux et de l’ambiance générale ? Le hackathon permet certes d’avoir quelque chose à montrer de l’open data, mais cela ne peut pas se réduire à une photographie de quatre gars et une fille devant un ordinateur ;-)

L’opération MuseoMix, largement disséquée dans cet article d’Hubert Guillaud d’Internet Actu ou, dans une moindre mesure, les hackathons organisés par Transilien SNCF, font l’objet d’un retour en ligne assez poussé : vidéos, témoignages de participants, présentation détaillée des projets réalisés (ou en cours de réalisation). Mais le budget nécessaire à cette couverture ne correspond pas tout à fait l’idée du hackathon comme formule d’animation un peu cheap et accessibles à toutes les bourses.

Et pourtant cette fonction de communication est essentielle pour essayer de transmettre aux non-participants un peu de l’essence de l'"expérience hackathon". Il faut donc l’inclure dans son organisation et sans aucun doute la considérer comme une fonction à part entière. On retrouve ici l’idée de la documentation de projet au fil de l’eau mise en place notamment à la 27ème Région.

Les défis du hackathon

La question principale qui se pose aux organisateurs du hackathon est celle de la finalité : à quoi sert-il ? S’agit-il essentiellement de mettre en oeuvre des démarches agiles et des pratiques d’innovation plus légères, ce qui en soit présente déjà un intérêt comme le souligne Fréderic Charles dans son article "Un hackathon pour innover à la DSI en mode start-up" ? Ou le hackaton a-t-il un objectif de réalisation (de prototypes, de services) ?

Faute d’avoir défini, clarifié et partagé en amont les objectifs, on risque d’être un peu déçu par la réalité des réalisations. De la même manière qu’un Start-Up Week-End (marque déposée, sic) fait émerger des idées d’entreprises (et non des entreprises elles-même), le hackathon fait émerger des idées de service, éventuellement des prototypes. Mais le passage à la phase opérationnelle demande bien souvent un effort supplémentaire.

C’est aussi sur ce point que l’organisateur devra se positionner : comment souhaite-t-il accompagner la concrétisation ? Est-il prêt à financer les projets les plus intéressants ou considère-t-il que son action s’arrête le dimanche soir ? Le hackathon est peut-être finalement une formule un peu plus engageante et impliquante que nous pourrions initialement le penser. L’après-hackathon est un sujet à part entière.

L’autre question qui se pose – au hackathon mais aussi plus globalement aux autres formes d’animation ponctuelles comme les concours – est celle de la répétabilité. Peut-on répéter indéfiniment la formule sur un public cible de développeurs intéressés par l’open data, cible qui n’est pas -par définition – extensible à l’infini ? Dit autrement, un hackathon ca va, trois hackathons bonjour les dégâts ? Les équipes des premières éditions se concentrent sur la concrétisation de leurs idées, il faut donc être capables de mobiliser de nouveaux participants – et ce n’est pas toujours simple. Le premier semestre 2013 va être un bon test grandeur nature, vu le nombre important d’hackathons annoncés…

Ps : j’en profite pour vous conseiller la lecture du guide pratique d’organisation d’un hackathon, proposé par Open Data BC (British Columbia) en anglais, donc.