Datanomics: les stratégies Data de l’Internet des Objets

Les données ont façonné les services du numérique que nous utilisons au quotidien. Demain, elles vont modifier notre relation aux produits par l’Internet des objets. Quelle est la valeur de ces données ? Qui peut se l’approprier ? Quelles sont les stratégies Data mises en oeuvre par les start-up, les industriels et les acteurs des services de l’Internet des objets ?

Louis-David Benyayer et Simon Chignard explorent, sous le titre de Datanomics, les transformations engendrées par l’économie des donnéesCe texte est publié simultanément sur withoutmodel.com et a fait l’objet d’une vidéo enregistrée à l’occasion du festival Web2Day.

Datanomics: les 3 formes de valeur des données

Datanomics: les 3 formes de valeur des données

Des objets connectés partout, tout le temps

Linternet des objets, c’est la communication entre objets ou entre des objets et des humains par le biais des technologies numériques. Les objets connectés sont partout : à nos poignets ou nos chevilles, dans nos poches, nos voitures ou nos salles de bains, sur nos routes ou nos compteurs électriques.

Ils concentrent aujourd’hui l’attention d’acteurs du numérique (dont les usual suspects, Google et co.) mais aussi d’acteurs non numériques (Nike par exemple, et surtout les industriels et les distributeurs avec les puces RFID)[1]. Bref, l’internet des objets constitue un ensemble relativement hétérogène en termes de technologie, de proposition de valeur ou d’écosystème industriel. L’arrivée annoncée des lentilles de contact et des prothèses connectées puis des capteurs ingérables va probablement, si elle se réalise contribuer à brouiller encore un peu plus le paysage.

Trois formes de valeur des données

Sensors + Data + Networks + Services = Internet of Things

Si l’on reprend cette définition proposée par Nick Wainwright et ces composants, on s’aperçoit que la valeur créée par l’Internet des objets s’est jusqu’à présent principalement concentrée dans des produits qui se sont vendus avec plus plus ou moins de succès et dans les réseaux de télécommunications. Pourtant, les données générées et collectées par les objets ou capteurs représentent une valeur potentiellement encore plus grande – et dont les mécanismes sont très différents.

Dans le cadre de Datanomics, nous avons identifié une typologie de trois formes de valeur des données qui s’applique aux données en général et à celles produites par les objets connectés : les données comme matière première, les données comme levier et les données comme actif stratégique.

Les données matières premières

Les données peuvent en premier lieu être vues comme une matière première brute que l’on achète ou que l’on vend. L’outil de navigation TomTom génère une partie non négligeable de ses revenus (jusqu’à 30%) par la revente des données de ses clients et utilisateurs à d’autres acteurs économiques. Par exemple la fréquentation d’un tronçon routier ou les zones des dépassements de vitesse. Certaines de ces transactions sont d’ailleurs polémiques, comme quand la police néerlandaise achète les données de Tom Tom et repositionne ses radars sur les lieux où les dépassements sont les plus fréquents.

Diapositive12Autre exemple moins polémique (et moins massif), Strava revend les données de ses fitness trackers à des agences de planification urbaine. Le plus frappant dans cette transaction est son faible montant (20.000 $). On peut même penser qu’il y a plus de valeur générée par l’écho médiatique donné à cet accord que par la transaction elle-même ! Ces deux exemples illustrent aussi les stratégies de tarification et l’épineuse question du prix de vente des données. Comme pour de nombreux produits ou services émergents, deux logiques complémentaires sont visibles : faire payer ce que ça coûte de produire les données et faire payer ce que les données font gagner.

La première logique est probablement la plus accessible et la plus facilement communicable aux clients potentiels. Il s’agit de recenser les postes de coûts (les capteurs, le réseau, les communications, …) et d’en déduire un prix en fonction de tranches de volumes consommés. Cette approche peut toutefois être perçue comme décevante par les vendeurs dans le cas où ils ont le sentiment que les acheteurs bénéficient de plus de valeur que ce qu’ils ont payé par le prix de vente.

La seconde logique consiste à évaluer le gain que les clients vont réaliser avec l’utilisation des données et de calculer le prix comme une fraction constante de cette valeur produite. Celle logique permet au vendeur de s’assurer d’un certain équilibre dans la répartition de la valeur. Cependant, les calculs de valeur produite sont moins simples que ceux de calculs des coûts effectivement mobilisés : la valeur des données est principalement une valeur future et subjective.

Les données comme levier

Il s’agit d’utiliser les données pour son propre compte (sans monétisation directe auprès d’un tiers) de façon à améliorer sa performance en réduisant ses coûts (mieux mobiliser ses ressources) ou développant ses revenus (vendre plus ou plus cher)

Quand ils connectent leurs produits, Les industriels fabricants des produits à forte technicité et qui ont des durées de vie longue sont en mesure de mieux connaître les conditions d’utilisation des produits et l’évolution de leurs performances techniques. C’est le cas pour les fabricants de l’industrie aéronautique ou automobile par exemple. Les données ici représentent un levier pour améliorer les générations suivantes de produits en utilisant des données fines d’utilisation. Elles peuvent aussi représenter un moyen de développer un modèle économique autour des services associés aux produits. C’est le cas de General Electric qui a développé une offre services autour des produits et matériels d’exploitation vendus aux opérateurs de plateformes d’extraction de pétrole brut.

Deuxième exemple d’utilisation des données comme levier, dans un univers beaucoup plus personnel: Glow. Cette start-up fondée par un ancien de Pay Pal propose une application mobile pour celles et ceux qui veulent avoir un enfant. Glow collecte et analyse des données pour prédire le moment le plus propice pour concevoir un bébé.

Les données comme actif stratégique

La donnée, par sa possession-même, constitue un élément stratégique majeur pour défendre une position ou en attaquer de nouvelles.

Walmart Retail Link est non seulement une solution de tracking RFID précise des produits stockés en magasins (qui permet par exemple de réaliser un inventaire en temps réel) mais aussi et surtout un outil stratégique dans le rapport de force entre WallMart et les industriels. Avec Retail Link, la politique de stockage et son exécution devienne la responsabilité de l’industriel (et plus du distributeur) avec à la clé des gains possibles en cas de bonne gestion ainsi que des responsabilités accrues en cas de problème d’approvisionnement.

La donnée redistribue aussi la valeur au sein d’écosystèmes industriels. C’est particulièrement vrai dans les systèmes avec plusieurs sous-ensemble comme l’automobile ou l’aviation. Chaque fournisseur d’un sous-ensemble acquiert avec les données remontées par ses appareils connecté des informations sur le fonctionnement de l’ensemble de l’appareil (par exemple les données disponibles sur les moteurs d’avion informent sur les conditions d’exploitation de chaque compagnie aérienne). Les données constituent un levier de négociation dans la répartition de la valeur au sein de filières industrielles.

Diapositive06Xee est un boitier connecté pour rendre les véhicules communicants. La voiture connectée est un marché que l’on dit souvent promis aux constructeurs automobiles ou aux grands fournisseurs d’OS mobiles, comme Google ou Apple. L’exemple de Xee illustre pourtant une autre voie : la société qui a conçue le boîtier est une filiale du groupe Mobivia, la structure de diversification des propriétaires de Norauto et Midas. La donnée prend alors toute sa dimension stratégique : elle permet à un acteur de l’aftermarket non seulement d’imaginer un relais de croissance à son activité, mais aussi un moyen de défendre sa place sur son marché d’origine. Les données de Xee permettent de proposer de nouvelles offres d’entretien du véhicule, mais aussi de nouveaux modèles d’assurances ou de services premium… sans le constructeur automobile.

Dans le cas des grands acteurs du numérique, les données produites par l’internet des objets ont la même valeur d’actif stratégique que les traces numériques qui constituent déjà le moteur et le carburant de leurs modèles économiques. C’est grâce aux données que Google et Facebook parviennent à monétiser de la publicité. Des objets connectés signifient plus de données et des données de nature différente. Ces données constituent un nouveau gisement de carburant pour les modèles économiques des acteurs du numérique.

D’autre part, la bataille entre ces acteurs s’établit autour du point d’entrée sur internet. Chacun développe des stratégies pour s’assurer de rester ou de devenir le point d’entrée aux contenus sur le réseau. Les objets sont les prochains points d’accès au réseau (après les ordinateurs et les appareils mobiles) et les géants du numérique s’y engagent. C’est une façon d’interpréter les initiatives de Google dans les objets connectés (voiture, lunettes ou thermostats avec le rachat de Nest) : une stratégie de conquête des points d’entrée au réseau et de collecte de nouvelles données pour alimenter le modèle économique bi-face.

Trois valeurs non exclusives

Ces trois types de valeur peuvent se cumuler et certains objets connectés peuvent générer plus d’un type de valeur. Le Disney Magic Band peut être analysé de plusieurs façons. C’est un bracelet personnalisé que l’on commande avant de visiter un parc d’attraction, il enregistre les déplacements au sein du parc, sert de clé et de moyen de paiement.

Diapositive19Ces données sont bien sûr un levier pour un gestionnaire de parc : elles permettent d’ajuster en continu les ressources mobilisés dans le parc en fonction des déplacements des visiteurs. Elles permettent également d’identifier des patterns de visite et d’améliorer les prévisions. Les données peuvent également être vues comme un actif stratégique pour Disney : en disposant de ces données, l’entreprise est capable de tisser un lien plus fort avec ses clients, d’augmenter les fréquences de viste et de se différencier par rapport aux autres gestionnaires de parc. Enfin, on pourrait imaginer que d’autres acteurs économiques pourraient être intéressés par l’analyse a posteriori ou en temps réel des données issues de bracelets.

Ce qui caractérise les stratégies Data de l’Internet des Objets

On le voit, les stratégies données des acteurs de l’internet de objets sont différentes. Elles dépendent de l’activité historique ou principale de celui qui les met en valeur :

  • Pour certains, les données servent principalement à vendre des device, elles constituent un sous produit marginal. C’est le cas des fabricants d’appareils de quantified self comme Netnatmo ou Withings.
  • Pour d’autres, les données sont centrales car leur modèle économique est centré autour des données (ex : Google).
  • Enfin, pour des acteurs comme les industriels de produits de série, les données servent d’une part à améliorer la performance (en réduisant les coûts d’exploitation ou augmentant les revenus)  et d’autre part à développer des modèles économiques de services.

Les acteurs mobilisent des stratégies différentes, notamment car les compétences requises sur la chaîne de valeur de l’internet des objets sont très nombreuses (design d’objet, fabrication, distribution de produit, stockage et analyse de données, utilisation des données) et qu’aucun acteur ne peut prétendre (ou n’aurait intérêt) à les maîtriser toutes. On observe donc des stratégies de spécialisation et d’alliance. C’est certainement une façon d’analyser la décision récente de Nike de réduire ses investissement dans l’internet des objets et de travailler à un partenariat avec Apple.

La valeur d’une donnée diffère fortement suivant celui qui l’analyse ou qui l’utilise : une même donnée peut receler une valeur très forte pour un acteur et quasi nulle pour un autre. Egalement, ce ne sont pas toujours ceux qui détiennent les données qui peuvent en réaliser la valeur la plus forte ; à la fois pour des raisons de compétences et d’accès à un marché client ou à une utilisation.  Cela signifie par exemple que les fabricants d’appareils de quantified self se posent la question des partenariats à réaliser pour exploiter la valeur des données produites. Cela signifie aussi que les acteurs qui réalisent un métier non nativement numérique (comme les transports par exemple) s’interrogent sur le niveau de leur implication dans la valorisation des données : ont-ils plus intérêt à laisser d’autres acteurs s’enrichir en utilisant leurs données (quitte à percevoir une redevance) ou au contraire à limiter l’accès à leurs données ou les exploiter eux mêmes en créant de nouvelles activités.

A qui appartiennent les données de l’Internet des objets ?

Diapositive22Il nous semble essentiel de clarifier les enjeux de propriété des données. A qui appartiennent-elles : à celui qui utilise l’objet connecté, à celui qui le finance, à celui qui l’opère ou le fabrique ? La relecture des conditions générales d’utilisation (terms of service) de quelques grands noms de l’Internet des objets montre une grande diversité de pratiques. Mais dans l’ensemble, l’utilisateur cède une licence d’utilisation non révocable qui permet une réutilisation par le fabricant, parfois même sans accord préalable et explicite.

L’Internet des objets, un outil de redistribution de la valeur ?

On le voit, l’internet des objets et les données associés constituent une évolution déterminante dans les équilibres entre les acteurs. Il s’agit bien sûr d’un nouveau marché qui recèle des opportunités importantes. Il s’agit aussi et surtout d’un outil de redistribution de la valeur au sein de filières et entre secteurs économiques : c’est le moyen pour les acteurs du numérique de rentrer dans certains écosystèmes “physiques”, c’est le moyen pour certains sous-traitants d’affermir leur levier par rapport à leurs donneurs d’ordre (ou inversement), c’est le moyen pour les acteurs des produits d’augmenter leur présence dans le marché des services.

[1]  Pour avoir une vision plus exhaustive, le site de LeWeb12 en décembre 2012 à Paris recense quelques exemples et le site Postcapes recense les start-ups et projets dans le domaine de l’internet des objets et présente des synthèse des études disponibles sur ce marché. Ces initiatives sont classées en 4 champs d’application principaux: Body (les capteurs de l’activité humaine), Home (les objets connectés de la maison), City et Industry. Une cinquième catégorie concerne les objets connectés conçus et fabriqués en Open Source / Do it Yourself.

Datanomics: la révolution des proxies

Poursuite de l’exploration de la valeur des données engagée avec Louis-David Benyayer. Après un premier billet de présentation de Datanomics, nous vous proposons un éclairage sur le phénomène des proxies et son impact pour les entreprises et les individus. Ce texte est publié simultanément sur withoutmodel.com.

Tourists vs. Locals  (MapBox / Gnip)

Tourists vs. Locals: une analyse des tweets
par MapBox et Gnip

Derrière la masse de données, les proxies

Le paysage actuel des données est le plus souvent abordé sous l’angle de la volumétrie. Il est vrai que l’accroissement spectaculaire des volumes de données collectées et stockées est la caractéristique première du Big Data. Cet effet de massification des données nous semble pourtant en cacher un autre: l’apparition des proxies, c’est à dire le fait que plusieurs sources très différentes puissent permettre de mesurer le même phénomène.

Prenons un exemple, sous la forme d’une interrogation: combien de personnes fréquentent chaque jour l’avenue des Champs Elysées ? Parmi elles, combien de touristes étrangers ? Plusieurs proxies sont disponibles: on peut utiliser les données de l’API de twitter et isoler la localisation parmi les métadonnées des tweets, consulter les données de localisation des téléphones portables, scruter les requêtes formulées sur le moteur de recherche Google, analyser les données du pass Navigo, celles des cartes bancaires utilisées dans les commerces de la plus belle avenue du monde, celles de Foursquare, … Sans même évoquer les procédés plus classiques, tels que les enquêtes réalisées auprès de la clientèle touristique ou le comptage manuel à quelques points de passage.

La généralisation des proxies nous semble constituer un fait nouveau: en raison de la mise en données du monde, de la multiplication des traces numériques et des dispositifs de captation, il y bien souvent aujourd’hui plusieurs manières de mesurer le même phénomène.

Dit autrement: la rareté laisse peu à peu la place à l’abondance – et surtout à la fin de l’exclusivité de la mesure. Plus personne ne semble à l’abri:  même la mesure de l’inflation, a priori une fonction régalienne, se voit concurrencée par une mesure réalisée par Premise Data, une start-up co-financée par Google et Marc Andreessen. On a donc une compétition entre proxies, et bien sûr entre acteurs qui les portent !

L’erreur était juste 

L’émergence des proxies ne va pas sans heurts. Avec la profusion vient aussi la confusion: Quelle est la meilleure méthode pour mesurer le phénomène ? Qui a “raison”, qui a “tort” ?

On comprend assez rapidement que chaque source de données comporte ses propres limites. Il est probable que les touristes étrangers aient désactivé le transfert de données (fort coûteux en roaming), réduisant d’autant la capacité à tweeter en tous temps et en tous lieux. De la même façon, les données du pass Navigo permettront de disposer d’une bonne visibilité sur les Parisiens ou Franciliens disposant d’un abonnement et moins sur les touristes de passage. Les données issues des cartes bancaires en revanche permettront de disposer d’une vision relativement complète sur les dépenses (mais moins sur les circulations !). Autant de biais dans les méthodes de mesure.

Chaque donnée nous informe sur une partie de la réalité et afin de pouvoir les analyser, il est indispensable d’en comprendre les mécanismes de production.

Ce que la science peut nous apprendre des données

Dans les discours et les pratiques, la donnée est toujours investie d’une objectivité toute naturelle : les données ne mentent pas ! Toutefois, dans certains cas, la donnée, à défaut de mentir, s’est magistralement trompée.

Ce fut le cas quand Google Flu trends a largement surestimé les prévisions de propagation de la grippe pendant l’hiver 2012-2013. Pendant de nombreuses années Google Flu trends – l’un des mythes fondateurs du Big Data –  a été un très bon prédictif de la propagation du virus grippal aux Etats-Unis, bien plus réactif que la mesure officielle réalisée par les services sanitaires.

En décembre 2012, il a pourtant réalisé une estimation trois fois supérieure aux autres indicateurs et à la réalité de la propagation de la grippe. Pourquoi cet écart ? La raison est à chercher dans la source des données utilisées pour établir la prévision de propagation : les requêtes saisies dans le moteur de recherche. Or, à l’hiver 2012, le nombre de requêtes a fortement évolué en raison d’évènements extérieurs, rendant d’un coup beaucoup moins fiable l’indicateur produit par Google:

“‘(…) Several researchers suggest that the problems may be due to widespread media coverage of this year’s severe US flu season, including the declaration of a public-health emergency by New York state last month. The press reports may have triggered many flu-related searches by people who were not ill.” (Declan Butler dans Nature, février 2013)

Dans un monde de données nous avons tous à nous préoccuper des conditions de production de la donnée,  débattre et argumenter sur les sources et les méthodes. Nous avons besoin de développer ces capacités d’appréciation de la validité et de la fiabilité des instruments de mesure qu’on nous propose. Or le monde des proxies n’est pas celui de la recherche scientifique: jusqu’à preuve du contraire, l’algorithme de classement des pages web reste l’un des secrets les mieux gardés de Google !

Assez curieusement, la donnée brute reste un mythe vivace. On entend plus souvent l’injonction “show me the data” plutôt que la question: “explique moi comment ces données ont été produites”. On retrouve ici une tension entre le besoin de brutification et celui de contextualisation. Brutifier la donnée pour la rendre plus facilement réutilisable c’est une exigence. Mais pour autant c’est bien la compréhension du contexte de cette donnée  - qui l’a produit ? pourquoi ? comment ? pour qui ? – qui fiabilise les traitements issus de sa réutilisation !

Datanomics: explorer la valeur des données

Avec Louis-David Benyayer nous avons entamé une exploration de la valeur des données: où est la valeur, se mesure-t-elle uniquement en euros, ça change quoi pour les individus, les entreprises et la société ? Nous partageons ici les points de départ de notre réflexion. Ce texte est publié simultanément sur withoutmodel.com.

"Open Data Commons" (photo by jwyg)

"Open Data Commons" (photo by jwyg)

Données partout, justice nulle part

Dans l’actualité récente de la donnée, Nelly Kroes a cotoyé Edward Snowden. L’un a révélé des pratiques de collecte et de surveillance à grande échelle et l’autre a une nouvelle fois mis en avant l’exploitation des données comme la réponse aux déficits de croissance de nos économies européennes… Les données sont en train de bouleverser les équilibres économiques, sociaux et politiques. Et ce n’est probablement que le début, si l’on considère l’essor de l’Internet des objets et des nano-technologies.

Big brother vs big data : les discours autour de la donnée se concentrent autour de deux rationalités qui s’affrontent : l’une s’établit sur des raisonnements économiques et entrepreneuriaux et l’autre sur des raisonnements démocratiques. Pour certains les données sont une opportunité économique majeure tandis que pour d’autres elles sont un risque majeur pour la démocratie. Mais ce débat ne nous aide pas, l’opposition n’est pas productive car elle ne se situe pas sur le même plan.

Nous pensons les données de façon très (trop ?) fragmentée : Open data vs big data vs données personnelles. Cela fait sens car il faut distinguer les données produites par les individus de celles produites par les entreprises ou les Etats – nulle raison de leur appliquer la même réglementation. Mais cette fragmentation ne nous permet pas de saisir la question dans son ensemble car la réalité est que ces types de données sont interdépendantes (y a-t-il du big data sans données personnelles ?).

Nous pensons que mettre à jour ce qui fait la valeur des données, comment elle se partage nous permettra de sortir de cette pensée en silo, condition première pour mieux vivre et faire des affaires dans ce monde de données.

Que valent les données ?

Se poser la question, c’est d’abord interroger le paysage actuel des données. Leurs modes de production tout d’abord: aujourd’hui tout le monde produit de la donnée, parfois consciemment, parfois inconsciemment. Les humains, les machines, les objets connectés. Les entreprises – pas uniquement celles du numérique -, les Etats et même les communautés à l’instar d’Open Street Map.
Déluge de données nous dit-on, reprenant l’idée d’un flux que nul ne pourrait stopper ou ralentir, sauf intervention divine. Traces numériques, logs de connexion, métadonnées popularisées par la NSA et le juge Courroye, tweets et réponses à des formulaires … La donnée est aussi multiple dans les formes qu’elle peut prendre.

La donnée, de par sa nature même, interpelle ce qui fait traditionnellement la valeur des biens et des choses. La donnée n’est pas le pétrole: difficile de faire avancer deux voitures avec le même litre d’essence, tout à fait possible d’alimenter mille applications avec le même jeu de données !
Ce n’est pas non plus un bien rare: il y a aujourd’hui, grâce aux données, de multiples manières de mesurer ou d’approcher le même phénomène, ce que nous appelons des "proxys". Twitter, Flickr, Orange, les commerçants des Champs Elysés: tous ont des données qui permettent de mesurer et de qualifier la fréquentation de la célèbre avenue par les touristes étrangers. Certains enregistrent des tweets ou des photos avec des métadonnées de localisation, d’autres repèrent sur leur réseau mobile l’activité de clients en roaming, les derniers enregistrent des numéros de carte bancaire, …

Ce que nous souhaitons comprendre et proposer à voir, ce sont les mécanismes qui donnent aujourd’hui de la valeur aux données.

La donnée comme matière première, susceptible d’être enrichie et revendue parfois très cher (dans le domaine de l’information financière par exemple). La donnée comme levier, qui permet aux entreprises d’optimiser leurs produits, leurs stocks, … Mais aussi la donnée comme actif stratégique, qui appuie et renforce la domination des plateformes – mais pas uniquement d’elles.

Que font les données, à nos entreprises et à nos sociétés ?

La donnée n’est pas uniquement le carburant de l’économie numérique. Elle conforte et renforce les plateformes. C’est la donnée qui leur permet en permanence de s’adapter, d’expérimenter. C’est aussi la donnée qui les rend si difficiles à quitter. Cheval de Troie, la donnée est-elle l’instrument qui permet aux acteurs du numérique de manger progressivement l’ensemble des secteurs économiques, de la mobilité à la culture ?

Dans ce vaste mouvement de contagion par la donnée, l’hypothèse de réaction est-elle à rejeter ? Des individus ont commencé à utiliser massivement des outils leur permettant d’utiliser internet sans pour autant céder la monnaie d’échange implicite que constituent leurs données personnelles. Ils ne sont pas tous pédophiles ou trafiquants de drogue. Ils accordent une valeur importante à leurs données. Quel sera à l’avenir la pénétration de ces pratiques de résistance ?

Autant de questions que nous souhaitons explorer avec le projet Datanomics.

Et concrètement
Nous allons réaliser dans les prochaines semaines une série de rencontres et d’entretiens avec des acteurs en France et en Europe et partager notre veille sur twitter avec le mot-clic #datanomics. Vous pouvez bien sûr y contribuer.

Une année en open data

Web2Day Nantes

Web2Day Nantes

Ce début d’année n’est pas uniquement la période des voeux, c’est aussi l’occasion d’un petit retour en arrière sur l’année 2013. J’ai repris mes agendas pour évoquer quelques sujets et collaborations qui auront marqué mon année "en open data". Avec plein de liens à découvrir si vous avez loupé un épisode ;-)

Des conférences, encore et toujours

L’année 2012 était marquée par un très grand nombre de conférences et de villes traversées, bien sûr en lien avec la sortie de mon livre sur l’open data au printemps. En 2013, le rythme a été encore assez soutenu: près d’une trentaine de dates, en France et en Suisse. Je retiens quelques grands rendez-vous: l’OK Con 2013 à Genève (la grand messe de l’Open Knowledge Foundation), OuiShare Fest et Net:Lab à Paris, Web2Day à Nantes, … J’ai aussi donné une master-class à TelecomParis Tech sur l’open data des entreprises, qui a donné lieu à un webcast.

Des collaborations avec des collectivités

J’ai poursuivi mes collaborations avec plusieurs collectivités: le Conseil général des Hauts-de-Seine, les Régions Provence Alpes Côtes d’Azur, Auvergne, Nord Pas-de-Calais, Bretagne, des métropoles comme Rennes et Nantes. Parfois je suis intervenu pour le lancement du portail, parfois en réflexion sur la stratégie open data (en amont ou après le lancement des initiatives).

Des détours par la Suisse

En 2013 j’ai eu l’occasion de me rendre en Suisse romande à plusieurs reprise. Pour intervenir lors de l’OK Con, mais aussi pour poursuivre l’accompagnement des Transports publics de Genève (TPG) qui ont ouvert leurs données transports en fin d’année. Des contacts ont aussi été noués avec le Canton et la République de Genève (via le SITG).

L’open data des entreprises

Plusieurs collaborations intéressantes avec des entreprises: la SNCF (avec la Fabrique Digitale), la RATP (participation au jury de l’Open Data Lab), les TPG, la société Xee (participation au jury des Xee App Awards). Au cours du 1er trimestre, j’ai accompagné le service Infolocale de Ouest-France dans la mise à disposition des données évènementielles. Le portail a été lancé en cours d’année, et c’est à ma connaissance l’une des premières démarches opérationnelles de la part d’un groupe de médias…

Infolab

Je participe au programme Infolab de la Fing, en collaboration avec Claire Gallon (Libertic) et Sarah Labelle (Paris 13). L’année dernière, nous avons mené de front plusieurs rencontres nationales, à Paris, Marseille, Bordeaux et Rennes. Infolab a notamment produit une cartographie des compétences data que je vous invite à (re)découvrir. Au second semestre, j’ai participé avec Charles Népote à des expérimentations territoriales à Marseille et Aix-en-Provence. Nous y avons notamment testé des méthodologies pour des projets data, dont nous aurons sûrement l’occasion de reparler cette année.

Données personnelles et MesInfos

La question des données personnelles est revenue en force à plusieurs reprises en 2013. La CNIL a organisé, avec Etalab, une très intéressante journée de débats et d’ateliers autour de la thématique open data et respect de la privacy. J’ai eu le plaisir d’y co-animer un atelier. Mais rien ne vaut des expérimentations concrètes, et je suis donc particulièrement content de participer à MesInfos, un projet de restitution des données personnelles. Je m’y occupe plus particulièrement de la dimension "réutilisation des données". Infolab, MesInfos: deux collaborations avec la FING qui se poursuivent en ce début d’année.

Etalab

J’ai co-animé, avec Charles Ruelle, deux ateliers dans le cadre de la démarche co-design pour la refonte du site data.gouv.fr, l’une à Rennes et l’autre à Marseille dans le cadre de l’Open Data Week. La nouvelle version qui a été lancée en fin d’année reprend d’ailleurs quelques idées qui ont émergé de ces ateliers ("un mélange de GitHub et de Stackoverflow", je vous laisse faire votre propre traduction).

A la fin de l’année, j’ai contribué à l’Open Data Camp et à DataConnexions #4, pour une expédition consacrée à l’égalité femmes-hommes. Toujours en lien avec l’actualité gouvernementale sur le sujet, j’ai été auditionné par M. Trojette de la Cour des Comptes, dans le cadre de son évaluation des redevances sur les données publiques.

Rennes, bien sûr !

Plusieurs actions open data en 2013 dans ma ville d’adoption. Au cours du 1er semestre, j’ai co-animé avec Bernadette Kessler plusieurs ateliers internes pour les services de Rennes Métropole et de la Ville de Rennes. Nous avons pu y affiner des méthodologies de sensibilisation déjà initiées en 2012, en particulier sur l’approche "mettre les mains dans le cambouis des données". Ce travail s’est d’ailleurs poursuivi avec les acteurs culturels du territoire et a permis d’aboutir en fin d’année à l’ouverture de plusieurs jeux de données sur cette thématique, avec les Transmusicales de Rennes, les Champs Libres, l’Opéra, et bien d’autres.

A la Cantine numérique rennaise, nous avons organisé plusieurs rencontres: un atelier co-design avec Etalab, un débat sur l’open data des entreprises avec Ouest-Marchés, Bluenove, Celtipharm et DataPublica. J’ai lancé un cycle "Bonjour Data" pour les entreprises que nous accompagnons dans le cadre de l’Annexe (le second lieu de la Cantine, ouvert en 2013). Dans les derniers jours de 2013, la Cantine a accueilli la 4è rencontre nationale Infolab.

Quelques billets de blog

En 2013, les 5 billets de blog les plus consultés ont été les suivants: moderniser l’action publique par l’open data, données brutes ou données contextualisées, l’open data renforce-t-il le risque de désintermédiation ?, Open Data Transport: les enjeux du débat, mesurer l’open data et ses effets.

Une Data Expedition, pas à pas

SafariScreenSnapz080J’ai récemment animé un atelier dans le cadre de l’Open Data Camp organisé par Etalab. Cette Data Expedition portait sur le thème de l’égalité hommes-femmes, en lien avec le projet de loi actuellement en discussion au Parlement. Je vous propose ici un retour détaillé sur l’un des 2 sujets que nous avons traité, à savoir la participation des femmes à la vie économique.

1 – Définir le sujet: la représentation féminine au sein des chambres consulaires

Le site du Sénat référence l’étude d’impact du projet de loi sur l’égalité hommes – femmes. Le document est dense (près de 140 pages) et il couvre de nombreux sujets (les inégalités salariales, les violences faites aux femmes, les impayés des pensions alimentaires, …). Je me suis particulièrement intéressé aux annexes, qui comprennent un grand nombre de tableaux avec des données. Le tableau ci-dessous recense le nombre de femmes élues au sein des chambres consulaires territoriales et régionales (CCI), pour la mandature en cours (2010-2015). Ce sera le point de départ de notre expédition: je vous laisse l’étudier rapidement.

Le tableau issu de l'étude d'impact

Le tableau issu de l’étude d’impact

2 – Comprendre les données

Le tableau n’est pas d’un abord aisé. Certaines colonnes concernent des données actuelles, d’autres des projections et mesurent l’impact du projet de loi sur cette question précise. Il m’a fallu relire les chapitres consacrés à cette disposition pour mieux cerner le sujet. J’ai ensuite retravaillé les données pour les extraire et les rendre réutilisables.

Il faut noter à ce stade que l’étude d’impact est proposée en deux formats sur le site du Sénat: en PDF et en HTML. Bien sûr, il est plus simple d’utiliser le second format pour importer les données. J’ai donc utilisé mon tableur favori pour copier toutes les cellules, puis j’ai procédé à un rapide reformatage, en me concentrant sur les CCI territoriales: suppression des colonnes relatives au CCI regionales et des données de projection, dé-fusionnage de cellules, …

3 – Le fichier base de travail

Voilà le travail à l’issue de ces premières opérations. Je précise qu’à ce stade toutes ces opérations se sont déroulées en amont de l’Open Data Camp, ce n’est qu’une étape de préparation des données. J’ai ensuite crée un document partagé à l’aide de Google Drive. En voici une copie d’écran ci-dessous.

Le fichier nettoyé

Le fichier nettoyé

Le matin du 28 novembre nous avons donc lancé cette expédition – un atelier parmi la demi-douzaine proposés par les participants. Mon sous-groupe était composé de Marie-Cécile Huet, Claudio Vandi, Louis-David Benyayer et de renforts ponctuels au cours de la journée. Nous avons donc commencé par nettoyer le fichier en corrigeant quelques erreurs et abréviations. Par exemple on pouvait lire "Puy-de-D." que nous avons transformé en "Puy-de-Dôme". La discussion a ensuite porté sur les réutilisations que nous pourrions imaginer: faire une carte, proposer un classement, proposer des pistes d’analyse, etc…

4 – Compléter et enrichir le fichier

Nous avons d’abord complété le fichier en rajoutant les adresses de chaque chambre de commerce. Le site CCI France propose un annuaire … mais aucune donnée en open data ! Une partie de l’équipe a donc rajouté manuellement toutes les adresses (NB: notre fichier comporte une centaine de lignes, il est probable que s’il avait compté 1000 lignes nous aurions cherché un moyen d’automatiser cette tâche). Puis, les adresses ont été géocodées (ie. transformées en coordonnées X,Y) à l’aide du site gpsfrance.net.

La fiche d'une CCI (source CCI France)

La fiche d’une CCI (source CCI France)

Autre enrichissement de la donnée initiale: le même site CCI France propose le nom du président et du directeur général pour chaque chambre de commerce de France. Nous avons donc rajouté 2 colonnes: le genre (H/F) pour ces deux fonctions. Là, nous avons été confronté à quelques cas plutôt amusants: beaucoup d’entre eux portent le prénom Dominique, un prénom unisexe (notons qu’il n’y a rien de très surprenant ici: les Dominique ont l’âge d’occuper de tels postes, pas encore les Kevin ou les Emma !). Nous avons donc recherché leur sexe via Google… et très majoritairement nos Dominique sont des hommes.

5 – Visualiser les données à l’aide de Google Fusion Tables

Nous avons ensuite importé les données dans l’outil Google Fusion Tables, l’un des (nombreux) services en ligne qui permettent de réaliser des visualisations basiques. A noter que Fusion Tables propose son propre outil de géocodage, qui produit des erreurs relativement faciles à repérer (ex. la ville de Vienne, située en Isère, est confondue avec son homonyme autrichienne).

Fusion Tables nous propose plusieurs visualisations, nous avons commencé par une carte de chaleur (heatmap), présentée ci-dessous.

La carte de chaleur

La carte de chaleur

La carte est jolie, mais elle est hors de propos ;-(

Ce qu’elle nous donne à voir ce n’est pas tant l’inégalité hommes-femmes que la densité territoriale des chambres de commerce ! Pour pouvoir faire une carte de chaleur, il nous faudrait des données beaucoup plus nombreuses, plus denses. Nous aurions aussi besoin d’une donnée non disponible: le découpage territorial de chaque chambre de commerce…

Nous avons donc travaillé sur une carte plus classique, avec des points colorés en fonction du taux de féminisation (qui varie de 0% à 30%).

Fusion Tables permet de personnaliser le nombre de classes différentes que l’on veut représenter: on peut souhaiter représenter les CCI selon un code avec 2, 3 ou même 6 couleurs. La fonction "use this range" (cf. détail ci-dessous) permet de répartir automatiquement chaque point dans l’une des classes. Gros souci: le choix des couleurs proposé par l’outil est inepte dès que l’on dépasse 3 niveaux différents… et le résultat n’est guère compréhensible, il vaudrait mieux utiliser des dégradés de couleurs (ou conseiller aux ingénieurs de Google de relire Bertin…).

Les options de Fusion Tables

Les options de Fusion Tables

Nous nous sommes donc limités à trois couleurs, avec un code simple à comprendre: en vert les 4 CCI qui ont un taux de féminisation supérieur à 30%, en rouge celles dont le taux est inférieur à 15% et en orange les autres… Bien sûr l’on peut rediscuter du choix des classes. Par exemple, nous pourrions tout aussi bien choisir de ne mettre en vert que les CCI où la parité est atteinte – au risque bien réel de n’avoir aucun point vert sur la carte !

Voilà la carte telle qu’elle est aujourd’hui publiée. Dans la version interactive, quand on clique sur un point on retrouve davantage d’informations: le nom du territoire, le nombre de sièges, le taux de féminisation et les genres des directeurs et présidents.

Le résultat

Le résultat (la légende est décrite dans le texte ci-dessus)

6 – Une histoire à raconter ?

Une fois la visualisation terminée, nous avons essayé de comprendre ce qu’elle nous racontait… Elle révèle bien sûr une inégalité hommes-femmes, mais nous espérions secrètement découvrir des motifs géographiques beaucoup plus nets. C’est le comble: nous attendions une confirmation de nos pires stéréotypes ("c’est vraiment des gros machos dans le Sud !").

Nous en étions là de notre relative déception quand Sabine Blanc est arrivée. Sabine est journaliste. Ex-Owni, elle signe notamment les nombreux papiers de la Gazette des Communes sur l’open data. Elle nous a rassuré en disant que la visualisation n’était sans doute pas l’histoire, mais qu’elle pouvait très bien accompagner un article, par exemple sur le fait que seules 4 CCI sur 117 ont plus d’un tiers de femmes parmi leurs élus !

7 – Pour aller plus loin

Le jeu de données est disponible en ligne, vous pouvez le compléter et l’enrichir. Il s’agit essentiellement de "densifier" les données existantes. Par exemple en ajoutant des données historiques: le jeu publié ne concerne que la mandature 2010-2015. On pourrait aussi poursuivre le travail de qualification: les femmes élues occupent-elles des places au sein du bureau des CCI ? Sont-elles davantage issues de l’industrie, du commerce ou des services ? On peut aussi imaginer des jeux de données pour compléter celui-ci. Par exemple le découpage territorial précis des CCI (astuce: on doit pouvoir le recomposer à partir du site CCI France qui indique, pour chaque commune de France, la CCI de rattachement)… A vous de jouer !

La donnée, une matière première bien étrange

Big Data, Open Data, données personnelles ou collaboratives: force est de constater que les données peuplent les discours de l’économie numérique. Les métaphores fleurissent pour qualifier cette nouvelle matière première: le pétrole, l’or, le diamant brut, … Aucune d’entre elles ne permet de saisir ce qui constituent les données. Mais chacune de ces analogies charrie son lot de fantasme et d’imaginaire… Tour d’horizon d’une bien étrange matière première.

1 – Une matière première qui ne s’épuise pas, qui n’est pas détruite lorsqu’on la consomme

La première métaphore est celle de l’or noir, ou du pétrole. Fréquemment mise en avant, elle est notamment couramment utilisée par la commissaire européenne Nelly Kroes. Il y a plusieurs niveaux de lecture de cette comparaison avec le pétrole. D’un point de vue économique, comme l’a déjà souligné et argumenté Henri Verdier, l’analogie n’a guère de sens.

Le pétrole est une matière première qui tend à s’épuiser, alors que la donnée est aujourd’hui de plus en plus disponible – tout à la fois parce que nous en produisons une quantité de plus en plus importante (la "datafication" du monde) et parce que les coûts de stockage sont de plus en plus faibles. D’autre part, la donnée, contrairement à l’hydrocarbure, n’est pas détruite lorsqu’on la consomme. Difficile de faire avancer 2 voitures avec le même litre d’essence, tout à fait possible de faire mille usages simultanés de la même donnée brute… (aux conditions d’accès près, bien sur).

2 – La donnée, un actif stratégique et géopolitique  ?

Mon second niveau de lecture n’est pas économique, mais plutôt métaphorique. Derrière l’analogie avec le pétrole, il y a aussi l’idée que les données représentent un gisement de richesses à exploiter et qu’elles pourraient redistribuer les cartes entre les Etats (et les entreprises). Il est clair aujourd’hui que les pays producteurs d’hydrocarbures sont, au niveau mondial, dans une position géostratégique favorable. Du recrutement du PSG à la création de la chaîne sportive BeInSport, tout le monde voit concrètement ce que l’on peut faire avec des pétrodollars plein les poches …

Pris dans ce sens métaphorique, l’idée de la donnée comme nouveau pétrole est plus intéressante. D’autant plus que la donnée personnelle est, PRISM mis à part, aujourd’hui plutôt un actif détenu par des acteurs non étatiques. Dit autrement: si la donnée personnelle est le carburant de l’économie numérique, alors les GAFA (Google, Amazon, Facebook et Apple) sont l’OPEP de demain… Avec tout ce que celà implique au niveau de la gouvernance internationale, de la souveraineté des Etats, etc… Le bras de fer entre Google et les CNIL européennes ne serait alors qu’un galop d’essai par rapport aux conflits à venir (bref, on a pas fini de rigoler…).

3 – Une matière première dont la valeur est plutôt dans la circulation que dans le stockage

Seconde métaphore utilisée: la mine d’or. Comme le pétrole, l’or est une ressource rare. Mais c’est aussi une valeur étalon, une valeur refuge. C’est là une différence majeure avec la donnée: la thésaurisation de l’or fait sens. La Banque de France stocke par exemple dans ses sous-sols près de 2500 tonnes du métal précieux, représentant une valeur de plus de 100 milliards d’euros. A l’inverse, la donnée stockée ne prend de la valeur que lorsqu’elle circule, qu’elle est utilisée.  Il n’est pas acquis non plus que la donnée prenne systématiquement de la valeur quand le temps passe…

A titre d’exemple: le fichier clients des magasins Virgin a été attribué, dans le cadre de la procédure de liquidation judiciaire de l’enseigne, à la FNAC. Cette dernière était la mieux-disante avec une offre à 54000 euros pour un fichier comprenant 1,6 million de clients. La valeur du dit-fichier n’augmente pas avec le temps, elle aurait plutôt une tendance inverse.

4 – Une matière première qui prend de la valeur quand on la transforme

Troisième métaphore convoquée dans les discours sur la donnée: celle du diamant brut. Le parallèle est plutôt valable dans la mesure où la donnée, comme le diamant, prend une très grande partie de sa valeur lors des opérations de transformation, de raffinage … La donnée brute possède intrinsèquement une valeur d’échange assez faible.

Une quatrième et dernière matière première – le blé – nous permettrait d’envisager une autre propriété des données : le potentiel de réutilisation. En effet, celui qui récolte la céréale peut la mettre dans le circuit de transformation (pour produire de la farine) ou la garder de côté pour la re-semer l’année suivante… On doit alors arbitrer entre un usage actuel et un usage futur.

5 –  Des métaphores qui en disent long sur notre incapacité à saisir la valeur des données

On voit bien qu’aucune des métaphores présentées ici ne permet de saisir l’essence des données. Mais ce n’est peut-être pas là l’objectif recherché dans les discours. Le recours à la métaphore traduit à mon avis notre incapacité à saisir la valeur des données, à en percevoir les multiples dimensions.

Tout se passe comme si, confronté à un objet donnée non identifié, nous aurions besoin de nous référer à des choses bien connues, bien maîtrisées, au risque d’appliquer à des problèmes actuels d’anciennes grilles de lecture et de compréhension.

Au mieux, ces métaphores alimentent la machine à fantasme type ‘patrimoine immatériel à faire fructifier’ (suivez mon regard…). Au pire, elles nous empêchent de voir que les données posent des problèmes inédits, qui bousculent nos fonctionnements et nos économies, un peu à la manière dont les drones armés remettent en cause, par leur existence même, tout ce que l’on croyait savoir sur les lois de la guerre et la souveraineté des Etats… Non, décidément, rien n’est simple avec les données !

La ville: ouverte et/ou intelligente ?

"Smart city" et "open data" : les deux approches ont en commun de mettre la donnée au coeur du fonctionnement de la ville intelligente. Mais au-delà des questions liées à la production des données, les conditions de son partage font débat.

SafariScreenSnapz062Doit-on les ouvrir à tous, en s’appuyant sur une possible intelligence des foules ou au contraire en faire un objet de pilotage centralisé des activités urbaines, quitte à en réserver l’accès à quelques opérateurs urbains ? Illustré d’exemples français (Rennes Métropole, Grand Lyon) et internationaux (Singapour), ce billet se propose d’éclairer les évolutions en cours et les combats d’acteurs qui s’annoncent autour de ce "nouveau pétrole" que constitue la donnée urbaine… 

La version originale de cet article a été publiée dans le numéro 25 de la revue urbaine Place Publique RennesJe le reproduis ici avec leur aimable autorisation.

1 – La donnée, carburant des services urbains

La donnée (data) est au coeur du fonctionnement des villes et des territoires. Elle permet l’aide à la décision, pour des projets d’aménagement par exemple, ou l’évaluation des politiques publiques mises en oeuvre. Elle se révèle nécessaire au bon fonctionnement des services du quotidien, des transports à la vie culturelle en passant par les crèches ou les écoles. Les acteurs publics produisent aussi des données statistiques, liées à l’économie (création d’activités, enregistrement de sociétés, …), aux déplacements ou à la démographie (actes d’état-civil). La donnée est partout et de tout ordre.

La donnée est aujourd’hui au coeur de deux approches de la ville numérique : la ville intelligente (smart city) et l’ouverture des données (open data). Toutes les deux font de ces données l’un des éléments essentiels du pilotage et de la transformation de la ville par le numérique.

2 – La ville intelligente façon smart city, des contours flous

Il n’existe pas de définition unique et universelle du concept de ville intelligente. Le terme est souvent utilisé pour désigner tout à la fois la ville créative et la ville durable. La ville créative, telle que définie par le géographe américain Richard Florida, combine des facteurs économiques, sociaux et techniques pour attirer et retenir les "classes créatives". Florida propose trois critères pour mesurer le degré d’adhésion d’une ville à ce concept : la part des emplois liées aux professions intellectuelles et à la création (designers, architectes, artistes, …), le nombre de brevets déposés sur le territoire et enfin la part des personnes homosexuelles parmi la population.

Cette approche de la ville créative intègre donc dans un même élan des dimensions économiques, technologiques et des choix individuels… Le concept de ville durable met pour sa part l’accent sur l’impératif environnemental et impose de revoir les politiques urbaines sous l’angle de la durabilité. Quelle que soit l’approche retenue pour la ville intelligente (ville créative, durable, numérique, …), les réseaux de communication y jouent un rôle essentiel. Ce sont eux qui permettent d’interconnecter les acteurs et les différents systèmes d’information par exemple liés à l’énergie ou aux transports. La ville intelligente est indéniablement aussi une ville technologique !

ImagesSmartCity.002A quoi ressemble la "smart city" ? Pour en dresser le portrait-robot, il suffit de taper le terme dans le moteur de recherche Google Images pour voir apparaître un grand nombre de représentations. Elles partagent quelques traits communs : la smart city est futuriste (héritée de la science-fiction) et verticale (la tour en est le trait distinctif). Elle ressemble d’ailleurs davantage à l’image que l’on se fait des mégapoles d’Asie du Sud-Est, Hong Kong ou Singapour plutôt qu’à nos villes européennes – ce qui reflète d’ailleurs bien l’histoire des premières smart cities.

La ville intelligente se reconnaît surtout par ses artefacts, dans le champ de la mobilité ou de l’énergie. Le péage urbain est l’un d’eux : le système technologique combine des capteurs placés sous la chaussée, des systèmes de reconnaissance des véhicules (via des badges sans-fil ou la lecture des plaques d’immatriculation), ainsi qu’un pilotage dynamique des tarifs selon l’heure, le type de véhicule ou la congestion liée à la circulation automobile sur les axes routiers à proximité. La Ville-Etat de Singapour a été la première à implanter ce type de péage urbain dès 1998. L’ERP (electronic road pricing) est alors présenté comme l’un des symboles de la modernité du territoire et sera ensuite déployé à Dubaï, Stockholm et Londres – avec des succès mitigés selon les territoires. La prédiction de trafic à une heure a, elle aussi, d’abord été testée à Singapour, avec le concours d’IBM.

Il s’agit ici de combiner une connaissance historique (les conditions de circulation sur les principaux axes routiers) et des mesures temps réel (l’état du trafic tel que mesuré par des capteurs enfouis sous la chaussée) pour alimenter un algorithme capable de prévoir les embouteillages avant qu’ils ne se forment… Dans le domaine de l’énergie, il s’agit d’expérimenter des réseaux intelligents (smart grids), à l’instar du projet mené sur le quartier Confluence à Lyon. Les compteurs intelligents, installés dans les foyers et les entreprises, sont l’une des composantes de ce système qui doit permettre in fine de mieux adapter la production et la consommation d’énergie électrique.

Dans ce modèle de ville intelligente, le pilotage des services urbains est souvent centralisé. L’une des images les plus fréquemment utilisées est celle de la salle de contrôle d’un réacteur nucléaire : toutes les informations apparaissent en temps réel sur des écrans, en provenance de sources multiples (des capteurs bien sûr, mais aussi des caméras et des informations remontées du terrain par les forces de police ou les pompiers, …). Le système informatique accompagne la prise de décision et peut contrôler à tout moment un ensemble d’équipements urbains. Ainsi, un évènement de type incendie déclenche dès l’appel des secours le passage au vert de l’ensemble des feux de signalisation du quartier, la mise en place d’itinéraires de déviation pour les bus ou l’envoi de SMS aux usagers concernés…

 3 – La ville intelligente c’est d’abord un nouveau marché

Le modèle intégré de la smart city puise sa valeur dans sa capacité à regrouper un grand nombre de données issues de systèmes hétérogènes au sein d’un seul et unique outil de pilotage. C’est l’approche "tout-en-un" dont les grands groupes informatiques européens et américains se font les champions.

En effet, la ville intelligente est aussi une opportunité de nouveaux débouchés pour ces acteurs économiques. Inspirés par la réussite des grands groupes de services aux collectivités (notamment la gestion de l’eau et des déchets), les entreprises de l’informatique souhaitent devenir à terme les opérateurs de la ville intelligente. Les frontières entre les activités et les métiers sont d’ailleurs moins nettes qu’autrefois. Des entreprises des télécommunications répondent à des appels d’offres pour la gestion des transports publics dans des villes d’Amérique latine. De même, tous les grands groupes de la gestion de l’eau ou des déchets intègrent aujourd’hui cette dimension d’infrastructure informationnelle dans leurs offres.

La smart city n’est pas réservée aux seules mégapoles asiatiques. La société IBM est par exemple très active en France sur ce sujet et vient d’annoncer la signature de contrat de partenariat et de fourniture avec Montpellier et Nice sur quatre grands domaines : la mobilité intelligente, la qualité environnementale, l’efficacité énergétique et la gestion des risques. Orange collabore à plusieurs projets, dont celui liés aux déplacements sur le territoire du Grand Lyon – la capitale des Gaules a d’ailleurs fait de son positionnement Smart City un élément de différenciation territoriale à l’échelle européenne. L’allemand Siemens (qui fournit par ailleurs les rames du métro rennais) a construit un bâtiment en plein coeur du quartier des docks à Londres. The Crystal est entièrement dédié aux problématiques de la ville intelligente et durable et se veut un lieu de débat et de démonstration. Toutes ces initiatives mettent en avant la capacité du numérique à répondre aux défis environnementaux. Bien sûr, le fait que chacune de ces entreprises maîtrise une partie de la solution technique mobilisée (les capteurs, les équipements et les réseaux de télécommunications, les bases de données, …) n’est pas non plus étranger à leur intérêt pour la ville éco-intelligente ;-)

 4 – La boîte noire: l’essentiel est invisible

Le modèle intégré de la smart city possède aussi des limites intrinsèques. La plupart de ces systèmes fonctionnent comme des boîtes noires. Prenons l’exemple du système de prédiction du trafic à une heure: on en connaît les données d’entrée (historiques de trafic et mesures temps réel), on peut constater les données de sortie (la prédiction de trafic). Mais ce qui se passe dans la boîte noire – c’est-à-dire le processus qui permet de transformer ces données en élément de décision – reste invisible aux yeux extérieurs. La propriété de cet algorithme revient d’ailleurs souvent aux groupes informatiques qui l’ont mis en place, et non aux collectivités qui l’ont co-financé.

L’invisibilité (des technologies, des données, des algorithmes) est d’ailleurs l’une des critiques formulées par la sociologue Saskia Sassen de l’Université Columbia à l’égard de la smart city : "aujourd’hui, l’on tend à rendre ces technologies invisibles, en les cachant sous la chaussée ou derrière des murs – en procédant ainsi on met ces technologies en position de commande et non de dialogue avec les usagers de la ville".

Les systèmes intégrés sont par essence opaques : pensez à la manière dont votre iPhone est entièrement maîtrisé par son constructeur qui détermine même quelles applications vous pouvez y installer et se réserve le droit d’y bannir celles qu’ils n’estiment pas "bonnes" pour ses clients – et donc pour vous. Selon quels critères sociaux ou moraux, selon quelles règles ces décisions sont-elles prises et appliquées ? L’enjeu reste somme toute assez limité quand il ne s’agit que de choisir un type de téléphone mobile. Mais quand l’approche intégrée devient le modèle de référence pour le pilotage des villes, il est permis de s’interroger un peu plus longuement. Peut-on imaginer un modèle de ville intelligente qui ne soit pas totalement intégré ? Rennes Métropole et la Ville de Rennes expérimentent depuis 2010 une approche complémentaire : celle de l’ouverture des données publiques (l’open data).

 5 – La question du partage de la donnée au coeur de l’Open Data

Le territoire rennais est en effet pionnier en France dans le domaine de l’ouverture des données publiques avec les portails data.rennes-metropole.fr et data.keolis-rennes.com.

Ce sont aujourd’hui près d’une quarantaine de territoires, ainsi que l’Etat (data.gouv.fr) qui ont mis en place des démarches open data. La France figure d’ailleurs dans les toutes premières places des classements européens sur le sujet (classement ePSI Forum). L’ouverture des données publiques ne remet pas en cause l’importance des systèmes d’information dans l’action publique, bien au contraire. En ce sens il ne s’oppose pas à la smart city sur les conditions de la production des données.

Ce qui distingue les deux approches, c’est la question du partage des données. Faut-il en limiter l’usage à quelques acteurs (les opérateurs de la ville intelligente) ou en promouvoir une appropriation et une réutilisation plus large par des tiers, entrepreneurs et innovateurs locaux ou nationaux ?

Le Grand Lyon restreint l’usage des données de mobilité à quelques acteurs sélectionnés, pour garantir que les applications développées ne "nuisent pas aux services commerciaux pilotés par la collectivité en délégation de service public". En clair, il s’agit ici de protéger aussi les intérêts économiques de l’entreprise délégataire, au détriment d’un accès au plus grand nombre.

On voit clairement dans cet exemple la tension entre l’approche intégrée de la smart city et la logique de partage des données de l’open data. A contrario, le réseau de transport Star s’est récemment équipé d’un système d’aide à l’exploitation et à l’information voyageurs. Les bus métropolitains sont équipés de balises GPS qui renvoient leur position en temps réel et permettent ainsi à l’opérateur du service de transport (Keolis Rennes) de mieux piloter à distance sa flotte de véhicules. Les usagers des transports ne voient de ce système qu’une toute petite partie de l’information produite, sous la forme des horaires de passages à un arrêt ("ligne 2 direction Grand Quartier, prochain bus dans 7 minutes"). Cette donnée est restituée via des afficheurs (aux arrêts principaux) et via un site mobile dédié. Mais elle est aussi mise gratuitement à disposition des réutilisateurs. Les développeurs des applications mobiles Transports Rennes (Android) ou Rengo (iOS) ont ainsi pu facilement intégrer cette information temps réel.

Derrière la problématique de la gouvernance des données (modèle intégré vs. approche ouverte), c’est bien une question politique qui se pose : quel est le rôle de l’acteur public à l’heure de la ville intelligente ? Comment tirer parti des dynamiques naissantes sans pour autant abandonner toute souveraineté (numérique) aux opérateurs de la smart city ? En ce sens, le modèle de la ville «ouverte», tel qu’il s’invente et s’expérimente sur notre territoire et ailleurs, me semble proposer une alternative d’avenir.

Mesurer l’open data et ses effets

"Open Data Commons" (photo by jwyg)

"Open Data Commons" (by jwyg)

A l’occasion de la Semaine européenne de l’Open Data à Marseille, je suis invité à intervenir sur le sujet des indicateurs des politiques publiques d’ouverture des données.  Comment mesurer et évaluer les programmes Open Data ? Est-ce vraiment si difficile à faire ? Ce billet de blog vous propose un résumé de mon intervention.

1 – Des indicateurs pour chaque étape des projets

Le chercheur britannique Tim Davies recense sur son carnet de recherche en ligne plusieurs types d’outils d’évaluation et en propose une première classification. Il les distingue selon l’objectif poursuivi :

- mesurer un "état de préparation" (readiness assessment tool) : la boîte à outils développée par la Banque Mondiale comprend ainsi une check-list très complète des facteurs susceptibles de favoriser une politique durable d’ouverture des données,

- mesurer l’implémentation des politiques, leur mise en oeuvre: le plus connu (et sans aucun doute l’un des plus anciens) est le modèle des 5-étoiles défini par Tim Berners-Lee et le W3C (la classification met l’accent sur les critères techniques de mise à disposition des données, le 5ème étoile étant réservées aux approches de type web sémantique),

- enfin, mesurer l’impact des politiques open data, qu’ils soient directs (création de services ou d’applications à partir des données ouvertes) ou indirects (développement économique, renforcement de la transparence, contribution à l’atteinte des objectifs de politique publique,…).

Tim Davies souligne le fait que la plupart des outils disponibles se concentrent sur les deux premières étapes (l’état de préparation et l’implémentation) mais que l’on ne dispose pas à ce jour d’un modèle d’évaluation complet pour mesurer les impacts de l’open data. Je partage totalement cette analyse – et j’aurai l’occasion dans ce billet de proposer quelques pistes en ce sens.

Il y a exactement 2 ans, j’étais déjà invité à Marseille (qui refuserait une invitation dans la cité phocéenne au mois de juin ?) à l’occasion de l’Open Data Garage (ma présentation "évaluer l’impact économique de l’open data local" est toujours en ligne). Il y a deux ans, la plupart des outils et des modèles cités par Tim Davies n’existaient pas encore, il me semble donc que nous allons dans le bon sens… Pour vous en convaincre, je vous propose dans un premier temps de détailler quelques outils dont nous disposons aujourd’hui.

2 – Présentation de trois outils pour évaluer les politiques open data

La Banque Mondiale a développé un outil de mesure de l’état de préparation (readiness assessment tool, traduit en français) qu’elle utilise dans le cadre de ses missions d’audit et de conseil au niveau international – et plus particulièrement dans les pays émergents. A noter que ce document fait partie d’une très intéressante boîte à outils sur le sujet (lecture recommandée).

Cet outil se concentre sur les conditions favorables à une politique d’ouverture des données. Pour chaque élément évalué (leadership, cadre réglementaire, structure institutionnelle, données au sein du gouvernement, engagement citoyen, écosystème, financement), des exemples précis de questions sont formulés, ainsi que des éléments de preuve. A l’origine développé pour évaluer des pays, l’outil pourrait tout à fait s’adapter pour des évaluations au niveau local. L’attention portée notamment sur la gouvernance (et l’importance d’un appui politique explicite à la démarche) me semble valable quel que soit l’échelon étudié.

L’outil MELODA (methodology for releasing open data) est proposé par Alberto Abella, l’un des cofondateurs du chapitre espagnol de l’Open Knowledge Foundation. Meloda s’intéresse à la phase d’implémentation et mesure en particulier le degré d’ouverture des données.

L’outil mesure les sources de données (locales, nationales ou internationales) selon des critères juridiques, techniques et d’accessibilité de l’information. C’est l’un des outils les plus proches de la définition que je retiens d’une donnée ouverte. Chacun des 3 critères est évalué sur une échelle à 5 niveaux (par exemple pour le critère juridique, la plus forte note est attribuée aux sources de données n’imposant qu’une obligation d’attribution – une licence de type Licence Ouverte d’Etalab par exemple). L’auteur complète ainsi utilement les 5-étoiles de Berners-Lee. Je dis utilement parce qu’une donnée qui serait en tous points conformes aux objectifs du web sémantique mais proposée avec une licence non-ouverte n’aurait pas grand sens d’un point de vue pratique !

L’initiative Open Data Census de l’Open Knowledge Foundation vise à comparer les niveaux d’engagement dans l’open data de plusieurs pays. L’OKFN a ainsi défini une liste de 10 jeux de données. On y retrouve par exemple les résultats des élections, les budgets des Etats, le registre des entreprises, les codes postaux géolocalisés ou encore les horaires des transports publics. Chaque jeu de données est évalué, par pays, sur une échelle à 7 niveaux (disponibilité, ouverture, …).

Rien n’empêche d’adopter une approche semblable pour des initiatives locales d’open data. Nous pourrions ainsi définir une liste de 10 jeux de données qui nous semblent pertinents (selon quels critères ?) et évaluer leur disponibilité et ouverture sur les portails open data des collectivités français…

Il convient bien sûr de rajouter à cette courte liste (je vous renvoie vers le blog de Tim Davies pour un recensement plus exhaustif) quelques initiatives françaises : le référentiel OpQuast recense les bonnes pratiques en matière de portail open data. Il peut tout aussi bien servir à agir (préparer un portail) qu’à évaluer. Ce double usage (action / évaluation) est intéressant, mais on gardera toujours à l’esprit qu’un indicateur qui est aussi un objectif n’est plus un indicateur ! Enfin, on m’a signalé le projet Odalisk qui vise aussi à comparer les initiatives (le site principal ne fonctionne pas à l’heure où j’écris ces lignes, mais le code source est disponible sur GitHub – ce qui n’est pas si mauvais signe).

3 – Les 3 phases de l’ouverture des données : semer, faire pousser, récolter

Dans la panoplie d’outils dont nous commencons à disposer en France et à l’international, force est de constater que la mesure des impacts (économiques, sociaux, sociétaux, démocratiques, …) de l’open data n’est pas le champ le mieux documenté. Notons toutefois que plusieurs programmes sont en cours, notamment à l’UK ODI (et je vous renvoie en priorité à l’interview de Tim Berners-Lee qui déplore "nous n’avons pas d’économistes de la donnée"), pour explorer en particulier la question de la valeur des données.

Pourquoi ne dispose-t-on pas aujourd’hui de la même richesse méthodologique que pour les autres phases de l’open data ? J’y vois plusieurs raisons, la première étant la perspective historique. Les outils d’évaluation de l’état de préparation ou d’implémentation sont aussi le fruit du retour d’expérience des premières initiatives d’open data qui ont en quelque sorte permet de définir des "bonnes pratiques" à partir du terrain.

La question de la mesure de l’impact, et en particulier de ses effets dans le temps, est une question qui se pose pour les initiatives qui ont déjà un peu de "bouteille" – et en France on ne parle là que d’une demi-douzaine d’initiatives ! Au-delà de ce côté "pionniers", le temps joue aussi à mon avis dans notre capacité à bien comprendre les impacts, et en particulier les impacts de second ou de troisième niveaux, des politiques d’ouverture des données publiques.

On a aujourd’hui un cadre théorique qui explique bien cet effet-retard de la mise à disposition des données, je pense notamment au rapport de Marc de Vries et Geoff Sawyer pour l’Agence spatiale européenne. Les deux auteurs distinguent ainsi 3 phases dans les effets de l’ouverture des données : une phase d’ensemencement (sowing phase), une phase de culture (growing phase) et une phase de récolte (harvesting phase).

Les 3 phases de l'ouverture des données - source Marc de Vries et Geoff Sawyer pour l'European Space Agency

Les 3 phases de l’ouverture des données – source : Marc de Vries et Geoff Sawyer pour l’European Space Agency

4 - Don’t ask, please tell !

Hormis le temps, la difficulté est d’identifier l’ensemble des réutilisations qui peuvent être réalisées à partir des données ouvertes. L’open data ne sert pas qu’à réaliser des applications mobiles, la donnée ouverte est aussi une matière première pour nombre d’organisations et d’entreprises.

Le principe du "don’t ask, don’t tell" est à mes yeux un élément essentiel de l’approche d’ouverture des données. On ne contrôle pas a priori les usages – sauf dans le cas de certaines licences proposées par le Grand Lyon qui imposent une déclaration préalable d’usage (j’y reviendrais dans un prochain billet).

Il faudrait donc passer au principe du don’t ask, please tell ! C’est-à-dire encourager les réutilisateurs à partager leurs expériences de réutilisation, à raconter les gains (économiques et sociaux) qu’ils tirent de la réutilisation des données ouvertes. Il faudrait expérimenter un principe de "trackback" pour les données, à l’instar de ce que l’on trouve sur les blogs.

5 – Des premières pistes pour avancer

Il n’est certes pas aisé de mesurer les impacts de l’open data pour les multiples raisons que je viens d’évoquer. Mais ce n’est pas une raison pour ne pas essayer à partir des éléments dont nous disposons déjà.

Je vois deux premières pistes que nous pourrions explorer : le suivi longitudinal des réutilisations de 1er niveau (ie. par exemple les applications ou services développés dans le cadre de concours) et la mesure des effets de type "boucle de rétroaction".

Concernant les réutilisations de premier niveau, c’est-à-dire les applications ou services qui ont été réalisés à partir des données ouvertes, une bonne partie d’entre eux sont identifiables : soit ils ont participé aux actions d’animation (concours, hackathons, …), soit ils publient leurs services (une veille sur les boutiques d’applications mobiles, par exemple, s’impose).

L’intérêt ici n’est pas tant de mesurer le nombre de services crées, mais plutôt d’évaluer des dynamiques d’usage dans le temps: combien d’utilisateurs actifs sur une période de référence (une semaine, un mois) ?

Les programmes de labellisation sont aussi une occasion rêvée de demander aux développeurs de partager leurs chiffres d’utilisation (et la plupart l’accepteront volontiers en échange d’une meilleure visibilité pour leur réalisation). On compare ensuite ces données obtenues à des moyennes pour le même type de service rendu – ce ne sont pas les services d’analytics qui manquent en ligne, tant pour le web que pour le mobile…

Le second type d’évaluation que nous pourrions mettre en place est liée à l‘effet des boucles de rétroaction. On va pouvoir ainsi introduire un lien direct avec les objectifs de politique publique poursuivis par la collectivité. Ainsi, si l’on veut promouvoir l’usage des transports en commun ou des modes doux dans une ville, on peut chercher à identifier l’effet des différentes applications disponibles sur le report modal.

Objectif ambitieux me direz-vous, mais pourtant réalisable dès aujourd’hui: ainsi quand on réalise une enquête sur l’utilisation des vélos en libre-service (Vélib), pourquoi ne pas chercher à identifier la part des utilisateurs qui connaissent les applications, qui les ont déjà utilisées, et leur importance dans la décision de recourir à ce mode de déplacement… ? L’information peut aussi contribuer à changer un comportement, encore faut-il se donner les moyens de le mesurer !

Open Data Transport : les enjeux du débat à venir

Où va l'open data transport ?

Où va l’open data transport ?

La feuille de route gouvernementale sur l’ouverture des données publiques (open data) prévoit l’organisation de six débats thématiques et ouverts. L’un d’eux doit précisement s’intéresser aux données du transport.  Ce billet de blog se propose de commencer à identifer les enjeux et les questions du débat à venir.

(Edité le 3 juin pour rajouter un schéma sur les données déjà ouvertes et préciser les questions liées aux formats de mise à disposition).

1 – Le contexte actuel et les objectifs des débats thématiques

Les débats thématiques ont plusieurs objectifs décrits dans la feuille de route : ils doivent permettre d’identifier et de publier de nouveaux jeux de données stratégiques et de qualité, mais aussi d’étudier la possibilité d’élargir et d’étendre la politique d’ouverture des données à l’ensemble des acteurs : collectivités territoriales, délégataires de service public, entreprises publiques, établissements publics à caractère industriel ou commercial, … On voit bien que l’enjeu pour l’open data transport est important, car les changements pourraient concerner l’ensemble des acteurs de la mobilité et des transports.

Par ailleurs, ce débat à venir s’inscrit plus généralement dans la réaffirmation, tant en France qu’aux Etats-Unis, des principes de l’ouverture des données "par défaut" et de la gratuité des données brutes comme l’un des leviers / piliers de cette politique. L’acte 3 de la décentralisation explicite d’ailleurs ce principe d’open data par défaut. Certes, la perspective de son adoption s’éloigne un peu – ce qui pourrait soulager ceux qui sont inquiets des risques que feraient peser, selon eux, la généralisation de l’open data. Mais l’Europe ne reste pas non plus inactive, avec l’adoption de la nouvelle directive PSI (public sector information) qui fixe des orientations assez fortes (et notamment le principe access = reuse) et finalement assez proches des principes défendus par la feuille de route gouvernemental.

Il y aura donc un débat thématique sur les données du transport et de la mobilité. La perspective d’un open data "par défaut", et non d’un open data comme une "option" éclaire  bien sûr d’une lumière nouvelle les questions à venir. En voici quelques unes.

2 – Quelles données ?

Les données du transport, et plus globalement de la mobilité sont diverses et variées. On y retrouve tous les types de données que nous manions quotidiennement dans le domaine de l’open data : données brutes / données enrichies, données historiques / données prédictives, données en stock / données en flux, données de description / données d’exploitation ou de commercialisation, …

Dans une optique de mobilité au sens large, il faut aussi prendre en compte un grand nombre de modes : piéton, vélo, automobile, transports en commun, … Enfin, et ce n’est pas là la moindre difficulté, les données de mobilité sont produites / collectées / gérées par un très grand nombre d’acteurs aux statuts juridiques et aux stratégies parfois incompatibles.

Nous avons donc potentiellement un très grand nombre de données concernées, elles-mêmes très diverses dans leurs caractéristiques, leurs statuts juridiques, leurs valeurs identifiées, réalisées ou perçues. L’un des enjeux du débat sera donc de tenter de classer ces données et de leur attribuer une priorité d’ouverture – un peu à la manière des données "stratégiques" citées par la feuille de route gouvernementale.

OpenDataTransport-donneesdejaouvertes.009Une rapide analyse des sites open data des réseaux de New-York (MTA), Londres (TfL, Transport for London), Paris (Ratp, Transilien) et Rennes (Star) permet déjà d’identifier une très grande diversité dans les données déjà ouvertes.

Le schéma ci-contre en présente une sélection, classée selon deux axes : l’objectif (transparence / participation) et le type de données (dynamiques / statiques).

La question de la valeur des données sera bien sûr au coeur des échanges. Par essence, cette valeur est multiple (valeur monétaire, valeur d’usage, valeur de ré-utilisation, valeur d’image, …) et dépend en partie de ceux qui réutilisent la donnée – et de ceux qui la réutiliseront demain ! Nous aurons donc – et ce ne sera pas facile – à discuter du partage de la valeur de données alors que nous n’avons qu’une vision assez partielle de leur vraie valeur actuelle et future pour l’ensemble des acteurs de la chaîne…

Concernant les critères de priorisation, il y aura aussi à coup sûr un débat dans le débat. Faut-il considérer les données selon l’usage qu’elles permettent (par exemple le calcul d’itinéraires) ou alors selon le statut (AOT, exploitant) de celui qui va l’ouvrir ? Faut-il prendre comme premier critère l’impact économique, social et sociétal de la donnée ? Et si oui, comment faire ? Nous pourrions imaginer par exemple de favoriser l’ouverture de données qui encouragent le transfert modal vers des modes de déplacements moins polluants que la voiture individuelle – c’est une piste parmi d’autres.

(Le débat devra par contre permettre de clarifier le statut juridique de la donnée de transport, et ce sera déjà une grande avancée)

3 – Quels acteurs ?

Le second enjeu est bien sûr lié aux acteurs qui seront concernés par l’ouverture des données du transport. Il faudra trouver une certaine concordance entre la loi d’organisation des transports (LOTI) et les futurs ajustements liés à l’open data. Certaines autorités organisatrices des transports craignent que l’obligation qui pourrait les viser "épargne" leur exploitant si celui est une entreprise publique ou un EPIC ou un EPA (on parle bien sûr de la SNCF ou de la RATP).

La question des acteurs rejoint celle du périmètre de l’ouverture et l’Etat n’est pas tout à fait un acteur neutre. L’open data pourrait figurer parmi les objectifs assignés aux systèmes d’informations multimodaux, qu’il s’agisse de SIM départementaux, régionaux ou nationaux. On pourrait aller un peu plus loin et imaginer que l’Etat et l’Europe réservent leurs co-financements aux seuls projets de SIM mettant en oeuvre des politiques d’ouverture et de partage des données – mais, encore une fois, ce n’est qu’une piste parmi d’autres.

4 – Quelles modalités d’ouverture ?

Les deux premiers enjeux que j’ai cité correspondent donc aux questions du "quoi ?" et du "qui ?". La question des modalités de l’ouverture – le "comment" – est bien sûr l’une des plus importantes.

Premier élément des modalités de l’ouverture : le degré d’obligation. Va-t-on être dans le domaine de la bonne pratique, de l’incitation (si besoin avec des mécanismes financiers du type subvention conditionnée à la mise en place d’une politique open data) ou de l’obligation (mandatory) ? Bien sûr il y aura toute une palette de réponses, selon les types de données, les acteurs ou les usages pressentis.

Second élément : la licence applicable à ces données.  Certaines collectivités ont déjà fait part de leurs craintes sur des réutilisations de "leurs" données contraires à leurs objectifs de politique publique. Le Grand Lyon par exemple a ainsi conçu une approche SmartData, avec trois licences différentes dont l’une avec des données payantes – c’est leur réponse à l’open data et aux périls qu’ils ont déjà eu l’occasion de dénoncer. Le débat devra donc aussi trancher : pourra-t-on à l’avenir proposer une diversité de licences ou la licence ouverte, proposée et mise en oeuvre par Etalab, va-t-elle s’imposer à tous ?

Troisième élément : les "formats" de mise à disposition. Ce terme peut s’entendre de deux manières. La première concerne le mode de mise à disposition, le second les formats des données elles-mêmes. Concernant les modes de mise à disposition, certains acteurs des transports privilégient la mise en oeuvre de services (webservices, API),  plutôt que de la mise à disposition de données en téléchargement – une opposition qui n’est pas irréductible à mon avis, les deux modes correspondant à des usages et des cibles de réutilisateurs différents. A propos des formats, la plupart des réseaux mettent une partie de leurs données à disposition en GTFS, le standard de facto pour la réutilisation de données transport en mode open data. Le gouvernement va-t-il inciter à – ou imposer – l’usage d’autres formats (mieux connus du domaine des transports) ? Ou alors va-t-il laisser ces éléments au libre choix des acteurs ?

Dernier élément, qui va souvent de pair avec la question de la licence : la monétisation et le partage de la valeur. Doit-on imposer un partage des revenus avec les autorités organisatrices en cas de réutilisation commerciale des données ? Doit-on discriminer les utilisateurs selon l’usage des données (la non-discrimination entre utilisateurs étant, rappelons-le, l’un des principes fondamentaux de l’open data).

5 – Un débat qui ne se limite pas au domaine des transports publics

On voit donc que le débat à venir sera sans doute très riche, passionnant et porteur d’enjeux importants.

Mais je voudrais ici rappeler (amicalement) aux acteurs du monde des transports que ce débat thématique ne sera que l’un des six qui sont prévus.

Dans la galaxie du sujet open data, le transport est l’une des thématiques mais pas la seule. Les débat sur les données de santé, ou les données culturelles, seront à coup sûr tout aussi impliquant pour l’open data. L’idée d’une licence dédiée pour les données transports, par exemple, me semble devoir être confronté à ce "moment Galilée".

Les acteurs du transport ne sont pas plus légitimes que les acteurs de la santé ou de la culture pour réclamer une licence propre et un régime d’exception (la culture en bénéficie déjà)… je doute que ce voeu puisse donc être exaucé, ou alors l’Etat accepte de céder une situation avec une licence (sans doute critique, mais lisible) pour une kyrielle de licences thématiques (c’est possible, mais j’émets des doutes sérieux).

Sans compter que la galaxie de l’open data en France tourne elle-même d’un astre encore plus large, la politique européenne en matière de réutilisations des données publiques. Et dans ce domaine, au regard de la nouvelle directive européenne, l’heure n’est pas à définir de nouvelles redevances mais plutôt à les limiter… Un vrai moment Galilée !

Je profite de ce billet pour vous inviter à suivre les travaux de la journée d’échange sur l’Open Data Transport, que je co-organise avec le GART et Christophe Duquesne. Rien de tel qu’une bonne discussion pour trouver des réponses !

L’open data renforce-t-il le risque de désintermédiation ?

Mercredi dernier, j’ai emmené mon fils au cinéma. Pour préparer notre sortie j’ai recherché les horaires de cinéma. Google m’a proposé – avant les résultats des sites web correspondant à ma requête – la liste des films projetés actuellement dans ma ville, et un simple clic m’a permis de voir les prochaines séances. 

Les horaires des films à Rennes (Google Movies)

Les horaires des films à Rennes (Google)

A aucun moment je n’ai quitté la page du moteur de recherche, j’ai obtenu l’information recherchée sans consulter ni le site du cinéma, ni les multiples intermédiaires tels qu’Allociné ou Cinéfil.com.

En tant qu’utilisateur, j’ai trouvé le service plutôt pratique (et en tant que père j’ai passé un bon moment avec mon fils). Mais pour nombre d’acteurs que je rencontre (des entreprises, mais aussi des acteurs publics) cela représente plutôt un bien mauvais signal.

Cela s’appelle de la désintermédiation, ou plutôt une nouvelle intermédiation par un nouvel acteur. Le risque de désintermédiation est donc une réalité et ne se réduit pas à la discussion sur la position de Google et autres dans l’économie numérique. L’open data est-il un facteur d’accélération de cette désintermédiation ? Après tout, ouvrir des données data facilite l’émergence de services tiers, c’est même souvent l’un des objectifs recherchés.

Dit autrement : est-on en train de faire entrer le loup dans la bergerie ? (Même si en l’occurence on est toujours l’agneau de quelqu’un d’autre, tout dépend du contexte…).

1 – Le risque de désintermédiation cela concerne tout le monde (faites-vous dépister !)

Imaginons quelques scénarii pour illustrer les différentes formes du risque.

Ce matin je veux aller à la piscine, je consulte donc les horaires via l’application mobile développée dans la cadre d’un concours open data. L’après-midi je veux acheter un billet de train et mon moteur de recherche favori me propose, en plus des horaires et de l’information sur la ponctualité de mon train (des données aujourd’hui ouvertes…), un achat direct en ligne. A un autre moment de la journée je consulte mes comptes bancaires via un service tiers développé lui aussi à partir de données mises à disposition (pas en open data certes, mais plutôt en mode API semi-ouverte,… ).

Plaçons nous maintenant du côté de ceux qui ont ouvert les données.

Le service des sports de ma ville vient de mettre en place un nouveau service de paiement via une carte sans contact et il aimerait bien m’en informer. Et pour celà le plus simple serait que je consulte les horaires directement sur le site de la municipalité.

L’opérateur de transport lui aussi aimerait ne pas perdre la relation client, et surtout pas sur la partie distribution de son métier. Enfin ma banque, qui voyait plutôt d’un bon oeil l’émergence de services complémentaires commence à se poser des questions. Surtout depuis qu’un nouveau service en ligne, développé par des plus malins qu’elle, a carrément désintermédié la relation client et me propose une assistance de très bon niveau (une sorte de super assistant personnel à qui j’ai confié les clés de ma banque en ligne).

Le risque de désintermédiation ne concerne d’ailleurs pas que la relation à l’usager ou au client. Quand le service de la mobilité urbaine du Grand Lyon explique qu’il ne veut pas que l’ouverture des données aboutisse à des usages contraires à ses objectifs de politique publique, il ne dit pas autre chose (même si les termes sont différents).

Dernier exemple : les autorités organisatrices des transports ont elles aussi peur de se faire désintermédier par la SNCF … et par Google à la fois !

2 – Un risque vieux comme l’Internet : les désintermédiateurs d’aujourd’hui sont les désintermédiés de demain

Les chaînes d’hôtellerie, les compagnies aériennes, les exploitants de salles de cinéma, … Tous ces acteurs économiques (et bien d’autres) ont connu ces phénomènes de désintermédiation. Certains sont directement imputables au web (on pense à l’émergence des comparateurs de prix dans l’aérien), d’autres sont plus anciens que l’Internet (l’invention du traitement de texte sur les ordinateurs personnels a désintermédié la sécretaire à qui l’on demandait autrefois de rédiger les courriers…).

Il me semble que chaque cycle technologique « rebat les cartes » de l’intermédiation. Prenons l’exemple du groupe hôtelier Accor (qui possède plusieurs marques, de l’Ibis au Sofitel). Qui vend aujourd’hui des nuits d’hôtels en ligne ? Les sites Booking.com, Hotels.com, les partenaires de TripAdvisor mais aussi voyages-sncf.com …

Bref le web a bien désintermédié les canaux de distribution installés. Cependant, le groupe Accor a su voir dans le mobile une opportunité pour se ré-intermédier : avec ses applications officielles, il peut à nouveau vendre directement à ses clients (et qui plus est aux clients les plus fidèles à sa marque).

Il n’est donc pas interdit de penser que les désintermédiateurs d’aujourd’hui seront les désintermédiés de demain.

L'infobox Google fournit directement l'adresse, le numéro de téléphone et l'itinéraire

L’infobox Google fournit directement l’adresse, le numéro de téléphone et l’itinéraire

Les premiers à souffrir de la désintermediation proposée par le moteur de recherche sont précisement les nouveaux intermédiaires qui se sont développés avec le web. Si l’on reprend l’exemple des horaires de cinéma, les perdants potentiels sont davantage à chercher du côté d’AlloCiné, de Cinéfil, de Pariscope, voire des Pages Jaunes ou Mappy (Google propose le numéro de téléphone et le plan d’accès au cinéma directement dans une infobox  - voir ci-contre). Tout compte fait, ce n’est peut-être pas une si mauvaise opération pour l’exploitant d’un réseau de salles de cinéma…

Un dernier exemple – prospectif celui-là- pour illustrer le caractère dynamique de la désintermédiation. Quand Apple introduit la fonction de reconnaissance vocale Siri dans ses téléphones, c’est Google lui-même qui est menacé de désintermédiation : si je peux obtenir, par la parole, les horaires de séance de cinéma, plus besoin (pour ce cas précis) du moteur de recherche qui paraît aujourd’hui incontournable. (Nota : l’émergence des Google Glass peuvent aussi se lire avec cette grille de lecture).

3 – Chaque cycle technologique rebat les cartes de l’intermédiation, et l’open data en est un …

Comment considérer la question du partage de la donnée à la lumière de ce risque de désintermédiation ?

Le premier élément de réponse est à chercher du côté du mix possible en matière de partage de la donnée. Il ne s’agit pas de tout ouvrir (ou à l’inverse) de ne rien ouvrir. Il faut plutôt identifier les données – et leurs modes de partage – qui présentent le meilleur ratio démultiplication de l’effet réseau / risque de désintermédiation.

A ce titre je vous invite à relire le billet que j’avais consacré il y a quelques mois aux univers de diffusion des données. Amazon par exemple a bâti une partie de son succès sur une politique de demi-ouverture des données, via des API. On peut facilement intégrer un « morceau» du catalogue de produits d’Amazon sur n’importe quel blog ou site web. Les partenaires d’Amazon disposent aussi d’une visibilité assez détaillée sur les ventes réalisées via "leur" canal de distribution.

Cette stratégie a permis au libraire en ligne de profiter à plein des phénomènes d’externalités de réseau. Qui peut dire en l’espèce que le partage des données a accru le risque de désintermédiation pour Amazon ?

Bien au contraire, cette politique participe de la capacité d’Amazon à désintermédier les réseaux de distribution de produits (culturels)…

Dans ce travail d’identification des données bonnes à ouvrir et partager, on pourra notamment jouer sur les critères de segmentation couramment utilisés dans le domaine de la data : données chaudes / données froides, données descriptives du service / données de tarification, de transaction ou de relation client, …

Parmi les pistes identifiées, figure par exemple la possibilité d’intégrer un module de vente (par exemple de billets de train) qui serait réservé aux seules applications tierces labellisés… Un moyen de jouer à la fois la démultiplication de l’effet réseau via l’open data et de préserver la relation client.

4 – Où est le problème ?

« Le problème ce n’est pas tant la question de l’intermédiaire que celle du partage de la valeur » me faisait judicieusement remarquer mon sparring- partner Louis-David Benyayer (WithoutModel) alors que nous discutions de ce sujet. Et de me citer de multiples exemples (hors de l’économie numérique) d’acteurs qui ont fait évoluer leur position dans la chaîne de la valeur (Décathlon qui distribue de plus en plus ses propres produits, les acteurs de la grande distribution qui mettent en place les marques de distributeurs,… ).

Il me semble que ce n’est pas le moindre mérite de l’open data que de  poser cette question du partage de la valeur via les données. Où est la valeur dans les données (dans leur caractère brut, dans leur mise en perspective, dans leur combinaison, …) ? Comment la partage-t-on (avec qui, selon quelles conditions, avec une gouvernance ouverte ou fermée) ?