5 ans d’open data: qu’avons-nous appris ?

J’étais l’invité hier à Lausanne de la conférence Opendata.ch/2016, le rassemblement annuel de la communauté suisse des données ouvertes. J’ai profité de l’occasion pour prendre un peu de recul sur mes cinq premières années d’open data. Retour sur les principaux éléments de cette présentation.

L’époque des chasseurs-cueilleurs

M0005264 Kirikoraha ceremony.

Kirikoraha ceremony, Sri Lanka, circa 1910 Credit: Wellcome Library, London

Il y a cinq ans, nous étions tous des chasseurs-cueilleurs. Nos « armes » étaient rudimentaires: nos bras, notre arc et quelques flèches. Ou plutôt: des lois sur le droit d’accès à l’information, un momentum politique au niveau international – dont l’icône était Obama version 2008 (c’est-à-dire avant Prism) -,  une soif de transparence exprimée par la société civile et des mouvements citoyens plus ou moins organisés.

C’était une belle époque. Mais comme tous les chasseurs-cueilleurs nous avons surtout « attrapé » les animaux les moins rapides et les fruits les plus accessibles selon l’expression consacrée (« low-hanging fruits »). Les jeux de données qui présentaient le plus d’enjeux , en termes de transparence mais aussi de potentiel économique nous restaient largement inaccessibles.

Des échelles pour cueillir les « fruits les moins accessibles »

Alors, comment attraper les fruits les moins accessibles ? L’Homme a inventé l’échelle – et l’homo data sapiens a fait pareil.

L0026403 Two men carrying a ladder. Colour lithograph.

Credit: Wellcome Library, London

Nous avons passé ces dernières années à imaginer, construire et poser des échelles. La première d’entre elles, cela a été de construire un rapport de force favorable, en mettant le sujet sur l’agenda politique. La seconde échelle, c’est de faire évoluer la loi – ou plutôt les lois. On a parfois critiqué la difficulté à s’y retrouver dans les nombreux textes qui parlent maintenant d’open data, qu’il s’agisse de la loi sur la gratuité des données (loi Valter), le projet de loi République numérique (loi Lemaire) et les multiples dispositions sectorielles (santé, transports, biodiversité, …). OK. Mais ce sont autant d’échelles qui ont été posées. La troisième échelle ce sont les engagements internationaux;  c’est à mon avis le bénéfice le plus concret que l’open data peut tirer de l’adhésion de la France à l’Open Government Partnership. Des engagements ont été pris et il y a déjà des résultats concrets, par exemple sur la commande publique. La quatrième échelle c’est de maintenir la pression citoyenne, qu’elle soit spontanée ou un peu téléguidée comme dans le cas récent de la pétition Citymapper vs. Ratp.

Donc, on a construit des échelles. Et on attrapé des fruits que nous regardions avec envie il y a quelques années encore, que ce soit dans le domaine de la transparence, de la santé, ou de l’économie.

50 nuances de data

A force de cueillir des fruits, on a fini par apprendre une leçon: toutes les données ne se ressemblent pas et ne génèrent pas les mêmes usages. Certaines relèvent du champ de la transparence et du « droit de demander des comptes à tout agent de son administration » (déclaration des droits de l’homme et du citoyen, 1789), par exemple la réserve parlementaire. D’autres ont un potentiel local de services (par exemple des horaires d’ouverture des équipements publics). Et certaines ont une place à part, car elles constituent des références (au sens des données de référence du service public de la donnée).

On a toujours eu un peu de mal à accepter cette idée dans le mouvement open data; de peur sans doute que l’administration soit la seule à décider de ce qui « mérite » d’être ouvert…

Produire, pas uniquement ouvrir

Progressivement les cueilleurs sont devenus des agriculteurs. Et nous avons fait de même: après nous être nous-même nourri de notre cueillette (« eat your own dog food !« ) nous avons commencé à produire nous-même des données. Je pense que la création de la Base adresse nationale représente à ce titre un tournant important, et le fait qu’elle associe des institutions comme La Poste ou l’IGN et les contributeurs d’OpenStreetMap est tout à fait essentiel. La culture de l’open se diffuse par capillarité: d’abord sur la diffusion des données puis maintenant sur leur mode de production lui-même. Les sciences participatives, qui ne datent pas d’hier, ont beaucoup de choses à nous apprendre sur ces pratiques.

L’ouverture est une bataille culturelle

Mais la principale leçon de ces cinq dernières années c’est que l’ouverture est une bataille culturelle. Ouvrir les données, les codes sources mais aussi plus globalement la manière de prendre des décisions et d’agir. Peut-être sommes nous convaincus que l’ouverture, la circulation et la collaboration sont des valeurs partagées par tous – mais c’est une bataille qui vient à peine de commencer. Je repense par exemple à ce sénateur qui répond à l’une de ses collègues que « la loi ne s’écrit pas avec les internautes » alors même que le texte dont ils discutaient avait fait l’objet d’une consultation tout à fait originale en ligne.

Le propre des batailles culturelles c’est qu’elles sont toujours longue à mener … Et il faut bien se l’avouer: nous baignons tellement dans le bouillon numérique que nous avons du mal avec le temps long et sommes naturellement plutôt portés sur les quick wins.

Etes-vous prêt pour les 15 prochaines années ?

 

 

Données et concurrence: quand l’algorithme travaille pour les cartels

2466357253_03622550a9_zL’Autorité de la concurrence française et son homologue allemande Bundeskartellamt ont publié la semaine dernière une étude sur l’impact des données sur le droit de la concurrence1, et notamment la capacité des acteurs d’un marché à mettre en oeuvre des pratiques anti-concurrentielles (cartels d’entente sur les prix, par exemple). Les données et surtout les algorithmes posent des questions nouvelles, renforcant d’autant plus la nécessité de penser leur régulation.

Quand on parle de cartels et d’ententes illicites, on imagine sans peine la scène suivante: des messieurs dans des costumes de marque, des cigares à la main, se réunissent dans les salons privés et les bars discrets des grands hôtels. Ils échangent des informations sur le marché et se mettent d’accord sur l’évolution des prix et des volumes.

A vrai dire je n’invente pas grand chose dans cette scène: les industriels des produits frais laitiers ont été condamnés en mars 2015 à une amende de 190 millions d’euros pour avoir procédé ainsi pendant plusieurs années. Dans le relevé de la décision de l’Autorité de la concurrence, on peut notamment y lire – cela ne s’invente pas – que les réunions se tenaient à chaque fois dans un hôtel parisien différent et parfois aussi dans la brasserie « Le chien qui fume » située près de Montparnasse …

Les données et les algorithmes vont donner du fil à retordre aux autorités en charge de la concurrence, nous explique en substance l’étude conjointe des deux autorités européennes. Leur préoccupation rejoint celle du département de la Justice américain, dont l’un des représentants a déclaré l’an dernier:

“We will not tolerate anticompetitive conduct, whether it occurs in a smoke-filled room or over the Internet using complex pricing algorithms. American consumers have the right to a free and fair marketplace online, as well as in brick and mortar businesses »2

 

L’image est destinée à frapper les esprits: les pratiques anti-concurrentielles voient aujourd’hui le jour non plus seulement dans les salons enfumés des hôtels, mais aussi à l’intérieur même du code informatique et des algorithmes. Ces derniers peuvent notamment être programmés pour réagir à des mouvements de prix des concurrents. Ils peuvent même intégrer dans leurs calculs les comportements passés des dits concurrents: comment ont-ils réagi au cours des dernières années ? On retrouve ici la capacité d’apprentissage propre aux traitements de type machine learning.

L’Autorité de la concurrence et le Bundeskartellamt pointent aussi le risque d’une entente non-intentionnelle ou non-coordonnée: les concurrents n’ont plus besoin de se retrouver ou de se mettre d’accord, l’utilisation d’algorithmes de fixation des prix identiques suffit à assurer cette coordination. « Difficult to prove » est l’une des expressions récurrentes de ce document. On voit bien effet qu’il va être très difficile de prouver les intentions d’un cartel qui ne se rencontre jamais, qui n’est jamais en relation, mais qui pourtant aboutit à une réduction de la compétition sur un marché donné !

Il me semble par ailleurs que les données sont un autre élément d’enquête à disposition des autorités de la concurrence. J’ai eu l’occasion il y a deux ans d’accompagner des étudiants de la chaire ESSEC Analytics encadrés par Nicolas Glady. L’un des groupes a ainsi pu travailler sur un cold case: les tarifs des carburants dans les stations-services de France3. Leur travail d’analyse s’est appuyé sur les données historiques proposées en open data par Bercy. On voit bien dans ce cas qu’il y a un intérêt, pour le régulateur, à se doter de capacité à traiter et analyser les données pour trouver de nouveaux indices de comportements anti-concurrentiels (j’utilise à dessein le terme d’indice et non de preuve formelle).

Il faut remettre ces premiers éléments dans une perspective plus large: la régulation des algorithmes et des traitements automatisés. Cette question est le plus souvent abordée sous l’angle de la protection de la vie privée – la Maison Blanche a par exemple pointé récemment le risque de discrimination pour les individus. L’étude de l’Autorité de la concurrence vient à point nommé pour rappeler que l’efficacité de la régulation tient aussi à une meilleure coordination entre le droit de la concurrence et celui qui protège la vie privée des individus (la loi Informatique et Libertés pour notre pays) 4.

— Notes

1 le document est actuellement disponible uniquement en langue anglaise, mais une traduction en français est annoncée.

2 Assistant Attorney General Bill Baer, cité dans « Artificial Intelligence & Collusion: When Computers Inhibit Competition« , Maurice E. Stucke & Ariel Ezrachi, mai 2015, University of Tennessee College of Law

3 Cold case car la condamnation des principaux pétroliers pour entente illicite sur les tarifs pratiqués dans les stations-services d’autoroute a été annulée par la suite.

4 On peut citer en appui la décision rendue concernant GDF. Saisie par un concurrent (Direct Energies), la société GDF a été condamnée à fournir les données de consommation de ses clients à des tiers pour faciliter l’entrée sur le marché de nouveaux concurrents. En vertu des principes de la loi Informatique et Libertés, les clients de GDF devaient donner leur accord explicite à ce transfert. Et en pratique une très grande part d’entre eux l’ont refusé, réduisant d’autant la portée de la décision de l’autorité de la concurrence.

Crédit photo: Fairmont Hotel Lobby, San Jose California par Pargon

Algorithmes: à qui profite le flou ?

En passant

Internet Actu relate récemment la rencontre organisée par France Stratégies à propos de la responsabilité des algorithmes. Daniel Le Métayer, chercheur à l’INRIA, évoque notamment le fait qu’il est souvent bien difficile de savoir ce que désigne précisement ce terme d’algorithme. « Recette de cuisine » pour les uns, « ensemble de procédés de calcul » pour d’autres et même tout simplement « programme informatique » pour les derniers.

Ce flou n’empêche aucunement le terme algorithme de fleurir un peu partout dans la presse (de moins en moins) spécialisée. Ainsi le débat actuel aux Etats-Unis portent sur l’algorithme de classement de contenu de Facebook, accusé de partialité dans la campagne des primaires (un élu du Dakota du Sud a même demandé à Mark Zuckerberg d’expliciter le fonctionnement de son système de curation).

C’est l’une des caractéristiques des mots-valise: leur imprécision est à la hauteur de leur popularité. Dès lors, on peut légitimement se demander: à qui profite le flou ? Qui a intérêt à continuer à désigner, de manière aussi vague, ces systèmes automatisés de traitement ?

Il faut tout d’abord regarder du côté des concepteurs de ces systèmes. Quand on parle de l’algorithme de Google, ou de celui de Facebook, on tend à résumer ces entreprises à un simple objet technique, a priori asexué et surement neutre. Parler de l’algorithme d’Uber ou de Facebook, se concentrer uniquement sur cela, c’est passer sous silence le modèle économique de ces organisations, le système dans lequel elles interviennent, les valeurs portées par les hommes et les femmes qui les imaginent, les conçoivent, les développent et les optimisent. Il y a de la chair derrière les algorithmes, des passions, des contraintes, des intentions, …

Ensuite le terme d’algorithme fleure bon la précision des mathématiques, des statistiques*. Parler de « programme informatique » c’est beaucoup plus trivial et cela évoque aussi davantage l’idée que le code informatique – et le développeur – sont faillibles. Si l’algorithme est paré des vertus de la science, le code lui est porteur de bugs, de dysfonctionnements, d’imperfections. D’humanité, en quelque sorte.

Enfin, il me semble que le flou entretenu n’est pas un accident. L’utilisation du terme d’algorithme tient à distance. L’objet semble hors de portée, difficile à saisir (comprendre) donc difficile à saisir (tenir). Certains concepteurs évoquent d’ailleurs la complexité des systèmes, et en particulier celles des systèmes apprenants (machine learning) pour s’excuser, par avance, de ne pas être en mesure d’en expliquer le fonctionnement, les intentions et les contraintes. Il me semble pour ma part que l’intelligibilité de ces systèmes est l’une des conditions essentielles de leur acceptabilité sociale et in fine, de la capacité à demander des comptes à ces systèmes (accountability).

* On peut faire le parallèle avec l’origine du mot « donnée » qui évoque l’idée d’un objet exogène (les données du débat), qui vient d’on ne sait où mais n’est pas censé être mis en débat.

La marchandisation des données SNCF n’est pas la réponse à Google

Mardi matin, Louis-David Benyayer et moi étions invités par le think tank Renaissance numérique à présenter notre ouvrage Datanomics. Il a notamment été question, lors de cette heure de discussion, de la position de la SNCF et de sa volonté de vendre les données via sa nouvelle API en mode freemium. L’Usine Digitale s’en est fait l’écho, reprenant le tonitruant « Tu déconnes, Yves !« , adressé à Yves Tirode, le patron du digital au sein de la compagnie nationale. Retour sur le sujet, de manière un peu moins… lapidaire.

La SNCF met en oeuvre actuellement son ambitieuse stratégie digitale, qui inclut notamment l’ouverture d’une API d’accès aux données, en mode freemium. La vente de données est présentée comme la solution pour contrer le risque – bien réel ! – que représente Google et les plateformes numériques. Pour ma part, je ne crois pas que la marchandisation des données soit une réponse efficace. Des stratégies alternatives sont déjà mises en oeuvre dans de nombreux secteurs, dont la distribution. Mais avant de les développer, il me semble nécessaire de retracer les enjeux du sujet. La nouvelle stratégie de la SNCF en matière de données s’appuie sur un déjà long historique autour des données ouvertes, que l’on pourrait résumer par la formule de Danah Boyd: « It’s complicated ! ».

1 – Pourquoi c’est compliqué 

Le positionnement du groupe SNCF à l’open data est relativement complexe, et reflète bien la diversité des activités de l’entreprise, entre service public (Transilien, TER, Intercités) et activité soumise à la concurrence (TGV et Voyages SNCF).
C’est au sein de sa filiale Keolis que l’on trouve le premier réseau de transports publics urbains à avoir ouvert des données dès 2011 (Keolis Rennes). Le groupe a lancé ses initiatives sur le sujet début 2012, avec l’activité Transilien comme fer de lance (ouverture des données transport de l’Ile de France, bien en amont de la RATP).
Aujourd’hui, le groupe possède un portail Open Data (data.sncf.com) qui propose des données sur l’offre de transport mais aussi des données de transparence (nombre et type d’incidents, conflictualité au sein de l’entreprise, etc…).  Depuis lundi dernier, une API, proposée en mode freemium propose une sélection de données, dont certaines temps réel. Cette API propose tous les trains, inclus donc les TGV ce qui représente la vraie nouveauté.
Dernier point, la SNCF s’est engagée dans des relations étroites avec les éco-systèmes numériques (programme « DataShaker SNCF » au Numa, Meet Up Data Transport, …). L’entreprise est aussi impliquée dans des projets collaboratifs, comme la cartographie des gares d’Ile de France sur OpenStreetMap. Enfin, l’open data est aussi pour eux un enjeu de changement de la culture interne, notamment en matière d’innovation ouverte.
Mais ce dynamisme masque difficilement le fait que le sujet open data est longtemps resté très clivant au sein de l’entreprise. Les activités relevant du service public ont une politique offensive sur le sujet, mais l’activité SNCF Voyages – dont est issue le nouveau directeur digital et communication – a adopté, depuis l’origine, une posture beaucoup plus défensive. Ainsi, les données sur l’offre TGV, les horaires temps réel ou encore la tarification ne rentrent dans le périmètre de l’Open Data au sens « données librement et gratuitement réutilisables sans limitation d’usage ».
La SNCF fait valoir que le champ concurrentiel dans lequel l’entreprise opère ne lui permet pas de les ouvrir, au risque de favoriser l’émergence d’acteurs tiers, pas nécessairement les concurrents les plus évidents (ex. Deutsche Bahn) mais plutôt de nouveaux intermédiaires comme Google. Guillaume Pepy est d’ailleurs l’un des patrons français les plus offensifs, et sûrement le plus clairvoyant sur le sujet. Il a, dès 2012, désigné Google comme son principal concurrent.
Le risque de désintermédiation est mis en avant, à l’image de ce qui existe dans l’aérien, où les brokers occupent une place tellement centrale que les compagnies aériennes ont perdu une bonne partie de la relation client, et avec elle la capacité à se démarquer autrement que par les prix.
Ce risque est bien réel. Google propose chaque jour un nombre croissant de services: il pourrait très bien vendre des billets de trains ou encore faire payer à la compagnie ferroviaire une commission pour apport de trafic, comme le fait aujourd’hui Booking dans l’hôtellerie. Franchement, je préfère encore lâcher mes sous pour une entreprise qui paie ses impôts en France (ce qui est aussi le cas de Capitaine Train me semble-t-il) plutôt qu’à l’un des GAFA, qui se caractérisent par l’omniprésence de leur service inversement proportionnelle à leur contribution à l’impôt dans notre pays.
2 – La donnée TGV est un actif stratégique avant d’être une matière première

L’idée de l’API freemium est de faire payer les données selon le niveau d’usage. Cela permettrait a priori de réconcilier deux objectifs: favoriser l’innovation ouverte (en ouvrant les données, y compris temps réel, aux petites start-ups) et se prémunir de l’hégémonie des grands acteurs du web (qui paieraient plein pot). Et c’est là, à mon avis, qu’il y a un besoin de clarification.

Dans Datanomics, nous avons identifiés trois facettes de la valeur des données:

– quand elles sont revendues par ceux qui les collectent, les produisent ou les aggrègent, les données prennent une forme de matière première,

– quand elles sont utilisées, sans marchandisation, par exemple pour réduire les coûts ou développer les revenus, elles prennent une forme de levier,

– enfin, quand elles constituent une arme stratégique pour défendre et conquérir une position concurrentielle, elles prennent une valeur d’actif.

Ces trois facettes de la valeur ne sont pas exclusives. Certaines entreprises ou certaines données, révèlent plusieurs formes simultanées de valeur. Cette grille me semble pertinente pour voir ce qui se joue autour de la vente des données TGV. Il faut considérer la donnée comme un actif stratégique qui permet de défendre un marché ou de conquérir une nouvelle position, et pas uniquement comme une matière première que l’on vend et que l’on achète.

On ne connait pas encore la grille tarifaire de l’API SNCF. Elle doit être annoncée cet été. Mais on peut au moins regarder ce qui se fait à l’étranger. Au Royaume-Uni, une start-up accompagnée par l’Open Data Institute propose un service similaire, Transport API. Sa grille tarifaire est en ligne. On peut ainsi y lire que pour un accès illimité, sans contrainte de nombre de requêtes, il faut s’acquitter d’un peu plus de 100 000 euros par an.

Admettons que la SNCF arrive à placer la barre encore plus haut et qu’elle fixe les tarifs, pour un acteur gros consommateur de son API freemium (genre Google) à 1 million d’euros par an. A partir de là, on a deux hypothèses. La première: Google accepte de payer. 1 million d’euros: ca fait déjà une très jolie somme, sur le marché de la donnée. Mais rappelons juste qu’une rame de TGV cela coûte entre 15 et 20 millions d’euros. On ne brade pas un actif stratégique pour le prix d’un demi-wagon de train. La seconde hypothèse: Google ne veut pas payer. C’est un peu une stratégie « à la Grand Lyon« : je fixe un tarif qui, en résumé, veut dire: « on ne veut pas de vous ».

Dans cette optique, la SNCF ne veut en réalité pas vendre ses données à Google.

Considérer la donnée comme un actif stratégique, c’est notamment l’utiliser pour construire un rapport de force favorable. Ce qui fait la vraie richesse de Twitter ou Facebook ce n’est pas de vendre les données aux développeurs, mais de maîtriser le robinet, en l’occurrence l’API. Le pouvoir de ces entreprises c’est de décider des conditions d’accès, et de pouvoir les modifier sans préavis. Ce qui est vrai pour Twitter l’est aussi pour le gouvernement américain: le GPS est accessible gratuitement, mais les américains se réservent le droit de dégrader ou d’interrompre le service.

Le GPS est d’ailleurs un bon exemple où la donnée a un coût important (on évalue le programme à 14 milliards de dollars), une valeur d’usage très forte (70 milliards de dollars par an) mais un prix égale à zéro. L’argument « cela doit avoir un prix parce que cela a un coût » n’est pas toujours vrai. Dans le domaine de la distribution aussi, la donnée permet de recomposer la chaîne de valeur. Walmart offre ainsi à tous ses fournisseurs une donnée temps réel sur les niveaux de stocks et de vente de leurs produits (Walmart Retail Link). En procédant ainsi, le géant américain renverse la responsabilité: c’est au fabriquant de s’assurer que le produit est disponible. Cette donnée n’est pas vendue, mais cela ne l’empêche d’avoir une valeur stratégique très forte.

Ce débat ne concerne pas que la SNCF.  Toutes les entreprises qui produisent des données se posent les mêmes questions et sont confrontées aux mêmes enjeux. Mais ce serait une erreur de les laisser croire que la marchandisation est une réponse au risque que représente les plateformes du numérique…

Crédit photo: SNCF TGV Duplex 275 par eldelinux

Datanomics, un livre pour alimenter le débat sur les données

PlatCouv-DatanomicsV2_orange.inddAu début de l’année 2014, nous commencions ici et sur Without Model un travail d’exploration de la valeur des données, nous sommes heureux de vous annoncer la sortie de Datanomics, les nouveaux business models des données (Fyp Editions, 2015).

Le point de départ, une interrogation et une insatisfaction

Lorsque nous avons commencé à travailler sur la question de la valeur des données, nous constations chaque jour un décalage croissant entre les pratiques des données et notre compréhension, souvent partielle, de leurs enjeux techniques, économiques, politiques et sociétaux. Face à cette réalité, les discours, les raisonnements et les débats sont fragmentés. Même notre « pensée » sur les données est en silos. On continue de structurer les échanges par type de données : personnelles, ouvertes, massives. Cette approche, qui conduit à des discours d’expertise, ne nous aide pas à comprendre les interactions entre toutes ces dimensions.

Pour sortir du flou, il fallait choisir une clé de lecture. La question de la valeur et les discours qui lui sont associés nous ont semblé pertinents pour éclairer les changements en cours. La valeur, forcément subjective, que nous accordons aux données est à la fois la cause et la conséquence de nos actions, le déterminant et le résultat.

Une double question nous animait au moment de commencer cette exploration de la valeur des données : où est la valeur, se mesure-t-elle uniquement en euros, ça change quoi pour les individus, les entreprises et la société ?

Une année d’exploration

Pour nourrir cette question, nous avons régulièrement interagi en ligne et lors d’événements pour établir les thèmes  les plus saillants et mettre à l’épreuve nos principales hypothèses.

Les retours reçus suite à la publication des articles Datanomics ont confirmé nos intuitions (Explorer la valeur des donnéesLa révolution des proxiesLes données de l’internet des objets et la valeur de l’open data), les présentations lors du Web2day et d’Open Experience nous ont permis de mieux les formuler.

Nous remercions en particulier celles et ceux qui ont contribué par leurs réactions et leurs travaux à cette exploration : Henri Verdier, Valérie Peugeot, Daniel Kaplan, Bruno Marzloff, Bernard Stiegler, Yann Moulier-Boutang, Nicolas Colin, Christophe Benavent, Hubert Guillaud, Lionel Maurel, Camille Domange, Stéphane Schultz et Adnène Trojette, Romain Lalanne, Frédéric Charles, Christian Quest, Loïc Hay, Stéphane Derville, Stéphan Minard, Charles Népote, Chloé Bonnet, Kat Borlongan, Guillaume Crouigneau, Tristan Nitot, l’équipe de la mission Etalab et Olivier Mamavi.

Un livre pour alimenter le débat

Après ce travail d’exploration, les événements et débats récents confirment que le travail de pédagogie reste entier. Plusieurs organisations ou individus s’engagent pour l’alimenter (par exemple OpenClassrooms ou Tristan Nitot) et nous  avons écrit ce livre pour participer à ce débat.

Cet essai explore les transformations engendrées par un monde de données abondantes.

  • La première transformation concerne la façon dont nous produisons et collectons aujourd’hui des données. Ce phénomène, appelé « big data », n’est pas qu’une affaire de volume : il change fondamentalement la nature même des données qui peuvent être mobilisées.
  • La deuxième est liée aux fondements de la valeur : la rareté a cédé la place à l’abondance. Les données ne valent pas tant pour ce qu’elles sont, mais plutôt pour ce qu’elles permettent de faire et pour les positions stratégiques auxquelles elles donnent accès.
  • La troisième transformation est liée à l’émergence d’une économie de la donnée selon trois facettes : la matière première, le levier et l’actif stratégique. Bien plus qu’un bien qui se vend et s’achète, la donnée est un outil puissant pour décider, agir et produire autrement, mais aussi pour prendre place au sein d’un écosystème.

Le propos ne serait pas complet sans une analyse critique des impacts pour les entreprises, l’acteur public et les individus. Car les données sont pour chacun une source d’opportunités et de menaces. Elles rebattent les cartes de la concurrence, interrogent les services publics dans leurs missions et interpellent les individus sur leur capacité à ne pas être « prisonniers des algorithmes », mais plutôt à utiliser les données comme un levier d’émancipation.

Datanomics s’adresse à ceux qui veulent comprendre et agir. Pour participer au débat nous vous invitons à utiliser #datanomics sur twitter et à parcourir le scoopit Datanomics.

J’ai contribué à « Open Models » (et c’était bien)

couv« Open Models, le livre » est le fruit des rencontres Open Experience initiées de janvier à juin 2014 par Without Model. L’idée: faire le tour des modèles économiques de l’open en 6 étapes, de l’art au manufacturing en passant par la data, la science, l’éducation et le logiciel. Retour sur ma modeste contribution à ce projet.

Je me souviens, je me rappelle. L’équipe de Without Model nous avait tous convié à une soirée dédiée à l’open data. Au programme: des interventions de Chloé Bonnet et Romain Lalanne (FivebyFive, SNCF), de Frédéric Charles (Lyonnaise des Eaux), de Christian Quest (OSM France), de Guillaume Crouigneau (Canal TP). Avec mon compère Louis-David Benyayer (à l’origine de Without Model), nous avions discuté de ce que l’open fait à la data.

Je me souviens, je me rappelle. C’était le 30 juin dernier, ce jour-là il faisait beau mais surtout il y avait au même moment un match de la Coupe du Monde de football, un huitième de final qui opposait la France au Nigéria (2-0). Autant dire que l’audience était de très bonne qualité, à défaut d’être présente en quantité😉

Je me souviens, je me rappelle aussi que l’histoire de l’open data a toujours eu en toile de fond le débat entre partisans du logiciel libre et ceux de l’open source. S’intéresser aux modèles ouverts, qui plus est dans ses dimensions multiples, m’apparait donc comme une excellente idée.

Tout cela pour vous annoncer donc que la souscription pour la réalisation d' »Open Models, le livre » est lancée, et que je vous invite à y contribuer. L’ouvrage est magnifique, et il regroupe plus d’une cinquantaine de contributeurs dont Michel Bauwens et Bernard Stiegler… (et en prime cette dernière intervention est tout à fait compréhensible). Elle est pas belle, la vie ?

 

Datanomics: « Open Data: show me the money ! »

Open-exp-6-Show-me-the-money4 ans après les premières démarches d’ouverture des données publiques en France, la question économique reste entière. Pourquoi a-t-on toujours autant de mal à déterminer l’impact économique de l’open data, autrement qu’à grands coups de milliards de dollars façon Mc Kinsey… ? Elle est où la start-up qui va révolutionner le monde et qui doit tout aux données ouvertes ?

Louis-David Benyayer et Simon Chignard (Datanomics) proposent de considérer la question sous l’ange de la valeur des données: qu’est-ce que l’Open fait aux données ? Ce texte est publié simultanément sur withoutmodel.com et la vidéo réalisée lors d’Open Experience 6 est visible ici.

Elle est-où la super start-up qui doit tout à l’open data ?

Le débat sur la valorisation n’est pas nouveau et les mesures de la valeur de l’open data s’établissent selon deux logiques. Soit c’est la valeur du marché des informations publiques qui est mesurée (par exemple dans le cadre de l’étude MEPSIR de 2006) alors que nombre d’entre elles ne sont pas ouvertes. Soit ce sont les gains d’opportunité qui sont comptabilisés (Mc Kinsey Global Institute).

Suivant cette deuxième logique, les rapports se sont succédés et concluent tous à des montants colossaux. Le plus récent, celui de McKinsey en 2013, situe entre 3 220 et 5 290 milliards de dollars la valeur annuelle de l’open data. A titre de comparaison, le PIB de l’Allemagne, 4ème puissance mondiale est de 3 747 milliards.

Dans le même temps, les gouvernements ont été nombreux à mettre en place des politiques d’ouverture des données publiques pour des raisons politiques (une gouvernance plus ouverte), économiques (permettre le développement de nouvelles activités qui génèront des bénéfices économiques pour l’état et la société) ou pour impulser la modernisation de l’action publique.

Cependant, force est de constater aujourd’hui que peu d’exemples probants de valeur économique générée par des données publiques ouvertes sont disponibles: elle est où la start-up qui doit tout à l’open data ? De même, les entreprises ne s’engagent pas de façon très nette dans l’ouverture des données qu’elles détiennent, génèrent ou manipulent, à l’exception de quelques acteurs du secteur des transports et de la mobilité. Plus encore, on a parfois du mal à comprendre si l’open crée de la valeur pour les données… ou alors en détruit (par les mécanismes de gratuité, etc.).

Quelles raisons expliquent cette difficulté à mesurer l’impact économique et la valeur de l’Open Data ?

Trois hypothèses

Hypothèse 1 : c’est trop tôt

L’effet-retard est une première hypothèse que l’on peut mobiliser pour expliquer notre difficulté à mesurer les impacts économiques. Selon cette approche, développée notamment dans l’étude réalisée en 2012 par Marc de Vries et Geoff Sawyer pour le compte de l’Agence spatiale européenne. Les deux auteurs distinguent ainsi 3 phases dans les effets de l’ouverture des données : une phase d’ensemencement (sowing phase), une phase de culture (growing phase) et une phase de récolte (harvesting phase). Si l’on retient cette approche, il est donc logique de ne pas voir aujourd’hui les bénéfices économiques car nous ne serions pas encore rentrés dans la phase de récolte…

Hypothèse 2: parce que c’est trop diffus et/ou compliqué

Dans les rapports et évaluation de la valeur de l’open data, un élément important est souvent peu mis en lumière par les auteurs et les commentateurs qui explique en partie la difficulté à voir la réalisation des promesses avancées. Dans de nombreuses évaluations (et dans de nombreux cas d’utilisation des données ouvertes), la valeur de l’open data se réalise largement en combinaison avec d’autres données qui, elles, ne sont pas forcément ouvertes, ce qui est appelé généralement les big data.

Note de bas de page du rapport McKinsey de 2013 (page 2) :

Throughout this report we express value in terms of annual economic surplus in 2013 US dollars, not the discounted value of future cash flows; this valuation represents estimates based on initiatives where open data are necessary but not sufficient for realizing value. Often, value is achieved by combining analysis of open and proprietary information to identify ways to improve business or government practices. Given the interdependence of these factors, we did not attempt to estimate open data’s relative contribution; rather, our estimates represent the total value created.

Ainsi, selon cette hypothèse, pour que la valeur de l’open data se révèle, la disponibilité et l’utilisation d’autres données est déterminante. Ce n’est pas la seule mise à disposition qui produit l’intégralité de la valeur.

Hypothèse 3: parce qu’on ne connaît pas bien les réutilisateurs

Enfin, la dernière hypothèse est que les réutilisations de données publiques ouvertes ne sont pas toutes visibles, communiquées ou explicites.

Certaines réutilisations sont particulièrement visibles quand elles sont incarnées par des applications mobiles qui le revendiquent. En revanche, la majorité des réutilisations de données publiques ouvertes n’est pas communiquée à l’extérieur de l’organisation qui les utilise. On mesure donc difficilement ce qui ne nous est pas donné à voir.

Toutefois, des effort sont faits pour mieux identifier et révéler les utilisations, par exemple le site Open Data 500 qui les recense et la plateforme ouverte des données publiques data.gouv.fr qui permet aux utilisateurs de mettre en ligne les réutilisations qu’ils ont faites des données mises à disposition.

Pistes de réflexion Datanomics, qu’est-ce que l’open fait à la valeur des données ?

Pour tenter d’y voir plus clair dans cette questions de la valeur de l’open data, faisons un détour par la valeur des data. Dans le cadre de Datanomics, nous avons identifié une typologie de trois formes de valeur des données : les données comme matière première, les données comme levier et les données comme actif stratégique (nous avons fait une première descriptions de cette typologie dans cet article à propos des objets connectés).

Concentrons nous ici sur les données comme matière première. Les métaphores habituelles utilisées pour décrire la valeur des données (pétrole, diamant, blé ou l’or) nous ramènent assez vite dans cette conception de la valeur des données comme matière première. On y voit les données comme un combustible qui alimenterait une machine (le pétrole), comme une matière qui prend sa valeur une fois qu’elle est travaillée (le diamant) ou comme un produit qui peut être consommé ou utilisé pour se renouveler (le blé). Les limites de ces comparaisons sont nombreuses : à la différence du pétrole qui disparait avec son utilisation, les données peuvent être réutilisées à l’infini, à la différence de l’or, les données ne prennent pas de valeur de thésaurisation.

Un constat s’impose : avec des données ouvertes (dont, par définition, on ne monétise pas la transmission), la valeur monétaire, celle qu’on associe à la donnée comme matière première, est en grande partie liquidée. C’est d’ailleurs l’une des conclusions du rapport Trojette sur les redevances des données publiques publié en 2013.

Autre raison qui explique la liquidation de la valeur des données avec l’ouverture : la révolution des proxies. Comme de nombreuses sources sont disponibles pour mesurer le même phénomène et qu’une grande partie est accessible gratuitement, la rareté et l’exclusivité des données sont moins assurés: leur valeur monétaire tend à décroitre.

Cette explication est confortée par un autre constat concernant les acteurs de l’open data et leur modèle économique. Au démarrage des initiatives d’open data, des acteurs économiques sont apparus avec un positionnement d’infomédiaire ou de place de marché de données ouvertes (Infochimps et Data Publica par exemple). Aujourd’hui ces acteurs ont abandonné ce positionnement de pur intermédiaire (data broker) pour évoluer vers un positionnement de type service. Ce ne sont pas les données qui sont vendues mais les services qui permettent de l’exploiter (API, analyse ou visualisation par exemple).

C’est la forme de valeur des données comme levier qui correspond probablement le plus à la valeur de l’open data : elles permettent aux organisations qui utilisent des données ouvertes d’améliorer leur performance soit en évitant des coûts soit en développant des revenus (par une meilleure tarification ou par de nouvelles ventes)

Finalement

Les caractéristiques de la valeur de l’open data sont celles des données en général : la valeur est dans la réutilisation, elle est future et co-construite.

Dans la réutilisation car elle est n’est pas monétisé directement. Future car la valeur ne se révèle qu’une fois l’utilisation réalisée (elle s’évalue difficilement a priori). Co-construite car c’est rarement celui qui dispose des données qui peut en révéler toute la valeur.

In fine, l’ouverture des donées pose un grand nombre de défis aux acteurs privés : faut-il acter la liquidation de la valeur monétaire des données – c’est-à-dire renoncer à les vendre – pour mieux en exploiter la valeur stratégique et de levier ? Comme nous le disait un responsable d’un grand groupe, par ailleurs largement impliqué dans des démarches open data : “tant que personne ne fait d’argent avec nos données, cela ne nous pose pas de problème de les ouvrir”.

 

Image d’illustration par Hélène Pouille