La marchandisation des données SNCF n’est pas la réponse à Google

Mardi matin, Louis-David Benyayer et moi étions invités par le think tank Renaissance numérique à présenter notre ouvrage Datanomics. Il a notamment été question, lors de cette heure de discussion, de la position de la SNCF et de sa volonté de vendre les données via sa nouvelle API en mode freemium. L’Usine Digitale s’en est fait l’écho, reprenant le tonitruant « Tu déconnes, Yves !« , adressé à Yves Tirode, le patron du digital au sein de la compagnie nationale. Retour sur le sujet, de manière un peu moins… lapidaire.

La SNCF met en oeuvre actuellement son ambitieuse stratégie digitale, qui inclut notamment l’ouverture d’une API d’accès aux données, en mode freemium. La vente de données est présentée comme la solution pour contrer le risque – bien réel ! – que représente Google et les plateformes numériques. Pour ma part, je ne crois pas que la marchandisation des données soit une réponse efficace. Des stratégies alternatives sont déjà mises en oeuvre dans de nombreux secteurs, dont la distribution. Mais avant de les développer, il me semble nécessaire de retracer les enjeux du sujet. La nouvelle stratégie de la SNCF en matière de données s’appuie sur un déjà long historique autour des données ouvertes, que l’on pourrait résumer par la formule de Danah Boyd: « It’s complicated ! ».

1 – Pourquoi c’est compliqué 

Le positionnement du groupe SNCF à l’open data est relativement complexe, et reflète bien la diversité des activités de l’entreprise, entre service public (Transilien, TER, Intercités) et activité soumise à la concurrence (TGV et Voyages SNCF).
C’est au sein de sa filiale Keolis que l’on trouve le premier réseau de transports publics urbains à avoir ouvert des données dès 2011 (Keolis Rennes). Le groupe a lancé ses initiatives sur le sujet début 2012, avec l’activité Transilien comme fer de lance (ouverture des données transport de l’Ile de France, bien en amont de la RATP).
Aujourd’hui, le groupe possède un portail Open Data (data.sncf.com) qui propose des données sur l’offre de transport mais aussi des données de transparence (nombre et type d’incidents, conflictualité au sein de l’entreprise, etc…).  Depuis lundi dernier, une API, proposée en mode freemium propose une sélection de données, dont certaines temps réel. Cette API propose tous les trains, inclus donc les TGV ce qui représente la vraie nouveauté.
Dernier point, la SNCF s’est engagée dans des relations étroites avec les éco-systèmes numériques (programme « DataShaker SNCF » au Numa, Meet Up Data Transport, …). L’entreprise est aussi impliquée dans des projets collaboratifs, comme la cartographie des gares d’Ile de France sur OpenStreetMap. Enfin, l’open data est aussi pour eux un enjeu de changement de la culture interne, notamment en matière d’innovation ouverte.
Mais ce dynamisme masque difficilement le fait que le sujet open data est longtemps resté très clivant au sein de l’entreprise. Les activités relevant du service public ont une politique offensive sur le sujet, mais l’activité SNCF Voyages – dont est issue le nouveau directeur digital et communication – a adopté, depuis l’origine, une posture beaucoup plus défensive. Ainsi, les données sur l’offre TGV, les horaires temps réel ou encore la tarification ne rentrent dans le périmètre de l’Open Data au sens « données librement et gratuitement réutilisables sans limitation d’usage ».
La SNCF fait valoir que le champ concurrentiel dans lequel l’entreprise opère ne lui permet pas de les ouvrir, au risque de favoriser l’émergence d’acteurs tiers, pas nécessairement les concurrents les plus évidents (ex. Deutsche Bahn) mais plutôt de nouveaux intermédiaires comme Google. Guillaume Pepy est d’ailleurs l’un des patrons français les plus offensifs, et sûrement le plus clairvoyant sur le sujet. Il a, dès 2012, désigné Google comme son principal concurrent.
Le risque de désintermédiation est mis en avant, à l’image de ce qui existe dans l’aérien, où les brokers occupent une place tellement centrale que les compagnies aériennes ont perdu une bonne partie de la relation client, et avec elle la capacité à se démarquer autrement que par les prix.
Ce risque est bien réel. Google propose chaque jour un nombre croissant de services: il pourrait très bien vendre des billets de trains ou encore faire payer à la compagnie ferroviaire une commission pour apport de trafic, comme le fait aujourd’hui Booking dans l’hôtellerie. Franchement, je préfère encore lâcher mes sous pour une entreprise qui paie ses impôts en France (ce qui est aussi le cas de Capitaine Train me semble-t-il) plutôt qu’à l’un des GAFA, qui se caractérisent par l’omniprésence de leur service inversement proportionnelle à leur contribution à l’impôt dans notre pays.
2 – La donnée TGV est un actif stratégique avant d’être une matière première

L’idée de l’API freemium est de faire payer les données selon le niveau d’usage. Cela permettrait a priori de réconcilier deux objectifs: favoriser l’innovation ouverte (en ouvrant les données, y compris temps réel, aux petites start-ups) et se prémunir de l’hégémonie des grands acteurs du web (qui paieraient plein pot). Et c’est là, à mon avis, qu’il y a un besoin de clarification.

Dans Datanomics, nous avons identifiés trois facettes de la valeur des données:

– quand elles sont revendues par ceux qui les collectent, les produisent ou les aggrègent, les données prennent une forme de matière première,

– quand elles sont utilisées, sans marchandisation, par exemple pour réduire les coûts ou développer les revenus, elles prennent une forme de levier,

– enfin, quand elles constituent une arme stratégique pour défendre et conquérir une position concurrentielle, elles prennent une valeur d’actif.

Ces trois facettes de la valeur ne sont pas exclusives. Certaines entreprises ou certaines données, révèlent plusieurs formes simultanées de valeur. Cette grille me semble pertinente pour voir ce qui se joue autour de la vente des données TGV. Il faut considérer la donnée comme un actif stratégique qui permet de défendre un marché ou de conquérir une nouvelle position, et pas uniquement comme une matière première que l’on vend et que l’on achète.

On ne connait pas encore la grille tarifaire de l’API SNCF. Elle doit être annoncée cet été. Mais on peut au moins regarder ce qui se fait à l’étranger. Au Royaume-Uni, une start-up accompagnée par l’Open Data Institute propose un service similaire, Transport API. Sa grille tarifaire est en ligne. On peut ainsi y lire que pour un accès illimité, sans contrainte de nombre de requêtes, il faut s’acquitter d’un peu plus de 100 000 euros par an.

Admettons que la SNCF arrive à placer la barre encore plus haut et qu’elle fixe les tarifs, pour un acteur gros consommateur de son API freemium (genre Google) à 1 million d’euros par an. A partir de là, on a deux hypothèses. La première: Google accepte de payer. 1 million d’euros: ca fait déjà une très jolie somme, sur le marché de la donnée. Mais rappelons juste qu’une rame de TGV cela coûte entre 15 et 20 millions d’euros. On ne brade pas un actif stratégique pour le prix d’un demi-wagon de train. La seconde hypothèse: Google ne veut pas payer. C’est un peu une stratégie « à la Grand Lyon« : je fixe un tarif qui, en résumé, veut dire: « on ne veut pas de vous ».

Dans cette optique, la SNCF ne veut en réalité pas vendre ses données à Google.

Considérer la donnée comme un actif stratégique, c’est notamment l’utiliser pour construire un rapport de force favorable. Ce qui fait la vraie richesse de Twitter ou Facebook ce n’est pas de vendre les données aux développeurs, mais de maîtriser le robinet, en l’occurrence l’API. Le pouvoir de ces entreprises c’est de décider des conditions d’accès, et de pouvoir les modifier sans préavis. Ce qui est vrai pour Twitter l’est aussi pour le gouvernement américain: le GPS est accessible gratuitement, mais les américains se réservent le droit de dégrader ou d’interrompre le service.

Le GPS est d’ailleurs un bon exemple où la donnée a un coût important (on évalue le programme à 14 milliards de dollars), une valeur d’usage très forte (70 milliards de dollars par an) mais un prix égale à zéro. L’argument « cela doit avoir un prix parce que cela a un coût » n’est pas toujours vrai. Dans le domaine de la distribution aussi, la donnée permet de recomposer la chaîne de valeur. Walmart offre ainsi à tous ses fournisseurs une donnée temps réel sur les niveaux de stocks et de vente de leurs produits (Walmart Retail Link). En procédant ainsi, le géant américain renverse la responsabilité: c’est au fabriquant de s’assurer que le produit est disponible. Cette donnée n’est pas vendue, mais cela ne l’empêche d’avoir une valeur stratégique très forte.

Ce débat ne concerne pas que la SNCF.  Toutes les entreprises qui produisent des données se posent les mêmes questions et sont confrontées aux mêmes enjeux. Mais ce serait une erreur de les laisser croire que la marchandisation est une réponse au risque que représente les plateformes du numérique…

Crédit photo: SNCF TGV Duplex 275 par eldelinux

Datanomics: « Open Data: show me the money ! »

Open-exp-6-Show-me-the-money4 ans après les premières démarches d’ouverture des données publiques en France, la question économique reste entière. Pourquoi a-t-on toujours autant de mal à déterminer l’impact économique de l’open data, autrement qu’à grands coups de milliards de dollars façon Mc Kinsey… ? Elle est où la start-up qui va révolutionner le monde et qui doit tout aux données ouvertes ?

Louis-David Benyayer et Simon Chignard (Datanomics) proposent de considérer la question sous l’ange de la valeur des données: qu’est-ce que l’Open fait aux données ? Ce texte est publié simultanément sur withoutmodel.com et la vidéo réalisée lors d’Open Experience 6 est visible ici.

Elle est-où la super start-up qui doit tout à l’open data ?

Le débat sur la valorisation n’est pas nouveau et les mesures de la valeur de l’open data s’établissent selon deux logiques. Soit c’est la valeur du marché des informations publiques qui est mesurée (par exemple dans le cadre de l’étude MEPSIR de 2006) alors que nombre d’entre elles ne sont pas ouvertes. Soit ce sont les gains d’opportunité qui sont comptabilisés (Mc Kinsey Global Institute).

Suivant cette deuxième logique, les rapports se sont succédés et concluent tous à des montants colossaux. Le plus récent, celui de McKinsey en 2013, situe entre 3 220 et 5 290 milliards de dollars la valeur annuelle de l’open data. A titre de comparaison, le PIB de l’Allemagne, 4ème puissance mondiale est de 3 747 milliards.

Dans le même temps, les gouvernements ont été nombreux à mettre en place des politiques d’ouverture des données publiques pour des raisons politiques (une gouvernance plus ouverte), économiques (permettre le développement de nouvelles activités qui génèront des bénéfices économiques pour l’état et la société) ou pour impulser la modernisation de l’action publique.

Cependant, force est de constater aujourd’hui que peu d’exemples probants de valeur économique générée par des données publiques ouvertes sont disponibles: elle est où la start-up qui doit tout à l’open data ? De même, les entreprises ne s’engagent pas de façon très nette dans l’ouverture des données qu’elles détiennent, génèrent ou manipulent, à l’exception de quelques acteurs du secteur des transports et de la mobilité. Plus encore, on a parfois du mal à comprendre si l’open crée de la valeur pour les données… ou alors en détruit (par les mécanismes de gratuité, etc.).

Quelles raisons expliquent cette difficulté à mesurer l’impact économique et la valeur de l’Open Data ?

Trois hypothèses

Hypothèse 1 : c’est trop tôt

L’effet-retard est une première hypothèse que l’on peut mobiliser pour expliquer notre difficulté à mesurer les impacts économiques. Selon cette approche, développée notamment dans l’étude réalisée en 2012 par Marc de Vries et Geoff Sawyer pour le compte de l’Agence spatiale européenne. Les deux auteurs distinguent ainsi 3 phases dans les effets de l’ouverture des données : une phase d’ensemencement (sowing phase), une phase de culture (growing phase) et une phase de récolte (harvesting phase). Si l’on retient cette approche, il est donc logique de ne pas voir aujourd’hui les bénéfices économiques car nous ne serions pas encore rentrés dans la phase de récolte…

Hypothèse 2: parce que c’est trop diffus et/ou compliqué

Dans les rapports et évaluation de la valeur de l’open data, un élément important est souvent peu mis en lumière par les auteurs et les commentateurs qui explique en partie la difficulté à voir la réalisation des promesses avancées. Dans de nombreuses évaluations (et dans de nombreux cas d’utilisation des données ouvertes), la valeur de l’open data se réalise largement en combinaison avec d’autres données qui, elles, ne sont pas forcément ouvertes, ce qui est appelé généralement les big data.

Note de bas de page du rapport McKinsey de 2013 (page 2) :

Throughout this report we express value in terms of annual economic surplus in 2013 US dollars, not the discounted value of future cash flows; this valuation represents estimates based on initiatives where open data are necessary but not sufficient for realizing value. Often, value is achieved by combining analysis of open and proprietary information to identify ways to improve business or government practices. Given the interdependence of these factors, we did not attempt to estimate open data’s relative contribution; rather, our estimates represent the total value created.

Ainsi, selon cette hypothèse, pour que la valeur de l’open data se révèle, la disponibilité et l’utilisation d’autres données est déterminante. Ce n’est pas la seule mise à disposition qui produit l’intégralité de la valeur.

Hypothèse 3: parce qu’on ne connaît pas bien les réutilisateurs

Enfin, la dernière hypothèse est que les réutilisations de données publiques ouvertes ne sont pas toutes visibles, communiquées ou explicites.

Certaines réutilisations sont particulièrement visibles quand elles sont incarnées par des applications mobiles qui le revendiquent. En revanche, la majorité des réutilisations de données publiques ouvertes n’est pas communiquée à l’extérieur de l’organisation qui les utilise. On mesure donc difficilement ce qui ne nous est pas donné à voir.

Toutefois, des effort sont faits pour mieux identifier et révéler les utilisations, par exemple le site Open Data 500 qui les recense et la plateforme ouverte des données publiques data.gouv.fr qui permet aux utilisateurs de mettre en ligne les réutilisations qu’ils ont faites des données mises à disposition.

Pistes de réflexion Datanomics, qu’est-ce que l’open fait à la valeur des données ?

Pour tenter d’y voir plus clair dans cette questions de la valeur de l’open data, faisons un détour par la valeur des data. Dans le cadre de Datanomics, nous avons identifié une typologie de trois formes de valeur des données : les données comme matière première, les données comme levier et les données comme actif stratégique (nous avons fait une première descriptions de cette typologie dans cet article à propos des objets connectés).

Concentrons nous ici sur les données comme matière première. Les métaphores habituelles utilisées pour décrire la valeur des données (pétrole, diamant, blé ou l’or) nous ramènent assez vite dans cette conception de la valeur des données comme matière première. On y voit les données comme un combustible qui alimenterait une machine (le pétrole), comme une matière qui prend sa valeur une fois qu’elle est travaillée (le diamant) ou comme un produit qui peut être consommé ou utilisé pour se renouveler (le blé). Les limites de ces comparaisons sont nombreuses : à la différence du pétrole qui disparait avec son utilisation, les données peuvent être réutilisées à l’infini, à la différence de l’or, les données ne prennent pas de valeur de thésaurisation.

Un constat s’impose : avec des données ouvertes (dont, par définition, on ne monétise pas la transmission), la valeur monétaire, celle qu’on associe à la donnée comme matière première, est en grande partie liquidée. C’est d’ailleurs l’une des conclusions du rapport Trojette sur les redevances des données publiques publié en 2013.

Autre raison qui explique la liquidation de la valeur des données avec l’ouverture : la révolution des proxies. Comme de nombreuses sources sont disponibles pour mesurer le même phénomène et qu’une grande partie est accessible gratuitement, la rareté et l’exclusivité des données sont moins assurés: leur valeur monétaire tend à décroitre.

Cette explication est confortée par un autre constat concernant les acteurs de l’open data et leur modèle économique. Au démarrage des initiatives d’open data, des acteurs économiques sont apparus avec un positionnement d’infomédiaire ou de place de marché de données ouvertes (Infochimps et Data Publica par exemple). Aujourd’hui ces acteurs ont abandonné ce positionnement de pur intermédiaire (data broker) pour évoluer vers un positionnement de type service. Ce ne sont pas les données qui sont vendues mais les services qui permettent de l’exploiter (API, analyse ou visualisation par exemple).

C’est la forme de valeur des données comme levier qui correspond probablement le plus à la valeur de l’open data : elles permettent aux organisations qui utilisent des données ouvertes d’améliorer leur performance soit en évitant des coûts soit en développant des revenus (par une meilleure tarification ou par de nouvelles ventes)

Finalement

Les caractéristiques de la valeur de l’open data sont celles des données en général : la valeur est dans la réutilisation, elle est future et co-construite.

Dans la réutilisation car elle est n’est pas monétisé directement. Future car la valeur ne se révèle qu’une fois l’utilisation réalisée (elle s’évalue difficilement a priori). Co-construite car c’est rarement celui qui dispose des données qui peut en révéler toute la valeur.

In fine, l’ouverture des donées pose un grand nombre de défis aux acteurs privés : faut-il acter la liquidation de la valeur monétaire des données – c’est-à-dire renoncer à les vendre – pour mieux en exploiter la valeur stratégique et de levier ? Comme nous le disait un responsable d’un grand groupe, par ailleurs largement impliqué dans des démarches open data : “tant que personne ne fait d’argent avec nos données, cela ne nous pose pas de problème de les ouvrir”.

 

Image d’illustration par Hélène Pouille

 

Datanomics: la révolution des proxies

Poursuite de l’exploration de la valeur des données engagée avec Louis-David Benyayer. Après un premier billet de présentation de Datanomics, nous vous proposons un éclairage sur le phénomène des proxies et son impact pour les entreprises et les individus. Ce texte est publié simultanément sur withoutmodel.com.

Tourists vs. Locals  (MapBox / Gnip)

Tourists vs. Locals: une analyse des tweets
par MapBox et Gnip

Derrière la masse de données, les proxies

Le paysage actuel des données est le plus souvent abordé sous l’angle de la volumétrie. Il est vrai que l’accroissement spectaculaire des volumes de données collectées et stockées est la caractéristique première du Big Data. Cet effet de massification des données nous semble pourtant en cacher un autre: l’apparition des proxies, c’est à dire le fait que plusieurs sources très différentes puissent permettre de mesurer le même phénomène.

Prenons un exemple, sous la forme d’une interrogation: combien de personnes fréquentent chaque jour l’avenue des Champs Elysées ? Parmi elles, combien de touristes étrangers ? Plusieurs proxies sont disponibles: on peut utiliser les données de l’API de twitter et isoler la localisation parmi les métadonnées des tweets, consulter les données de localisation des téléphones portables, scruter les requêtes formulées sur le moteur de recherche Google, analyser les données du pass Navigo, celles des cartes bancaires utilisées dans les commerces de la plus belle avenue du monde, celles de Foursquare, … Sans même évoquer les procédés plus classiques, tels que les enquêtes réalisées auprès de la clientèle touristique ou le comptage manuel à quelques points de passage.

La généralisation des proxies nous semble constituer un fait nouveau: en raison de la mise en données du monde, de la multiplication des traces numériques et des dispositifs de captation, il y bien souvent aujourd’hui plusieurs manières de mesurer le même phénomène.

Dit autrement: la rareté laisse peu à peu la place à l’abondance – et surtout à la fin de l’exclusivité de la mesure. Plus personne ne semble à l’abri:  même la mesure de l’inflation, a priori une fonction régalienne, se voit concurrencée par une mesure réalisée par Premise Data, une start-up co-financée par Google et Marc Andreessen. On a donc une compétition entre proxies, et bien sûr entre acteurs qui les portent !

L’erreur était juste 

L’émergence des proxies ne va pas sans heurts. Avec la profusion vient aussi la confusion: Quelle est la meilleure méthode pour mesurer le phénomène ? Qui a “raison”, qui a “tort” ?

On comprend assez rapidement que chaque source de données comporte ses propres limites. Il est probable que les touristes étrangers aient désactivé le transfert de données (fort coûteux en roaming), réduisant d’autant la capacité à tweeter en tous temps et en tous lieux. De la même façon, les données du pass Navigo permettront de disposer d’une bonne visibilité sur les Parisiens ou Franciliens disposant d’un abonnement et moins sur les touristes de passage. Les données issues des cartes bancaires en revanche permettront de disposer d’une vision relativement complète sur les dépenses (mais moins sur les circulations !). Autant de biais dans les méthodes de mesure.

Chaque donnée nous informe sur une partie de la réalité et afin de pouvoir les analyser, il est indispensable d’en comprendre les mécanismes de production.

Ce que la science peut nous apprendre des données

Dans les discours et les pratiques, la donnée est toujours investie d’une objectivité toute naturelle : les données ne mentent pas ! Toutefois, dans certains cas, la donnée, à défaut de mentir, s’est magistralement trompée.

Ce fut le cas quand Google Flu trends a largement surestimé les prévisions de propagation de la grippe pendant l’hiver 2012-2013. Pendant de nombreuses années Google Flu trends – l’un des mythes fondateurs du Big Data –  a été un très bon prédictif de la propagation du virus grippal aux Etats-Unis, bien plus réactif que la mesure officielle réalisée par les services sanitaires.

En décembre 2012, il a pourtant réalisé une estimation trois fois supérieure aux autres indicateurs et à la réalité de la propagation de la grippe. Pourquoi cet écart ? La raison est à chercher dans la source des données utilisées pour établir la prévision de propagation : les requêtes saisies dans le moteur de recherche. Or, à l’hiver 2012, le nombre de requêtes a fortement évolué en raison d’évènements extérieurs, rendant d’un coup beaucoup moins fiable l’indicateur produit par Google:

“‘(…) Several researchers suggest that the problems may be due to widespread media coverage of this year’s severe US flu season, including the declaration of a public-health emergency by New York state last month. The press reports may have triggered many flu-related searches by people who were not ill.” (Declan Butler dans Nature, février 2013)

Dans un monde de données nous avons tous à nous préoccuper des conditions de production de la donnée,  débattre et argumenter sur les sources et les méthodes. Nous avons besoin de développer ces capacités d’appréciation de la validité et de la fiabilité des instruments de mesure qu’on nous propose. Or le monde des proxies n’est pas celui de la recherche scientifique: jusqu’à preuve du contraire, l’algorithme de classement des pages web reste l’un des secrets les mieux gardés de Google !

Assez curieusement, la donnée brute reste un mythe vivace. On entend plus souvent l’injonction “show me the data” plutôt que la question: “explique moi comment ces données ont été produites”. On retrouve ici une tension entre le besoin de brutification et celui de contextualisation. Brutifier la donnée pour la rendre plus facilement réutilisable c’est une exigence. Mais pour autant c’est bien la compréhension du contexte de cette donnée  – qui l’a produit ? pourquoi ? comment ? pour qui ? – qui fiabilise les traitements issus de sa réutilisation !

Datanomics: explorer la valeur des données

Avec Louis-David Benyayer nous avons entamé une exploration de la valeur des données: où est la valeur, se mesure-t-elle uniquement en euros, ça change quoi pour les individus, les entreprises et la société ? Nous partageons ici les points de départ de notre réflexion. Ce texte est publié simultanément sur withoutmodel.com.

"Open Data Commons" (photo by jwyg)

« Open Data Commons » (photo by jwyg)

Données partout, justice nulle part

Dans l’actualité récente de la donnée, Nelly Kroes a cotoyé Edward Snowden. L’un a révélé des pratiques de collecte et de surveillance à grande échelle et l’autre a une nouvelle fois mis en avant l’exploitation des données comme la réponse aux déficits de croissance de nos économies européennes… Les données sont en train de bouleverser les équilibres économiques, sociaux et politiques. Et ce n’est probablement que le début, si l’on considère l’essor de l’Internet des objets et des nano-technologies.

Big brother vs big data : les discours autour de la donnée se concentrent autour de deux rationalités qui s’affrontent : l’une s’établit sur des raisonnements économiques et entrepreneuriaux et l’autre sur des raisonnements démocratiques. Pour certains les données sont une opportunité économique majeure tandis que pour d’autres elles sont un risque majeur pour la démocratie. Mais ce débat ne nous aide pas, l’opposition n’est pas productive car elle ne se situe pas sur le même plan.

Nous pensons les données de façon très (trop ?) fragmentée : Open data vs big data vs données personnelles. Cela fait sens car il faut distinguer les données produites par les individus de celles produites par les entreprises ou les Etats – nulle raison de leur appliquer la même réglementation. Mais cette fragmentation ne nous permet pas de saisir la question dans son ensemble car la réalité est que ces types de données sont interdépendantes (y a-t-il du big data sans données personnelles ?).

Nous pensons que mettre à jour ce qui fait la valeur des données, comment elle se partage nous permettra de sortir de cette pensée en silo, condition première pour mieux vivre et faire des affaires dans ce monde de données.

Que valent les données ?

Se poser la question, c’est d’abord interroger le paysage actuel des données. Leurs modes de production tout d’abord: aujourd’hui tout le monde produit de la donnée, parfois consciemment, parfois inconsciemment. Les humains, les machines, les objets connectés. Les entreprises – pas uniquement celles du numérique -, les Etats et même les communautés à l’instar d’Open Street Map.
Déluge de données nous dit-on, reprenant l’idée d’un flux que nul ne pourrait stopper ou ralentir, sauf intervention divine. Traces numériques, logs de connexion, métadonnées popularisées par la NSA et le juge Courroye, tweets et réponses à des formulaires … La donnée est aussi multiple dans les formes qu’elle peut prendre.

La donnée, de par sa nature même, interpelle ce qui fait traditionnellement la valeur des biens et des choses. La donnée n’est pas le pétrole: difficile de faire avancer deux voitures avec le même litre d’essence, tout à fait possible d’alimenter mille applications avec le même jeu de données !
Ce n’est pas non plus un bien rare: il y a aujourd’hui, grâce aux données, de multiples manières de mesurer ou d’approcher le même phénomène, ce que nous appelons des « proxys ». Twitter, Flickr, Orange, les commerçants des Champs Elysés: tous ont des données qui permettent de mesurer et de qualifier la fréquentation de la célèbre avenue par les touristes étrangers. Certains enregistrent des tweets ou des photos avec des métadonnées de localisation, d’autres repèrent sur leur réseau mobile l’activité de clients en roaming, les derniers enregistrent des numéros de carte bancaire, …

Ce que nous souhaitons comprendre et proposer à voir, ce sont les mécanismes qui donnent aujourd’hui de la valeur aux données.

La donnée comme matière première, susceptible d’être enrichie et revendue parfois très cher (dans le domaine de l’information financière par exemple). La donnée comme levier, qui permet aux entreprises d’optimiser leurs produits, leurs stocks, … Mais aussi la donnée comme actif stratégique, qui appuie et renforce la domination des plateformes – mais pas uniquement d’elles.

Que font les données, à nos entreprises et à nos sociétés ?

La donnée n’est pas uniquement le carburant de l’économie numérique. Elle conforte et renforce les plateformes. C’est la donnée qui leur permet en permanence de s’adapter, d’expérimenter. C’est aussi la donnée qui les rend si difficiles à quitter. Cheval de Troie, la donnée est-elle l’instrument qui permet aux acteurs du numérique de manger progressivement l’ensemble des secteurs économiques, de la mobilité à la culture ?

Dans ce vaste mouvement de contagion par la donnée, l’hypothèse de réaction est-elle à rejeter ? Des individus ont commencé à utiliser massivement des outils leur permettant d’utiliser internet sans pour autant céder la monnaie d’échange implicite que constituent leurs données personnelles. Ils ne sont pas tous pédophiles ou trafiquants de drogue. Ils accordent une valeur importante à leurs données. Quel sera à l’avenir la pénétration de ces pratiques de résistance ?

Autant de questions que nous souhaitons explorer avec le projet Datanomics.

Et concrètement
Nous allons réaliser dans les prochaines semaines une série de rencontres et d’entretiens avec des acteurs en France et en Europe et partager notre veille sur twitter avec le mot-clic #datanomics. Vous pouvez bien sûr y contribuer.