J’ai testé Google Dataset Search, le moteur de recherche open data

Google vient de lancer en mode bêta Google Dataset Research un moteur de recherche dédié à la découverte des jeux de données ouvertes. L’annonce a été diversement accueillie au sein de la communauté de l’open data, certains y voyant une confirmation que l’open data est devenu un vrai sujet grand public, d’autres s’inquiétant du rôle que pourrait jouer à terme Google comme point d’accès unique à l’offre de données ouvertes.

Je vous propose dans ce billet de découvrir les fonctionnalités de ce nouveau outil, d’en expliquer rapidement le fonctionnement et in fine d’en montrer les limites. Car il n’y a pas de miracle: la découvrabilité des données est un problème complexe que Google, malgré sa bonne volonté et son expertise n’a pas (encore) réussi à résoudre.

Qu’est-ce Google Dataset Search ?

Google Dataset Search est accessible en ligne via un sous-domaine de Google.com. Le moteur de recherche fonctionne à la manière de Google Scholar: il référence des jeux de données indépendamment du portail sur lequel ils sont hébergés. 

De prime abord, l’utilisateur du moteur de recherche « classique » Google ne sera pas dépaysé: la page d’accueil propose un unique champ de recherche, comme sur le moteur Google.fr. Quand on commence à saisir une expression de recherche, un système d’auto-complétion vous propose plusieurs résultats.

L’auto-complétion de Google Dataset Search

L’auto-complétion montre rapidement ses limites dans cette version bêta. Ainsi si l’on commence à taper l’expression « réser … » (par exemple pour trouver la réserve parlementaire) Google Dataset Search nous renvoie une liste de résultats très hétéroclites, bien moins que cohérente que les suggestions de l’auto-complétion pour la même expression du moteur Google (ci-dessous): « réserve parlementaire, réservez votre ferry au meilleur prix (sic: le site est lancé depuis 1 semaine, mais les apprentis sorciers du SEO s’en emparent déjà!), information cadastrale pour la réserve indienne du village des Hurons Wendake, réserve de salmonidés de l’Estuaire de l’Orne, … »


On peut imaginer que cette fonctionnalité va s’améliorer avec le temps, cette première version ne disposant pas, pour l’instant, de retours utilisateurs pour déterminer les jeux de données les plus pertinents pour une requête. 

Le nombre de citations, une idée séduisante (dans l’absolu)

L’impression de familiarité qui se dégageait de la page d’accueil disparaît totalement dès la présentation des résultats. La liste figure à gauche (sous la forme d’onglets) et la page présente les méta-données du jeu de données ainsi que le logo du producteur, quand il est disponible.

Résultats pour la requête « réserve parlementaire »

Comme cela a déjà été souligné par d’autres, notamment ce billet de Singapour, l’expérience utilisateur n’est pas à la hauteur de la qualité à laquelle Google nous avait habitué, même en mode bêta. Ici le moteur ne propose ni recherche par facette, ni tri selon la date de fraîcheur ou format de fichier par exemple. C’est minimaliste.

Chaque résultat mentionne le titre du jeu de données, le ou les site(s) sur lesquels on peut le télécharger ainsi qu’un ensemble de métadonnées: la date de création, de dernière mise à jour, le nom du producteur, la licence et les formats disponibles. 

Plus intriguante est la fonction qui liste le nombre de citations du jeu de données dans Google Scholar (le portail de Google qui recense les articles scientifiques publiés en ligne). L’idée est très séduisante: compter le nombre d’articles scientifiques qui utilisent un jeu de données pourrait amener une autre manière de mesurer l’impact de l’open data. Hélas, trois fois hélas, là encore l’expérience proposée par Google Dataset Search est décevante. Sur les 158 articles qui sont censés citer les données de la réserve parlementaire, une très grande majorité ne font en réalité qu’évoquer l’existence de cette réserve parlementaire. Bien peu d’entre eux citent le jeu de données lui-même ou les données qu’il contient.

J’ai fait le même test sur les « prévisions Météo-France« , un jeu de données disponible sur data.gouv.fr et indexé par Google Dataset Search. Parmi les résultats liés dans Google Scholar on retrouve même un vieil article scientifique avec la phrase suivante: « faute d’accès aux prévisions Météo-France, nous avons eu recours à une autre source de données« . Ce qui compte comme une citation est donc en fait un non-usage (sic). 

Il y a donc encore du travail pour faire de cette métrique une mesure objective et fiable de l’utilisation des données ouvertes par la recherche.

Le problème de la découvrabilité

Le jugement peut paraître sévère mais, dans cette première version bêta, Google Dataset Search ne fait pas vraiment le job. Il répond de manière incomplète à l’enjeu principal, celui de la découvrabilité des jeux de données.

La découvrabilité est aujourd’hui l’une des grandes difficultés à laquelle nous sommes confrontés tant en France qu’à l’étranger. L’offre de données est plus importante que jamais, mais elle n’est pour autant pas facile à trouver.

Pourquoi ? On peut avancer plusieurs explications:

  • la multiplicité des portails et des sources de données: rien qu’au niveau français l’observatoire de l’open data des territoires a recensé plus d’une centaine de plateformes, portails ou sites web qui hébergent des données ouvertes, cela joue d’ailleurs clairement en faveur de Google Dataset Search qui offre un point d’accès unique,
  • l’extrême diversité des thématiques couvertes par les jeux de données et l’absence de standardisation pour une très grande majorité des jeux de données,
  • des niveaux de complétude des méta-données très variables d’un producteur à l’autre. Un jeu de données qui traite de la même thématique peut porter des titres très différents selon deux régions… alors on imagine ce que cela donne entre deux pays !
  • la difficulté à analyser le contenu lui-même des jeux de données, c’est à dire à ne pas se limiter aux méta-données.

Dans cet article de janvier 2017, publié sur le blog Google AI (tiens, tiens) et consacré justement au problème de la découvrabilité des jeux de données on peut y lire la phrase suivante: « there is no reason why searching for datasets shouldn’t be as easy as searching for recipes, or jobs, or movies« . Heu… Comment dire… ? Des raisons on en voit au contraire beaucoup, j’ai commencé ci-dessus à en citer quelques unes. Mais l’approche par les méta-données, telle que Google l’a retenu est un sacré pari.  

Ce pari, c’est celui de s’en remettre aux producteurs de données pour qu’ils fournissent des méta-données les plus complètes et les plus pertinentes possibles. L’expérience montre que le travail de sensibilisation des producteurs  sur ce point reste encore largement devant nous. Et c’est là que Google Dataset Search peut y contribuer.

Avec Google Dataset Search, le géant américain pourrait reproduire ce qu’il a déjà réussi dans le domaine de l’information transport: encourager les producteurs à adopter un standard (de données ou de méta-données) en leur faisant miroiter une visibilité accrue via leur présence dans les produits Google.

l

De la même manière que, pour apparaître dans Google Transit il faut publier ses données au format GTFS, pour apparaître dans Google Dataset Search il faut adopter le modèle de méta-données défini par schema.org, organisation à but non lucratif dont le premier sponsor est… Google.

L’alternative à cette approche par les méta-données consisterait à regarder le contenu lui-même des jeux de données pour être par exemple capable de reconnaître un identifiant comme un numéro SIRET. Or, comme le confirme cet article de Nature pour le moment Google n’a pas prévu de regarder le contenu des jeux de données eux-mêmes.

Comment faisait-on avant Google ?

Tous les éditeurs de plateforme de données ouvertes ont tenté, avec un succès plus ou moins relatif, de répondre à cet enjeu de découvrabilité. La recherche par facette, que l’on retrouve sur quasiment tous les portails, est un moyen de rendre les données plus faciles à identifier. Ainsi on peut raffiner progressivement les résultats d’une recherche en affinant sur le producteur, la date de mise à jour, la couverture géographique et bien d’autres critères. Data.gouv.fr, les plateformes OpenDataSoft ou encore Enigma et Socrata de l’autre côté de l’Atlantique procèdent ainsi. Certains proposent aussi des approches thématique, des tags, des catégories, etc. D’autres pistes consistent à identifier des liens entre les jeux de données, par exemple ceux qui partagent un identifiant commun.

Enigma enrichit la recherche avec des classifications, de la taxonomie et de l’éditorialisation (public.enigma.com)

Je ne dis pas que les solutions existantes sont parfaites. C’est encore très loin d’être le cas. Quand le catalogue de données est important il est parfois malaisé de savoir si une recherche infructueuse signifie que le jeu de données n’existe pas… ou qu’on n’a pas su le trouver ! 

Quelles implications pour l’open data ? 

A ce stade les producteurs de données et les responsables de plateformes open data n’ont rien à perdre à rendre leur offre découvrable par Google. Tout ce qui peut rendre un jeu de données plus facile à découvrir est bon à prendre.

L’impact en terme d’audience reste à confirmer, mais pour le moment il est faible. Pour data.gouv.fr par exemple, Google Dataset Search a amené la semaine dernière un peu plus de 550 visites … sur un total de 81 000. Bien sûr on peut imaginer que cet apport d’audience pourrait être beaucoup plus important si cette nouvelle fonctionnalité de recherche de données est à terme intégrée dans le moteur Google lui-même – au même titre que la recherche dans les images ou les actualités, qui étaient autrefois autant de produits Google distincts avant d’être intégrés dans le moteur principal.

Il sera alors temps de se poser la question du risque de désintermédiation des plateformes open data au profit du moteur de recherche, risque que nous avions déjà évoqué il y a quelques années pour les sites de cinéma…

Et vous, qu’en pensez-vous ? Faut-il se réjouir de cette nouvelle initiative ou s’en inquiéter ? 

J’ai testé les données « ouvertes » d’Uber et Airbnb en France

Uber et Airbnb ont récemment communiqué sur la mise à disposition volontaire de données issues de leurs services respectifs. Que valent vraiment ces données ? Permettent-elles de répondre aux questions que ces plateformes posent aux territoires ? Ce qui se joue ici c’est bien la capacité à disposer des données pour réguler les grandes plateformes du numérique.

Uber Movement est accessible depuis l’été 2017 pour les villes de Boston, Washington, Manille et Sydney. Les données concernant la région parisienne sont disponibles depuis fin octobre. « Rendre service aux villes et contribuer à répondre à leurs défis de transport et d’aménagements urbains” sont les deux objectifs annoncés officiellement lors du lancement de la plateforme. Concrètement, pour se connecter à Uber Movement il faudra tout d’abord vous inscrire sur la plateforme avec votre email. Les données disponibles concernent les temps de transport entre deux points (aggrégés à des zones IRIS de l’INSEE).  Vous pourrez aussi sélectionner, via l’interface des périodes précises (par exemple une seule semaine en 2016 ou 2017, ou le pic de trafic du matin) et télécharger l’ensemble dans un fichier au format CSV. Les données sont disponibles en licence CC-BY-NC, c’est à dire que leur usage commercial n’est pas autorisé.

uber-movement

Dataville by Airbnb

L’annonce du programme Dataville par Airbnb a coincidé avec le salon des Maires de France qui s’est tenu il y a quelques semaines à Paris. A vrai dire il ne s’agit pas d’une coincidence, car dans sa communication officielle Airbnb vise clairement les élus des territoires, expliquant que « le portail permettra aux municipalités de mieux suivre le développement de l’activité touristique via Airbnb sur leur commune, son impact positif sur l’attractivité de leur commune comme sur le pouvoir d’achat de leurs administrés ». L’entreprise insiste d’ailleurs sur son effort de transparence.

Que trouve-t-on sur la plateforme Dataville ?

  • Le nombre d’annonces dans la ville au 1er septembre 2017
  • Le nombre de voyageurs accueillis entre septembre 2016 et septembre 2017
  • Le nombre de pays dont sont originaires les voyageurs qui y ont séjourné
  • Le revenu annuel médian d’un hôte dans la commune

Toutes ces données sont visualisables via une interface web (comme chez Uber Movement) mais pas du tout téléchargeables (contrairement à Uber).

dataville-rennes

Open Data où es-tu ? 

Commençons très vite par régler ce point: difficile de parler de données ouvertes dans l’exemple d’Airbnb ou d’Uber. Les données d’Uber, bien que téléchargeables, sont diffusées avec une licence qui ne permet pas de les qualifier d’open data car elle interdit expressément tout usage commercial. De même, le fait que l’inscription soit requise pour accéder aux données d’Uber Movement constitue un frein à la réutilisation. C’est pas de l’open data, point. 

Des données bien inoffensives

Mais là n’est peut-être pas l’essentiel. Que peut-on dire des données qui sont ainsi volontairement exposées par ces deux entreprises ? Tout d’abord qu’il s’agit bien de données originales, au sens de « qui n’ont pas été exposées auparavant« .

Impossible, avant Uber Movement, de connaître l’historique des temps de transport avec ce niveau de détail. Et Airbnb propose bien, avec Dataville, des données qui n’étaient pas auparavant facilement accessibles, par exemple le nombre de voyageurs ou le nombre de pays d’origine.

Ces données volontairement mises à disposition ont un autre point commun: elles sont inoffensives ! Elles permettent difficilement  de répondre aux questions que posent ces plateformes sur les territoires.

Prenons quelques exemples pour nous en convaincre.

Si je suis élu d’une ville où Uber propose son service de VTC, je peux par exemple m’interroger sur son impact sur la congestion urbaine. Est-ce que les clients d’Uber auraient par exemple pu utiliser le réseau de transport en commun, ou est-ce que le VTC permet de pallier une offre défaillante ? Rien dans les données d’Uber Movement ne vous permettra de répondre à cette question. Vous aurez les temps de parcours (ce qui n’est pas inintéressant) mais rien sur le nombre moyen d’utilisateurs du service sur ce même parcours (ce qui serait beaucoup plus utile !), en respectant bien sûr les seuils du secret statistique.

Second exemple, avec Airbnb. Quels sont les termes du débat public concernant Airbnb ?    J’en recense au moins trois. Le premier est le risque d’éviction dans les quartiers les plus touristiques, les propriétaires préférant mettre leur logement sur Airbnb que de le louer à l’année (il suffit d’être une fois passé dans le Marais vers 9h-10h quand tout le monde quitte son logement avec des grosses valises pour se rendre compte de quoi l’on parle !).

Second débat, la présence, sur la plateforme, de propriétaires professionnels, bien loin de l’image cool et sympa de celui qui accueille des touristes sur le canapé du salon. Plusieurs articles de presse se sont ainsi fait l’écho de propriétaires qui possèdent plusieurs appartements (voire dizaine d’appartements) sur la plateforme…

Troisième débat, les revenus générés par la plateforme pour les « hôtes » selon la terminologie d’Airbnb. S’agit-il de revenus accessoires ou bien de revenus dignes d’une activité principale (et donc professionnelle) – et qui intéressent donc l’administration fiscale ?

Là encore difficile de répondre à ces questions avec les données mises à disposition par Airbnb. Le niveau de granularité des données est à la commune, pas à l’arrondissement et encore moins au quartier ou à la zone Iris. Pour Paris, on apprend par exemple que 65 000 annonces sont disponibles sur une année, que 2 millions de voyageurs de 178 nationalités différentes ont fréquenté un appartement Airbnb dans la capitale.

C’est grand, Paris. Ce n’est sûrement pas avec ce genre de données qu’on va pouvoir comprendre un peu finement la réalité de l’impact d’Airbnb dans chaque quartier de la capitale !

J’ai fait la même recherche pour la ville de Rennes, et il est précisé que le revenu annuel d’un hôte est de 1400 euros, soit un peu plus de 100 euros par mois. A première vue cela correspond donc bien à des revenus accessoires, du « beurre dans les épinards » (oui, en Bretagne on aime autant le beurre que les épinards…).

Il faut donc aller lire la définition de la métrique selon Airbnb: « valeur médiane du revenu total gagné par l’hôte sur la période d’un an couverte par l’étude. Le revenu annuel est présenté pour un hôte type« . Qu’est-ce qu’un « hôte type » ? L’histoire et Airbnb ne le racontent pas, donc nous sommes en droit d’imaginer. Peut-être qu’un hôte type c’est par exemple un propriétaire qui n’a qu’un appartement et qui ne le met en location que quelques jours par mois ? Autant dire qu’avec de telles métriques nous ne sommes pas prêt de pouvoir répondre à la question de la professionnalisation des « hôtes » Airbnb !

D’ailleurs quand on veut en savoir plus sur le programme on est renvoyés vers le site Airbnb Citizen qui vous propose, au milieu de nombreux témoignages d’utilisateurs de la plateforme, de relayer les campagnes d’influence à destination des élus, comme celle ci-dessous.

airbnb-lobbying

C’est plus subtil que du Data-washing

Spontanément nous pourrions crier au data-washing, c’est-à-dire une tentative de se refaire une virginité en publiant des données inoffensives.

Il me semble que les initiatives dont nous parlons ici sont un peu plus subtiles. Ce qui est très clair ce que le choix des données mises à disposition ne doit rien au hasard. Ce n’est pas à un datascientist de chez Uber ou d’Airbnb qu’on va apprendre que des données agrégées sont beaucoup moins utiles que des données détaillées ! Ces sociétés sont réputées pour leur maîtrise des données, on ne peut pas penser une minute qu’elles proposent ces données-là sans avoir envisagé ce qui pourrait (ou plutôt ne pourrait pas) en être fait.

Je pense plutôt que ces initiatives illustrent parfaitement la notion de donnée comme actif stratégique telle que nous la définissions avec Louis-David Benyayer dans Datanomics.

Pour Airbnb ou Uber, la donnée est devenue l’objet et le support de la relation avec les territoires. Lever, ne serait-ce que très légèrement, le voile sur les données c’est aussi se mettre en ordre de bataille pour les discussions à venir, notamment sur les possibles régulations de ces plateformes.

C’est aussi montrer pour mieux cacher, au moment même où les principales métropoles semblent de plus en plus préoccupées par l’impact de ces plateformes sur leur territoire. Si l’on voulait vraiment rentrer dans une régulation par la donnée, telle que proposée par Nick Grossman, alors on ne pourrait pas se contenter des données que les plateformes voudront bien mettre à disposition. La Commission européenne s’intéresse d’ailleurs beaucoup aux données d’intérêt général (1): c’est un outil essentiel pour lutter contre l’asymétrie d’information qui caractérise la relation entre plateformes et territoires !

(1) dans le cadre de la révision en cours de la directive sur les informations du secteur public (PSI).

 

 

Données et concurrence: quand l’algorithme travaille pour les cartels

2466357253_03622550a9_zL’Autorité de la concurrence française et son homologue allemande Bundeskartellamt ont publié la semaine dernière une étude sur l’impact des données sur le droit de la concurrence1, et notamment la capacité des acteurs d’un marché à mettre en oeuvre des pratiques anti-concurrentielles (cartels d’entente sur les prix, par exemple). Les données et surtout les algorithmes posent des questions nouvelles, renforcant d’autant plus la nécessité de penser leur régulation.

Quand on parle de cartels et d’ententes illicites, on imagine sans peine la scène suivante: des messieurs dans des costumes de marque, des cigares à la main, se réunissent dans les salons privés et les bars discrets des grands hôtels. Ils échangent des informations sur le marché et se mettent d’accord sur l’évolution des prix et des volumes.

A vrai dire je n’invente pas grand chose dans cette scène: les industriels des produits frais laitiers ont été condamnés en mars 2015 à une amende de 190 millions d’euros pour avoir procédé ainsi pendant plusieurs années. Dans le relevé de la décision de l’Autorité de la concurrence, on peut notamment y lire – cela ne s’invente pas – que les réunions se tenaient à chaque fois dans un hôtel parisien différent et parfois aussi dans la brasserie « Le chien qui fume » située près de Montparnasse …

Les données et les algorithmes vont donner du fil à retordre aux autorités en charge de la concurrence, nous explique en substance l’étude conjointe des deux autorités européennes. Leur préoccupation rejoint celle du département de la Justice américain, dont l’un des représentants a déclaré l’an dernier:

“We will not tolerate anticompetitive conduct, whether it occurs in a smoke-filled room or over the Internet using complex pricing algorithms. American consumers have the right to a free and fair marketplace online, as well as in brick and mortar businesses »2

 

L’image est destinée à frapper les esprits: les pratiques anti-concurrentielles voient aujourd’hui le jour non plus seulement dans les salons enfumés des hôtels, mais aussi à l’intérieur même du code informatique et des algorithmes. Ces derniers peuvent notamment être programmés pour réagir à des mouvements de prix des concurrents. Ils peuvent même intégrer dans leurs calculs les comportements passés des dits concurrents: comment ont-ils réagi au cours des dernières années ? On retrouve ici la capacité d’apprentissage propre aux traitements de type machine learning.

L’Autorité de la concurrence et le Bundeskartellamt pointent aussi le risque d’une entente non-intentionnelle ou non-coordonnée: les concurrents n’ont plus besoin de se retrouver ou de se mettre d’accord, l’utilisation d’algorithmes de fixation des prix identiques suffit à assurer cette coordination. « Difficult to prove » est l’une des expressions récurrentes de ce document. On voit bien effet qu’il va être très difficile de prouver les intentions d’un cartel qui ne se rencontre jamais, qui n’est jamais en relation, mais qui pourtant aboutit à une réduction de la compétition sur un marché donné !

Il me semble par ailleurs que les données sont un autre élément d’enquête à disposition des autorités de la concurrence. J’ai eu l’occasion il y a deux ans d’accompagner des étudiants de la chaire ESSEC Analytics encadrés par Nicolas Glady. L’un des groupes a ainsi pu travailler sur un cold case: les tarifs des carburants dans les stations-services de France3. Leur travail d’analyse s’est appuyé sur les données historiques proposées en open data par Bercy. On voit bien dans ce cas qu’il y a un intérêt, pour le régulateur, à se doter de capacité à traiter et analyser les données pour trouver de nouveaux indices de comportements anti-concurrentiels (j’utilise à dessein le terme d’indice et non de preuve formelle).

Il faut remettre ces premiers éléments dans une perspective plus large: la régulation des algorithmes et des traitements automatisés. Cette question est le plus souvent abordée sous l’angle de la protection de la vie privée – la Maison Blanche a par exemple pointé récemment le risque de discrimination pour les individus. L’étude de l’Autorité de la concurrence vient à point nommé pour rappeler que l’efficacité de la régulation tient aussi à une meilleure coordination entre le droit de la concurrence et celui qui protège la vie privée des individus (la loi Informatique et Libertés pour notre pays) 4.

— Notes

1 le document est actuellement disponible uniquement en langue anglaise, mais une traduction en français est annoncée.

2 Assistant Attorney General Bill Baer, cité dans « Artificial Intelligence & Collusion: When Computers Inhibit Competition« , Maurice E. Stucke & Ariel Ezrachi, mai 2015, University of Tennessee College of Law

3 Cold case car la condamnation des principaux pétroliers pour entente illicite sur les tarifs pratiqués dans les stations-services d’autoroute a été annulée par la suite.

4 On peut citer en appui la décision rendue concernant GDF. Saisie par un concurrent (Direct Energies), la société GDF a été condamnée à fournir les données de consommation de ses clients à des tiers pour faciliter l’entrée sur le marché de nouveaux concurrents. En vertu des principes de la loi Informatique et Libertés, les clients de GDF devaient donner leur accord explicite à ce transfert. Et en pratique une très grande part d’entre eux l’ont refusé, réduisant d’autant la portée de la décision de l’autorité de la concurrence.

Crédit photo: Fairmont Hotel Lobby, San Jose California par Pargon

La marchandisation des données SNCF n’est pas la réponse à Google

Mardi matin, Louis-David Benyayer et moi étions invités par le think tank Renaissance numérique à présenter notre ouvrage Datanomics. Il a notamment été question, lors de cette heure de discussion, de la position de la SNCF et de sa volonté de vendre les données via sa nouvelle API en mode freemium. L’Usine Digitale s’en est fait l’écho, reprenant le tonitruant « Tu déconnes, Yves !« , adressé à Yves Tirode, le patron du digital au sein de la compagnie nationale. Retour sur le sujet, de manière un peu moins… lapidaire.

La SNCF met en oeuvre actuellement son ambitieuse stratégie digitale, qui inclut notamment l’ouverture d’une API d’accès aux données, en mode freemium. La vente de données est présentée comme la solution pour contrer le risque – bien réel ! – que représente Google et les plateformes numériques. Pour ma part, je ne crois pas que la marchandisation des données soit une réponse efficace. Des stratégies alternatives sont déjà mises en oeuvre dans de nombreux secteurs, dont la distribution. Mais avant de les développer, il me semble nécessaire de retracer les enjeux du sujet. La nouvelle stratégie de la SNCF en matière de données s’appuie sur un déjà long historique autour des données ouvertes, que l’on pourrait résumer par la formule de Danah Boyd: « It’s complicated ! ».

1 – Pourquoi c’est compliqué 

Le positionnement du groupe SNCF à l’open data est relativement complexe, et reflète bien la diversité des activités de l’entreprise, entre service public (Transilien, TER, Intercités) et activité soumise à la concurrence (TGV et Voyages SNCF).
C’est au sein de sa filiale Keolis que l’on trouve le premier réseau de transports publics urbains à avoir ouvert des données dès 2011 (Keolis Rennes). Le groupe a lancé ses initiatives sur le sujet début 2012, avec l’activité Transilien comme fer de lance (ouverture des données transport de l’Ile de France, bien en amont de la RATP).
Aujourd’hui, le groupe possède un portail Open Data (data.sncf.com) qui propose des données sur l’offre de transport mais aussi des données de transparence (nombre et type d’incidents, conflictualité au sein de l’entreprise, etc…).  Depuis lundi dernier, une API, proposée en mode freemium propose une sélection de données, dont certaines temps réel. Cette API propose tous les trains, inclus donc les TGV ce qui représente la vraie nouveauté.
Dernier point, la SNCF s’est engagée dans des relations étroites avec les éco-systèmes numériques (programme « DataShaker SNCF » au Numa, Meet Up Data Transport, …). L’entreprise est aussi impliquée dans des projets collaboratifs, comme la cartographie des gares d’Ile de France sur OpenStreetMap. Enfin, l’open data est aussi pour eux un enjeu de changement de la culture interne, notamment en matière d’innovation ouverte.
Mais ce dynamisme masque difficilement le fait que le sujet open data est longtemps resté très clivant au sein de l’entreprise. Les activités relevant du service public ont une politique offensive sur le sujet, mais l’activité SNCF Voyages – dont est issue le nouveau directeur digital et communication – a adopté, depuis l’origine, une posture beaucoup plus défensive. Ainsi, les données sur l’offre TGV, les horaires temps réel ou encore la tarification ne rentrent dans le périmètre de l’Open Data au sens « données librement et gratuitement réutilisables sans limitation d’usage ».
La SNCF fait valoir que le champ concurrentiel dans lequel l’entreprise opère ne lui permet pas de les ouvrir, au risque de favoriser l’émergence d’acteurs tiers, pas nécessairement les concurrents les plus évidents (ex. Deutsche Bahn) mais plutôt de nouveaux intermédiaires comme Google. Guillaume Pepy est d’ailleurs l’un des patrons français les plus offensifs, et sûrement le plus clairvoyant sur le sujet. Il a, dès 2012, désigné Google comme son principal concurrent.
Le risque de désintermédiation est mis en avant, à l’image de ce qui existe dans l’aérien, où les brokers occupent une place tellement centrale que les compagnies aériennes ont perdu une bonne partie de la relation client, et avec elle la capacité à se démarquer autrement que par les prix.
Ce risque est bien réel. Google propose chaque jour un nombre croissant de services: il pourrait très bien vendre des billets de trains ou encore faire payer à la compagnie ferroviaire une commission pour apport de trafic, comme le fait aujourd’hui Booking dans l’hôtellerie. Franchement, je préfère encore lâcher mes sous pour une entreprise qui paie ses impôts en France (ce qui est aussi le cas de Capitaine Train me semble-t-il) plutôt qu’à l’un des GAFA, qui se caractérisent par l’omniprésence de leur service inversement proportionnelle à leur contribution à l’impôt dans notre pays.
2 – La donnée TGV est un actif stratégique avant d’être une matière première

L’idée de l’API freemium est de faire payer les données selon le niveau d’usage. Cela permettrait a priori de réconcilier deux objectifs: favoriser l’innovation ouverte (en ouvrant les données, y compris temps réel, aux petites start-ups) et se prémunir de l’hégémonie des grands acteurs du web (qui paieraient plein pot). Et c’est là, à mon avis, qu’il y a un besoin de clarification.

Dans Datanomics, nous avons identifiés trois facettes de la valeur des données:

– quand elles sont revendues par ceux qui les collectent, les produisent ou les aggrègent, les données prennent une forme de matière première,

– quand elles sont utilisées, sans marchandisation, par exemple pour réduire les coûts ou développer les revenus, elles prennent une forme de levier,

– enfin, quand elles constituent une arme stratégique pour défendre et conquérir une position concurrentielle, elles prennent une valeur d’actif.

Ces trois facettes de la valeur ne sont pas exclusives. Certaines entreprises ou certaines données, révèlent plusieurs formes simultanées de valeur. Cette grille me semble pertinente pour voir ce qui se joue autour de la vente des données TGV. Il faut considérer la donnée comme un actif stratégique qui permet de défendre un marché ou de conquérir une nouvelle position, et pas uniquement comme une matière première que l’on vend et que l’on achète.

On ne connait pas encore la grille tarifaire de l’API SNCF. Elle doit être annoncée cet été. Mais on peut au moins regarder ce qui se fait à l’étranger. Au Royaume-Uni, une start-up accompagnée par l’Open Data Institute propose un service similaire, Transport API. Sa grille tarifaire est en ligne. On peut ainsi y lire que pour un accès illimité, sans contrainte de nombre de requêtes, il faut s’acquitter d’un peu plus de 100 000 euros par an.

Admettons que la SNCF arrive à placer la barre encore plus haut et qu’elle fixe les tarifs, pour un acteur gros consommateur de son API freemium (genre Google) à 1 million d’euros par an. A partir de là, on a deux hypothèses. La première: Google accepte de payer. 1 million d’euros: ca fait déjà une très jolie somme, sur le marché de la donnée. Mais rappelons juste qu’une rame de TGV cela coûte entre 15 et 20 millions d’euros. On ne brade pas un actif stratégique pour le prix d’un demi-wagon de train. La seconde hypothèse: Google ne veut pas payer. C’est un peu une stratégie « à la Grand Lyon« : je fixe un tarif qui, en résumé, veut dire: « on ne veut pas de vous ».

Dans cette optique, la SNCF ne veut en réalité pas vendre ses données à Google.

Considérer la donnée comme un actif stratégique, c’est notamment l’utiliser pour construire un rapport de force favorable. Ce qui fait la vraie richesse de Twitter ou Facebook ce n’est pas de vendre les données aux développeurs, mais de maîtriser le robinet, en l’occurrence l’API. Le pouvoir de ces entreprises c’est de décider des conditions d’accès, et de pouvoir les modifier sans préavis. Ce qui est vrai pour Twitter l’est aussi pour le gouvernement américain: le GPS est accessible gratuitement, mais les américains se réservent le droit de dégrader ou d’interrompre le service.

Le GPS est d’ailleurs un bon exemple où la donnée a un coût important (on évalue le programme à 14 milliards de dollars), une valeur d’usage très forte (70 milliards de dollars par an) mais un prix égale à zéro. L’argument « cela doit avoir un prix parce que cela a un coût » n’est pas toujours vrai. Dans le domaine de la distribution aussi, la donnée permet de recomposer la chaîne de valeur. Walmart offre ainsi à tous ses fournisseurs une donnée temps réel sur les niveaux de stocks et de vente de leurs produits (Walmart Retail Link). En procédant ainsi, le géant américain renverse la responsabilité: c’est au fabriquant de s’assurer que le produit est disponible. Cette donnée n’est pas vendue, mais cela ne l’empêche d’avoir une valeur stratégique très forte.

Ce débat ne concerne pas que la SNCF.  Toutes les entreprises qui produisent des données se posent les mêmes questions et sont confrontées aux mêmes enjeux. Mais ce serait une erreur de les laisser croire que la marchandisation est une réponse au risque que représente les plateformes du numérique…

Crédit photo: SNCF TGV Duplex 275 par eldelinux

J’ai contribué à « Open Models » (et c’était bien)

couv« Open Models, le livre » est le fruit des rencontres Open Experience initiées de janvier à juin 2014 par Without Model. L’idée: faire le tour des modèles économiques de l’open en 6 étapes, de l’art au manufacturing en passant par la data, la science, l’éducation et le logiciel. Retour sur ma modeste contribution à ce projet.

Je me souviens, je me rappelle. L’équipe de Without Model nous avait tous convié à une soirée dédiée à l’open data. Au programme: des interventions de Chloé Bonnet et Romain Lalanne (FivebyFive, SNCF), de Frédéric Charles (Lyonnaise des Eaux), de Christian Quest (OSM France), de Guillaume Crouigneau (Canal TP). Avec mon compère Louis-David Benyayer (à l’origine de Without Model), nous avions discuté de ce que l’open fait à la data.

Je me souviens, je me rappelle. C’était le 30 juin dernier, ce jour-là il faisait beau mais surtout il y avait au même moment un match de la Coupe du Monde de football, un huitième de final qui opposait la France au Nigéria (2-0). Autant dire que l’audience était de très bonne qualité, à défaut d’être présente en quantité 😉

Je me souviens, je me rappelle aussi que l’histoire de l’open data a toujours eu en toile de fond le débat entre partisans du logiciel libre et ceux de l’open source. S’intéresser aux modèles ouverts, qui plus est dans ses dimensions multiples, m’apparait donc comme une excellente idée.

Tout cela pour vous annoncer donc que la souscription pour la réalisation d' »Open Models, le livre » est lancée, et que je vous invite à y contribuer. L’ouvrage est magnifique, et il regroupe plus d’une cinquantaine de contributeurs dont Michel Bauwens et Bernard Stiegler… (et en prime cette dernière intervention est tout à fait compréhensible). Elle est pas belle, la vie ?

 

Datanomics: « Open Data: show me the money ! »

Open-exp-6-Show-me-the-money4 ans après les premières démarches d’ouverture des données publiques en France, la question économique reste entière. Pourquoi a-t-on toujours autant de mal à déterminer l’impact économique de l’open data, autrement qu’à grands coups de milliards de dollars façon Mc Kinsey… ? Elle est où la start-up qui va révolutionner le monde et qui doit tout aux données ouvertes ?

Louis-David Benyayer et Simon Chignard (Datanomics) proposent de considérer la question sous l’ange de la valeur des données: qu’est-ce que l’Open fait aux données ? Ce texte est publié simultanément sur withoutmodel.com et la vidéo réalisée lors d’Open Experience 6 est visible ici.

Elle est-où la super start-up qui doit tout à l’open data ?

Le débat sur la valorisation n’est pas nouveau et les mesures de la valeur de l’open data s’établissent selon deux logiques. Soit c’est la valeur du marché des informations publiques qui est mesurée (par exemple dans le cadre de l’étude MEPSIR de 2006) alors que nombre d’entre elles ne sont pas ouvertes. Soit ce sont les gains d’opportunité qui sont comptabilisés (Mc Kinsey Global Institute).

Suivant cette deuxième logique, les rapports se sont succédés et concluent tous à des montants colossaux. Le plus récent, celui de McKinsey en 2013, situe entre 3 220 et 5 290 milliards de dollars la valeur annuelle de l’open data. A titre de comparaison, le PIB de l’Allemagne, 4ème puissance mondiale est de 3 747 milliards.

Dans le même temps, les gouvernements ont été nombreux à mettre en place des politiques d’ouverture des données publiques pour des raisons politiques (une gouvernance plus ouverte), économiques (permettre le développement de nouvelles activités qui génèront des bénéfices économiques pour l’état et la société) ou pour impulser la modernisation de l’action publique.

Cependant, force est de constater aujourd’hui que peu d’exemples probants de valeur économique générée par des données publiques ouvertes sont disponibles: elle est où la start-up qui doit tout à l’open data ? De même, les entreprises ne s’engagent pas de façon très nette dans l’ouverture des données qu’elles détiennent, génèrent ou manipulent, à l’exception de quelques acteurs du secteur des transports et de la mobilité. Plus encore, on a parfois du mal à comprendre si l’open crée de la valeur pour les données… ou alors en détruit (par les mécanismes de gratuité, etc.).

Quelles raisons expliquent cette difficulté à mesurer l’impact économique et la valeur de l’Open Data ?

Trois hypothèses

Hypothèse 1 : c’est trop tôt

L’effet-retard est une première hypothèse que l’on peut mobiliser pour expliquer notre difficulté à mesurer les impacts économiques. Selon cette approche, développée notamment dans l’étude réalisée en 2012 par Marc de Vries et Geoff Sawyer pour le compte de l’Agence spatiale européenne. Les deux auteurs distinguent ainsi 3 phases dans les effets de l’ouverture des données : une phase d’ensemencement (sowing phase), une phase de culture (growing phase) et une phase de récolte (harvesting phase). Si l’on retient cette approche, il est donc logique de ne pas voir aujourd’hui les bénéfices économiques car nous ne serions pas encore rentrés dans la phase de récolte…

Hypothèse 2: parce que c’est trop diffus et/ou compliqué

Dans les rapports et évaluation de la valeur de l’open data, un élément important est souvent peu mis en lumière par les auteurs et les commentateurs qui explique en partie la difficulté à voir la réalisation des promesses avancées. Dans de nombreuses évaluations (et dans de nombreux cas d’utilisation des données ouvertes), la valeur de l’open data se réalise largement en combinaison avec d’autres données qui, elles, ne sont pas forcément ouvertes, ce qui est appelé généralement les big data.

Note de bas de page du rapport McKinsey de 2013 (page 2) :

Throughout this report we express value in terms of annual economic surplus in 2013 US dollars, not the discounted value of future cash flows; this valuation represents estimates based on initiatives where open data are necessary but not sufficient for realizing value. Often, value is achieved by combining analysis of open and proprietary information to identify ways to improve business or government practices. Given the interdependence of these factors, we did not attempt to estimate open data’s relative contribution; rather, our estimates represent the total value created.

Ainsi, selon cette hypothèse, pour que la valeur de l’open data se révèle, la disponibilité et l’utilisation d’autres données est déterminante. Ce n’est pas la seule mise à disposition qui produit l’intégralité de la valeur.

Hypothèse 3: parce qu’on ne connaît pas bien les réutilisateurs

Enfin, la dernière hypothèse est que les réutilisations de données publiques ouvertes ne sont pas toutes visibles, communiquées ou explicites.

Certaines réutilisations sont particulièrement visibles quand elles sont incarnées par des applications mobiles qui le revendiquent. En revanche, la majorité des réutilisations de données publiques ouvertes n’est pas communiquée à l’extérieur de l’organisation qui les utilise. On mesure donc difficilement ce qui ne nous est pas donné à voir.

Toutefois, des effort sont faits pour mieux identifier et révéler les utilisations, par exemple le site Open Data 500 qui les recense et la plateforme ouverte des données publiques data.gouv.fr qui permet aux utilisateurs de mettre en ligne les réutilisations qu’ils ont faites des données mises à disposition.

Pistes de réflexion Datanomics, qu’est-ce que l’open fait à la valeur des données ?

Pour tenter d’y voir plus clair dans cette questions de la valeur de l’open data, faisons un détour par la valeur des data. Dans le cadre de Datanomics, nous avons identifié une typologie de trois formes de valeur des données : les données comme matière première, les données comme levier et les données comme actif stratégique (nous avons fait une première descriptions de cette typologie dans cet article à propos des objets connectés).

Concentrons nous ici sur les données comme matière première. Les métaphores habituelles utilisées pour décrire la valeur des données (pétrole, diamant, blé ou l’or) nous ramènent assez vite dans cette conception de la valeur des données comme matière première. On y voit les données comme un combustible qui alimenterait une machine (le pétrole), comme une matière qui prend sa valeur une fois qu’elle est travaillée (le diamant) ou comme un produit qui peut être consommé ou utilisé pour se renouveler (le blé). Les limites de ces comparaisons sont nombreuses : à la différence du pétrole qui disparait avec son utilisation, les données peuvent être réutilisées à l’infini, à la différence de l’or, les données ne prennent pas de valeur de thésaurisation.

Un constat s’impose : avec des données ouvertes (dont, par définition, on ne monétise pas la transmission), la valeur monétaire, celle qu’on associe à la donnée comme matière première, est en grande partie liquidée. C’est d’ailleurs l’une des conclusions du rapport Trojette sur les redevances des données publiques publié en 2013.

Autre raison qui explique la liquidation de la valeur des données avec l’ouverture : la révolution des proxies. Comme de nombreuses sources sont disponibles pour mesurer le même phénomène et qu’une grande partie est accessible gratuitement, la rareté et l’exclusivité des données sont moins assurés: leur valeur monétaire tend à décroitre.

Cette explication est confortée par un autre constat concernant les acteurs de l’open data et leur modèle économique. Au démarrage des initiatives d’open data, des acteurs économiques sont apparus avec un positionnement d’infomédiaire ou de place de marché de données ouvertes (Infochimps et Data Publica par exemple). Aujourd’hui ces acteurs ont abandonné ce positionnement de pur intermédiaire (data broker) pour évoluer vers un positionnement de type service. Ce ne sont pas les données qui sont vendues mais les services qui permettent de l’exploiter (API, analyse ou visualisation par exemple).

C’est la forme de valeur des données comme levier qui correspond probablement le plus à la valeur de l’open data : elles permettent aux organisations qui utilisent des données ouvertes d’améliorer leur performance soit en évitant des coûts soit en développant des revenus (par une meilleure tarification ou par de nouvelles ventes)

Finalement

Les caractéristiques de la valeur de l’open data sont celles des données en général : la valeur est dans la réutilisation, elle est future et co-construite.

Dans la réutilisation car elle est n’est pas monétisé directement. Future car la valeur ne se révèle qu’une fois l’utilisation réalisée (elle s’évalue difficilement a priori). Co-construite car c’est rarement celui qui dispose des données qui peut en révéler toute la valeur.

In fine, l’ouverture des donées pose un grand nombre de défis aux acteurs privés : faut-il acter la liquidation de la valeur monétaire des données – c’est-à-dire renoncer à les vendre – pour mieux en exploiter la valeur stratégique et de levier ? Comme nous le disait un responsable d’un grand groupe, par ailleurs largement impliqué dans des démarches open data : “tant que personne ne fait d’argent avec nos données, cela ne nous pose pas de problème de les ouvrir”.

 

Image d’illustration par Hélène Pouille

 

Datanomics: les stratégies Data de l’Internet des Objets

Les données ont façonné les services du numérique que nous utilisons au quotidien. Demain, elles vont modifier notre relation aux produits par l’Internet des objets. Quelle est la valeur de ces données ? Qui peut se l’approprier ? Quelles sont les stratégies Data mises en oeuvre par les start-up, les industriels et les acteurs des services de l’Internet des objets ?

Louis-David Benyayer et Simon Chignard explorent, sous le titre de Datanomics, les transformations engendrées par l’économie des donnéesCe texte est publié simultanément sur withoutmodel.com et a fait l’objet d’une vidéo enregistrée à l’occasion du festival Web2Day.

Datanomics: les 3 formes de valeur des données

Datanomics: les 3 formes de valeur des données

Des objets connectés partout, tout le temps

Linternet des objets, c’est la communication entre objets ou entre des objets et des humains par le biais des technologies numériques. Les objets connectés sont partout : à nos poignets ou nos chevilles, dans nos poches, nos voitures ou nos salles de bains, sur nos routes ou nos compteurs électriques.

Ils concentrent aujourd’hui l’attention d’acteurs du numérique (dont les usual suspects, Google et co.) mais aussi d’acteurs non numériques (Nike par exemple, et surtout les industriels et les distributeurs avec les puces RFID)[1]. Bref, l’internet des objets constitue un ensemble relativement hétérogène en termes de technologie, de proposition de valeur ou d’écosystème industriel. L’arrivée annoncée des lentilles de contact et des prothèses connectées puis des capteurs ingérables va probablement, si elle se réalise contribuer à brouiller encore un peu plus le paysage.

Trois formes de valeur des données

Sensors + Data + Networks + Services = Internet of Things

Si l’on reprend cette définition proposée par Nick Wainwright et ces composants, on s’aperçoit que la valeur créée par l’Internet des objets s’est jusqu’à présent principalement concentrée dans des produits qui se sont vendus avec plus plus ou moins de succès et dans les réseaux de télécommunications. Pourtant, les données générées et collectées par les objets ou capteurs représentent une valeur potentiellement encore plus grande – et dont les mécanismes sont très différents.

Dans le cadre de Datanomics, nous avons identifié une typologie de trois formes de valeur des données qui s’applique aux données en général et à celles produites par les objets connectés : les données comme matière première, les données comme levier et les données comme actif stratégique.

Les données matières premières

Les données peuvent en premier lieu être vues comme une matière première brute que l’on achète ou que l’on vend. L’outil de navigation TomTom génère une partie non négligeable de ses revenus (jusqu’à 30%) par la revente des données de ses clients et utilisateurs à d’autres acteurs économiques. Par exemple la fréquentation d’un tronçon routier ou les zones des dépassements de vitesse. Certaines de ces transactions sont d’ailleurs polémiques, comme quand la police néerlandaise achète les données de Tom Tom et repositionne ses radars sur les lieux où les dépassements sont les plus fréquents.

Diapositive12Autre exemple moins polémique (et moins massif), Strava revend les données de ses fitness trackers à des agences de planification urbaine. Le plus frappant dans cette transaction est son faible montant (20.000 $). On peut même penser qu’il y a plus de valeur générée par l’écho médiatique donné à cet accord que par la transaction elle-même ! Ces deux exemples illustrent aussi les stratégies de tarification et l’épineuse question du prix de vente des données. Comme pour de nombreux produits ou services émergents, deux logiques complémentaires sont visibles : faire payer ce que ça coûte de produire les données et faire payer ce que les données font gagner.

La première logique est probablement la plus accessible et la plus facilement communicable aux clients potentiels. Il s’agit de recenser les postes de coûts (les capteurs, le réseau, les communications, …) et d’en déduire un prix en fonction de tranches de volumes consommés. Cette approche peut toutefois être perçue comme décevante par les vendeurs dans le cas où ils ont le sentiment que les acheteurs bénéficient de plus de valeur que ce qu’ils ont payé par le prix de vente.

La seconde logique consiste à évaluer le gain que les clients vont réaliser avec l’utilisation des données et de calculer le prix comme une fraction constante de cette valeur produite. Celle logique permet au vendeur de s’assurer d’un certain équilibre dans la répartition de la valeur. Cependant, les calculs de valeur produite sont moins simples que ceux de calculs des coûts effectivement mobilisés : la valeur des données est principalement une valeur future et subjective.

Les données comme levier

Il s’agit d’utiliser les données pour son propre compte (sans monétisation directe auprès d’un tiers) de façon à améliorer sa performance en réduisant ses coûts (mieux mobiliser ses ressources) ou développant ses revenus (vendre plus ou plus cher)

Quand ils connectent leurs produits, Les industriels fabricants des produits à forte technicité et qui ont des durées de vie longue sont en mesure de mieux connaître les conditions d’utilisation des produits et l’évolution de leurs performances techniques. C’est le cas pour les fabricants de l’industrie aéronautique ou automobile par exemple. Les données ici représentent un levier pour améliorer les générations suivantes de produits en utilisant des données fines d’utilisation. Elles peuvent aussi représenter un moyen de développer un modèle économique autour des services associés aux produits. C’est le cas de General Electric qui a développé une offre services autour des produits et matériels d’exploitation vendus aux opérateurs de plateformes d’extraction de pétrole brut.

Deuxième exemple d’utilisation des données comme levier, dans un univers beaucoup plus personnel: Glow. Cette start-up fondée par un ancien de Pay Pal propose une application mobile pour celles et ceux qui veulent avoir un enfant. Glow collecte et analyse des données pour prédire le moment le plus propice pour concevoir un bébé.

Les données comme actif stratégique

La donnée, par sa possession-même, constitue un élément stratégique majeur pour défendre une position ou en attaquer de nouvelles.

Walmart Retail Link est non seulement une solution de tracking RFID précise des produits stockés en magasins (qui permet par exemple de réaliser un inventaire en temps réel) mais aussi et surtout un outil stratégique dans le rapport de force entre WallMart et les industriels. Avec Retail Link, la politique de stockage et son exécution devienne la responsabilité de l’industriel (et plus du distributeur) avec à la clé des gains possibles en cas de bonne gestion ainsi que des responsabilités accrues en cas de problème d’approvisionnement.

La donnée redistribue aussi la valeur au sein d’écosystèmes industriels. C’est particulièrement vrai dans les systèmes avec plusieurs sous-ensemble comme l’automobile ou l’aviation. Chaque fournisseur d’un sous-ensemble acquiert avec les données remontées par ses appareils connecté des informations sur le fonctionnement de l’ensemble de l’appareil (par exemple les données disponibles sur les moteurs d’avion informent sur les conditions d’exploitation de chaque compagnie aérienne). Les données constituent un levier de négociation dans la répartition de la valeur au sein de filières industrielles.

Diapositive06Xee est un boitier connecté pour rendre les véhicules communicants. La voiture connectée est un marché que l’on dit souvent promis aux constructeurs automobiles ou aux grands fournisseurs d’OS mobiles, comme Google ou Apple. L’exemple de Xee illustre pourtant une autre voie : la société qui a conçue le boîtier est une filiale du groupe Mobivia, la structure de diversification des propriétaires de Norauto et Midas. La donnée prend alors toute sa dimension stratégique : elle permet à un acteur de l’aftermarket non seulement d’imaginer un relais de croissance à son activité, mais aussi un moyen de défendre sa place sur son marché d’origine. Les données de Xee permettent de proposer de nouvelles offres d’entretien du véhicule, mais aussi de nouveaux modèles d’assurances ou de services premium… sans le constructeur automobile.

Dans le cas des grands acteurs du numérique, les données produites par l’internet des objets ont la même valeur d’actif stratégique que les traces numériques qui constituent déjà le moteur et le carburant de leurs modèles économiques. C’est grâce aux données que Google et Facebook parviennent à monétiser de la publicité. Des objets connectés signifient plus de données et des données de nature différente. Ces données constituent un nouveau gisement de carburant pour les modèles économiques des acteurs du numérique.

D’autre part, la bataille entre ces acteurs s’établit autour du point d’entrée sur internet. Chacun développe des stratégies pour s’assurer de rester ou de devenir le point d’entrée aux contenus sur le réseau. Les objets sont les prochains points d’accès au réseau (après les ordinateurs et les appareils mobiles) et les géants du numérique s’y engagent. C’est une façon d’interpréter les initiatives de Google dans les objets connectés (voiture, lunettes ou thermostats avec le rachat de Nest) : une stratégie de conquête des points d’entrée au réseau et de collecte de nouvelles données pour alimenter le modèle économique bi-face.

Trois valeurs non exclusives

Ces trois types de valeur peuvent se cumuler et certains objets connectés peuvent générer plus d’un type de valeur. Le Disney Magic Band peut être analysé de plusieurs façons. C’est un bracelet personnalisé que l’on commande avant de visiter un parc d’attraction, il enregistre les déplacements au sein du parc, sert de clé et de moyen de paiement.

Diapositive19Ces données sont bien sûr un levier pour un gestionnaire de parc : elles permettent d’ajuster en continu les ressources mobilisés dans le parc en fonction des déplacements des visiteurs. Elles permettent également d’identifier des patterns de visite et d’améliorer les prévisions. Les données peuvent également être vues comme un actif stratégique pour Disney : en disposant de ces données, l’entreprise est capable de tisser un lien plus fort avec ses clients, d’augmenter les fréquences de viste et de se différencier par rapport aux autres gestionnaires de parc. Enfin, on pourrait imaginer que d’autres acteurs économiques pourraient être intéressés par l’analyse a posteriori ou en temps réel des données issues de bracelets.

Ce qui caractérise les stratégies Data de l’Internet des Objets

On le voit, les stratégies données des acteurs de l’internet de objets sont différentes. Elles dépendent de l’activité historique ou principale de celui qui les met en valeur :

  • Pour certains, les données servent principalement à vendre des device, elles constituent un sous produit marginal. C’est le cas des fabricants d’appareils de quantified self comme Netnatmo ou Withings.
  • Pour d’autres, les données sont centrales car leur modèle économique est centré autour des données (ex : Google).
  • Enfin, pour des acteurs comme les industriels de produits de série, les données servent d’une part à améliorer la performance (en réduisant les coûts d’exploitation ou augmentant les revenus)  et d’autre part à développer des modèles économiques de services.

Les acteurs mobilisent des stratégies différentes, notamment car les compétences requises sur la chaîne de valeur de l’internet des objets sont très nombreuses (design d’objet, fabrication, distribution de produit, stockage et analyse de données, utilisation des données) et qu’aucun acteur ne peut prétendre (ou n’aurait intérêt) à les maîtriser toutes. On observe donc des stratégies de spécialisation et d’alliance. C’est certainement une façon d’analyser la décision récente de Nike de réduire ses investissement dans l’internet des objets et de travailler à un partenariat avec Apple.

La valeur d’une donnée diffère fortement suivant celui qui l’analyse ou qui l’utilise : une même donnée peut receler une valeur très forte pour un acteur et quasi nulle pour un autre. Egalement, ce ne sont pas toujours ceux qui détiennent les données qui peuvent en réaliser la valeur la plus forte ; à la fois pour des raisons de compétences et d’accès à un marché client ou à une utilisation.  Cela signifie par exemple que les fabricants d’appareils de quantified self se posent la question des partenariats à réaliser pour exploiter la valeur des données produites. Cela signifie aussi que les acteurs qui réalisent un métier non nativement numérique (comme les transports par exemple) s’interrogent sur le niveau de leur implication dans la valorisation des données : ont-ils plus intérêt à laisser d’autres acteurs s’enrichir en utilisant leurs données (quitte à percevoir une redevance) ou au contraire à limiter l’accès à leurs données ou les exploiter eux mêmes en créant de nouvelles activités.

A qui appartiennent les données de l’Internet des objets ?

Diapositive22Il nous semble essentiel de clarifier les enjeux de propriété des données. A qui appartiennent-elles : à celui qui utilise l’objet connecté, à celui qui le finance, à celui qui l’opère ou le fabrique ? La relecture des conditions générales d’utilisation (terms of service) de quelques grands noms de l’Internet des objets montre une grande diversité de pratiques. Mais dans l’ensemble, l’utilisateur cède une licence d’utilisation non révocable qui permet une réutilisation par le fabricant, parfois même sans accord préalable et explicite.

L’Internet des objets, un outil de redistribution de la valeur ?

On le voit, l’internet des objets et les données associés constituent une évolution déterminante dans les équilibres entre les acteurs. Il s’agit bien sûr d’un nouveau marché qui recèle des opportunités importantes. Il s’agit aussi et surtout d’un outil de redistribution de la valeur au sein de filières et entre secteurs économiques : c’est le moyen pour les acteurs du numérique de rentrer dans certains écosystèmes “physiques”, c’est le moyen pour certains sous-traitants d’affermir leur levier par rapport à leurs donneurs d’ordre (ou inversement), c’est le moyen pour les acteurs des produits d’augmenter leur présence dans le marché des services.

[1]  Pour avoir une vision plus exhaustive, le site de LeWeb12 en décembre 2012 à Paris recense quelques exemples et le site Postcapes recense les start-ups et projets dans le domaine de l’internet des objets et présente des synthèse des études disponibles sur ce marché. Ces initiatives sont classées en 4 champs d’application principaux: Body (les capteurs de l’activité humaine), Home (les objets connectés de la maison), City et Industry. Une cinquième catégorie concerne les objets connectés conçus et fabriqués en Open Source / Do it Yourself.

Datanomics: la révolution des proxies

Poursuite de l’exploration de la valeur des données engagée avec Louis-David Benyayer. Après un premier billet de présentation de Datanomics, nous vous proposons un éclairage sur le phénomène des proxies et son impact pour les entreprises et les individus. Ce texte est publié simultanément sur withoutmodel.com.

Tourists vs. Locals  (MapBox / Gnip)

Tourists vs. Locals: une analyse des tweets
par MapBox et Gnip

Derrière la masse de données, les proxies

Le paysage actuel des données est le plus souvent abordé sous l’angle de la volumétrie. Il est vrai que l’accroissement spectaculaire des volumes de données collectées et stockées est la caractéristique première du Big Data. Cet effet de massification des données nous semble pourtant en cacher un autre: l’apparition des proxies, c’est à dire le fait que plusieurs sources très différentes puissent permettre de mesurer le même phénomène.

Prenons un exemple, sous la forme d’une interrogation: combien de personnes fréquentent chaque jour l’avenue des Champs Elysées ? Parmi elles, combien de touristes étrangers ? Plusieurs proxies sont disponibles: on peut utiliser les données de l’API de twitter et isoler la localisation parmi les métadonnées des tweets, consulter les données de localisation des téléphones portables, scruter les requêtes formulées sur le moteur de recherche Google, analyser les données du pass Navigo, celles des cartes bancaires utilisées dans les commerces de la plus belle avenue du monde, celles de Foursquare, … Sans même évoquer les procédés plus classiques, tels que les enquêtes réalisées auprès de la clientèle touristique ou le comptage manuel à quelques points de passage.

La généralisation des proxies nous semble constituer un fait nouveau: en raison de la mise en données du monde, de la multiplication des traces numériques et des dispositifs de captation, il y bien souvent aujourd’hui plusieurs manières de mesurer le même phénomène.

Dit autrement: la rareté laisse peu à peu la place à l’abondance – et surtout à la fin de l’exclusivité de la mesure. Plus personne ne semble à l’abri:  même la mesure de l’inflation, a priori une fonction régalienne, se voit concurrencée par une mesure réalisée par Premise Data, une start-up co-financée par Google et Marc Andreessen. On a donc une compétition entre proxies, et bien sûr entre acteurs qui les portent !

L’erreur était juste 

L’émergence des proxies ne va pas sans heurts. Avec la profusion vient aussi la confusion: Quelle est la meilleure méthode pour mesurer le phénomène ? Qui a “raison”, qui a “tort” ?

On comprend assez rapidement que chaque source de données comporte ses propres limites. Il est probable que les touristes étrangers aient désactivé le transfert de données (fort coûteux en roaming), réduisant d’autant la capacité à tweeter en tous temps et en tous lieux. De la même façon, les données du pass Navigo permettront de disposer d’une bonne visibilité sur les Parisiens ou Franciliens disposant d’un abonnement et moins sur les touristes de passage. Les données issues des cartes bancaires en revanche permettront de disposer d’une vision relativement complète sur les dépenses (mais moins sur les circulations !). Autant de biais dans les méthodes de mesure.

Chaque donnée nous informe sur une partie de la réalité et afin de pouvoir les analyser, il est indispensable d’en comprendre les mécanismes de production.

Ce que la science peut nous apprendre des données

Dans les discours et les pratiques, la donnée est toujours investie d’une objectivité toute naturelle : les données ne mentent pas ! Toutefois, dans certains cas, la donnée, à défaut de mentir, s’est magistralement trompée.

Ce fut le cas quand Google Flu trends a largement surestimé les prévisions de propagation de la grippe pendant l’hiver 2012-2013. Pendant de nombreuses années Google Flu trends – l’un des mythes fondateurs du Big Data –  a été un très bon prédictif de la propagation du virus grippal aux Etats-Unis, bien plus réactif que la mesure officielle réalisée par les services sanitaires.

En décembre 2012, il a pourtant réalisé une estimation trois fois supérieure aux autres indicateurs et à la réalité de la propagation de la grippe. Pourquoi cet écart ? La raison est à chercher dans la source des données utilisées pour établir la prévision de propagation : les requêtes saisies dans le moteur de recherche. Or, à l’hiver 2012, le nombre de requêtes a fortement évolué en raison d’évènements extérieurs, rendant d’un coup beaucoup moins fiable l’indicateur produit par Google:

“‘(…) Several researchers suggest that the problems may be due to widespread media coverage of this year’s severe US flu season, including the declaration of a public-health emergency by New York state last month. The press reports may have triggered many flu-related searches by people who were not ill.” (Declan Butler dans Nature, février 2013)

Dans un monde de données nous avons tous à nous préoccuper des conditions de production de la donnée,  débattre et argumenter sur les sources et les méthodes. Nous avons besoin de développer ces capacités d’appréciation de la validité et de la fiabilité des instruments de mesure qu’on nous propose. Or le monde des proxies n’est pas celui de la recherche scientifique: jusqu’à preuve du contraire, l’algorithme de classement des pages web reste l’un des secrets les mieux gardés de Google !

Assez curieusement, la donnée brute reste un mythe vivace. On entend plus souvent l’injonction “show me the data” plutôt que la question: “explique moi comment ces données ont été produites”. On retrouve ici une tension entre le besoin de brutification et celui de contextualisation. Brutifier la donnée pour la rendre plus facilement réutilisable c’est une exigence. Mais pour autant c’est bien la compréhension du contexte de cette donnée  – qui l’a produit ? pourquoi ? comment ? pour qui ? – qui fiabilise les traitements issus de sa réutilisation !

Datanomics: explorer la valeur des données

Avec Louis-David Benyayer nous avons entamé une exploration de la valeur des données: où est la valeur, se mesure-t-elle uniquement en euros, ça change quoi pour les individus, les entreprises et la société ? Nous partageons ici les points de départ de notre réflexion. Ce texte est publié simultanément sur withoutmodel.com.

"Open Data Commons" (photo by jwyg)

« Open Data Commons » (photo by jwyg)

Données partout, justice nulle part

Dans l’actualité récente de la donnée, Nelly Kroes a cotoyé Edward Snowden. L’un a révélé des pratiques de collecte et de surveillance à grande échelle et l’autre a une nouvelle fois mis en avant l’exploitation des données comme la réponse aux déficits de croissance de nos économies européennes… Les données sont en train de bouleverser les équilibres économiques, sociaux et politiques. Et ce n’est probablement que le début, si l’on considère l’essor de l’Internet des objets et des nano-technologies.

Big brother vs big data : les discours autour de la donnée se concentrent autour de deux rationalités qui s’affrontent : l’une s’établit sur des raisonnements économiques et entrepreneuriaux et l’autre sur des raisonnements démocratiques. Pour certains les données sont une opportunité économique majeure tandis que pour d’autres elles sont un risque majeur pour la démocratie. Mais ce débat ne nous aide pas, l’opposition n’est pas productive car elle ne se situe pas sur le même plan.

Nous pensons les données de façon très (trop ?) fragmentée : Open data vs big data vs données personnelles. Cela fait sens car il faut distinguer les données produites par les individus de celles produites par les entreprises ou les Etats – nulle raison de leur appliquer la même réglementation. Mais cette fragmentation ne nous permet pas de saisir la question dans son ensemble car la réalité est que ces types de données sont interdépendantes (y a-t-il du big data sans données personnelles ?).

Nous pensons que mettre à jour ce qui fait la valeur des données, comment elle se partage nous permettra de sortir de cette pensée en silo, condition première pour mieux vivre et faire des affaires dans ce monde de données.

Que valent les données ?

Se poser la question, c’est d’abord interroger le paysage actuel des données. Leurs modes de production tout d’abord: aujourd’hui tout le monde produit de la donnée, parfois consciemment, parfois inconsciemment. Les humains, les machines, les objets connectés. Les entreprises – pas uniquement celles du numérique -, les Etats et même les communautés à l’instar d’Open Street Map.
Déluge de données nous dit-on, reprenant l’idée d’un flux que nul ne pourrait stopper ou ralentir, sauf intervention divine. Traces numériques, logs de connexion, métadonnées popularisées par la NSA et le juge Courroye, tweets et réponses à des formulaires … La donnée est aussi multiple dans les formes qu’elle peut prendre.

La donnée, de par sa nature même, interpelle ce qui fait traditionnellement la valeur des biens et des choses. La donnée n’est pas le pétrole: difficile de faire avancer deux voitures avec le même litre d’essence, tout à fait possible d’alimenter mille applications avec le même jeu de données !
Ce n’est pas non plus un bien rare: il y a aujourd’hui, grâce aux données, de multiples manières de mesurer ou d’approcher le même phénomène, ce que nous appelons des « proxys ». Twitter, Flickr, Orange, les commerçants des Champs Elysés: tous ont des données qui permettent de mesurer et de qualifier la fréquentation de la célèbre avenue par les touristes étrangers. Certains enregistrent des tweets ou des photos avec des métadonnées de localisation, d’autres repèrent sur leur réseau mobile l’activité de clients en roaming, les derniers enregistrent des numéros de carte bancaire, …

Ce que nous souhaitons comprendre et proposer à voir, ce sont les mécanismes qui donnent aujourd’hui de la valeur aux données.

La donnée comme matière première, susceptible d’être enrichie et revendue parfois très cher (dans le domaine de l’information financière par exemple). La donnée comme levier, qui permet aux entreprises d’optimiser leurs produits, leurs stocks, … Mais aussi la donnée comme actif stratégique, qui appuie et renforce la domination des plateformes – mais pas uniquement d’elles.

Que font les données, à nos entreprises et à nos sociétés ?

La donnée n’est pas uniquement le carburant de l’économie numérique. Elle conforte et renforce les plateformes. C’est la donnée qui leur permet en permanence de s’adapter, d’expérimenter. C’est aussi la donnée qui les rend si difficiles à quitter. Cheval de Troie, la donnée est-elle l’instrument qui permet aux acteurs du numérique de manger progressivement l’ensemble des secteurs économiques, de la mobilité à la culture ?

Dans ce vaste mouvement de contagion par la donnée, l’hypothèse de réaction est-elle à rejeter ? Des individus ont commencé à utiliser massivement des outils leur permettant d’utiliser internet sans pour autant céder la monnaie d’échange implicite que constituent leurs données personnelles. Ils ne sont pas tous pédophiles ou trafiquants de drogue. Ils accordent une valeur importante à leurs données. Quel sera à l’avenir la pénétration de ces pratiques de résistance ?

Autant de questions que nous souhaitons explorer avec le projet Datanomics.

Et concrètement
Nous allons réaliser dans les prochaines semaines une série de rencontres et d’entretiens avec des acteurs en France et en Europe et partager notre veille sur twitter avec le mot-clic #datanomics. Vous pouvez bien sûr y contribuer.

La donnée, une matière première bien étrange

Big Data, Open Data, données personnelles ou collaboratives: force est de constater que les données peuplent les discours de l’économie numérique. Les métaphores fleurissent pour qualifier cette nouvelle matière première: le pétrole, l’or, le diamant brut, … Aucune d’entre elles ne permet de saisir ce qui constituent les données. Mais chacune de ces analogies charrie son lot de fantasme et d’imaginaire… Tour d’horizon d’une bien étrange matière première.

1 – Une matière première qui ne s’épuise pas, qui n’est pas détruite lorsqu’on la consomme

La première métaphore est celle de l’or noir, ou du pétrole. Fréquemment mise en avant, elle est notamment couramment utilisée par la commissaire européenne Nelly Kroes. Il y a plusieurs niveaux de lecture de cette comparaison avec le pétrole. D’un point de vue économique, comme l’a déjà souligné et argumenté Henri Verdier, l’analogie n’a guère de sens.

Le pétrole est une matière première qui tend à s’épuiser, alors que la donnée est aujourd’hui de plus en plus disponible – tout à la fois parce que nous en produisons une quantité de plus en plus importante (la « datafication » du monde) et parce que les coûts de stockage sont de plus en plus faibles. D’autre part, la donnée, contrairement à l’hydrocarbure, n’est pas détruite lorsqu’on la consomme. Difficile de faire avancer 2 voitures avec le même litre d’essence, tout à fait possible de faire mille usages simultanés de la même donnée brute… (aux conditions d’accès près, bien sur).

2 – La donnée, un actif stratégique et géopolitique  ?

Mon second niveau de lecture n’est pas économique, mais plutôt métaphorique. Derrière l’analogie avec le pétrole, il y a aussi l’idée que les données représentent un gisement de richesses à exploiter et qu’elles pourraient redistribuer les cartes entre les Etats (et les entreprises). Il est clair aujourd’hui que les pays producteurs d’hydrocarbures sont, au niveau mondial, dans une position géostratégique favorable. Du recrutement du PSG à la création de la chaîne sportive BeInSport, tout le monde voit concrètement ce que l’on peut faire avec des pétrodollars plein les poches …

Pris dans ce sens métaphorique, l’idée de la donnée comme nouveau pétrole est plus intéressante. D’autant plus que la donnée personnelle est, PRISM mis à part, aujourd’hui plutôt un actif détenu par des acteurs non étatiques. Dit autrement: si la donnée personnelle est le carburant de l’économie numérique, alors les GAFA (Google, Amazon, Facebook et Apple) sont l’OPEP de demain… Avec tout ce que celà implique au niveau de la gouvernance internationale, de la souveraineté des Etats, etc… Le bras de fer entre Google et les CNIL européennes ne serait alors qu’un galop d’essai par rapport aux conflits à venir (bref, on a pas fini de rigoler…).

3 – Une matière première dont la valeur est plutôt dans la circulation que dans le stockage

Seconde métaphore utilisée: la mine d’or. Comme le pétrole, l’or est une ressource rare. Mais c’est aussi une valeur étalon, une valeur refuge. C’est là une différence majeure avec la donnée: la thésaurisation de l’or fait sens. La Banque de France stocke par exemple dans ses sous-sols près de 2500 tonnes du métal précieux, représentant une valeur de plus de 100 milliards d’euros. A l’inverse, la donnée stockée ne prend de la valeur que lorsqu’elle circule, qu’elle est utilisée.  Il n’est pas acquis non plus que la donnée prenne systématiquement de la valeur quand le temps passe…

A titre d’exemple: le fichier clients des magasins Virgin a été attribué, dans le cadre de la procédure de liquidation judiciaire de l’enseigne, à la FNAC. Cette dernière était la mieux-disante avec une offre à 54000 euros pour un fichier comprenant 1,6 million de clients. La valeur du dit-fichier n’augmente pas avec le temps, elle aurait plutôt une tendance inverse.

4 – Une matière première qui prend de la valeur quand on la transforme

Troisième métaphore convoquée dans les discours sur la donnée: celle du diamant brut. Le parallèle est plutôt valable dans la mesure où la donnée, comme le diamant, prend une très grande partie de sa valeur lors des opérations de transformation, de raffinage … La donnée brute possède intrinsèquement une valeur d’échange assez faible.

Une quatrième et dernière matière première – le blé – nous permettrait d’envisager une autre propriété des données : le potentiel de réutilisation. En effet, celui qui récolte la céréale peut la mettre dans le circuit de transformation (pour produire de la farine) ou la garder de côté pour la re-semer l’année suivante… On doit alors arbitrer entre un usage actuel et un usage futur.

5 –  Des métaphores qui en disent long sur notre incapacité à saisir la valeur des données

On voit bien qu’aucune des métaphores présentées ici ne permet de saisir l’essence des données. Mais ce n’est peut-être pas là l’objectif recherché dans les discours. Le recours à la métaphore traduit à mon avis notre incapacité à saisir la valeur des données, à en percevoir les multiples dimensions.

Tout se passe comme si, confronté à un objet donnée non identifié, nous aurions besoin de nous référer à des choses bien connues, bien maîtrisées, au risque d’appliquer à des problèmes actuels d’anciennes grilles de lecture et de compréhension.

Au mieux, ces métaphores alimentent la machine à fantasme type ‘patrimoine immatériel à faire fructifier’ (suivez mon regard…). Au pire, elles nous empêchent de voir que les données posent des problèmes inédits, qui bousculent nos fonctionnements et nos économies, un peu à la manière dont les drones armés remettent en cause, par leur existence même, tout ce que l’on croyait savoir sur les lois de la guerre et la souveraineté des Etats… Non, décidément, rien n’est simple avec les données !