La marchandisation des données SNCF n’est pas la réponse à Google

Mardi matin, Louis-David Benyayer et moi étions invités par le think tank Renaissance numérique à présenter notre ouvrage Datanomics. Il a notamment été question, lors de cette heure de discussion, de la position de la SNCF et de sa volonté de vendre les données via sa nouvelle API en mode freemium. L’Usine Digitale s’en est fait l’écho, reprenant le tonitruant « Tu déconnes, Yves !« , adressé à Yves Tirode, le patron du digital au sein de la compagnie nationale. Retour sur le sujet, de manière un peu moins… lapidaire.

La SNCF met en oeuvre actuellement son ambitieuse stratégie digitale, qui inclut notamment l’ouverture d’une API d’accès aux données, en mode freemium. La vente de données est présentée comme la solution pour contrer le risque – bien réel ! – que représente Google et les plateformes numériques. Pour ma part, je ne crois pas que la marchandisation des données soit une réponse efficace. Des stratégies alternatives sont déjà mises en oeuvre dans de nombreux secteurs, dont la distribution. Mais avant de les développer, il me semble nécessaire de retracer les enjeux du sujet. La nouvelle stratégie de la SNCF en matière de données s’appuie sur un déjà long historique autour des données ouvertes, que l’on pourrait résumer par la formule de Danah Boyd: « It’s complicated ! ».

1 – Pourquoi c’est compliqué 

Le positionnement du groupe SNCF à l’open data est relativement complexe, et reflète bien la diversité des activités de l’entreprise, entre service public (Transilien, TER, Intercités) et activité soumise à la concurrence (TGV et Voyages SNCF).
C’est au sein de sa filiale Keolis que l’on trouve le premier réseau de transports publics urbains à avoir ouvert des données dès 2011 (Keolis Rennes). Le groupe a lancé ses initiatives sur le sujet début 2012, avec l’activité Transilien comme fer de lance (ouverture des données transport de l’Ile de France, bien en amont de la RATP).
Aujourd’hui, le groupe possède un portail Open Data (data.sncf.com) qui propose des données sur l’offre de transport mais aussi des données de transparence (nombre et type d’incidents, conflictualité au sein de l’entreprise, etc…).  Depuis lundi dernier, une API, proposée en mode freemium propose une sélection de données, dont certaines temps réel. Cette API propose tous les trains, inclus donc les TGV ce qui représente la vraie nouveauté.
Dernier point, la SNCF s’est engagée dans des relations étroites avec les éco-systèmes numériques (programme « DataShaker SNCF » au Numa, Meet Up Data Transport, …). L’entreprise est aussi impliquée dans des projets collaboratifs, comme la cartographie des gares d’Ile de France sur OpenStreetMap. Enfin, l’open data est aussi pour eux un enjeu de changement de la culture interne, notamment en matière d’innovation ouverte.
Mais ce dynamisme masque difficilement le fait que le sujet open data est longtemps resté très clivant au sein de l’entreprise. Les activités relevant du service public ont une politique offensive sur le sujet, mais l’activité SNCF Voyages – dont est issue le nouveau directeur digital et communication – a adopté, depuis l’origine, une posture beaucoup plus défensive. Ainsi, les données sur l’offre TGV, les horaires temps réel ou encore la tarification ne rentrent dans le périmètre de l’Open Data au sens « données librement et gratuitement réutilisables sans limitation d’usage ».
La SNCF fait valoir que le champ concurrentiel dans lequel l’entreprise opère ne lui permet pas de les ouvrir, au risque de favoriser l’émergence d’acteurs tiers, pas nécessairement les concurrents les plus évidents (ex. Deutsche Bahn) mais plutôt de nouveaux intermédiaires comme Google. Guillaume Pepy est d’ailleurs l’un des patrons français les plus offensifs, et sûrement le plus clairvoyant sur le sujet. Il a, dès 2012, désigné Google comme son principal concurrent.
Le risque de désintermédiation est mis en avant, à l’image de ce qui existe dans l’aérien, où les brokers occupent une place tellement centrale que les compagnies aériennes ont perdu une bonne partie de la relation client, et avec elle la capacité à se démarquer autrement que par les prix.
Ce risque est bien réel. Google propose chaque jour un nombre croissant de services: il pourrait très bien vendre des billets de trains ou encore faire payer à la compagnie ferroviaire une commission pour apport de trafic, comme le fait aujourd’hui Booking dans l’hôtellerie. Franchement, je préfère encore lâcher mes sous pour une entreprise qui paie ses impôts en France (ce qui est aussi le cas de Capitaine Train me semble-t-il) plutôt qu’à l’un des GAFA, qui se caractérisent par l’omniprésence de leur service inversement proportionnelle à leur contribution à l’impôt dans notre pays.
2 – La donnée TGV est un actif stratégique avant d’être une matière première

L’idée de l’API freemium est de faire payer les données selon le niveau d’usage. Cela permettrait a priori de réconcilier deux objectifs: favoriser l’innovation ouverte (en ouvrant les données, y compris temps réel, aux petites start-ups) et se prémunir de l’hégémonie des grands acteurs du web (qui paieraient plein pot). Et c’est là, à mon avis, qu’il y a un besoin de clarification.

Dans Datanomics, nous avons identifiés trois facettes de la valeur des données:

– quand elles sont revendues par ceux qui les collectent, les produisent ou les aggrègent, les données prennent une forme de matière première,

– quand elles sont utilisées, sans marchandisation, par exemple pour réduire les coûts ou développer les revenus, elles prennent une forme de levier,

– enfin, quand elles constituent une arme stratégique pour défendre et conquérir une position concurrentielle, elles prennent une valeur d’actif.

Ces trois facettes de la valeur ne sont pas exclusives. Certaines entreprises ou certaines données, révèlent plusieurs formes simultanées de valeur. Cette grille me semble pertinente pour voir ce qui se joue autour de la vente des données TGV. Il faut considérer la donnée comme un actif stratégique qui permet de défendre un marché ou de conquérir une nouvelle position, et pas uniquement comme une matière première que l’on vend et que l’on achète.

On ne connait pas encore la grille tarifaire de l’API SNCF. Elle doit être annoncée cet été. Mais on peut au moins regarder ce qui se fait à l’étranger. Au Royaume-Uni, une start-up accompagnée par l’Open Data Institute propose un service similaire, Transport API. Sa grille tarifaire est en ligne. On peut ainsi y lire que pour un accès illimité, sans contrainte de nombre de requêtes, il faut s’acquitter d’un peu plus de 100 000 euros par an.

Admettons que la SNCF arrive à placer la barre encore plus haut et qu’elle fixe les tarifs, pour un acteur gros consommateur de son API freemium (genre Google) à 1 million d’euros par an. A partir de là, on a deux hypothèses. La première: Google accepte de payer. 1 million d’euros: ca fait déjà une très jolie somme, sur le marché de la donnée. Mais rappelons juste qu’une rame de TGV cela coûte entre 15 et 20 millions d’euros. On ne brade pas un actif stratégique pour le prix d’un demi-wagon de train. La seconde hypothèse: Google ne veut pas payer. C’est un peu une stratégie « à la Grand Lyon« : je fixe un tarif qui, en résumé, veut dire: « on ne veut pas de vous ».

Dans cette optique, la SNCF ne veut en réalité pas vendre ses données à Google.

Considérer la donnée comme un actif stratégique, c’est notamment l’utiliser pour construire un rapport de force favorable. Ce qui fait la vraie richesse de Twitter ou Facebook ce n’est pas de vendre les données aux développeurs, mais de maîtriser le robinet, en l’occurrence l’API. Le pouvoir de ces entreprises c’est de décider des conditions d’accès, et de pouvoir les modifier sans préavis. Ce qui est vrai pour Twitter l’est aussi pour le gouvernement américain: le GPS est accessible gratuitement, mais les américains se réservent le droit de dégrader ou d’interrompre le service.

Le GPS est d’ailleurs un bon exemple où la donnée a un coût important (on évalue le programme à 14 milliards de dollars), une valeur d’usage très forte (70 milliards de dollars par an) mais un prix égale à zéro. L’argument « cela doit avoir un prix parce que cela a un coût » n’est pas toujours vrai. Dans le domaine de la distribution aussi, la donnée permet de recomposer la chaîne de valeur. Walmart offre ainsi à tous ses fournisseurs une donnée temps réel sur les niveaux de stocks et de vente de leurs produits (Walmart Retail Link). En procédant ainsi, le géant américain renverse la responsabilité: c’est au fabriquant de s’assurer que le produit est disponible. Cette donnée n’est pas vendue, mais cela ne l’empêche d’avoir une valeur stratégique très forte.

Ce débat ne concerne pas que la SNCF.  Toutes les entreprises qui produisent des données se posent les mêmes questions et sont confrontées aux mêmes enjeux. Mais ce serait une erreur de les laisser croire que la marchandisation est une réponse au risque que représente les plateformes du numérique…

Crédit photo: SNCF TGV Duplex 275 par eldelinux