Pourquoi partager ses données (quand la loi ne vous y oblige pas) ?

Nombre d’acteurs, notamment privés, s’interrogent aujourd’hui sur leur position en matière de diffusion et de partage de leurs données. Ils ne sont souvent pas concernés par la loi CADA de 1978 : ils ne remplissent pas de mission de service public ou font partie des nombreuses exceptions prévues par le législateur … Mais au-delà de l’obligation légale, il y a souvent un intérêt réel à partager ses données.

Ce billet tente de répondre à la question : mais pourquoi donc devrais-je diffuser mes données si la loi ne m’y oblige pas ? Je propose une grille de lecture pour comprendre les stratégies à l’oeuvre dans ce domaine. Une remarque préalable et importante : les exemples cités couvrent l’ensemble des trois univers de diffusion détaillés dans un précédent billet et pas uniquement la diffusion des données en open data.

La grille de lecture que je propose distingue d’abord deux axes :

– l’objectif prioritaire : s’agit-il de s’inscrire dans une démarche de transparence et/ou de participation ? Bien évidemment, les deux objectifs ne sont pas contradictoires, mais les enjeux sont différents. Si l’on cherche la participation, il faudra stimuler la réutilisation, alors qu’un pur objectif de transparence peut se limiter à la diffusion des données,

– la posture de départ : l’acteur qui réfléchit à sa stratégie se positionne-t-il en mode défensif (faire face) ou offensif (prendre ou reprendre la main) ? Le graphique que je propose illustre quelques stratégies d’acteurs et surtout des dynamiques, c’est-à-dire la capacité à passer d’une position défensive à une position offensive.

1/ Stratégies participatives en mode « offensif »

Dans les 3 premières stratégies, l’acteur diffuse volontairement (sans pression préalable) un ensemble de jeux de données dans l’optique d’en favoriser la réutilisation. Ses objectifs peuvent être de :

– « valoriser ses actifs informationnels et sa marque » [1] : en mettant à disposition ses données, on peut mieux les valoriser qu’en en limitant la diffusion sur son seul site web.

Une très bonne illustration de cette stratégie est le portail d’ouverture de données touristiques data.visitprovence.com. Face à la concurrence accrue de nouveaux sites de diffusion de l’info touristique (TripAdvisor, AirBnB, Homelidays, …) et à la diffusion de nouveaux supports (le mobile aujourd’hui, la TV connectée demain), ne vaut-il pas mieux se concentrer sur la valorisation de ses données plutôt que de s’engager dans une coûteuse course à l’audience pour ramener des visiteurs vers son site « officiel » ? Dans un tout autre domaine, l’agence d’information financière Bloomberg propose aussi des accès partiels à ses données.

– « jouer l’externalité de réseaux » [2] : la seconde stratégie est basée sur la notion d’externalité de réseaux. Les entreprises du web – par exemple Twitter – donnent accès à une partie de leurs données (via des API) à des tiers pour qu’ils développent des services et des applications tierces. Ils profitent ainsi de l’effet « boule de neige » des externalités de réseau : plus il y a d’utilisateurs du service, plus le service a d’intérêt pour un nouvel utilisateur.

– « faire développer par des tiers » [3] : cette dernière stratégie est souvent mise en oeuvre dans le domaine des transports, mais peut s’appliquer à de nombreux domaines.

Si l’on cherche à offrir un service d’information complet à ses usagers ou clients, il faut aujourd’hui couvrir une palette de plus en plus large de terminaux et de besoins spécifiques. Il faut un site web, un site mobile, des applications pour iPhone, pour Android, pour BlackBerry, pour Windows Phone, … Sans compter des services dédiés à des cibles particulières. Pour reprendre l’exemple des données touristiques, il y a sûrement intérêt à concevoir un service dédié pour les camping-caristes mais un comité départemental du tourisme a-t-il les moyens (et la volonté) de le faire lui-même ? On le voit, diffuser ses données c’est aussi valoriser sa marque.

2/ Stratégies participatives en mode « défensif »

Certains acteurs abordent aujourd’hui la diffusion et le partage de données dans une posture initiale défensive. Les deux stratégies qui sous-tendent leurs approches sont les suivantes :

– « prevenir l’usage sauvage » [4]: JC Decaux (pour son service de vélo en libre-service) ou la RATP par exemple ont été confrontés à des réutilisations sauvages de leurs données. Rappelons que les premières applications dédiées au vélo en libre-service rennais ont vu le jour avant le programme d’ouverture des données de Rennes Métropole et Keolis Rennes – et elles se sont précisément appuyées sur un usage sauvage donc non contrôlé des données.

– « contrôler ma marque » [5] : corollaire de l’utilisation sauvage des données, le contrôle de la marque est aussi une préoccupation courante. L’autorité en charge des transports londoniens (TfL – Transport for London), a ainsi mis en place un programme de contrôle de sa marque pour les réutilisateurs des données. « Don’t pretend to be us » fixe un cadre précis pour s’assurer que les clients usagers du réseau de transport seront bien en mesure de distinguer les applications « officielles » de celles développées par des tiers.

Il faut noter que nombre d’acteurs, initialement positionnés dans une posture défensive se sont redéployés de manière offensive. Ainsi TfL mentionné plus haut, mais aussi l’opérateur rennais ou new-yorkais (MTA), …

De même nombre de stratégies offensives sont des miroirs de stratégies défensives (par ex. prévenir l’usage sauvage >; valoriser ses actifs informationnels).

3/ Stratégies transparence en mode « défensif »

Pour rappel, dans une optique de transparence l’important est davantage de diffuser et de mettre à disposition des données plutôt que d’en encourager la réutilisation.

En mode défensif, je distingue deux stratégies :

– « rendre des comptes » [6] : certaines activités sont soumises à la pression publique (en particulier dans le domaine de l’énergie ou de la finance) et/ou au droit de regard exercé par un régulateur de marché. L’obligation de rendre des comptes fait alors partie des déclencheurs d’une démarche de partage et de diffusion des données,

– « datawashing » [7] : similaire à l’éco-blanchiment (greenwashing) le datawashing consiste à publier des jeux de données (présentant souvent peu d’intérêt pour les réutilisateurs) afin de se donner une image de transparence. L’opérateur d’énergie italien Enel a ainsi récemment fait parler de lui en publiant sur un portail open data dédié des données… que l’on retrouve dans son rapport annuel de responsabilité sociale et environnementale. Aux Etats-Unis, la société Nike a de même fait un effort de transparence qui n’est sans doute pas étranger aux polémiques sur les conditions de fabrication de ses produits.

On notera d’ailleurs avec grand intérêt que les compagnies les plus avancées dans le domaine de l’ouverture de leurs données sont aussi celles soumises le plus régulièrement à la critique, dans les domaines de l’énergie, de l’environnement, de la finance ou des transports…

4/ Stratégies transparence en mode « offensif »

La transparence ne se limite pas au contexte défensif. Je distingue trois stratégies déployées par des acteurs qui souhaitent (re)prendre la main :

– « répondre à un enjeu de gouvernance » [8] : anticiper la demande de transparence en publiant des données sur le fonctionnement de son activité ou de ses missions, fournir à toutes les parties prenantes (stakeholders) les mêmes éléments de compréhension et d’action. Cet enjeu de gouvernance a par exemple été souligné lors d’un rapport de la Cour des Comptes sur les transports ferroviaires en Ile-de-France,

– « (compenser) la qualité de service par l’information » [9] : pour les activités de services, le fait même de fournir une information sur la qualité du service tend à améliorer sa perception par les usagers. Un exemple : ce ne sont pas les données ouvertes par la SNCF qui font arriver les trains à l’heure, par contre il est clair que l’effort de transparence est jugé positivement par les voyageurs,

– « préparer au changement » [10] : diffuser des données peut aussi aider à préparer au changement, à poser les bases d’un diagnostic commun. Bien évidemment, cette stratégie peut être le miroir du « datawashing », donc on restera prudent dans sa mise en oeuvre… et critique quand on la verra à l’oeuvre !

Le mobile, la mobilité et l’open data


Vendredi soir dernier j’étais invité au lancement des HackDays de Transilien. La filiale Ile-de-France de la SNCF a ouvert des premiers jeux de données et organise un hackaton durant 48 heures à la Cantine de Paris. A cette occasion, j’ai traité du rapport entre le (téléphone) mobile, la mobilité (les transports) et les données ouvertes. Extrait de cette intervention. 

Pourquoi les applications mobiles pour les transports représentent-elles la face la plus visible de l’open data ? Comment expliquer le lien très fort entre le mobile, la mobilité et les données ouvertes ? Cet billet se propose d’explorer les dimensions de cette relation à trois. Une relation historique et relativement féconde.

1 – Le mobile et la mobilité : temps de transport, temps perdu ?

La téléportation, un moyen de transport ? (photo by PauliePaul)

Depuis plus de 50 ans, le temps de transport est resté globalement stable dans les pays développés. Chacun passe en moyenne une heure par jour à se déplacer – quel que soit le motif de ce déplacement (aller au travail, visiter des amis, faire du tourisme, se déplacer pour ses loisirs, …). Mais cette étonnante stabilité cache en réalité deux évolutions importantes, la première étant bien entendu l’accroissement des distances parcourues. La seconde évolution est liée à l’occupation de ce temps de transport.

On considère souvent le temps de transport comme du temps perdu, un temps à minimiser au maximum (l’évaluation économique d’un nouveau projet d’autoroute ou d’une nouvelle ligne de métro s’appuie d’ailleurs largement sur cette idée de temps à re-gagner). L’article « The Gift of travel time » publié en 2007 dans le très sérieux Journal of Transport Geography remet justement en cause ce dogme. Les deux chercheurs britanniques, sociologues des transports, se sont attachés à comprendre comment nous utilisons notre temps pendant que nous nous déplaçons.

Dans une bonne logique utilitariste, si le temps de transport est exclusivement un temps perdu, alors chacun d’entre nous devrait chercher à le réduire à zéro. D’où l’hypothèse de la téléportation que les deux chercheurs ont testé (on parle bien là d’hypothèse dans la mesure où la téléportation n’existe pas encore en dehors des films de science-fiction…) : « et si votre temps de transport était réduit à zéro et que vous puissiez vous rendre instantanément d’un point à l’autre, de votre bureau à votre salon ?« . Curieusement, peu de personnes interrogées se sont montrées intéressées par un tel scénario.

L’article explique que le temps de transport a une valeur en tant que telle pour les voyageurs. On parle notamment d’un temps de transition (transition time), d’un sas entre deux lieux, deux moments, deux rôles. Je quitte mon travail en fin de journée et mon trajet me permet aussi de me préparer à arriver dans mon foyer. Mais le plus intéressant dans cet article de 2007 est la notion de temps équipé. Si le temps de transport n’est pas exclusivement du temps perdu, c’est aussi parce que nous l’équipons d’un ensemble d’outils, numériques ou pas, pour le rendre « utile » mais pas seulement.

Equiper le temps de transport – avant l’iPhone (photo by Rockheim)

Bien avant l’arrivée de l’iPhone, on savait déjà « équiper » le temps de transport. La lecture d’un livre ou de la presse en est l’illustration. On peut d’ailleurs souligner que sans métro et RER, il n’y aurait pas de presse gratuite. La grande innovation, pour les voyageurs, date de 1979 et s’est vendu à plus de 200 millions d’exemplaires. Le Walkman propose une expérience inédite, celle de l’écoute musicale en ballade qui permet de se re-créer une bulle personnelle au milieu des autres passagers. En un mot, d’individualiser un transport collectif. Les téléphones mobiles permettent de passer des appels mais aussi d’envoyer des SMS. Cette dernière fonction, moins intrusive, est largement répandue dans les transports. Le succès de l’i-mode au Japon au début des années 2000 préfigure celui de l’Internet mobile. On explique d’ailleurs en partie cet engouement des japonais pour l’i-mode par le fait qu’ils sont de grands commuters

2 – Le smartphone : gagner du temps et faire passer le temps

Le smartphone réconcilie les deux temps du transport. Lorsque je consulte les horaires de passage de mon RER, que j’identifie la sortie la plus proche de ma correspondance, que je prépare mon prochain déplacement en réservant un billet de train et une chambre d’hôtel, que je confirme à ma compagne que je vais bien chercher notre fille à la crèche, je gagne du temps. Mais au cours du même trajet, je vais aussi regarder les résultats de mon équipe de foot favorite, visionner une vidéo de ma fille, perfectionner mon niveau à Angry Birds ou Cut the Rope, commenter la photo d’un ami sur Facebook ou signaler via Twitter qu’il y a des contrôleurs à Saint-Lazare… Bref je vais faire passer le temps (ou le « tuer »).

Le lien fort entre smartphone et mobilité tient en partie à cette double dimension de time-saver et time-killer. La proximité entre l’outil (le téléphone mobile) et l’activité (se déplacer) est naturelle : ils ont des gènes en commun.

3 – L’open data et le mobile : pourquoi d’abord des applications mobiles ?

Les applications mobiles représentent la face la plus visible de l’open data – au risque d’ailleurs d’occulter toutes les autres réutilisations possibles des données ouvertes. Comment peut-on expliquer cette sur-représentation ?

Apps For Democracy : l’un des tous premiers concours open data

Cela tient en partie au mode d’animation principal de l’open data, à savoir les concours. Les premiers concours de réutilisation des données ouvertes (Washington D.C., New-York, San Francisco, Chicago, Londres, …) sont des concours d’applications mobiles. Le contexte technologique n’y est sans doute pas étranger : dans les années 2008-2009 les applications mobiles deviennent à la mode. Quand Rennes lance son concours en 2010, l’accent est clairement mis sur ce type de réutilisation (comme plus récemment à Nantes ou en Saône-et-Loire d’ailleurs). L’open data des territoires oriente aussi les réutilisateurs vers des services utiles au quotidien – et les applications mobiles en font partie.

Il y a d’ailleurs une certaine ironie de l’histoire à faire des applications mobiles la face la plus visible de l’open data. Comme je l’ai déjà souligné dans un précédent billet, il n’y a pas d’open data sans open source. Or, que peut-on imaginer de plus antinomique à l’ouverture qu’une application mobile pour iPhone ? Si Tim Berners-Lee était déjà mort, il se retournerait dans sa tombe !

4 – La mobilité, une place à part

Enfin, la question de la mobilité et des transports occupe une place à part dans le domaine des données ouvertes. La demande des réutilisateurs est forte (voir par exemple les résultats de l’enquête menée par Socrata en 2011 ou celle réalisée pour mon bouquin en France). De tous les jeux de données ouvrables, ce sont ceux qui concernent la mobilité (au sens large : les transports collectifs mais aussi le vélo, la marche à pied, les parkings, …) qui sont les plus demandés.

C’est aussi dans le champ de la mobilité que l’on trouve le plus de réutilisation « sauvage » en cas de non-ouverture des données. Le cas de CheckMyMetro a été largement médiatisé, de même que les multiples déboires des développeurs avec l’exploitant du Vélib’.
Lors de mon récent déplacement à Montpellier, j’ai découvert le travail remarquable du développeur qui a crée Api Tam, une API qui permet d’interroger les horaires du réseau de transport montpelliérain. C’est du grand art : au lieu de développer une application mobile, il a conçu des outils qui permettent à tous les réutilisateurs d’utiliser les données pas encore ouvertes par l’opérateur local de transport (la TAM) … En prime, il reste fidèle à l’open source puisque tout est redistribué sur GitHub.

La demande pour ce type de données est forte et elle se traduit aussi par de nombreuses réalisations concrètes. La majorité des applications mobiles développées dans le cadre des concours (tant aux Etats-Unis qu’en Europe) ont un rapport avec cette thématique.

En conclusion, on voit donc bien que le lien entre le mobile, la mobilité et l’open data est fort et fécond. Reste la question de l’oeuf et de la poule, que j’ai encore un peu de mal à identifier avec précision. Est-ce que l’on a beaucoup d’applis de transport parce que les concours ont orienté les réutilisateurs vers ce type de développement ? L’appétit pour les données transport vient-il justement de cette orientation particulière qui date des années 2008-2009 ou est-elle plus générique ? Vos commentaires et éclairages sont les bienvenus !

En finir avec le mythe de la donnée brute

A l’occasion de la semaine européenne de l’open data (Open Data Week) à Nantes la semaine dernière, j’ai traité de la sensibilisation du grand public aux données, et par extension aux données ouvertes (open data). Il y a notamment été question d’en finir avec le mythe de la donnée brute. Extrait et complément à cette intervention.

« Je fume donc je vis ? »

Tout commence lors de la dernière rentrée scolaire, la première pour mon fils. L’année de sa naissance son prénom – Nathan – figurait parmi les plus populaires au niveau national. J’étais donc surpris de constater qu’il était le seul petit garçon à s’appeler ainsi dans l’école maternelle de notre quartier rennais. Il y avait bien plusieurs Maxime et Quentin, mais un seul Nathan, pourquoi ? Et si, par hasard, ce prénom était beaucoup moins populaire à Rennes qu’ailleurs en France, à Paris ou Nantes par exemple ?  

La liste des prénoms les plus populaires fait partie des données ouvertes par ces trois villes. C’est en cherchant le nombre total de naissances que j’ai trouvé une curiosité. Paris propose cette donnée sur son portail open data, l’INSEE aussi. Mais … les deux chiffres ne coincident pas ! Comment expliquer ce décalage entre deux faits que j’imaginais pourtant bruts ? La ville recense toutes les naissances ayant eu lieu sur son territoire (c’est-à-dire dans les maternités, les hôpitaux, les rames de métro ou ailleurs) alors que notre institut statistique national comptabilise lui les nouveaux-nés au domicile de leur mère.

Si une femme domiciliée à Montrouge accouche dans une maternité parisienne, son enfant – quel que soit son prénom ! – sera comptabilisé à Paris (selon la Ville) et à Vanves (selon l’INSEE). Pour la seule année 2010, il y a ainsi un décalage de plus de 10 000 naissances (un quart du total). Il y a donc deux méthodes de calcul : qui a tort, qui a raison ?

1- La donnée brute n’existe pas

Je pense que l’open data devrait intègrer une dimension plus critique vis-à-vis des données ouvertes et réutilisées. Il me semble indispensable de comprendre l’origine des données et les buts initiaux de la collecte. Pourquoi cette donnée existe-t-elle ? A quoi et à qui sert-elle initialement ? Car, soulignons-le, avant la ré-utilisation il y a l’utilisation tout court.

Pour revenir à notre exemple, personne n’a raison ou tort d’appliquer sa propre méthode de calcul. Si l’INSEE retient comme critère le domicile de la mère c’est pour mieux refleter la réalité démographique des territoires – après tout, dans le cadre du recensement on comptabilise la population selon leur lieu d’habitation, pas seulement leur lieu de naissance.

J’ai pris conscience, avec mes modestes moyens, de ce que les chercheurs en sciences sociales savent depuis fort longtemps (lire à ce sujet le commentaire argumenté de Jérôme Denis sur Internet Actu) : il n’y a pas plus de fait brut que de données brutes. Une donnée est toujours le résultat d’une intention, d’une méthode de calcul, de la volonté de représenter ou de mesurer une certaine partie de la réalité. La donnée ne résume pas le Monde qu’elle cherche à décrire.

2- Pour une critique de la donnée

Quiconque met les mains dans le cambouis des données ouvertes se rend très vite compte qu’il est indispensable de faire un détour par les «cuisines» de la data avant d’envisager toute réutilisation sérieuse (d’où l’importance d’ailleurs de la documentation des jeux de données). L’exemple de la comptabilisation des naissances n’est pas une exception, je pense au contraire que c’est une règle.

Savons-nous par exemple que la comptabilisation des morts sur la route n’est pas la même selon les services de l’Etat concernés. On pourrait pourtant penser qu’un décès c’est tout de même un fait brut par excellence : soit tu es mort, soit tu es vivant point barre (troisième possibilité : tu es dans un vieux clip du défunt roi de la pop). Et pourtant les services ne le comptabilisent pas de manière identique : certains recensent les personnes décédées sur le lieu-même de l’accident, d’autres prennent en compte les décès intervenus dans les 3 jours suivants. Pour la DDE (direction départementale de l’équipement) ou pour le SAMU, être mort ne veut pas tout à fait dire la même chose !

Etre critique de la donnée c’est donc essayer de comprendre pourquoi et comment l’information initiale est collectée et à quoi elle sert. Ensuite, c’est accepter l’idée que les données ne nous racontent pas tout, bref remettre en cause le dogme de la toute puissance de la donnée.

Un dernier exemple pour nous en convaincre : certaines collectivités publient la liste des subventions aux associations de leur territoire dans une optique de transparence. Ces données ont été collectées dans un but précis : permettre la délibération des conseils municipaux qui attribuent ces aides. On a donc un fichier avec le nom d’une association, un montant, un numéro de délibération. Comme l’a montré l’expérience menée par Bug , cette donnée ne nous permet de mesurer le soutien de la ville au secteur associatif, ni de mesurer si certaines associations sont «sous perfusion» de subventions publiques (en effet on ne dispose pas de leur budget global et l’on ne sait donc pas si l’aide représente 10% … ou 80% des ressources de la structure).

Etre critique de la donnée ce serait donc aussi parfois s’interroger : qu’est-ce que cette donnée ne nous raconte pas ?

Les données ne sont donc pas aussi neutres que l’on voudrait nous le faire croire. Mais il faudrait, pour être plus complet, intégrer aussi les effets de la donnée et les phénomènes de rétroaction. On a par exemple récemment discuté de l’effet de renforcement des classements des lycées ou des hôpitaux publiés par la presse. Les parents d’élèves qui le peuvent vont choisir le meilleur lycée pour leur enfant, renforcant ainsi le phénomène initial. Ignorer les effets potentiels de la donnée et de sa divulgation c’est faire preuve d’une grande naïveté.

3- La visualisation nous sauvera tous ?

La visualisation et l’infographie sont-elles des solutions pour faciliter l’appropriation et la compréhension des données, notamment les plus complexes, par le grand public ? La dataviz est à la mode c’est sûr (et leur histoire est très riche, comme en témoigne la présentation de Gaëtan Gaborit lors de l’Open Data Week). Mais nous sauvera-t-elle tous pour autant ?

Le site GapMinder permet depuis des années de visualiser simplement des statistiques mondiales liés à la santé, l’économie, le développement, … La vidéo de son créateur Hans Rosling lors de la conférence TED a marqué les esprits et comptabilise plus de 4 millions de vues. Gapminder a fait de l’open data avant l’heure : on peut y télécharger les jeux de données «brutes» pour créer ses propres visualisations. L’ambition du site se résume dans sa promesse : «Unveiling the beauty of statistics for a fact-based world view».

« Je fume donc je vis » ?

Le graphique que j’ai produit met en relation la part des fumeurs dans la population et l’espérance de vie à la naissance (les données sont issues de l’OMS et datent de 2005). Mon tableur favori m’a proposé de tracer la courbe de corrélation entre ces deux variables.  On peut ainsi constater que, dans les pays où l’on fume le plus, l’espérance de vie est la plus élevée.

Peut-on pour autant remettre en question la nocivité du tabac à partir de ce graphique ? Ce qui est en jeu ici c’est la différence entre corrélation et causalité… Il me semble que dans ce cas la visualisation, plutôt que de nous éclairer sur la réalité aurait tendance à nous embrouiller (ou, dans le cas d’espèce, à nous enfumer).

L’infographie a parfois cet effet pervers d’anihilier tout sens critique. Ainsi celle présentant le baromètre de l’open data en France, infographie qui a connu un grand succès en ligne. L’image nous explique, carte de France à l’appui, que 19 acteurs publics ont lancé leurs portails open data. Viennent ensuite les résultats de l’observatoire et notamment la phrase suivante : «3% des acteurs ont libéré au moins 4 jeux de données sur le volet budgétaire». De prime abord j’ai trouvé cela bizarre, ce que m’a confirmé ma calculette : 3% de 19 acteurs celà fait 0,57 acteur. Donc, cette infographie nous dit : «0,57 acteur ont libéré au moins 4 jeux de données budgétaires». Qu’est-ce que celà peut bien vouloir dire ? Qu’un seul acteur a libéré au moins 8 jeux de données ? 😉

4 – Comment sensibiliser le grand public ?

Force est de constater que les dispositifs d’animation actuels de l’open data ont du mal à atteindre le grand public. Les concours et les appels à projets ne visent bien souvent qu’une cible particulière, celle des développeurs réutilisateurs. Les cartoparties ou les ateliers de chasse aux données adressent un public plus large mais ne sont cependant pas suffisantes.

Développer un sens critique de la donnée passe sans doute par l’exposition des conditions de sa production… C’est non seulement en visitant cette «fabrique des données», mais aussi en mettant soi-même les mains dans le cambouis que l’on peut espérer faciliter une plus large appropriation.