Le mobile, la mobilité et l’open data


Vendredi soir dernier j’étais invité au lancement des HackDays de Transilien. La filiale Ile-de-France de la SNCF a ouvert des premiers jeux de données et organise un hackaton durant 48 heures à la Cantine de Paris. A cette occasion, j’ai traité du rapport entre le (téléphone) mobile, la mobilité (les transports) et les données ouvertes. Extrait de cette intervention. 

Pourquoi les applications mobiles pour les transports représentent-elles la face la plus visible de l’open data ? Comment expliquer le lien très fort entre le mobile, la mobilité et les données ouvertes ? Cet billet se propose d’explorer les dimensions de cette relation à trois. Une relation historique et relativement féconde.

1 – Le mobile et la mobilité : temps de transport, temps perdu ?

La téléportation, un moyen de transport ? (photo by PauliePaul)

Depuis plus de 50 ans, le temps de transport est resté globalement stable dans les pays développés. Chacun passe en moyenne une heure par jour à se déplacer – quel que soit le motif de ce déplacement (aller au travail, visiter des amis, faire du tourisme, se déplacer pour ses loisirs, …). Mais cette étonnante stabilité cache en réalité deux évolutions importantes, la première étant bien entendu l’accroissement des distances parcourues. La seconde évolution est liée à l’occupation de ce temps de transport.

On considère souvent le temps de transport comme du temps perdu, un temps à minimiser au maximum (l’évaluation économique d’un nouveau projet d’autoroute ou d’une nouvelle ligne de métro s’appuie d’ailleurs largement sur cette idée de temps à re-gagner). L’article « The Gift of travel time » publié en 2007 dans le très sérieux Journal of Transport Geography remet justement en cause ce dogme. Les deux chercheurs britanniques, sociologues des transports, se sont attachés à comprendre comment nous utilisons notre temps pendant que nous nous déplaçons.

Dans une bonne logique utilitariste, si le temps de transport est exclusivement un temps perdu, alors chacun d’entre nous devrait chercher à le réduire à zéro. D’où l’hypothèse de la téléportation que les deux chercheurs ont testé (on parle bien là d’hypothèse dans la mesure où la téléportation n’existe pas encore en dehors des films de science-fiction…) : « et si votre temps de transport était réduit à zéro et que vous puissiez vous rendre instantanément d’un point à l’autre, de votre bureau à votre salon ?« . Curieusement, peu de personnes interrogées se sont montrées intéressées par un tel scénario.

L’article explique que le temps de transport a une valeur en tant que telle pour les voyageurs. On parle notamment d’un temps de transition (transition time), d’un sas entre deux lieux, deux moments, deux rôles. Je quitte mon travail en fin de journée et mon trajet me permet aussi de me préparer à arriver dans mon foyer. Mais le plus intéressant dans cet article de 2007 est la notion de temps équipé. Si le temps de transport n’est pas exclusivement du temps perdu, c’est aussi parce que nous l’équipons d’un ensemble d’outils, numériques ou pas, pour le rendre « utile » mais pas seulement.

Equiper le temps de transport – avant l’iPhone (photo by Rockheim)

Bien avant l’arrivée de l’iPhone, on savait déjà « équiper » le temps de transport. La lecture d’un livre ou de la presse en est l’illustration. On peut d’ailleurs souligner que sans métro et RER, il n’y aurait pas de presse gratuite. La grande innovation, pour les voyageurs, date de 1979 et s’est vendu à plus de 200 millions d’exemplaires. Le Walkman propose une expérience inédite, celle de l’écoute musicale en ballade qui permet de se re-créer une bulle personnelle au milieu des autres passagers. En un mot, d’individualiser un transport collectif. Les téléphones mobiles permettent de passer des appels mais aussi d’envoyer des SMS. Cette dernière fonction, moins intrusive, est largement répandue dans les transports. Le succès de l’i-mode au Japon au début des années 2000 préfigure celui de l’Internet mobile. On explique d’ailleurs en partie cet engouement des japonais pour l’i-mode par le fait qu’ils sont de grands commuters

2 – Le smartphone : gagner du temps et faire passer le temps

Le smartphone réconcilie les deux temps du transport. Lorsque je consulte les horaires de passage de mon RER, que j’identifie la sortie la plus proche de ma correspondance, que je prépare mon prochain déplacement en réservant un billet de train et une chambre d’hôtel, que je confirme à ma compagne que je vais bien chercher notre fille à la crèche, je gagne du temps. Mais au cours du même trajet, je vais aussi regarder les résultats de mon équipe de foot favorite, visionner une vidéo de ma fille, perfectionner mon niveau à Angry Birds ou Cut the Rope, commenter la photo d’un ami sur Facebook ou signaler via Twitter qu’il y a des contrôleurs à Saint-Lazare… Bref je vais faire passer le temps (ou le « tuer »).

Le lien fort entre smartphone et mobilité tient en partie à cette double dimension de time-saver et time-killer. La proximité entre l’outil (le téléphone mobile) et l’activité (se déplacer) est naturelle : ils ont des gènes en commun.

3 – L’open data et le mobile : pourquoi d’abord des applications mobiles ?

Les applications mobiles représentent la face la plus visible de l’open data – au risque d’ailleurs d’occulter toutes les autres réutilisations possibles des données ouvertes. Comment peut-on expliquer cette sur-représentation ?

Apps For Democracy : l’un des tous premiers concours open data

Cela tient en partie au mode d’animation principal de l’open data, à savoir les concours. Les premiers concours de réutilisation des données ouvertes (Washington D.C., New-York, San Francisco, Chicago, Londres, …) sont des concours d’applications mobiles. Le contexte technologique n’y est sans doute pas étranger : dans les années 2008-2009 les applications mobiles deviennent à la mode. Quand Rennes lance son concours en 2010, l’accent est clairement mis sur ce type de réutilisation (comme plus récemment à Nantes ou en Saône-et-Loire d’ailleurs). L’open data des territoires oriente aussi les réutilisateurs vers des services utiles au quotidien – et les applications mobiles en font partie.

Il y a d’ailleurs une certaine ironie de l’histoire à faire des applications mobiles la face la plus visible de l’open data. Comme je l’ai déjà souligné dans un précédent billet, il n’y a pas d’open data sans open source. Or, que peut-on imaginer de plus antinomique à l’ouverture qu’une application mobile pour iPhone ? Si Tim Berners-Lee était déjà mort, il se retournerait dans sa tombe !

4 – La mobilité, une place à part

Enfin, la question de la mobilité et des transports occupe une place à part dans le domaine des données ouvertes. La demande des réutilisateurs est forte (voir par exemple les résultats de l’enquête menée par Socrata en 2011 ou celle réalisée pour mon bouquin en France). De tous les jeux de données ouvrables, ce sont ceux qui concernent la mobilité (au sens large : les transports collectifs mais aussi le vélo, la marche à pied, les parkings, …) qui sont les plus demandés.

C’est aussi dans le champ de la mobilité que l’on trouve le plus de réutilisation « sauvage » en cas de non-ouverture des données. Le cas de CheckMyMetro a été largement médiatisé, de même que les multiples déboires des développeurs avec l’exploitant du Vélib’.
Lors de mon récent déplacement à Montpellier, j’ai découvert le travail remarquable du développeur qui a crée Api Tam, une API qui permet d’interroger les horaires du réseau de transport montpelliérain. C’est du grand art : au lieu de développer une application mobile, il a conçu des outils qui permettent à tous les réutilisateurs d’utiliser les données pas encore ouvertes par l’opérateur local de transport (la TAM) … En prime, il reste fidèle à l’open source puisque tout est redistribué sur GitHub.

La demande pour ce type de données est forte et elle se traduit aussi par de nombreuses réalisations concrètes. La majorité des applications mobiles développées dans le cadre des concours (tant aux Etats-Unis qu’en Europe) ont un rapport avec cette thématique.

En conclusion, on voit donc bien que le lien entre le mobile, la mobilité et l’open data est fort et fécond. Reste la question de l’oeuf et de la poule, que j’ai encore un peu de mal à identifier avec précision. Est-ce que l’on a beaucoup d’applis de transport parce que les concours ont orienté les réutilisateurs vers ce type de développement ? L’appétit pour les données transport vient-il justement de cette orientation particulière qui date des années 2008-2009 ou est-elle plus générique ? Vos commentaires et éclairages sont les bienvenus !

En finir avec le mythe de la donnée brute

A l’occasion de la semaine européenne de l’open data (Open Data Week) à Nantes la semaine dernière, j’ai traité de la sensibilisation du grand public aux données, et par extension aux données ouvertes (open data). Il y a notamment été question d’en finir avec le mythe de la donnée brute. Extrait et complément à cette intervention.

« Je fume donc je vis ? »

Tout commence lors de la dernière rentrée scolaire, la première pour mon fils. L’année de sa naissance son prénom – Nathan – figurait parmi les plus populaires au niveau national. J’étais donc surpris de constater qu’il était le seul petit garçon à s’appeler ainsi dans l’école maternelle de notre quartier rennais. Il y avait bien plusieurs Maxime et Quentin, mais un seul Nathan, pourquoi ? Et si, par hasard, ce prénom était beaucoup moins populaire à Rennes qu’ailleurs en France, à Paris ou Nantes par exemple ?  

La liste des prénoms les plus populaires fait partie des données ouvertes par ces trois villes. C’est en cherchant le nombre total de naissances que j’ai trouvé une curiosité. Paris propose cette donnée sur son portail open data, l’INSEE aussi. Mais … les deux chiffres ne coincident pas ! Comment expliquer ce décalage entre deux faits que j’imaginais pourtant bruts ? La ville recense toutes les naissances ayant eu lieu sur son territoire (c’est-à-dire dans les maternités, les hôpitaux, les rames de métro ou ailleurs) alors que notre institut statistique national comptabilise lui les nouveaux-nés au domicile de leur mère.

Si une femme domiciliée à Montrouge accouche dans une maternité parisienne, son enfant – quel que soit son prénom ! – sera comptabilisé à Paris (selon la Ville) et à Vanves (selon l’INSEE). Pour la seule année 2010, il y a ainsi un décalage de plus de 10 000 naissances (un quart du total). Il y a donc deux méthodes de calcul : qui a tort, qui a raison ?

1- La donnée brute n’existe pas

Je pense que l’open data devrait intègrer une dimension plus critique vis-à-vis des données ouvertes et réutilisées. Il me semble indispensable de comprendre l’origine des données et les buts initiaux de la collecte. Pourquoi cette donnée existe-t-elle ? A quoi et à qui sert-elle initialement ? Car, soulignons-le, avant la ré-utilisation il y a l’utilisation tout court.

Pour revenir à notre exemple, personne n’a raison ou tort d’appliquer sa propre méthode de calcul. Si l’INSEE retient comme critère le domicile de la mère c’est pour mieux refleter la réalité démographique des territoires – après tout, dans le cadre du recensement on comptabilise la population selon leur lieu d’habitation, pas seulement leur lieu de naissance.

J’ai pris conscience, avec mes modestes moyens, de ce que les chercheurs en sciences sociales savent depuis fort longtemps (lire à ce sujet le commentaire argumenté de Jérôme Denis sur Internet Actu) : il n’y a pas plus de fait brut que de données brutes. Une donnée est toujours le résultat d’une intention, d’une méthode de calcul, de la volonté de représenter ou de mesurer une certaine partie de la réalité. La donnée ne résume pas le Monde qu’elle cherche à décrire.

2- Pour une critique de la donnée

Quiconque met les mains dans le cambouis des données ouvertes se rend très vite compte qu’il est indispensable de faire un détour par les «cuisines» de la data avant d’envisager toute réutilisation sérieuse (d’où l’importance d’ailleurs de la documentation des jeux de données). L’exemple de la comptabilisation des naissances n’est pas une exception, je pense au contraire que c’est une règle.

Savons-nous par exemple que la comptabilisation des morts sur la route n’est pas la même selon les services de l’Etat concernés. On pourrait pourtant penser qu’un décès c’est tout de même un fait brut par excellence : soit tu es mort, soit tu es vivant point barre (troisième possibilité : tu es dans un vieux clip du défunt roi de la pop). Et pourtant les services ne le comptabilisent pas de manière identique : certains recensent les personnes décédées sur le lieu-même de l’accident, d’autres prennent en compte les décès intervenus dans les 3 jours suivants. Pour la DDE (direction départementale de l’équipement) ou pour le SAMU, être mort ne veut pas tout à fait dire la même chose !

Etre critique de la donnée c’est donc essayer de comprendre pourquoi et comment l’information initiale est collectée et à quoi elle sert. Ensuite, c’est accepter l’idée que les données ne nous racontent pas tout, bref remettre en cause le dogme de la toute puissance de la donnée.

Un dernier exemple pour nous en convaincre : certaines collectivités publient la liste des subventions aux associations de leur territoire dans une optique de transparence. Ces données ont été collectées dans un but précis : permettre la délibération des conseils municipaux qui attribuent ces aides. On a donc un fichier avec le nom d’une association, un montant, un numéro de délibération. Comme l’a montré l’expérience menée par Bug , cette donnée ne nous permet de mesurer le soutien de la ville au secteur associatif, ni de mesurer si certaines associations sont «sous perfusion» de subventions publiques (en effet on ne dispose pas de leur budget global et l’on ne sait donc pas si l’aide représente 10% … ou 80% des ressources de la structure).

Etre critique de la donnée ce serait donc aussi parfois s’interroger : qu’est-ce que cette donnée ne nous raconte pas ?

Les données ne sont donc pas aussi neutres que l’on voudrait nous le faire croire. Mais il faudrait, pour être plus complet, intégrer aussi les effets de la donnée et les phénomènes de rétroaction. On a par exemple récemment discuté de l’effet de renforcement des classements des lycées ou des hôpitaux publiés par la presse. Les parents d’élèves qui le peuvent vont choisir le meilleur lycée pour leur enfant, renforcant ainsi le phénomène initial. Ignorer les effets potentiels de la donnée et de sa divulgation c’est faire preuve d’une grande naïveté.

3- La visualisation nous sauvera tous ?

La visualisation et l’infographie sont-elles des solutions pour faciliter l’appropriation et la compréhension des données, notamment les plus complexes, par le grand public ? La dataviz est à la mode c’est sûr (et leur histoire est très riche, comme en témoigne la présentation de Gaëtan Gaborit lors de l’Open Data Week). Mais nous sauvera-t-elle tous pour autant ?

Le site GapMinder permet depuis des années de visualiser simplement des statistiques mondiales liés à la santé, l’économie, le développement, … La vidéo de son créateur Hans Rosling lors de la conférence TED a marqué les esprits et comptabilise plus de 4 millions de vues. Gapminder a fait de l’open data avant l’heure : on peut y télécharger les jeux de données «brutes» pour créer ses propres visualisations. L’ambition du site se résume dans sa promesse : «Unveiling the beauty of statistics for a fact-based world view».

« Je fume donc je vis » ?

Le graphique que j’ai produit met en relation la part des fumeurs dans la population et l’espérance de vie à la naissance (les données sont issues de l’OMS et datent de 2005). Mon tableur favori m’a proposé de tracer la courbe de corrélation entre ces deux variables.  On peut ainsi constater que, dans les pays où l’on fume le plus, l’espérance de vie est la plus élevée.

Peut-on pour autant remettre en question la nocivité du tabac à partir de ce graphique ? Ce qui est en jeu ici c’est la différence entre corrélation et causalité… Il me semble que dans ce cas la visualisation, plutôt que de nous éclairer sur la réalité aurait tendance à nous embrouiller (ou, dans le cas d’espèce, à nous enfumer).

L’infographie a parfois cet effet pervers d’anihilier tout sens critique. Ainsi celle présentant le baromètre de l’open data en France, infographie qui a connu un grand succès en ligne. L’image nous explique, carte de France à l’appui, que 19 acteurs publics ont lancé leurs portails open data. Viennent ensuite les résultats de l’observatoire et notamment la phrase suivante : «3% des acteurs ont libéré au moins 4 jeux de données sur le volet budgétaire». De prime abord j’ai trouvé cela bizarre, ce que m’a confirmé ma calculette : 3% de 19 acteurs celà fait 0,57 acteur. Donc, cette infographie nous dit : «0,57 acteur ont libéré au moins 4 jeux de données budgétaires». Qu’est-ce que celà peut bien vouloir dire ? Qu’un seul acteur a libéré au moins 8 jeux de données ? 😉

4 – Comment sensibiliser le grand public ?

Force est de constater que les dispositifs d’animation actuels de l’open data ont du mal à atteindre le grand public. Les concours et les appels à projets ne visent bien souvent qu’une cible particulière, celle des développeurs réutilisateurs. Les cartoparties ou les ateliers de chasse aux données adressent un public plus large mais ne sont cependant pas suffisantes.

Développer un sens critique de la donnée passe sans doute par l’exposition des conditions de sa production… C’est non seulement en visitant cette «fabrique des données», mais aussi en mettant soi-même les mains dans le cambouis que l’on peut espérer faciliter une plus large appropriation.

Comment l’open data est devenu un objet politique …

A la suite de ma conférence pour le Social Media Club sur le thème de la démocratie ouverte, je vous propose une série d’articles sur les promesses politiques de l’open data. Ce premier billet raconte la genèse : comment l’open data est-il devenu un objet politique ? Retour en quatre actes sur le lien entre open data, gouvernement ouvert et open source.
ACTE 1 - OBAMA
Le 1er jour d'Obama (photo The White House)

Le 1er jour d’Obama (photo The White House)

Le 21 janvier 2009,  le 44 ème président des Etats-Unis prend ses fonctions. Barack Obama signe ce jour-là trois mémorandums, dont deux concernent le gouvernement ouvert et la transparence. C’est un acte politique majeur, qui marque un engagement fort de la part de la nouvelle administration et est souvent cité comme une étape importante pour l’open government. Un acte fondateur ?Peut-être, mais fruit du hasard, sûrement pas.

ACTE 2 - O'REILLY, LESSIG ET LES AUTRES

Près d’un an avant l’entrée en fonction d’Obama, un groupe d’une trentaine d’activistes et de praticiens de l’open government se sont retrouvés à Sebastopol en Californie, à l’invitation de Tim O’Reilly et de Carl Malamud. On connaît bien le premier : auteur et éditeur américain, il a souvent été à l’avant-garde des mouvements de l’informatique et de l’Internet, de l’open source jusqu’à l’expression-même de Web 2.0 qu’il a défini et popularisé. Carl Malamud est une figure moins connue, du moins en France mais tout aussi intéressante. Ingénieur, il est notamment à l’origine des protocoles qui permettent la diffusion de la radio sur Internet. Il s’est ensuite beaucoup investi dans la mise en ligne des informations gouvernementales.

Ils ont défini l’open government data … (photo David Orban)

L’invitation mentionnait déjà l’ambition de la rencontre : définir les principes de l’open data et, si possible, les faire adopter par les candidats à l’élection présidentielle qui devait se dérouler l’année suivante.

La photographie du groupe ressemble à un Who’s Who de l’open government et du mouvement free culture. Outre O’Reilly et Malamud, on y reconnaît Lawrence Lessig, professeur de droit à Stanford et créateur des licences Creative Commons mais aussi les fondateur de GovTrack.us (l’un des tous premiers sites de suivi de l’activité du gouvernement fédéral), My Society (qui a mis en place au Royaume-Uni le site FixMyStreet) et d’EveryBlock (initié à Chicago, la ville d’Obama)… Diverses fondations y sont représentées dont bien sûr la Sunlight Foundation (co-sponsor de la rencontre avec Yahoo et Google) et l’Electronic Frontier Foundation (EFF).

Le Who’s Who de l’open government (photo David Orban)

Le groupe a échangé pendant deux jours afin de définir les 8 principes qui permettent de définir le concept d’open government data. On notera que le fruit de leur travail est passé à la postérité, car ce sont d’ailleurs souvent ces principes que l’on cite encore aujourd’hui – la Sunlight Foundation a par la suite rajouté deux principes à cette liste, dont la gratuité (cet épisode mériterait à lui seul un billet, j’y reviendrais ultérieurement).

ACTE 3 - STALLMAN ET RAYMOND

A l’issue de la réunion, Lawrence Lessig donne une interview où il compare l’effort de définition de l’open government data à celui réalisé par le mouvement open source. Arrêtons-nous un instant sur cette comparaison. Près d’une dizaine d’années avant cette

Richard Stallman (photo Victor Powell)

rencontre à Sebastopol, une ligne de fracture apparaît dans le domaine du logiciel libre entre les tenants du free software (Richard Stallman en tête) et les promoteurs de l’open source, menés par Eric S. Raymond (l’auteur de la Cathédrale et le Bazar). Le premier mettait en avant des vertus politiques et morales dans les valeurs du logiciel libre – il insistait beaucoup sur la notion de liberté. Le second trouvait que le logiciel libre avait avant tout une supériorité en termes de performances et que si on voulait favoriser une adoption plus large de ces outils, il fallait mettre de côté le discours en termes moraux – d’où l’idée aussi de promouvoir le terme d’open source plutôt que de free software. La biographie de Richard Stallman (Libre comme Liberté, éditions Framablog) revient en détail sur cet épisode.Tim O’Reilly a été l’un des plus ardents promoteurs de l’open source. Et, près de dix ans plus tard, il perçoit clairement l’intérêt à poser sa propre définition de l’open data…

ACTE 4  - (OPEN GOV) DATA ou OPEN (GOV DATA) ?

La définition proposée par le groupe de Sébastopol ressemble d’ailleurs davantage à celle de l’open source qu’à celle du free software. A aucun moment, il n’est fait mention de principes politiques ou moraux (même pas en introduction). On aurait pu imaginer que certains de ces principes fassent explicitement appel aux valeurs politiques de l’ouverture, de la transparence, de la société ouverte, … Les rédacteurs se sont concentrés sur l’expression de critères techniques – et non moraux.

Le titre de leur déclaration (8 principles on Open Government Data) est par ailleurs source de malentendus. Pour reprendre l’expression d’un chargé de mission de la Banque Mondiale, l’expression « Open Government Data » peut se comprendre de deux manières. (Open Governement) Data met l’accent sur la transparence de l’action publique (l’expression de gouvernement ouvert désignait traditionnellement la publication d’informations inédites sur les affaires publiques) alors que « Open (Governement Data) » est davantage porteur d’une promesse de participation.

Participation, transparence : voilà les deux principales promesses politiques de l’open data. Certains universitaires anglo-saxons (voir notamment l’analyse de Yul et Robinson aux Etats-Unis et les articles publiés dans le dernier numéro de Community Informatics) soulignent déjà les tensions entre ces deux promesses, et l’une des principales responsables du programme open government d’Obama, Beth Simone Noveck regrette le choix de ce terme pour décrire son action. Nous verrons dans un prochain billet pourquoi les promesses de transparence et de participation peuvent potentiellement s’opposer … et comment elles prennent forme en France.

Open data, démocratie ouverte ?

En passant

Le 24 avril dernier j’étais l’invité du Social Media Club Rennes pour y parler des promesses politiques de l’open data et notamment sous l’angle transparence vs. participation. Comment l’open data est-il devenu un objet politique ? Quel est le lien entre l’open source, l’open government et les données ouvertes ? Vous pouvez ré-écouter la conférence sous la forme d’un podcast sur le site de  la Cantine numérique rennaise …