Open Data Transport : les enjeux du débat à venir

Où va l'open data transport ?

Où va l’open data transport ?

La feuille de route gouvernementale sur l’ouverture des données publiques (open data) prévoit l’organisation de six débats thématiques et ouverts. L’un d’eux doit précisement s’intéresser aux données du transport.  Ce billet de blog se propose de commencer à identifer les enjeux et les questions du débat à venir.

(Edité le 3 juin pour rajouter un schéma sur les données déjà ouvertes et préciser les questions liées aux formats de mise à disposition).

1 – Le contexte actuel et les objectifs des débats thématiques

Les débats thématiques ont plusieurs objectifs décrits dans la feuille de route : ils doivent permettre d’identifier et de publier de nouveaux jeux de données stratégiques et de qualité, mais aussi d’étudier la possibilité d’élargir et d’étendre la politique d’ouverture des données à l’ensemble des acteurs : collectivités territoriales, délégataires de service public, entreprises publiques, établissements publics à caractère industriel ou commercial, … On voit bien que l’enjeu pour l’open data transport est important, car les changements pourraient concerner l’ensemble des acteurs de la mobilité et des transports.

Par ailleurs, ce débat à venir s’inscrit plus généralement dans la réaffirmation, tant en France qu’aux Etats-Unis, des principes de l’ouverture des données « par défaut » et de la gratuité des données brutes comme l’un des leviers / piliers de cette politique. L’acte 3 de la décentralisation explicite d’ailleurs ce principe d’open data par défaut. Certes, la perspective de son adoption s’éloigne un peu – ce qui pourrait soulager ceux qui sont inquiets des risques que feraient peser, selon eux, la généralisation de l’open data. Mais l’Europe ne reste pas non plus inactive, avec l’adoption de la nouvelle directive PSI (public sector information) qui fixe des orientations assez fortes (et notamment le principe access = reuse) et finalement assez proches des principes défendus par la feuille de route gouvernemental.

Il y aura donc un débat thématique sur les données du transport et de la mobilité. La perspective d’un open data « par défaut », et non d’un open data comme une « option » éclaire  bien sûr d’une lumière nouvelle les questions à venir. En voici quelques unes.

2 – Quelles données ?

Les données du transport, et plus globalement de la mobilité sont diverses et variées. On y retrouve tous les types de données que nous manions quotidiennement dans le domaine de l’open data : données brutes / données enrichies, données historiques / données prédictives, données en stock / données en flux, données de description / données d’exploitation ou de commercialisation, …

Dans une optique de mobilité au sens large, il faut aussi prendre en compte un grand nombre de modes : piéton, vélo, automobile, transports en commun, … Enfin, et ce n’est pas là la moindre difficulté, les données de mobilité sont produites / collectées / gérées par un très grand nombre d’acteurs aux statuts juridiques et aux stratégies parfois incompatibles.

Nous avons donc potentiellement un très grand nombre de données concernées, elles-mêmes très diverses dans leurs caractéristiques, leurs statuts juridiques, leurs valeurs identifiées, réalisées ou perçues. L’un des enjeux du débat sera donc de tenter de classer ces données et de leur attribuer une priorité d’ouverture – un peu à la manière des données « stratégiques » citées par la feuille de route gouvernementale.

OpenDataTransport-donneesdejaouvertes.009Une rapide analyse des sites open data des réseaux de New-York (MTA), Londres (TfL, Transport for London), Paris (Ratp, Transilien) et Rennes (Star) permet déjà d’identifier une très grande diversité dans les données déjà ouvertes.

Le schéma ci-contre en présente une sélection, classée selon deux axes : l’objectif (transparence / participation) et le type de données (dynamiques / statiques).

La question de la valeur des données sera bien sûr au coeur des échanges. Par essence, cette valeur est multiple (valeur monétaire, valeur d’usage, valeur de ré-utilisation, valeur d’image, …) et dépend en partie de ceux qui réutilisent la donnée – et de ceux qui la réutiliseront demain ! Nous aurons donc – et ce ne sera pas facile – à discuter du partage de la valeur de données alors que nous n’avons qu’une vision assez partielle de leur vraie valeur actuelle et future pour l’ensemble des acteurs de la chaîne…

Concernant les critères de priorisation, il y aura aussi à coup sûr un débat dans le débat. Faut-il considérer les données selon l’usage qu’elles permettent (par exemple le calcul d’itinéraires) ou alors selon le statut (AOT, exploitant) de celui qui va l’ouvrir ? Faut-il prendre comme premier critère l’impact économique, social et sociétal de la donnée ? Et si oui, comment faire ? Nous pourrions imaginer par exemple de favoriser l’ouverture de données qui encouragent le transfert modal vers des modes de déplacements moins polluants que la voiture individuelle – c’est une piste parmi d’autres.

(Le débat devra par contre permettre de clarifier le statut juridique de la donnée de transport, et ce sera déjà une grande avancée)

3 – Quels acteurs ?

Le second enjeu est bien sûr lié aux acteurs qui seront concernés par l’ouverture des données du transport. Il faudra trouver une certaine concordance entre la loi d’organisation des transports (LOTI) et les futurs ajustements liés à l’open data. Certaines autorités organisatrices des transports craignent que l’obligation qui pourrait les viser « épargne » leur exploitant si celui est une entreprise publique ou un EPIC ou un EPA (on parle bien sûr de la SNCF ou de la RATP).

La question des acteurs rejoint celle du périmètre de l’ouverture et l’Etat n’est pas tout à fait un acteur neutre. L’open data pourrait figurer parmi les objectifs assignés aux systèmes d’informations multimodaux, qu’il s’agisse de SIM départementaux, régionaux ou nationaux. On pourrait aller un peu plus loin et imaginer que l’Etat et l’Europe réservent leurs co-financements aux seuls projets de SIM mettant en oeuvre des politiques d’ouverture et de partage des données – mais, encore une fois, ce n’est qu’une piste parmi d’autres.

4 – Quelles modalités d’ouverture ?

Les deux premiers enjeux que j’ai cité correspondent donc aux questions du « quoi ? » et du « qui ? ». La question des modalités de l’ouverture – le « comment » – est bien sûr l’une des plus importantes.

Premier élément des modalités de l’ouverture : le degré d’obligation. Va-t-on être dans le domaine de la bonne pratique, de l’incitation (si besoin avec des mécanismes financiers du type subvention conditionnée à la mise en place d’une politique open data) ou de l’obligation (mandatory) ? Bien sûr il y aura toute une palette de réponses, selon les types de données, les acteurs ou les usages pressentis.

Second élément : la licence applicable à ces données.  Certaines collectivités ont déjà fait part de leurs craintes sur des réutilisations de « leurs » données contraires à leurs objectifs de politique publique. Le Grand Lyon par exemple a ainsi conçu une approche SmartData, avec trois licences différentes dont l’une avec des données payantes – c’est leur réponse à l’open data et aux périls qu’ils ont déjà eu l’occasion de dénoncer. Le débat devra donc aussi trancher : pourra-t-on à l’avenir proposer une diversité de licences ou la licence ouverte, proposée et mise en oeuvre par Etalab, va-t-elle s’imposer à tous ?

Troisième élément : les « formats » de mise à disposition. Ce terme peut s’entendre de deux manières. La première concerne le mode de mise à disposition, le second les formats des données elles-mêmes. Concernant les modes de mise à disposition, certains acteurs des transports privilégient la mise en oeuvre de services (webservices, API),  plutôt que de la mise à disposition de données en téléchargement – une opposition qui n’est pas irréductible à mon avis, les deux modes correspondant à des usages et des cibles de réutilisateurs différents. A propos des formats, la plupart des réseaux mettent une partie de leurs données à disposition en GTFS, le standard de facto pour la réutilisation de données transport en mode open data. Le gouvernement va-t-il inciter à – ou imposer – l’usage d’autres formats (mieux connus du domaine des transports) ? Ou alors va-t-il laisser ces éléments au libre choix des acteurs ?

Dernier élément, qui va souvent de pair avec la question de la licence : la monétisation et le partage de la valeur. Doit-on imposer un partage des revenus avec les autorités organisatrices en cas de réutilisation commerciale des données ? Doit-on discriminer les utilisateurs selon l’usage des données (la non-discrimination entre utilisateurs étant, rappelons-le, l’un des principes fondamentaux de l’open data).

5 – Un débat qui ne se limite pas au domaine des transports publics

On voit donc que le débat à venir sera sans doute très riche, passionnant et porteur d’enjeux importants.

Mais je voudrais ici rappeler (amicalement) aux acteurs du monde des transports que ce débat thématique ne sera que l’un des six qui sont prévus.

Dans la galaxie du sujet open data, le transport est l’une des thématiques mais pas la seule. Les débat sur les données de santé, ou les données culturelles, seront à coup sûr tout aussi impliquant pour l’open data. L’idée d’une licence dédiée pour les données transports, par exemple, me semble devoir être confronté à ce « moment Galilée« .

Les acteurs du transport ne sont pas plus légitimes que les acteurs de la santé ou de la culture pour réclamer une licence propre et un régime d’exception (la culture en bénéficie déjà)… je doute que ce voeu puisse donc être exaucé, ou alors l’Etat accepte de céder une situation avec une licence (sans doute critique, mais lisible) pour une kyrielle de licences thématiques (c’est possible, mais j’émets des doutes sérieux).

Sans compter que la galaxie de l’open data en France tourne elle-même d’un astre encore plus large, la politique européenne en matière de réutilisations des données publiques. Et dans ce domaine, au regard de la nouvelle directive européenne, l’heure n’est pas à définir de nouvelles redevances mais plutôt à les limiter… Un vrai moment Galilée !

Je profite de ce billet pour vous inviter à suivre les travaux de la journée d’échange sur l’Open Data Transport, que je co-organise avec le GART et Christophe Duquesne. Rien de tel qu’une bonne discussion pour trouver des réponses !

L’open data renforce-t-il le risque de désintermédiation ?

Mercredi dernier, j’ai emmené mon fils au cinéma. Pour préparer notre sortie j’ai recherché les horaires de cinéma. Google m’a proposé – avant les résultats des sites web correspondant à ma requête – la liste des films projetés actuellement dans ma ville, et un simple clic m’a permis de voir les prochaines séances. 

Les horaires des films à Rennes (Google Movies)

Les horaires des films à Rennes (Google)

A aucun moment je n’ai quitté la page du moteur de recherche, j’ai obtenu l’information recherchée sans consulter ni le site du cinéma, ni les multiples intermédiaires tels qu’Allociné ou Cinéfil.com.

En tant qu’utilisateur, j’ai trouvé le service plutôt pratique (et en tant que père j’ai passé un bon moment avec mon fils). Mais pour nombre d’acteurs que je rencontre (des entreprises, mais aussi des acteurs publics) cela représente plutôt un bien mauvais signal.

Cela s’appelle de la désintermédiation, ou plutôt une nouvelle intermédiation par un nouvel acteur. Le risque de désintermédiation est donc une réalité et ne se réduit pas à la discussion sur la position de Google et autres dans l’économie numérique. L’open data est-il un facteur d’accélération de cette désintermédiation ? Après tout, ouvrir des données data facilite l’émergence de services tiers, c’est même souvent l’un des objectifs recherchés.

Dit autrement : est-on en train de faire entrer le loup dans la bergerie ? (Même si en l’occurence on est toujours l’agneau de quelqu’un d’autre, tout dépend du contexte…).

1 – Le risque de désintermédiation cela concerne tout le monde (faites-vous dépister !)

Imaginons quelques scénarii pour illustrer les différentes formes du risque.

Ce matin je veux aller à la piscine, je consulte donc les horaires via l’application mobile développée dans la cadre d’un concours open data. L’après-midi je veux acheter un billet de train et mon moteur de recherche favori me propose, en plus des horaires et de l’information sur la ponctualité de mon train (des données aujourd’hui ouvertes…), un achat direct en ligne. A un autre moment de la journée je consulte mes comptes bancaires via un service tiers développé lui aussi à partir de données mises à disposition (pas en open data certes, mais plutôt en mode API semi-ouverte,… ).

Plaçons nous maintenant du côté de ceux qui ont ouvert les données.

Le service des sports de ma ville vient de mettre en place un nouveau service de paiement via une carte sans contact et il aimerait bien m’en informer. Et pour celà le plus simple serait que je consulte les horaires directement sur le site de la municipalité.

L’opérateur de transport lui aussi aimerait ne pas perdre la relation client, et surtout pas sur la partie distribution de son métier. Enfin ma banque, qui voyait plutôt d’un bon oeil l’émergence de services complémentaires commence à se poser des questions. Surtout depuis qu’un nouveau service en ligne, développé par des plus malins qu’elle, a carrément désintermédié la relation client et me propose une assistance de très bon niveau (une sorte de super assistant personnel à qui j’ai confié les clés de ma banque en ligne).

Le risque de désintermédiation ne concerne d’ailleurs pas que la relation à l’usager ou au client. Quand le service de la mobilité urbaine du Grand Lyon explique qu’il ne veut pas que l’ouverture des données aboutisse à des usages contraires à ses objectifs de politique publique, il ne dit pas autre chose (même si les termes sont différents).

Dernier exemple : les autorités organisatrices des transports ont elles aussi peur de se faire désintermédier par la SNCF … et par Google à la fois !

2 – Un risque vieux comme l’Internet : les désintermédiateurs d’aujourd’hui sont les désintermédiés de demain

Les chaînes d’hôtellerie, les compagnies aériennes, les exploitants de salles de cinéma, … Tous ces acteurs économiques (et bien d’autres) ont connu ces phénomènes de désintermédiation. Certains sont directement imputables au web (on pense à l’émergence des comparateurs de prix dans l’aérien), d’autres sont plus anciens que l’Internet (l’invention du traitement de texte sur les ordinateurs personnels a désintermédié la sécretaire à qui l’on demandait autrefois de rédiger les courriers…).

Il me semble que chaque cycle technologique « rebat les cartes » de l’intermédiation. Prenons l’exemple du groupe hôtelier Accor (qui possède plusieurs marques, de l’Ibis au Sofitel). Qui vend aujourd’hui des nuits d’hôtels en ligne ? Les sites Booking.com, Hotels.com, les partenaires de TripAdvisor mais aussi voyages-sncf.com …

Bref le web a bien désintermédié les canaux de distribution installés. Cependant, le groupe Accor a su voir dans le mobile une opportunité pour se ré-intermédier : avec ses applications officielles, il peut à nouveau vendre directement à ses clients (et qui plus est aux clients les plus fidèles à sa marque).

Il n’est donc pas interdit de penser que les désintermédiateurs d’aujourd’hui seront les désintermédiés de demain.

L'infobox Google fournit directement l'adresse, le numéro de téléphone et l'itinéraire

L’infobox Google fournit directement l’adresse, le numéro de téléphone et l’itinéraire

Les premiers à souffrir de la désintermediation proposée par le moteur de recherche sont précisement les nouveaux intermédiaires qui se sont développés avec le web. Si l’on reprend l’exemple des horaires de cinéma, les perdants potentiels sont davantage à chercher du côté d’AlloCiné, de Cinéfil, de Pariscope, voire des Pages Jaunes ou Mappy (Google propose le numéro de téléphone et le plan d’accès au cinéma directement dans une infobox  – voir ci-contre). Tout compte fait, ce n’est peut-être pas une si mauvaise opération pour l’exploitant d’un réseau de salles de cinéma…

Un dernier exemple – prospectif celui-là- pour illustrer le caractère dynamique de la désintermédiation. Quand Apple introduit la fonction de reconnaissance vocale Siri dans ses téléphones, c’est Google lui-même qui est menacé de désintermédiation : si je peux obtenir, par la parole, les horaires de séance de cinéma, plus besoin (pour ce cas précis) du moteur de recherche qui paraît aujourd’hui incontournable. (Nota : l’émergence des Google Glass peuvent aussi se lire avec cette grille de lecture).

3 – Chaque cycle technologique rebat les cartes de l’intermédiation, et l’open data en est un …

Comment considérer la question du partage de la donnée à la lumière de ce risque de désintermédiation ?

Le premier élément de réponse est à chercher du côté du mix possible en matière de partage de la donnée. Il ne s’agit pas de tout ouvrir (ou à l’inverse) de ne rien ouvrir. Il faut plutôt identifier les données – et leurs modes de partage – qui présentent le meilleur ratio démultiplication de l’effet réseau / risque de désintermédiation.

A ce titre je vous invite à relire le billet que j’avais consacré il y a quelques mois aux univers de diffusion des données. Amazon par exemple a bâti une partie de son succès sur une politique de demi-ouverture des données, via des API. On peut facilement intégrer un « morceau» du catalogue de produits d’Amazon sur n’importe quel blog ou site web. Les partenaires d’Amazon disposent aussi d’une visibilité assez détaillée sur les ventes réalisées via « leur » canal de distribution.

Cette stratégie a permis au libraire en ligne de profiter à plein des phénomènes d’externalités de réseau. Qui peut dire en l’espèce que le partage des données a accru le risque de désintermédiation pour Amazon ?

Bien au contraire, cette politique participe de la capacité d’Amazon à désintermédier les réseaux de distribution de produits (culturels)…

Dans ce travail d’identification des données bonnes à ouvrir et partager, on pourra notamment jouer sur les critères de segmentation couramment utilisés dans le domaine de la data : données chaudes / données froides, données descriptives du service / données de tarification, de transaction ou de relation client, …

Parmi les pistes identifiées, figure par exemple la possibilité d’intégrer un module de vente (par exemple de billets de train) qui serait réservé aux seules applications tierces labellisés… Un moyen de jouer à la fois la démultiplication de l’effet réseau via l’open data et de préserver la relation client.

4 – Où est le problème ?

« Le problème ce n’est pas tant la question de l’intermédiaire que celle du partage de la valeur » me faisait judicieusement remarquer mon sparring- partner Louis-David Benyayer (WithoutModel) alors que nous discutions de ce sujet. Et de me citer de multiples exemples (hors de l’économie numérique) d’acteurs qui ont fait évoluer leur position dans la chaîne de la valeur (Décathlon qui distribue de plus en plus ses propres produits, les acteurs de la grande distribution qui mettent en place les marques de distributeurs,… ).

Il me semble que ce n’est pas le moindre mérite de l’open data que de  poser cette question du partage de la valeur via les données. Où est la valeur dans les données (dans leur caractère brut, dans leur mise en perspective, dans leur combinaison, …) ? Comment la partage-t-on (avec qui, selon quelles conditions, avec une gouvernance ouverte ou fermée) ?

Quelques conseils aux participants des concours et autres hackathons

Ce lundi j’interviens à Marseille lors d’un atelier ouvert aux participants du concours Open Data lancé par la région PACA. L’objectif : encourager la créativité des réutilisateurs et des développeurs. La saison des concours et des hackathons est bel et bien lancée ! Je vous propose des extraits de cette intervention, sous forme de conseils aux participants, illustrés de quelques réutilisations que j’ai repéré ces derniers mois…

1 – Parole de jury

TransitVis, l'un des lauréats du Urban Data Challenge

TransitVis, l’un des lauréats du Urban Data Challenge

Commençons par la fin de l’histoire. Vous avez fini vos développements, votre dossier de participation est complet, vous venez de soumettre votre service ou votre application. Le jury doit maintenant se réunir pour l’étudier et départager les vainqueurs parmi les participants.

En tant que candidat il ne faut jamais oublier qu’un concours (ou un hackathon) c’est une compétition, pas un examen (contrairement au bac, il ne suffit pas d’avoir la moyenne pour être reçu). Le jury est un élément essentiel de cette compétition. Sa composition est souvent rendue publique. Il rassemble généralement des représentants des organisateurs (collectivité ou entreprises), les partenaires du concours et, parfois, des personnalités qualifiées.

Le jury d’un concours devra identifier les lauréats parmi 40 à 50 participants, celui d’un hackathon aura deux heures pour départager 5 à 10 équipes… La clé de la compétition repose donc souvent sur la différenciation d’un dossier ou d’une application parmi l’ensemble des réutilisations (je parle bien de différenciation plutôt que d’originalité, je reviendrai ultérieurement sur cette distinction qui me semble essentiel). Comment proposer quelque chose de différent ? Je vous propose quelques pistes illustrées.

2 – La donnée, un ingrédient

A la base de tous les concours vous avez donc des données, que l’on peut considérer comme des ingrédients. Lisez bien le règlement du concours : il précise souvent les données que vous pouvez utiliser (uniquement celles de l’organisateur, toutes celles en rapport avec le thème ou le territoire, etc…).

Si je poursuis la métaphore culinaire, vous êtes donc, en tant que participant, le cuisinier. Votre premier travail sera d’évaluer tous les ingrédients qui rentrent dans votre cuisine. Cette donnée est-elle bien fraîche ? Comment pourrais-je l’utiliser ? Faut-il la modifier, l’arranger, la transformer ou peut-on la consommer « crue » ? Une très belle donnée, bien riche, peut parfois se consommer crue si l’on sait la présenter, par exemple à l’aide de visualisations…

L’erreur serait d’aller directement de l’ingrédient vers son utilisation la plus immédiate. La plupart des réutilisateurs qui se voient proposer un jeu de données sur les horaires de bus font des applications d’informations voyageurs, les plus malins en détournent l’usage (dit autrement : avec des pommes de terre on peut faire autre chose que des frites…). La différenciation, toujours !

Une donnée peut donc être l’ingrédient principal d’un plat, ou simplement un ingrédient parmi d’autres. Une donnée peut être proposée crue, mise en forme, transformée ou cuite avec d’autres … Autant de manières différentes d’utiliser ces ingrédients qui sont à votre disposition.

Le concours Urban Data Challenge fournit une très bonne illustration de ce principe de diversité. A partir d’un même jeu de données historiques sur les transports de San Francisco, Genève et Zurich, les participants ont mis en oeuvre des scénarios très différents. Urban Bus Race propose une course virtuelle entre les bus des 3 villes, TransitVis affiche une représentation des flux en 3 dimensions. D’autres participants ont ajouté une nouvelle donnée, par exemple en calculant un indice de frustration (qui combine la densité du nombre de passagers, le temps d’attente à un arrêt et les retards sur le réseau de bus)…

3 – Varier les supports  et les registres 

Une seconde piste de différenciation est liée aux supports que vous pouvez mettre en oeuvre (mobile, web, autres). J’ai déjà eu l’occasion sur ce blog d’expliquer le lien historique et fécond entre l’open data et les applications mobiles. Mais on peut faire beaucoup d’autres choses avec des données ouvertes : des sites web, des vidéos, des infographies, … Rien ne nous oblige par ailleurs à nous limiter à des médiations numériques, on peut très bien utiliser des données ouvertes pour concevoir des supports papiers (par exemple une lettre d’information à l’entrée d’un jardin public, avec l’aide des données ouvertes).

Enfin, on peut aussi rechercher de la différenciation du côté des registres d’expression. A partir d’un même jeu de données, on peut proposer quelque chose d’utile, de ludique, de décalé, … La variation entre les registres peut aussi être intéressante. Le service BrokenLifts s’appuie sur l’état de fonctionnement des ascenseurs des transports berlinois. La donnée est à la fois présentée sous une forme utile (« est-ce que cet ascenseur fonctionne ? ») mais aussi sur le registre de la  transparence et de l’accountability (« combien de jours de panne sur cet ascenseur géré par cette société ? ».

Un point de vigilance, cependant. La différenciation ne peut pas seulement passer par le choix d’un mode d’expression décalé. Le format « pitch » du hackathon encourage les discours décalés, mais la forme ne remplace pas complètement le fond.

Le site Brigand Futé (réalisé lors du HackIDF 2030) aide à planquer un cadavre en région parisienne, à partir des données du plan d’urbanisme… Le propos est donc décalé, mais la réalisation est d’un très bon niveau.

J’ai beaucoup moins accroché sur le récent lauréat d’un autre hackathon « a place to pee » qui, comme son nom l’indique, permet de localiser les toilettes dans la ville de Paris… Le sujet est pourtant bien réel (Rennes édite par exemple un guide papier très précis, réalisé avec des associations de malades), on aurait pu jouer sur plusieurs registres – et pas uniquement sur les multiples jeux de mots proposés par les concepteurs du service : « let piss a chance », « game of throne », …).

4 – Emprunter des pistes moins balisées

Il reste par ailleurs des pistes qui ont été jusqu’à présent peu explorées par les participants au concours, et notamment la conception d’outils pour les réutilisateurs et les développeurs. L’approche « business-to-developers » (B2D) plutôt que strictement « business-to-business » (B2B) ou « business-to-consumer » (B2C) est aussi une source de création de valeur. On peut citer par exemple la start-up britannique Placr qui a développé une API pour interroger les données des réseaux de transports urbains.

 

 

Donnée brute ou donnée contextualisée ?

La mission gouvernementale Etalab lance une consultation autour de l’évolution du portail data.gouv.fr. Vous êtes invités à contribuer à cette démarche de co-design. C’est aussi l’occasion de repenser plus globalement la conception des portails open data… A quoi et à qui servent-ils ? Comment doit-on présenter les données ? Je vous propose une série de billets sur ce thème. Le premier traite de la donnée elle-même et de la tension entre donnée brute et donnée contextualisée…

1 – Un cas pratique : la fréquentation des musées

J’ai récemment animé un atelier de sensibilisation à l’open data pour les acteurs culturels d’une collectivité. A cette occasion, j’ai repéré un jeu de données disponible sur le portail gouvernemental. Ce fichier propose les chiffres de la fréquentation des musées de France, de 2006 à 2010. Je vous invite à télécharger celui qui concerne la région Bretagne (pour plus de facilité, je vous propose aussi une copie d’écran ci-dessous, que vous pouvez agrandir en cliquant).

(cliquer pour l'agrandir) - fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr

La fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr (cliquer pour agrandir l’image)

Le tableau présente les chiffres de fréquentation pour chaque « musée de France » situé dans la région. On a donc le nom du musée (ex. « musée des beaux-arts »), une ville, puis les chiffres de fréquentation répartis en 2 colonnes « total » et « grat ». On peut raisonnablement supposer qu’il s’agit des entrées gratuites (mais rien ne le précise formellement, ni dans le fichier, ni dans la fiche de métadonnées). D’autres colonnes précisent l’évolution de la fréquentation d’une année sur l’autre.

Le code couleur est expliqué en pied de page du fichier. La couleur noire représente des « données confidentielles », avec la mention « contacter le chef d’établissement », les autres couleurs viennent apporter des éléments de contexte sur la fréquentation de tel ou tel musée. En l’occurence il y est surtout question d’évènements exceptionnels susceptibles d’expliquer le chiffre de fréquentation : fermeture ou réouverture d’un musée, exposition temporaire ayant entraîné une fréquentation exceptionnelle, …

Plus intéressant, la première colonne du tableau contient un numéro de référence, qui **semble** être un identifiant unique accordé à chaque musée de France.

2 – La tension « brutification » vs. contextualisation

La lecture de ce fichier permet d’illustrer la tension entre deux tendances qui s’expriment aujourd’hui dans le monde de l’open data.

La première tendance est liée à une demande de « brutification ». Je reprends ici le terme évoqué par Samuel Goeta et Jérôme Denis pour décrire l’une des actions qui se déroulent dans les coulisses de l’open data (le thème de la thèse de Samuel à Telecom Paris Tech).

Pour permettre la mise en place d’un ensemble de services sur le portail open data, il faudrait que la donnée proposée soit la plus brute possible (et je parle bien là d’une donnée brute techniquement, pas en termes sociologiques).

Parmi ces « services » on peut citer par exemple la pré-visualisation des jeux de données sans avoir à ouvrir le fichier (une fonctionnalité très utile et déjà mis en oeuvre ailleurs), la datavisualisation ou représentation cartographique par défaut (un exemple ici), ou enfin même les API (des interfaces de programmation qui font aujourd’hui cruellement défaut dans la plupart des portails, à quelques exceptions près). Sans même parler d’un pas vers le web des données et le Linked Data, une attente forte des acteurs du web sémantique.

Reprenons le fichier sur la fréquentation des musées : pour proposer tous ces services il faudrait donc faire un travail *supplémentaire* de brutification : retirer les codes couleurs, ignorer les colonnes qui proposent une donnée recalculée (le taux d’évolution d’une année sur l’autre, les totaux, …) et plus globalement retirer tout ce qui concerne la mise en forme du fichier. On pourrait d’autre part mieux utiliser des données qui y figurent déjà, ainsi le fameux numéro de référence.

J’ai trouvé sur le portail un autre fichier qui fournit des informations complémentaires sur les musées de France : leur adresse postale, le site web, les horaires et jours d’ouverture. Problème : ce fichier ne propose aucun identifiant unique. On a là une occasion manquée de permettre une mise en relation et un enrichissement de deux fichiers (open data 1 – web sémantique 0).

La donnée proposée ici n’est donc pas tout à fait « brute » … mais elle n’est pas tout à fait contextualisée non plus !

La seconde demande qui émerge – et qui de prime abord peut sembler contradictoire avec la brutification – est liée à la contextualisation de la donnée.

J’ai déjà eu l’occasion ici de parler de l’importance d’une lecture critique des données. Si l’on considère le fichier sur la fréquentation des musées, ce besoin de contextualisation apparaît rapidement : qu’est-ce qu’un « musée de France » ? comment les données de fréquentation sont-elles collectées ? quel est l’usage initial des données ? qui la collecte et pour quoi faire ? Et enfin, la meilleure : pourquoi certaines données sont-elles considérées comme « confidentielles » (celles dont les cases portent la couleur noire) ?

La réponse à bon nombre de ces questions se trouve sur le site du Ministère de la Culture (précision importante : j’ai trouvé cela via Google, pas depuis la fiche de métadonnées). On y apprend qu’un service du ministère publie annuellement un très intéressant document de 75 pages, appelé « MuséoStat« . J’ai ainsi pu comprendre que le terme « musée de France » correspond à une appellation officielle (accordée et retirée par les services du ministère), que les variations de fréquentation sont très souvent liées à des expositions temporaires (d’où l’importance des annotations colorées), que la notion de gratuité a elle aussi une définition officielle précise, …

Le document reproduit aussi le questionnaire envoyé aux différents responsables de musée, questionnaire très détaillé puisqu’il précise aussi le mode de mesure de la fréquentation (comptage manuel, automatisée, estimation, …). Enfin, on peut apercevoir en fin de questionnaire une case à cocher par les répondants : « acceptez-vous que ces chiffres soient diffusés ? ». Voilà donc l’origine de cette formule un peu ambigüe de « données confidentielles » !

Cette demande de contextualisation me semble tout aussi pertinente que la demande de brutification du jeu de données. On doit pouvoir y répondre en repensant profondément la manière de documenter les jeux de données – c’est à la fois le rôle des métadonnées mais aussi plus globalement la fonction éditoriale des portails open data.

3 – Sortir de l’opposition « qualité vs. quantité » des données

Le fichier de la fréquentation des musées ne représente bien sûr pas à lui seul la diversité et la richesse des jeux de données disponibles, sur data.gouv.fr ou ailleurs … Mais cet exemple illustre quand même je pense la situation actuelle : des données ni tout à fait brutes, ni tout à fait contextualisées.

La particularité du ni-ni est qu’il ne satisfait ni ceux qui attendent des services plus poussés (API, Linked Data pour les développeurs), ni ceux qui militent pour une meilleure appropriation des données par tous (façon Infolab) – bien qu’ils ne faillent pas opposer les uns et les autres.

Dans le débat qui va s’ouvrir sur les fonctions des portails open data, il y a à mon avis un écueil majeur à éviter : réduire cela à une opposition « qualité vs. quantité » des jeux de données.

La qualité ne peut s’évaluer qu’à l’aune de l’objectif : un développeur, un chercheur ou un associatif qui veut évaluer la fréquentation des musées de sa région ont tous besoin de fichiers de qualité.

C’est la manière dont ils expriment ce besoin qui diffère (notre tension brutification / contextualisation). Il nous faut donc à la fois de la qualité ET de la quantité…

4 – De qui est-ce le travail ?

Reste la question du rôle de chaque acteur impliqué : qui doit assurer ces tâches de brutification et de contextualisation ? Est-ce la mission du service détenteur de la donnée ou du service qui met en oeuvre le portail, en l’occurence Etalab ? Les réutilisateurs  enrichissent eux-aussi les jeux de données, par exemple en reliant deux fichiers via des identifiants, peut-on imaginer qu’un portail officiel puisse héberger, ou faire un lien vers le fruit de leur travail ?

On voit qu’à partir d’une question précise – quelles fonctions pour les portails open data ? – on en arrive à interroger le périmètre même des portails et des organisations qui les mettent en oeuvre…