Algorithmes: à qui profite le flou ?

En passant

Internet Actu relate récemment la rencontre organisée par France Stratégies à propos de la responsabilité des algorithmes. Daniel Le Métayer, chercheur à l’INRIA, évoque notamment le fait qu’il est souvent bien difficile de savoir ce que désigne précisement ce terme d’algorithme. « Recette de cuisine » pour les uns, « ensemble de procédés de calcul » pour d’autres et même tout simplement « programme informatique » pour les derniers.

Ce flou n’empêche aucunement le terme algorithme de fleurir un peu partout dans la presse (de moins en moins) spécialisée. Ainsi le débat actuel aux Etats-Unis portent sur l’algorithme de classement de contenu de Facebook, accusé de partialité dans la campagne des primaires (un élu du Dakota du Sud a même demandé à Mark Zuckerberg d’expliciter le fonctionnement de son système de curation).

C’est l’une des caractéristiques des mots-valise: leur imprécision est à la hauteur de leur popularité. Dès lors, on peut légitimement se demander: à qui profite le flou ? Qui a intérêt à continuer à désigner, de manière aussi vague, ces systèmes automatisés de traitement ?

Il faut tout d’abord regarder du côté des concepteurs de ces systèmes. Quand on parle de l’algorithme de Google, ou de celui de Facebook, on tend à résumer ces entreprises à un simple objet technique, a priori asexué et surement neutre. Parler de l’algorithme d’Uber ou de Facebook, se concentrer uniquement sur cela, c’est passer sous silence le modèle économique de ces organisations, le système dans lequel elles interviennent, les valeurs portées par les hommes et les femmes qui les imaginent, les conçoivent, les développent et les optimisent. Il y a de la chair derrière les algorithmes, des passions, des contraintes, des intentions, …

Ensuite le terme d’algorithme fleure bon la précision des mathématiques, des statistiques*. Parler de « programme informatique » c’est beaucoup plus trivial et cela évoque aussi davantage l’idée que le code informatique – et le développeur – sont faillibles. Si l’algorithme est paré des vertus de la science, le code lui est porteur de bugs, de dysfonctionnements, d’imperfections. D’humanité, en quelque sorte.

Enfin, il me semble que le flou entretenu n’est pas un accident. L’utilisation du terme d’algorithme tient à distance. L’objet semble hors de portée, difficile à saisir (comprendre) donc difficile à saisir (tenir). Certains concepteurs évoquent d’ailleurs la complexité des systèmes, et en particulier celles des systèmes apprenants (machine learning) pour s’excuser, par avance, de ne pas être en mesure d’en expliquer le fonctionnement, les intentions et les contraintes. Il me semble pour ma part que l’intelligibilité de ces systèmes est l’une des conditions essentielles de leur acceptabilité sociale et in fine, de la capacité à demander des comptes à ces systèmes (accountability).

* On peut faire le parallèle avec l’origine du mot « donnée » qui évoque l’idée d’un objet exogène (les données du débat), qui vient d’on ne sait où mais n’est pas censé être mis en débat.

J’ai contribué à « Open Models » (et c’était bien)

couv« Open Models, le livre » est le fruit des rencontres Open Experience initiées de janvier à juin 2014 par Without Model. L’idée: faire le tour des modèles économiques de l’open en 6 étapes, de l’art au manufacturing en passant par la data, la science, l’éducation et le logiciel. Retour sur ma modeste contribution à ce projet.

Je me souviens, je me rappelle. L’équipe de Without Model nous avait tous convié à une soirée dédiée à l’open data. Au programme: des interventions de Chloé Bonnet et Romain Lalanne (FivebyFive, SNCF), de Frédéric Charles (Lyonnaise des Eaux), de Christian Quest (OSM France), de Guillaume Crouigneau (Canal TP). Avec mon compère Louis-David Benyayer (à l’origine de Without Model), nous avions discuté de ce que l’open fait à la data.

Je me souviens, je me rappelle. C’était le 30 juin dernier, ce jour-là il faisait beau mais surtout il y avait au même moment un match de la Coupe du Monde de football, un huitième de final qui opposait la France au Nigéria (2-0). Autant dire que l’audience était de très bonne qualité, à défaut d’être présente en quantité 😉

Je me souviens, je me rappelle aussi que l’histoire de l’open data a toujours eu en toile de fond le débat entre partisans du logiciel libre et ceux de l’open source. S’intéresser aux modèles ouverts, qui plus est dans ses dimensions multiples, m’apparait donc comme une excellente idée.

Tout cela pour vous annoncer donc que la souscription pour la réalisation d' »Open Models, le livre » est lancée, et que je vous invite à y contribuer. L’ouvrage est magnifique, et il regroupe plus d’une cinquantaine de contributeurs dont Michel Bauwens et Bernard Stiegler… (et en prime cette dernière intervention est tout à fait compréhensible). Elle est pas belle, la vie ?

 

Open Data Transport : les enjeux du débat à venir

Où va l'open data transport ?

Où va l’open data transport ?

La feuille de route gouvernementale sur l’ouverture des données publiques (open data) prévoit l’organisation de six débats thématiques et ouverts. L’un d’eux doit précisement s’intéresser aux données du transport.  Ce billet de blog se propose de commencer à identifer les enjeux et les questions du débat à venir.

(Edité le 3 juin pour rajouter un schéma sur les données déjà ouvertes et préciser les questions liées aux formats de mise à disposition).

1 – Le contexte actuel et les objectifs des débats thématiques

Les débats thématiques ont plusieurs objectifs décrits dans la feuille de route : ils doivent permettre d’identifier et de publier de nouveaux jeux de données stratégiques et de qualité, mais aussi d’étudier la possibilité d’élargir et d’étendre la politique d’ouverture des données à l’ensemble des acteurs : collectivités territoriales, délégataires de service public, entreprises publiques, établissements publics à caractère industriel ou commercial, … On voit bien que l’enjeu pour l’open data transport est important, car les changements pourraient concerner l’ensemble des acteurs de la mobilité et des transports.

Par ailleurs, ce débat à venir s’inscrit plus généralement dans la réaffirmation, tant en France qu’aux Etats-Unis, des principes de l’ouverture des données « par défaut » et de la gratuité des données brutes comme l’un des leviers / piliers de cette politique. L’acte 3 de la décentralisation explicite d’ailleurs ce principe d’open data par défaut. Certes, la perspective de son adoption s’éloigne un peu – ce qui pourrait soulager ceux qui sont inquiets des risques que feraient peser, selon eux, la généralisation de l’open data. Mais l’Europe ne reste pas non plus inactive, avec l’adoption de la nouvelle directive PSI (public sector information) qui fixe des orientations assez fortes (et notamment le principe access = reuse) et finalement assez proches des principes défendus par la feuille de route gouvernemental.

Il y aura donc un débat thématique sur les données du transport et de la mobilité. La perspective d’un open data « par défaut », et non d’un open data comme une « option » éclaire  bien sûr d’une lumière nouvelle les questions à venir. En voici quelques unes.

2 – Quelles données ?

Les données du transport, et plus globalement de la mobilité sont diverses et variées. On y retrouve tous les types de données que nous manions quotidiennement dans le domaine de l’open data : données brutes / données enrichies, données historiques / données prédictives, données en stock / données en flux, données de description / données d’exploitation ou de commercialisation, …

Dans une optique de mobilité au sens large, il faut aussi prendre en compte un grand nombre de modes : piéton, vélo, automobile, transports en commun, … Enfin, et ce n’est pas là la moindre difficulté, les données de mobilité sont produites / collectées / gérées par un très grand nombre d’acteurs aux statuts juridiques et aux stratégies parfois incompatibles.

Nous avons donc potentiellement un très grand nombre de données concernées, elles-mêmes très diverses dans leurs caractéristiques, leurs statuts juridiques, leurs valeurs identifiées, réalisées ou perçues. L’un des enjeux du débat sera donc de tenter de classer ces données et de leur attribuer une priorité d’ouverture – un peu à la manière des données « stratégiques » citées par la feuille de route gouvernementale.

OpenDataTransport-donneesdejaouvertes.009Une rapide analyse des sites open data des réseaux de New-York (MTA), Londres (TfL, Transport for London), Paris (Ratp, Transilien) et Rennes (Star) permet déjà d’identifier une très grande diversité dans les données déjà ouvertes.

Le schéma ci-contre en présente une sélection, classée selon deux axes : l’objectif (transparence / participation) et le type de données (dynamiques / statiques).

La question de la valeur des données sera bien sûr au coeur des échanges. Par essence, cette valeur est multiple (valeur monétaire, valeur d’usage, valeur de ré-utilisation, valeur d’image, …) et dépend en partie de ceux qui réutilisent la donnée – et de ceux qui la réutiliseront demain ! Nous aurons donc – et ce ne sera pas facile – à discuter du partage de la valeur de données alors que nous n’avons qu’une vision assez partielle de leur vraie valeur actuelle et future pour l’ensemble des acteurs de la chaîne…

Concernant les critères de priorisation, il y aura aussi à coup sûr un débat dans le débat. Faut-il considérer les données selon l’usage qu’elles permettent (par exemple le calcul d’itinéraires) ou alors selon le statut (AOT, exploitant) de celui qui va l’ouvrir ? Faut-il prendre comme premier critère l’impact économique, social et sociétal de la donnée ? Et si oui, comment faire ? Nous pourrions imaginer par exemple de favoriser l’ouverture de données qui encouragent le transfert modal vers des modes de déplacements moins polluants que la voiture individuelle – c’est une piste parmi d’autres.

(Le débat devra par contre permettre de clarifier le statut juridique de la donnée de transport, et ce sera déjà une grande avancée)

3 – Quels acteurs ?

Le second enjeu est bien sûr lié aux acteurs qui seront concernés par l’ouverture des données du transport. Il faudra trouver une certaine concordance entre la loi d’organisation des transports (LOTI) et les futurs ajustements liés à l’open data. Certaines autorités organisatrices des transports craignent que l’obligation qui pourrait les viser « épargne » leur exploitant si celui est une entreprise publique ou un EPIC ou un EPA (on parle bien sûr de la SNCF ou de la RATP).

La question des acteurs rejoint celle du périmètre de l’ouverture et l’Etat n’est pas tout à fait un acteur neutre. L’open data pourrait figurer parmi les objectifs assignés aux systèmes d’informations multimodaux, qu’il s’agisse de SIM départementaux, régionaux ou nationaux. On pourrait aller un peu plus loin et imaginer que l’Etat et l’Europe réservent leurs co-financements aux seuls projets de SIM mettant en oeuvre des politiques d’ouverture et de partage des données – mais, encore une fois, ce n’est qu’une piste parmi d’autres.

4 – Quelles modalités d’ouverture ?

Les deux premiers enjeux que j’ai cité correspondent donc aux questions du « quoi ? » et du « qui ? ». La question des modalités de l’ouverture – le « comment » – est bien sûr l’une des plus importantes.

Premier élément des modalités de l’ouverture : le degré d’obligation. Va-t-on être dans le domaine de la bonne pratique, de l’incitation (si besoin avec des mécanismes financiers du type subvention conditionnée à la mise en place d’une politique open data) ou de l’obligation (mandatory) ? Bien sûr il y aura toute une palette de réponses, selon les types de données, les acteurs ou les usages pressentis.

Second élément : la licence applicable à ces données.  Certaines collectivités ont déjà fait part de leurs craintes sur des réutilisations de « leurs » données contraires à leurs objectifs de politique publique. Le Grand Lyon par exemple a ainsi conçu une approche SmartData, avec trois licences différentes dont l’une avec des données payantes – c’est leur réponse à l’open data et aux périls qu’ils ont déjà eu l’occasion de dénoncer. Le débat devra donc aussi trancher : pourra-t-on à l’avenir proposer une diversité de licences ou la licence ouverte, proposée et mise en oeuvre par Etalab, va-t-elle s’imposer à tous ?

Troisième élément : les « formats » de mise à disposition. Ce terme peut s’entendre de deux manières. La première concerne le mode de mise à disposition, le second les formats des données elles-mêmes. Concernant les modes de mise à disposition, certains acteurs des transports privilégient la mise en oeuvre de services (webservices, API),  plutôt que de la mise à disposition de données en téléchargement – une opposition qui n’est pas irréductible à mon avis, les deux modes correspondant à des usages et des cibles de réutilisateurs différents. A propos des formats, la plupart des réseaux mettent une partie de leurs données à disposition en GTFS, le standard de facto pour la réutilisation de données transport en mode open data. Le gouvernement va-t-il inciter à – ou imposer – l’usage d’autres formats (mieux connus du domaine des transports) ? Ou alors va-t-il laisser ces éléments au libre choix des acteurs ?

Dernier élément, qui va souvent de pair avec la question de la licence : la monétisation et le partage de la valeur. Doit-on imposer un partage des revenus avec les autorités organisatrices en cas de réutilisation commerciale des données ? Doit-on discriminer les utilisateurs selon l’usage des données (la non-discrimination entre utilisateurs étant, rappelons-le, l’un des principes fondamentaux de l’open data).

5 – Un débat qui ne se limite pas au domaine des transports publics

On voit donc que le débat à venir sera sans doute très riche, passionnant et porteur d’enjeux importants.

Mais je voudrais ici rappeler (amicalement) aux acteurs du monde des transports que ce débat thématique ne sera que l’un des six qui sont prévus.

Dans la galaxie du sujet open data, le transport est l’une des thématiques mais pas la seule. Les débat sur les données de santé, ou les données culturelles, seront à coup sûr tout aussi impliquant pour l’open data. L’idée d’une licence dédiée pour les données transports, par exemple, me semble devoir être confronté à ce « moment Galilée« .

Les acteurs du transport ne sont pas plus légitimes que les acteurs de la santé ou de la culture pour réclamer une licence propre et un régime d’exception (la culture en bénéficie déjà)… je doute que ce voeu puisse donc être exaucé, ou alors l’Etat accepte de céder une situation avec une licence (sans doute critique, mais lisible) pour une kyrielle de licences thématiques (c’est possible, mais j’émets des doutes sérieux).

Sans compter que la galaxie de l’open data en France tourne elle-même d’un astre encore plus large, la politique européenne en matière de réutilisations des données publiques. Et dans ce domaine, au regard de la nouvelle directive européenne, l’heure n’est pas à définir de nouvelles redevances mais plutôt à les limiter… Un vrai moment Galilée !

Je profite de ce billet pour vous inviter à suivre les travaux de la journée d’échange sur l’Open Data Transport, que je co-organise avec le GART et Christophe Duquesne. Rien de tel qu’une bonne discussion pour trouver des réponses !

Donnée brute ou donnée contextualisée ?

La mission gouvernementale Etalab lance une consultation autour de l’évolution du portail data.gouv.fr. Vous êtes invités à contribuer à cette démarche de co-design. C’est aussi l’occasion de repenser plus globalement la conception des portails open data… A quoi et à qui servent-ils ? Comment doit-on présenter les données ? Je vous propose une série de billets sur ce thème. Le premier traite de la donnée elle-même et de la tension entre donnée brute et donnée contextualisée…

1 – Un cas pratique : la fréquentation des musées

J’ai récemment animé un atelier de sensibilisation à l’open data pour les acteurs culturels d’une collectivité. A cette occasion, j’ai repéré un jeu de données disponible sur le portail gouvernemental. Ce fichier propose les chiffres de la fréquentation des musées de France, de 2006 à 2010. Je vous invite à télécharger celui qui concerne la région Bretagne (pour plus de facilité, je vous propose aussi une copie d’écran ci-dessous, que vous pouvez agrandir en cliquant).

(cliquer pour l'agrandir) - fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr

La fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr (cliquer pour agrandir l’image)

Le tableau présente les chiffres de fréquentation pour chaque « musée de France » situé dans la région. On a donc le nom du musée (ex. « musée des beaux-arts »), une ville, puis les chiffres de fréquentation répartis en 2 colonnes « total » et « grat ». On peut raisonnablement supposer qu’il s’agit des entrées gratuites (mais rien ne le précise formellement, ni dans le fichier, ni dans la fiche de métadonnées). D’autres colonnes précisent l’évolution de la fréquentation d’une année sur l’autre.

Le code couleur est expliqué en pied de page du fichier. La couleur noire représente des « données confidentielles », avec la mention « contacter le chef d’établissement », les autres couleurs viennent apporter des éléments de contexte sur la fréquentation de tel ou tel musée. En l’occurence il y est surtout question d’évènements exceptionnels susceptibles d’expliquer le chiffre de fréquentation : fermeture ou réouverture d’un musée, exposition temporaire ayant entraîné une fréquentation exceptionnelle, …

Plus intéressant, la première colonne du tableau contient un numéro de référence, qui **semble** être un identifiant unique accordé à chaque musée de France.

2 – La tension « brutification » vs. contextualisation

La lecture de ce fichier permet d’illustrer la tension entre deux tendances qui s’expriment aujourd’hui dans le monde de l’open data.

La première tendance est liée à une demande de « brutification ». Je reprends ici le terme évoqué par Samuel Goeta et Jérôme Denis pour décrire l’une des actions qui se déroulent dans les coulisses de l’open data (le thème de la thèse de Samuel à Telecom Paris Tech).

Pour permettre la mise en place d’un ensemble de services sur le portail open data, il faudrait que la donnée proposée soit la plus brute possible (et je parle bien là d’une donnée brute techniquement, pas en termes sociologiques).

Parmi ces « services » on peut citer par exemple la pré-visualisation des jeux de données sans avoir à ouvrir le fichier (une fonctionnalité très utile et déjà mis en oeuvre ailleurs), la datavisualisation ou représentation cartographique par défaut (un exemple ici), ou enfin même les API (des interfaces de programmation qui font aujourd’hui cruellement défaut dans la plupart des portails, à quelques exceptions près). Sans même parler d’un pas vers le web des données et le Linked Data, une attente forte des acteurs du web sémantique.

Reprenons le fichier sur la fréquentation des musées : pour proposer tous ces services il faudrait donc faire un travail *supplémentaire* de brutification : retirer les codes couleurs, ignorer les colonnes qui proposent une donnée recalculée (le taux d’évolution d’une année sur l’autre, les totaux, …) et plus globalement retirer tout ce qui concerne la mise en forme du fichier. On pourrait d’autre part mieux utiliser des données qui y figurent déjà, ainsi le fameux numéro de référence.

J’ai trouvé sur le portail un autre fichier qui fournit des informations complémentaires sur les musées de France : leur adresse postale, le site web, les horaires et jours d’ouverture. Problème : ce fichier ne propose aucun identifiant unique. On a là une occasion manquée de permettre une mise en relation et un enrichissement de deux fichiers (open data 1 – web sémantique 0).

La donnée proposée ici n’est donc pas tout à fait « brute » … mais elle n’est pas tout à fait contextualisée non plus !

La seconde demande qui émerge – et qui de prime abord peut sembler contradictoire avec la brutification – est liée à la contextualisation de la donnée.

J’ai déjà eu l’occasion ici de parler de l’importance d’une lecture critique des données. Si l’on considère le fichier sur la fréquentation des musées, ce besoin de contextualisation apparaît rapidement : qu’est-ce qu’un « musée de France » ? comment les données de fréquentation sont-elles collectées ? quel est l’usage initial des données ? qui la collecte et pour quoi faire ? Et enfin, la meilleure : pourquoi certaines données sont-elles considérées comme « confidentielles » (celles dont les cases portent la couleur noire) ?

La réponse à bon nombre de ces questions se trouve sur le site du Ministère de la Culture (précision importante : j’ai trouvé cela via Google, pas depuis la fiche de métadonnées). On y apprend qu’un service du ministère publie annuellement un très intéressant document de 75 pages, appelé « MuséoStat« . J’ai ainsi pu comprendre que le terme « musée de France » correspond à une appellation officielle (accordée et retirée par les services du ministère), que les variations de fréquentation sont très souvent liées à des expositions temporaires (d’où l’importance des annotations colorées), que la notion de gratuité a elle aussi une définition officielle précise, …

Le document reproduit aussi le questionnaire envoyé aux différents responsables de musée, questionnaire très détaillé puisqu’il précise aussi le mode de mesure de la fréquentation (comptage manuel, automatisée, estimation, …). Enfin, on peut apercevoir en fin de questionnaire une case à cocher par les répondants : « acceptez-vous que ces chiffres soient diffusés ? ». Voilà donc l’origine de cette formule un peu ambigüe de « données confidentielles » !

Cette demande de contextualisation me semble tout aussi pertinente que la demande de brutification du jeu de données. On doit pouvoir y répondre en repensant profondément la manière de documenter les jeux de données – c’est à la fois le rôle des métadonnées mais aussi plus globalement la fonction éditoriale des portails open data.

3 – Sortir de l’opposition « qualité vs. quantité » des données

Le fichier de la fréquentation des musées ne représente bien sûr pas à lui seul la diversité et la richesse des jeux de données disponibles, sur data.gouv.fr ou ailleurs … Mais cet exemple illustre quand même je pense la situation actuelle : des données ni tout à fait brutes, ni tout à fait contextualisées.

La particularité du ni-ni est qu’il ne satisfait ni ceux qui attendent des services plus poussés (API, Linked Data pour les développeurs), ni ceux qui militent pour une meilleure appropriation des données par tous (façon Infolab) – bien qu’ils ne faillent pas opposer les uns et les autres.

Dans le débat qui va s’ouvrir sur les fonctions des portails open data, il y a à mon avis un écueil majeur à éviter : réduire cela à une opposition « qualité vs. quantité » des jeux de données.

La qualité ne peut s’évaluer qu’à l’aune de l’objectif : un développeur, un chercheur ou un associatif qui veut évaluer la fréquentation des musées de sa région ont tous besoin de fichiers de qualité.

C’est la manière dont ils expriment ce besoin qui diffère (notre tension brutification / contextualisation). Il nous faut donc à la fois de la qualité ET de la quantité…

4 – De qui est-ce le travail ?

Reste la question du rôle de chaque acteur impliqué : qui doit assurer ces tâches de brutification et de contextualisation ? Est-ce la mission du service détenteur de la donnée ou du service qui met en oeuvre le portail, en l’occurence Etalab ? Les réutilisateurs  enrichissent eux-aussi les jeux de données, par exemple en reliant deux fichiers via des identifiants, peut-on imaginer qu’un portail officiel puisse héberger, ou faire un lien vers le fruit de leur travail ?

On voit qu’à partir d’une question précise – quelles fonctions pour les portails open data ? – on en arrive à interroger le périmètre même des portails et des organisations qui les mettent en oeuvre…

Répondez à une enquête sur la réutilisation des données publiques

En passant

SerdaLAB et le GFII (groupement français de l’industrie de l’information) organisent une série d’enquête pour comprendre les pratiques en matière de diffusion et de réutilisation des données publiques. En tant que lecteur de ce blog, le sujet est susceptible de vous intéresser. Si vous êtes un organisme public producteur de données, veuillez suivre ce lien. Si vous êtes un réutilisateur privé des données publiques, un autre questionnaire vous est destiné.

On tour …

En passant

Après un passage par Nantes à l’occasion de la Semaine européenne de l’Open Data, je continue mon tour de France pour présenter le livre. Rendez-vous donc jeudi 31 mai à Lille à l’invitation du collectif Catalyst. Et le lundi suivant, le 4 juin, nous pourrons nous retrouver à Montpellier… D’autres dates à suivre prochainement : Paris, Marseille, …