Une Data Expedition, pas à pas

SafariScreenSnapz080J’ai récemment animé un atelier dans le cadre de l’Open Data Camp organisé par Etalab. Cette Data Expedition portait sur le thème de l’égalité hommes-femmes, en lien avec le projet de loi actuellement en discussion au Parlement. Je vous propose ici un retour détaillé sur l’un des 2 sujets que nous avons traité, à savoir la participation des femmes à la vie économique.

1 – Définir le sujet: la représentation féminine au sein des chambres consulaires

Le site du Sénat référence l’étude d’impact du projet de loi sur l’égalité hommes – femmes. Le document est dense (près de 140 pages) et il couvre de nombreux sujets (les inégalités salariales, les violences faites aux femmes, les impayés des pensions alimentaires, …). Je me suis particulièrement intéressé aux annexes, qui comprennent un grand nombre de tableaux avec des données. Le tableau ci-dessous recense le nombre de femmes élues au sein des chambres consulaires territoriales et régionales (CCI), pour la mandature en cours (2010-2015). Ce sera le point de départ de notre expédition: je vous laisse l’étudier rapidement.

Le tableau issu de l'étude d'impact

Le tableau issu de l’étude d’impact

2 – Comprendre les données

Le tableau n’est pas d’un abord aisé. Certaines colonnes concernent des données actuelles, d’autres des projections et mesurent l’impact du projet de loi sur cette question précise. Il m’a fallu relire les chapitres consacrés à cette disposition pour mieux cerner le sujet. J’ai ensuite retravaillé les données pour les extraire et les rendre réutilisables.

Il faut noter à ce stade que l’étude d’impact est proposée en deux formats sur le site du Sénat: en PDF et en HTML. Bien sûr, il est plus simple d’utiliser le second format pour importer les données. J’ai donc utilisé mon tableur favori pour copier toutes les cellules, puis j’ai procédé à un rapide reformatage, en me concentrant sur les CCI territoriales: suppression des colonnes relatives au CCI regionales et des données de projection, dé-fusionnage de cellules, …

3 – Le fichier base de travail

Voilà le travail à l’issue de ces premières opérations. Je précise qu’à ce stade toutes ces opérations se sont déroulées en amont de l’Open Data Camp, ce n’est qu’une étape de préparation des données. J’ai ensuite crée un document partagé à l’aide de Google Drive. En voici une copie d’écran ci-dessous.

Le fichier nettoyé

Le fichier nettoyé

Le matin du 28 novembre nous avons donc lancé cette expédition – un atelier parmi la demi-douzaine proposés par les participants. Mon sous-groupe était composé de Marie-Cécile Huet, Claudio Vandi, Louis-David Benyayer et de renforts ponctuels au cours de la journée. Nous avons donc commencé par nettoyer le fichier en corrigeant quelques erreurs et abréviations. Par exemple on pouvait lire « Puy-de-D. » que nous avons transformé en « Puy-de-Dôme ». La discussion a ensuite porté sur les réutilisations que nous pourrions imaginer: faire une carte, proposer un classement, proposer des pistes d’analyse, etc…

4 – Compléter et enrichir le fichier

Nous avons d’abord complété le fichier en rajoutant les adresses de chaque chambre de commerce. Le site CCI France propose un annuaire … mais aucune donnée en open data ! Une partie de l’équipe a donc rajouté manuellement toutes les adresses (NB: notre fichier comporte une centaine de lignes, il est probable que s’il avait compté 1000 lignes nous aurions cherché un moyen d’automatiser cette tâche). Puis, les adresses ont été géocodées (ie. transformées en coordonnées X,Y) à l’aide du site gpsfrance.net.

La fiche d'une CCI (source CCI France)

La fiche d’une CCI (source CCI France)

Autre enrichissement de la donnée initiale: le même site CCI France propose le nom du président et du directeur général pour chaque chambre de commerce de France. Nous avons donc rajouté 2 colonnes: le genre (H/F) pour ces deux fonctions. Là, nous avons été confronté à quelques cas plutôt amusants: beaucoup d’entre eux portent le prénom Dominique, un prénom unisexe (notons qu’il n’y a rien de très surprenant ici: les Dominique ont l’âge d’occuper de tels postes, pas encore les Kevin ou les Emma !). Nous avons donc recherché leur sexe via Google… et très majoritairement nos Dominique sont des hommes.

5 – Visualiser les données à l’aide de Google Fusion Tables

Nous avons ensuite importé les données dans l’outil Google Fusion Tables, l’un des (nombreux) services en ligne qui permettent de réaliser des visualisations basiques. A noter que Fusion Tables propose son propre outil de géocodage, qui produit des erreurs relativement faciles à repérer (ex. la ville de Vienne, située en Isère, est confondue avec son homonyme autrichienne).

Fusion Tables nous propose plusieurs visualisations, nous avons commencé par une carte de chaleur (heatmap), présentée ci-dessous.

La carte de chaleur

La carte de chaleur

La carte est jolie, mais elle est hors de propos ;-(

Ce qu’elle nous donne à voir ce n’est pas tant l’inégalité hommes-femmes que la densité territoriale des chambres de commerce ! Pour pouvoir faire une carte de chaleur, il nous faudrait des données beaucoup plus nombreuses, plus denses. Nous aurions aussi besoin d’une donnée non disponible: le découpage territorial de chaque chambre de commerce…

Nous avons donc travaillé sur une carte plus classique, avec des points colorés en fonction du taux de féminisation (qui varie de 0% à 30%).

Fusion Tables permet de personnaliser le nombre de classes différentes que l’on veut représenter: on peut souhaiter représenter les CCI selon un code avec 2, 3 ou même 6 couleurs. La fonction « use this range » (cf. détail ci-dessous) permet de répartir automatiquement chaque point dans l’une des classes. Gros souci: le choix des couleurs proposé par l’outil est inepte dès que l’on dépasse 3 niveaux différents… et le résultat n’est guère compréhensible, il vaudrait mieux utiliser des dégradés de couleurs (ou conseiller aux ingénieurs de Google de relire Bertin…).

Les options de Fusion Tables

Les options de Fusion Tables

Nous nous sommes donc limités à trois couleurs, avec un code simple à comprendre: en vert les 4 CCI qui ont un taux de féminisation supérieur à 30%, en rouge celles dont le taux est inférieur à 15% et en orange les autres… Bien sûr l’on peut rediscuter du choix des classes. Par exemple, nous pourrions tout aussi bien choisir de ne mettre en vert que les CCI où la parité est atteinte – au risque bien réel de n’avoir aucun point vert sur la carte !

Voilà la carte telle qu’elle est aujourd’hui publiée. Dans la version interactive, quand on clique sur un point on retrouve davantage d’informations: le nom du territoire, le nombre de sièges, le taux de féminisation et les genres des directeurs et présidents.

Le résultat

Le résultat (la légende est décrite dans le texte ci-dessus)

6 – Une histoire à raconter ?

Une fois la visualisation terminée, nous avons essayé de comprendre ce qu’elle nous racontait… Elle révèle bien sûr une inégalité hommes-femmes, mais nous espérions secrètement découvrir des motifs géographiques beaucoup plus nets. C’est le comble: nous attendions une confirmation de nos pires stéréotypes (« c’est vraiment des gros machos dans le Sud ! »).

Nous en étions là de notre relative déception quand Sabine Blanc est arrivée. Sabine est journaliste. Ex-Owni, elle signe notamment les nombreux papiers de la Gazette des Communes sur l’open data. Elle nous a rassuré en disant que la visualisation n’était sans doute pas l’histoire, mais qu’elle pouvait très bien accompagner un article, par exemple sur le fait que seules 4 CCI sur 117 ont plus d’un tiers de femmes parmi leurs élus !

7 – Pour aller plus loin

Le jeu de données est disponible en ligne, vous pouvez le compléter et l’enrichir. Il s’agit essentiellement de « densifier » les données existantes. Par exemple en ajoutant des données historiques: le jeu publié ne concerne que la mandature 2010-2015. On pourrait aussi poursuivre le travail de qualification: les femmes élues occupent-elles des places au sein du bureau des CCI ? Sont-elles davantage issues de l’industrie, du commerce ou des services ? On peut aussi imaginer des jeux de données pour compléter celui-ci. Par exemple le découpage territorial précis des CCI (astuce: on doit pouvoir le recomposer à partir du site CCI France qui indique, pour chaque commune de France, la CCI de rattachement)… A vous de jouer !

Quelques conseils aux participants des concours et autres hackathons

Ce lundi j’interviens à Marseille lors d’un atelier ouvert aux participants du concours Open Data lancé par la région PACA. L’objectif : encourager la créativité des réutilisateurs et des développeurs. La saison des concours et des hackathons est bel et bien lancée ! Je vous propose des extraits de cette intervention, sous forme de conseils aux participants, illustrés de quelques réutilisations que j’ai repéré ces derniers mois…

1 – Parole de jury

TransitVis, l'un des lauréats du Urban Data Challenge

TransitVis, l’un des lauréats du Urban Data Challenge

Commençons par la fin de l’histoire. Vous avez fini vos développements, votre dossier de participation est complet, vous venez de soumettre votre service ou votre application. Le jury doit maintenant se réunir pour l’étudier et départager les vainqueurs parmi les participants.

En tant que candidat il ne faut jamais oublier qu’un concours (ou un hackathon) c’est une compétition, pas un examen (contrairement au bac, il ne suffit pas d’avoir la moyenne pour être reçu). Le jury est un élément essentiel de cette compétition. Sa composition est souvent rendue publique. Il rassemble généralement des représentants des organisateurs (collectivité ou entreprises), les partenaires du concours et, parfois, des personnalités qualifiées.

Le jury d’un concours devra identifier les lauréats parmi 40 à 50 participants, celui d’un hackathon aura deux heures pour départager 5 à 10 équipes… La clé de la compétition repose donc souvent sur la différenciation d’un dossier ou d’une application parmi l’ensemble des réutilisations (je parle bien de différenciation plutôt que d’originalité, je reviendrai ultérieurement sur cette distinction qui me semble essentiel). Comment proposer quelque chose de différent ? Je vous propose quelques pistes illustrées.

2 – La donnée, un ingrédient

A la base de tous les concours vous avez donc des données, que l’on peut considérer comme des ingrédients. Lisez bien le règlement du concours : il précise souvent les données que vous pouvez utiliser (uniquement celles de l’organisateur, toutes celles en rapport avec le thème ou le territoire, etc…).

Si je poursuis la métaphore culinaire, vous êtes donc, en tant que participant, le cuisinier. Votre premier travail sera d’évaluer tous les ingrédients qui rentrent dans votre cuisine. Cette donnée est-elle bien fraîche ? Comment pourrais-je l’utiliser ? Faut-il la modifier, l’arranger, la transformer ou peut-on la consommer « crue » ? Une très belle donnée, bien riche, peut parfois se consommer crue si l’on sait la présenter, par exemple à l’aide de visualisations…

L’erreur serait d’aller directement de l’ingrédient vers son utilisation la plus immédiate. La plupart des réutilisateurs qui se voient proposer un jeu de données sur les horaires de bus font des applications d’informations voyageurs, les plus malins en détournent l’usage (dit autrement : avec des pommes de terre on peut faire autre chose que des frites…). La différenciation, toujours !

Une donnée peut donc être l’ingrédient principal d’un plat, ou simplement un ingrédient parmi d’autres. Une donnée peut être proposée crue, mise en forme, transformée ou cuite avec d’autres … Autant de manières différentes d’utiliser ces ingrédients qui sont à votre disposition.

Le concours Urban Data Challenge fournit une très bonne illustration de ce principe de diversité. A partir d’un même jeu de données historiques sur les transports de San Francisco, Genève et Zurich, les participants ont mis en oeuvre des scénarios très différents. Urban Bus Race propose une course virtuelle entre les bus des 3 villes, TransitVis affiche une représentation des flux en 3 dimensions. D’autres participants ont ajouté une nouvelle donnée, par exemple en calculant un indice de frustration (qui combine la densité du nombre de passagers, le temps d’attente à un arrêt et les retards sur le réseau de bus)…

3 – Varier les supports  et les registres 

Une seconde piste de différenciation est liée aux supports que vous pouvez mettre en oeuvre (mobile, web, autres). J’ai déjà eu l’occasion sur ce blog d’expliquer le lien historique et fécond entre l’open data et les applications mobiles. Mais on peut faire beaucoup d’autres choses avec des données ouvertes : des sites web, des vidéos, des infographies, … Rien ne nous oblige par ailleurs à nous limiter à des médiations numériques, on peut très bien utiliser des données ouvertes pour concevoir des supports papiers (par exemple une lettre d’information à l’entrée d’un jardin public, avec l’aide des données ouvertes).

Enfin, on peut aussi rechercher de la différenciation du côté des registres d’expression. A partir d’un même jeu de données, on peut proposer quelque chose d’utile, de ludique, de décalé, … La variation entre les registres peut aussi être intéressante. Le service BrokenLifts s’appuie sur l’état de fonctionnement des ascenseurs des transports berlinois. La donnée est à la fois présentée sous une forme utile (« est-ce que cet ascenseur fonctionne ? ») mais aussi sur le registre de la  transparence et de l’accountability (« combien de jours de panne sur cet ascenseur géré par cette société ? ».

Un point de vigilance, cependant. La différenciation ne peut pas seulement passer par le choix d’un mode d’expression décalé. Le format « pitch » du hackathon encourage les discours décalés, mais la forme ne remplace pas complètement le fond.

Le site Brigand Futé (réalisé lors du HackIDF 2030) aide à planquer un cadavre en région parisienne, à partir des données du plan d’urbanisme… Le propos est donc décalé, mais la réalisation est d’un très bon niveau.

J’ai beaucoup moins accroché sur le récent lauréat d’un autre hackathon « a place to pee » qui, comme son nom l’indique, permet de localiser les toilettes dans la ville de Paris… Le sujet est pourtant bien réel (Rennes édite par exemple un guide papier très précis, réalisé avec des associations de malades), on aurait pu jouer sur plusieurs registres – et pas uniquement sur les multiples jeux de mots proposés par les concepteurs du service : « let piss a chance », « game of throne », …).

4 – Emprunter des pistes moins balisées

Il reste par ailleurs des pistes qui ont été jusqu’à présent peu explorées par les participants au concours, et notamment la conception d’outils pour les réutilisateurs et les développeurs. L’approche « business-to-developers » (B2D) plutôt que strictement « business-to-business » (B2B) ou « business-to-consumer » (B2C) est aussi une source de création de valeur. On peut citer par exemple la start-up britannique Placr qui a développé une API pour interroger les données des réseaux de transports urbains.

 

 

Donnée brute ou donnée contextualisée ?

La mission gouvernementale Etalab lance une consultation autour de l’évolution du portail data.gouv.fr. Vous êtes invités à contribuer à cette démarche de co-design. C’est aussi l’occasion de repenser plus globalement la conception des portails open data… A quoi et à qui servent-ils ? Comment doit-on présenter les données ? Je vous propose une série de billets sur ce thème. Le premier traite de la donnée elle-même et de la tension entre donnée brute et donnée contextualisée…

1 – Un cas pratique : la fréquentation des musées

J’ai récemment animé un atelier de sensibilisation à l’open data pour les acteurs culturels d’une collectivité. A cette occasion, j’ai repéré un jeu de données disponible sur le portail gouvernemental. Ce fichier propose les chiffres de la fréquentation des musées de France, de 2006 à 2010. Je vous invite à télécharger celui qui concerne la région Bretagne (pour plus de facilité, je vous propose aussi une copie d’écran ci-dessous, que vous pouvez agrandir en cliquant).

(cliquer pour l'agrandir) - fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr

La fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr (cliquer pour agrandir l’image)

Le tableau présente les chiffres de fréquentation pour chaque « musée de France » situé dans la région. On a donc le nom du musée (ex. « musée des beaux-arts »), une ville, puis les chiffres de fréquentation répartis en 2 colonnes « total » et « grat ». On peut raisonnablement supposer qu’il s’agit des entrées gratuites (mais rien ne le précise formellement, ni dans le fichier, ni dans la fiche de métadonnées). D’autres colonnes précisent l’évolution de la fréquentation d’une année sur l’autre.

Le code couleur est expliqué en pied de page du fichier. La couleur noire représente des « données confidentielles », avec la mention « contacter le chef d’établissement », les autres couleurs viennent apporter des éléments de contexte sur la fréquentation de tel ou tel musée. En l’occurence il y est surtout question d’évènements exceptionnels susceptibles d’expliquer le chiffre de fréquentation : fermeture ou réouverture d’un musée, exposition temporaire ayant entraîné une fréquentation exceptionnelle, …

Plus intéressant, la première colonne du tableau contient un numéro de référence, qui **semble** être un identifiant unique accordé à chaque musée de France.

2 – La tension « brutification » vs. contextualisation

La lecture de ce fichier permet d’illustrer la tension entre deux tendances qui s’expriment aujourd’hui dans le monde de l’open data.

La première tendance est liée à une demande de « brutification ». Je reprends ici le terme évoqué par Samuel Goeta et Jérôme Denis pour décrire l’une des actions qui se déroulent dans les coulisses de l’open data (le thème de la thèse de Samuel à Telecom Paris Tech).

Pour permettre la mise en place d’un ensemble de services sur le portail open data, il faudrait que la donnée proposée soit la plus brute possible (et je parle bien là d’une donnée brute techniquement, pas en termes sociologiques).

Parmi ces « services » on peut citer par exemple la pré-visualisation des jeux de données sans avoir à ouvrir le fichier (une fonctionnalité très utile et déjà mis en oeuvre ailleurs), la datavisualisation ou représentation cartographique par défaut (un exemple ici), ou enfin même les API (des interfaces de programmation qui font aujourd’hui cruellement défaut dans la plupart des portails, à quelques exceptions près). Sans même parler d’un pas vers le web des données et le Linked Data, une attente forte des acteurs du web sémantique.

Reprenons le fichier sur la fréquentation des musées : pour proposer tous ces services il faudrait donc faire un travail *supplémentaire* de brutification : retirer les codes couleurs, ignorer les colonnes qui proposent une donnée recalculée (le taux d’évolution d’une année sur l’autre, les totaux, …) et plus globalement retirer tout ce qui concerne la mise en forme du fichier. On pourrait d’autre part mieux utiliser des données qui y figurent déjà, ainsi le fameux numéro de référence.

J’ai trouvé sur le portail un autre fichier qui fournit des informations complémentaires sur les musées de France : leur adresse postale, le site web, les horaires et jours d’ouverture. Problème : ce fichier ne propose aucun identifiant unique. On a là une occasion manquée de permettre une mise en relation et un enrichissement de deux fichiers (open data 1 – web sémantique 0).

La donnée proposée ici n’est donc pas tout à fait « brute » … mais elle n’est pas tout à fait contextualisée non plus !

La seconde demande qui émerge – et qui de prime abord peut sembler contradictoire avec la brutification – est liée à la contextualisation de la donnée.

J’ai déjà eu l’occasion ici de parler de l’importance d’une lecture critique des données. Si l’on considère le fichier sur la fréquentation des musées, ce besoin de contextualisation apparaît rapidement : qu’est-ce qu’un « musée de France » ? comment les données de fréquentation sont-elles collectées ? quel est l’usage initial des données ? qui la collecte et pour quoi faire ? Et enfin, la meilleure : pourquoi certaines données sont-elles considérées comme « confidentielles » (celles dont les cases portent la couleur noire) ?

La réponse à bon nombre de ces questions se trouve sur le site du Ministère de la Culture (précision importante : j’ai trouvé cela via Google, pas depuis la fiche de métadonnées). On y apprend qu’un service du ministère publie annuellement un très intéressant document de 75 pages, appelé « MuséoStat« . J’ai ainsi pu comprendre que le terme « musée de France » correspond à une appellation officielle (accordée et retirée par les services du ministère), que les variations de fréquentation sont très souvent liées à des expositions temporaires (d’où l’importance des annotations colorées), que la notion de gratuité a elle aussi une définition officielle précise, …

Le document reproduit aussi le questionnaire envoyé aux différents responsables de musée, questionnaire très détaillé puisqu’il précise aussi le mode de mesure de la fréquentation (comptage manuel, automatisée, estimation, …). Enfin, on peut apercevoir en fin de questionnaire une case à cocher par les répondants : « acceptez-vous que ces chiffres soient diffusés ? ». Voilà donc l’origine de cette formule un peu ambigüe de « données confidentielles » !

Cette demande de contextualisation me semble tout aussi pertinente que la demande de brutification du jeu de données. On doit pouvoir y répondre en repensant profondément la manière de documenter les jeux de données – c’est à la fois le rôle des métadonnées mais aussi plus globalement la fonction éditoriale des portails open data.

3 – Sortir de l’opposition « qualité vs. quantité » des données

Le fichier de la fréquentation des musées ne représente bien sûr pas à lui seul la diversité et la richesse des jeux de données disponibles, sur data.gouv.fr ou ailleurs … Mais cet exemple illustre quand même je pense la situation actuelle : des données ni tout à fait brutes, ni tout à fait contextualisées.

La particularité du ni-ni est qu’il ne satisfait ni ceux qui attendent des services plus poussés (API, Linked Data pour les développeurs), ni ceux qui militent pour une meilleure appropriation des données par tous (façon Infolab) – bien qu’ils ne faillent pas opposer les uns et les autres.

Dans le débat qui va s’ouvrir sur les fonctions des portails open data, il y a à mon avis un écueil majeur à éviter : réduire cela à une opposition « qualité vs. quantité » des jeux de données.

La qualité ne peut s’évaluer qu’à l’aune de l’objectif : un développeur, un chercheur ou un associatif qui veut évaluer la fréquentation des musées de sa région ont tous besoin de fichiers de qualité.

C’est la manière dont ils expriment ce besoin qui diffère (notre tension brutification / contextualisation). Il nous faut donc à la fois de la qualité ET de la quantité…

4 – De qui est-ce le travail ?

Reste la question du rôle de chaque acteur impliqué : qui doit assurer ces tâches de brutification et de contextualisation ? Est-ce la mission du service détenteur de la donnée ou du service qui met en oeuvre le portail, en l’occurence Etalab ? Les réutilisateurs  enrichissent eux-aussi les jeux de données, par exemple en reliant deux fichiers via des identifiants, peut-on imaginer qu’un portail officiel puisse héberger, ou faire un lien vers le fruit de leur travail ?

On voit qu’à partir d’une question précise – quelles fonctions pour les portails open data ? – on en arrive à interroger le périmètre même des portails et des organisations qui les mettent en oeuvre…

Un hackathon, sinon rien ?

Le hackathon est à la mode en ce début d’année 2013 ! Les développeurs qui s’intéressent à l’open data vont être très sollicités. C’est l’occasion de se pencher sur ce format d’animation original. A quoi sert un hackathon ? Quels en sont les valeurs mais aussi les limites ? 

(photo la Cantine Rennes)

(photo la Cantine Rennes)

Tout à la fois dispositif créatif et mode d’animation, le hackathon rassemble dans une unité de temps (généralement un week-end) et de lieu des réutilisateurs qui travaillent en mode projet. Il fait partie de la panoplie des outils d’animation que j’ai déjà eu l’occasion de détailler sur ce blog. Plus léger qu’un concours, a priori moins complexe à mettre en place que d’autres formes d’animation au long cours, le hackathon pose aussi ses propres défis.

Les 3 valeurs du hackathon

Le hackathon a d’abord une dimension de mobilisation, tant interne qu’externe. On pourra noter d’ailleurs que ce format est de plus en plus utilisé en amont de l’ouverture des données. C’est tout d’abord l’opportunité pour obtenir l’ouverture, même partielle ou limitée dans le temps, de jeux de données. Le hackathon est alors un prétexte en interne pour faire bouger les lignes, en arguant du caractère éphémère – donc perçu moins impliquant ou risqué – de l’opération.

Dans un curieux renversement de logique, on ne propose pas un hackaton parce que l’on a des données, on demande des données parce que justement un hackathon est organisé ! La dimension mobilisatrice est aussi importante en externe, c’est un excellent moyen de faire baisser la pression sur le sujet, mais aussi d’engager de premières relations avec un écosystème de réutilisateurs.

La seconde valeur du hackathon est liée à l‘expérience-même du hackaton par ses participants. Ceux qui ont eu l’occasion d’en vivre un vous le diront : ils ont vécu une expérience. Tout d’ailleurs dans l’organisation vise à renforcer cette dimension : l’unité de lieu (on vit en vase clos pendant 48 heures), le travail en petit groupe d’individus qui ne se connaissaient pas nécessairement auparavant (la colonie de vacances est l’archétype du team building, c’est bien connu), la contrainte de temps (à la fin chaque groupe présente son projet), voire la compétition (quand le hackathon donne lieu à un vote).

Le problème avec cette dimension expérientielle est qu’elle ne produit guère d’externalités pour ceux qui ne l’ont pas vécu. Je vais le dire autrement : soit vous avez vécu le hackathon – et vous en comprenez la valeur -, soit vous ne l’avez pas vécu. La transmission d’une expérience vécue est toujours délicate, hackathon ou pas – d’où l’importance de la documentation projet sur laquelle je reviendrai ultérieurement dans ce billet.

La troisième valeur du hackathon est liée à la communication. C’est un dispositif qui permet de donner corps à une démarche d’ouverture des données et constitue en tant que tel un objet de communication. Comment dès lors rendre compte des travaux et de l’ambiance générale ? Le hackathon permet certes d’avoir quelque chose à montrer de l’open data, mais cela ne peut pas se réduire à une photographie de quatre gars et une fille devant un ordinateur 😉

L’opération MuseoMix, largement disséquée dans cet article d’Hubert Guillaud d’Internet Actu ou, dans une moindre mesure, les hackathons organisés par Transilien SNCF, font l’objet d’un retour en ligne assez poussé : vidéos, témoignages de participants, présentation détaillée des projets réalisés (ou en cours de réalisation). Mais le budget nécessaire à cette couverture ne correspond pas tout à fait l’idée du hackathon comme formule d’animation un peu cheap et accessibles à toutes les bourses.

Et pourtant cette fonction de communication est essentielle pour essayer de transmettre aux non-participants un peu de l’essence de l' »expérience hackathon« . Il faut donc l’inclure dans son organisation et sans aucun doute la considérer comme une fonction à part entière. On retrouve ici l’idée de la documentation de projet au fil de l’eau mise en place notamment à la 27ème Région.

Les défis du hackathon

La question principale qui se pose aux organisateurs du hackathon est celle de la finalité : à quoi sert-il ? S’agit-il essentiellement de mettre en oeuvre des démarches agiles et des pratiques d’innovation plus légères, ce qui en soit présente déjà un intérêt comme le souligne Fréderic Charles dans son article « Un hackathon pour innover à la DSI en mode start-up » ? Ou le hackaton a-t-il un objectif de réalisation (de prototypes, de services) ?

Faute d’avoir défini, clarifié et partagé en amont les objectifs, on risque d’être un peu déçu par la réalité des réalisations. De la même manière qu’un Start-Up Week-End (marque déposée, sic) fait émerger des idées d’entreprises (et non des entreprises elles-même), le hackathon fait émerger des idées de service, éventuellement des prototypes. Mais le passage à la phase opérationnelle demande bien souvent un effort supplémentaire.

C’est aussi sur ce point que l’organisateur devra se positionner : comment souhaite-t-il accompagner la concrétisation ? Est-il prêt à financer les projets les plus intéressants ou considère-t-il que son action s’arrête le dimanche soir ? Le hackathon est peut-être finalement une formule un peu plus engageante et impliquante que nous pourrions initialement le penser. L’après-hackathon est un sujet à part entière.

L’autre question qui se pose – au hackathon mais aussi plus globalement aux autres formes d’animation ponctuelles comme les concours – est celle de la répétabilité. Peut-on répéter indéfiniment la formule sur un public cible de développeurs intéressés par l’open data, cible qui n’est pas -par définition – extensible à l’infini ? Dit autrement, un hackathon ca va, trois hackathons bonjour les dégâts ? Les équipes des premières éditions se concentrent sur la concrétisation de leurs idées, il faut donc être capables de mobiliser de nouveaux participants – et ce n’est pas toujours simple. Le premier semestre 2013 va être un bon test grandeur nature, vu le nombre important d’hackathons annoncés…

Ps : j’en profite pour vous conseiller la lecture du guide pratique d’organisation d’un hackathon, proposé par Open Data BC (British Columbia) en anglais, donc.

Moderniser l’action publique par l’open data ?

Moderniser l’action publique par l’open data, c’est le sens du nouveau rattachement de la mission Etalab en charge de la politique gouvernementale d’ouverture des données. Cela passe notamment par la capacité à faire (enfin) jouer la boucle de rétroaction : que les données permettent d’améliorer les services publics. Revue des initiatives existantes et propositions d’actions : comment boucler la boucle de l’open data ?

Central Park (photo NYC Parks)

Central Park, New-York
(photo NYC Parks)

En septembre dernier, j’ai suivi avec un grand intérêt l’annonce d’un hackaton dédié aux parcs et jardins new-yorkais (NYC Government DataKind). La politique open data de Big Apple reste pour moi une référence, tout comme son plan global pour le numérique.

A l’époque, je préparais des ateliers de réutilisations des données liées aux arbres du parc du Thabor et j’imaginais donc y trouver des sources d’inspiration pour des applications ou des services originaux ou ludiques… J’ai été très agréablement surpris par la qualité et le niveau des projets développés lors de cet évènement DataKind – pourtant aucune application mobile flashy n’a été développée ! Mieux, les résultats illustrent bien comment l’open data peut répondre à des questions concrètes et contribuer in fine a améliorer l’action publique.

1 – DataKind : des questions, des données, des réponses

L’organisation DataKind se propose de mettre à disposition des compétences liées aux données pour répondre à des problèmes concrets. L’ancien nom de DataKind – Data Without Borders (données sans frontières) – traduit par cette ambition d’un peace corps dédié aux données. Leur slogan « Using data in the service of humanity » m’a bien fait marrer (sauver le monde par la technologie, une idée très anglo-saxonne), mais leur action est bien sérieuse. DataKind organise régulièrement des hackatons, toujours en relation avec des institutions (associations, ONG ou villes) qui accueillent l’évènement et posent les questions. Pour cette édition new-yorkaise, le partenaire était le service des Parcs et Jardins de la ville (NYC Parks). Pour vous et moi, les jardins new-yorkais cela se résume sans doute à Central Park… mais en tout cela représente 600 000 arbres d’alignements (dans les rues) et plus de 2 millions dans les parcs publics !

En amont de la manifestation, NYC Parks et DataKind ont identifié les problèmes qui seront soumis aux participants. J’ai retenu deux questions qui ont donné lieu à des projets : pouvons-nous prédire où une future tempête risque de faire le plus de dégâts dans nos parcs ? Les opérations préventives d’élagage ont-elles un impact sur les demandes ultérieures d’intervention, notamment par les habitants ?

Les organisateurs ont aussi recensé un ensemble de jeux de données, en grande partie déjà ouvertes sur le portail open data comme tous les appels au 311 (le numéro des services urbains pour les demandes d’intervention), les travaux programmés (work orders), mais aussi des sources extérieures (les principaux événements météorologiques, l’historique des interventions liées aux précédentes tempêtes). L’ensemble a fait l’objet d’un brief que l’on peut retrouver en ligne.

Les participants (des data-scientists) n’ont pas développé des services en ligne, ils ont proposé des modèles pour répondre aux questions posées. Ainsi, un groupe a proposé un index de risque de tempête pour chaque bloc, en fonction des arbres que l’on y trouve et de leur ancienneté. Un autre a remis en question, à partir des données brutes et d’un modèle mathématique, l’intérêt de la politique préventive d’élagage. Bref, ils ont répondu à des questions concrètes et ont permis d’améliorer l’action publique sur ce champ précis.

2 – La boucle de rétroaction de l’open data V.2

Par contraste, l’exemple de DataKind illustre bien ce qui fait aujourd’hui défaut dans notre approche de l’open data : nous ne bouclons pas la boucle. Le modèle actuel est le suivant : un acteur public (ou privé) met à la disposition des réutilisateurs des données ouvertes. Ces derniers développent des services, des applications, souvent utiles, parfois ludiques mais bien souvent aucune d’entre elles n’impacte la manière de faire de l’organisation. Avec des horaires de bus on peut certes développer des services d’information voyageurs, mais l’on peut aussi analyser la desserte de chaque quartier et – potentiellement – proposer des améliorations au gestionnaire du réseau de transport.

Ce qui nous manque donc c’est l’application de la boucle de rétroaction (feedback loop) : une organisation ouvre des données, qui servent ensuite à des tiers pour améliorer les actions de l’organisation… une sorte d’open data  version 2.

Le principe de la boucle de rétroaction est l’un des éléments fondateurs de la cybernétique (j’ai eu l’occasion dans mon livre d’évoquer le lien entre l’open data et les théories de Norbert Wiener). Vous pouvez en voir un exemple à l’oeuvre dans la plupart des villages de France avec l’affichage en temps réel de la vitesse de votre véhicule… Il suffit d’offrir au conducteur une information qu’il possède pourtant déjà sur son tableau de bord pour qu’il réduise en moyenne de 10% sa vitesse… Cet article de Wired raconte la genèse de ce dispositif et explique pourquoi l’efficacité n’en diminue pas avec le temps.

3 – Des projets pour l’action publique

Je reviens sur l’exemple de New-York. La ville s’était déjà illustrée par son équipe interne de data-scientists et son approche très pragmatique des données (tant big data que open data). Toutes les villes n’ont pas les moyens du maire de New-York, mais la plupart des acteurs publics qui ouvrent aujourd’hui leurs données pourraient travailler sur la boucle de rétroaction. Je vous propose deux exemples pour tenter de vous en convaincre.

Projet 1 : du marketing achats avec l’open data

Une partie de la modernisation de l’action publique passe par une maîtrise des dépenses. Mieux acheter est une source importante d’économies. L’open data pourrait faciliter la mise en place d’une démarche de marketing achats. L’opérateur des transports londoniens (TfL) met en ligne sur son portail open data toutes les dépenses d’achats et d’équipements supérieures à 500 livres. Ainsi, un nouveau fournisseur peut se positionner pour faire la meilleure offre, en connaissant le détail et le prix des prestations acquises par TfL…

Projet 2 : les « Happy Hours » de la piscine municipale

Dans ma ville, on peut accéder à la piscine municipale avec sa carte de transport (genre pass Navigo). La mise en place du système a accompagné l’introduction d’une tarification horaire, où l’on paie en fonction du temps passé dans le bassin. Les services de la ville disposent donc d’une grande masse de données sur la fréquentation des piscines et le système fournit aussi une vision en temps réel du nombre de nageurs.

Comme tout équipement, la piscine municipale connaît des pics de fréquentation, certains liés à des variations saisonnières (été/hiver) ou à la météo du moment… En ouvrant la donnée de fréquentation en temps réel, on pourrait informer les usagers de l’affluence qu’ils risquent d’y trouver à cet instant. Mieux, en anonymisant les données de fréquentation on pourrait proposer, sur le modèle de DataKind, d’imaginer des formules d’incitation pour aller nager aux heures creuses.

L’idée : j’ouvre 3 mois d’historique de fréquentation, je fournis des données sur les événements météorologiques ou autres (les vacances scolaires, …) et je lance un challenge avec une question : « aidez-nous à définir les Happy Hours de la piscine !« .

Les deux exemples présentés ici sont plutôt anecdotiques, mais ils sont réalisables à plus ou moins court terme. On peut aussi imaginer travailler sur d’autres champs de l’action publique avec des questions plus ambitieuses... Celles du logement ou de la prise en charge de la petite enfance par exemple.

4 – En pratique, comment faire ?

Comment boucler la boucle de l’open data ? Il va tout d’abord falloir revoir notre manière de procéder. Les formules d’incitation (type concours ou hackatons) ne devraient pas partir des données disponibles mais plutôt des questions et des problèmes concrets. Bien entendu, la puissance publique n’est pas la seule à pouvoir définir les problèmes, la société civile peut aussi jouer son rôle (DataKind a par exemple organisé un évènement londonien avec plusieurs ONG).

Le plan de route serait donc le suivant :

– définir une question, un problème de politique publique,

documenter la problématique et les principaux enjeux,

– recenser, lister et ouvrir les jeux de données pertinents,

– s’appuyer sur des médiateurs tiers,

– proposer des challenges, des concours, des hackatons pour inviter les participants à répondre à la question… (souvenons-nous que les sites data.gov et challenge.gov vont de pair),

faciliter la réintégration des résultats au sein des services et des administrations (leur implication est amont dans la définition des questions est un bon levier pour cela).

Il ne s’agit pas pour autant de brider les réutilisateurs dans leur créativité, libres à eux de participer ou non aux actions proposées. Libres à eux de développer l’application de leurs rêves.

Mais n’ayons pas non plus peur de partager les questions qui se posent quotidiennement dans l’action publique. Ainsi, nous ferons le lien entre l’ouverture des données publiques et la cohérence des politiques publiques, un argument développé par ceux qui ne veulent pas ouvrir leurs données

Animer l’open data, mille possibilités

Animer-opendata-chignard.001« Animer, animer et encore animer » : Hubert Guillaud résumait ainsi pour Internet Actu une partie des échanges lors de la Semaine européenne de l’open data en mai dernier. L’animation de l’open data est aujourd’hui à la fois un enjeu reconnu par tous et une « expression-valise ». Proposition d’une grille d’analyse pour recenser la grande diversité des pratiques.

Passé les premiers temps de l’effervescence, tous ceux qui – acteurs publics ou privés – ont ouvert des données se posent les mêmes questions. Pourquoi animer ? Comment, selon quels formats ? Auprès de quels publics ? Pour quels résultats ? … La question de l’animation rejoint en partie celle de l’appropriation par le plus grand nombre, mais elle est à mon avis plus large. Un concours de développement d’applications, un hackaton sont autant de formats qui visent à stimuler la réutilisation sans pour autant viser le grand public.

Si le constat semble partagé, il n’en est pas de même des réponses mises en oeuvre. L’observateur attentif de l’actualité open data aura remarqué que les dispositifs d’animation se déploient aujourd’hui partout en France, avec parfois des modalités très différentes. Du concours DataConnexions d’Etalab aux Infolabs citoyens de la FING, du week-end BeMyApp Tourisme au Hackdays internes de SNCF Transilien, autant de manière d’animer l’open data…

La grille d’analyse : animer l’open data en 5 questions

Animer-opendata-chignard.001

Je vous propose une grille d’analyse de l’animation de l’open data, en 5 questions :

pourquoi ? identifier les objectifs de l’animation (de la stimulation de la réutilisation à une sensibilisation à la culture de la donnée, les enjeux sont différents),

comment ? les modalités varient, on peut notamment citer le concours de développement d’applications, les hackatons et challenges courts, les appels à projets et concours d’idées, les ateliers et workshop (data journalisme, …) et les infolabs,

pour qui ? les publics cibles, destinataires de ces animations peuvent être multiples : réutilisateurs (développeurs, journalistes, étudiants, …), le « grand » public, les médiateurs traditionnels du numérique (et notamment les espaces publics numériques), les détenteurs (decideurs publics ou privés, élus et agents des services),

quand ? ces actions peuvent être proposées en amont du lancement du portail open data (par exemple les animations internes autour du repérage des données), au lancement du portail (les concours par exemple) ou au long cours, par exemple pour pérenniser la démarche,

par qui ? les acteurs qui portent ces animations peuvent aussi être très divers : l’acteur (public ou privé) qui ouvre les données, mais aussi des tiers-lieux (les Cantines numériques, les espaces publics numériques), les collectifs open data, les « agences numériques » (par exemple l’AEC en Aquitaine) voire des prestataires spécialisés (par exemple les organisateurs de BeMyApp).

En mixant les différentes options, on arrive au final à près de 1200 combinaisons possibles pour animer l’open data ! Certaines sont bien documentées (les concours en phase de lancement), d’autres beaucoup moins (en particulier les actions internes ou celles au long cours).

Comment utiliser cette grille d’analyse ?

On peut utiliser cette grille d’analyse de plusieurs manières. La première est de s’en servir pour recenser et classer les initiatives déjà recensées, en France et en Europe. Quelques illustrations à partir des exemples cités précédemment :

Concours DataConnexions #2 proposé par Etalab : stimuler la réalisation de services par des réutilisateurs (plutôt start-ups mais pas exclusivement) par l’organisation d’un concours / appel à projet, au long-cours,

Infolab Paris Citoyens proposé par la FING : sensibiliser à la culture de la donnée, imaginer des services par le biais d’un dispositif Infolab éphémère, pour un public d’acteurs associatifs,

Week-end Open Tourisme organisé par Be My App avec Google et Bouches du Rhône Tourisme : un hackaton pour imaginer et réaliser des services avec des données ouvertes, plutôt pour une cible de développeurs, en accompagnement du portail data.visitprovence.com, par un prestataire spécialisé,

Le Hackaton des Cheminots de SNCF Transilien : un week-end de développement réservé aux cheminots, sur le modèle des HackDays « tous publics » de l’été dernier, pour un public de réutilisateurs internes, en animation au long-cours de la démarche,

les ateliers du collectif Open Data Rennes lors de VivaCités : sensibiliser un public scolaire aux données, par une approche graphique et ludique des données d’abord personnelles, la « dataviz des enfants ».

Une autre utilisation possible de la grille d’analyse est d’imaginer des croisements à partir des 5 questions pour identifier de nouvelles pistes d’animation… A vous de jouer !

L’open data et le grand public : on n’attrape pas les mouches avec du vinaigre

La question de l’appropriation des données ouvertes est, avec celle du potentiel économique, l’un des sujets chauds de l’open data. Ayant eu l’opportunité de tester plusieurs formats d’animation et de sensibilisation au cours des derniers mois, je vous propose un billet sous forme de retour d’expérience. Vos commentaires, idées et réactions sont les bienvenus !

1 – Pour le grand public, le problème dans « open data » c’est d’abord la « data »

L’infolab « données de mobilité »
(photo Ville de Rennes)

J’avais fait cette remarque à l’occasion de la Semaine européenne de l’open data qui s’est tenue à Nantes avant l’été; pour les entreprises, le problème de l’open data c’est plutôt le côté « open« , mais pour le grand public c’est d’abord l’objet « donnée » qui constitue une difficulté.

Les data sont partout autour de nous, elles sont indispensables au bon fonctionnement des services de notre quotidien (de la crèche aux transports), mais pourtant cet objet reste largement méconnu. J’ai développé dans un précédent billet les différents formats d’animation de l’open data, en particulier en fonction des cibles visées; les ateliers dont je fais mention ici visent à développer une culture de la donnée au sens large (et pas uniquement de la donnée ouverte).

2 – D’abord, partir d’une thématique (et surtout pas de l’open data)

Le proverbe dit que l’on n’attrape pas les mouches avec le vinaigre. Je trouve, toutes comparaisons malveillantes mises à part, qu’il s’adapte bien à la question de l’appropriation de l’open data par le grand public.

Faîtes l’expérience : proposez à vos amis de participer à une séance de sensibilisation aux données ouvertes. Qu’allez-vous entendre ? L’anti-geek : « oh, tu sais moi je suis pas trop branché par les trucs informatiques, cela ne m’intéresse pas trop« , l’apprenti geek : « ah oui bonne idée, justement j’avais des problèmes avec Open Office… tu me parles bien de cela, non ?« , la père divorcé : « Ah oui, cela aurait été avec plaisir mais à cette heure-là j’ai kiné/piscine/les enfants à aller chercher à l’école, parce que tu connais mon ex, hein…« .

Je caricature un peu mais vous avez compris le message : l’open data pour l’open data, cela n’attire pas les foules ! L’une des pistes, pour sensibiliser à la culture de la donnée, est de partir d’un thème auquel chacun puisse facilement s’identifier. On n’invite pas à « découvrir l’open data » mais à parler du jardin botanique, des déplacements en vélo dans la ville, ou encore des prénoms. Le thème n’est pas qu’un « hameçon« : je l’ai choisi parce qu’il correspond à chaque fois à des jeux de données déjà ouverts… Ce n’est pas seulement un prétexte, c’est une opportunité pour parler des données, à travers des exemples concrets et accessibles.

3 – Les médiations

Les trois ateliers que j’ai eu le plaisir d’animer à Rennes durant l’évènement Viva-Cités auront permis de tester plusieurs formes de médiation. Le format est de type infolab éphémère : un lieu, un temps déterminé, une méthodologie d’animation pour « faire des trucs » avec l’open data.

Ces trois ateliers, bien qu’ayant des approches très différentes, ont des points communs : aucun participant n’avait à manipuler un ordinateur. On a utilisé des photographies, des plans, des crayons de couleur, des gommettes, … Tout pourvu que l’on n’ait pas besoin d’informatique ! Tous les ateliers ont commencé par des mises en situation, afin que chaque participant puisse faire sien le sujet que nous allions aborder.

Trois exemples de question que j’ai posé en introduction : « Pourriez-vous me dessiner votre parcours-type lorsque vous allez au Jardin du Thabor ?« , « Comment peut-on se déplacer aujourd’hui à Rennes ?« , « Quels sont les prénoms qui figurent sur vos papiers d’identité ?« …

Cette introduction a souvent permis de briser la glace entre les participants qui ne se connaissaient pas avant l’atelier. Elle a surtout permis d’éviter le tour de table des présentations un peu formelles. En effet, j’avais invité sur chacun des ateliers un représentant des services de la Ville en relation avec le jeu de donnée qui nous intéressait… et je ne souhaitais qu’ils se placent, ou soient placés par les autres, « hors du groupe« .

Nous avons ensuite utilisé des méthodes et des supports d’animation très différents pour chaque atelier. Pour celui concernant le Jardin du Thabor, j’ai distribué une cinquantaine de tirages de photographies que j’avais réalisé. Nous avons décrit chaque photo puis placé sur le plan du jardin ces différents « points d’intérêts » (les arbres, les statues, les toilettes, les entrées et sorties du parc…).

L’atelier sur les déplacements s’est déroulé sous le mode d’une chasse aux données. Chaque groupe est parti équipé d’un kit comprenant une photo aérienne du quartier, des gommettes de couleur et des instructions pour prendre des photos sur le mode « rapport d’étonnement ». Enfin, pour le dernier atelier j’avais imprimé sur des grandes feuilles A3 la liste des prénoms les plus populaires (toujours dans l’idée de ne pas avoir à utiliser un tableur Excel…).

4 – Au programme de ces infolabs

Chaque atelier aura permis d’aborder une ou plusieurs facettes des données ouvertes.

L’infolab « Thabor » a montré la richesse et la diversité des sources de données (publiques avec le portail open data de la Ville, mais aussi collaboratives avec la carte Open Street Map). Nous avons insisté sur la possibilité de mixer deux sources de données pour donner naissance à une troisième (à l’instar de la carte des arbres allergènes du parc, réalisée à partir du mix entre la localisation et l’espèce des arbres et la liste des espèces allergènes publiée sur le site de l’ADEME).

L’infolab « données de mobilité » était une invitation à ouvrir l’oeil (et le bon !) pour découvrir les données, signes et informations pertinentes pour se déplacer dans un quartier. Nous avons pu faire le lien entre un objet concret (un ascenseur), la donnée ouverte le concernant (l’état de fonctionnement interrogeable sous la forme d’API) et surtout sa réutilisation possible. J’avais déjà proposé cet atelier à Rennes, Nantes et Marseille et pourtant je continue encore à découvrir de nouvelles choses en observant les participants : par exemple le fait que la majorité des signes s’adressant aux piétons sont des injonctions négatives : « attention travaux, traversée obligatoire pour les piétons », « zone interdite aux piétons », « le petit bonhomme est rouge, on ne passe pas », …

Infolab prénoms
(photo Franck Hamon / Ville de Rennes)

L’infolab « prénoms » aura surtout mis l’accent sur la lecture critique des données (où naît-on vraiment ? comment le fichier est-il constitué ? pour quel usage initial ?). Nous avons aussi pu voir concrètement que chaque visualisation est l’objet d’une intention (ce que l’on veut montrer) et que la manière dont les données sont mises à disposition a un impact sur les réutilisations possibles…

Bref, nous avons essayé de poser les bases d’un programme pédagogique (lire / écrire / compter) pour des  infolabs « culture de la donnée ». C’est bien, maismais… j’entends déjà la question qui se murmure dans le milieu de l’open data :

5 – … à quoi cela sert tout cela ?

La première critique concerne le type de donnée auquel je me suis intéressé. La seconde à l‘ambition qui est poursuivie.

« Les données sur les arbres, ça sert à rien, ce qu’il faut ce sont des **vraies** données sur la transparence des budgets » : ainsi s’exprimait l’ancien président du Conseil national du numérique. J’ai déjà entendu ce point de vue : il y aurait des données « bonnes à ouvrir » et puis les autres, le jugement dépendant bien sûr de celui qui l’exprime. « Il nous faut des données **utiles** » a précisé un intervenant britannique lors de la dernière conférence parisienne sur le sujet. Qu’est-ce qu’une donnée utile ? Celle avec laquelle on peut faire des applications mobiles ? Des applications mobiles rentables ? Celle qui nous sert à appuyer la thèse que l’on défend ? Celle qui est populaire ? …

Bien sûr, il faut des données sur la transparence budgétaire ! D’ailleurs, certaines collectivités qui proposent la localisation des arbres (ou les prénoms populaires) proposent aussi ce type de jeu de données. Est-ce qu’il faut encourager les acteurs publics à ne publier que des données sur les prénoms ? Non ! Est-ce qu’il faut clouer au pilori celles qui publient aussi ce genre de données ? Non, non plus !

La seconde critique tient à l’ambition que l’on se fixe : est-ce que je crois sérieusement qu’un atelier sur les prénoms va répondre à la promesse de capacitation citoyenne et de renforcement démocratique de l’open data ?

Mon ambition n’était pas celle-là, il s’agissait juste d’essayer de transmettre deux ou trois idées sur les données ouvertes et leur intérêt (et malheureusement, cela aurait été plus difficile à faire avec les données budgétaires). Je suis convaincu que nous avons besoin de multiplier les formes d’animation autour du sujet, que ce soit vers les associations, les entreprises ou le grand public.