J’ai testé Google Dataset Search, le moteur de recherche open data

Google vient de lancer en mode bêta Google Dataset Research un moteur de recherche dédié à la découverte des jeux de données ouvertes. L’annonce a été diversement accueillie au sein de la communauté de l’open data, certains y voyant une confirmation que l’open data est devenu un vrai sujet grand public, d’autres s’inquiétant du rôle que pourrait jouer à terme Google comme point d’accès unique à l’offre de données ouvertes.

Je vous propose dans ce billet de découvrir les fonctionnalités de ce nouveau outil, d’en expliquer rapidement le fonctionnement et in fine d’en montrer les limites. Car il n’y a pas de miracle: la découvrabilité des données est un problème complexe que Google, malgré sa bonne volonté et son expertise n’a pas (encore) réussi à résoudre.

Qu’est-ce Google Dataset Search ?

Google Dataset Search est accessible en ligne via un sous-domaine de Google.com. Le moteur de recherche fonctionne à la manière de Google Scholar: il référence des jeux de données indépendamment du portail sur lequel ils sont hébergés. 

De prime abord, l’utilisateur du moteur de recherche « classique » Google ne sera pas dépaysé: la page d’accueil propose un unique champ de recherche, comme sur le moteur Google.fr. Quand on commence à saisir une expression de recherche, un système d’auto-complétion vous propose plusieurs résultats.

L’auto-complétion de Google Dataset Search

L’auto-complétion montre rapidement ses limites dans cette version bêta. Ainsi si l’on commence à taper l’expression « réser … » (par exemple pour trouver la réserve parlementaire) Google Dataset Search nous renvoie une liste de résultats très hétéroclites, bien moins que cohérente que les suggestions de l’auto-complétion pour la même expression du moteur Google (ci-dessous): « réserve parlementaire, réservez votre ferry au meilleur prix (sic: le site est lancé depuis 1 semaine, mais les apprentis sorciers du SEO s’en emparent déjà!), information cadastrale pour la réserve indienne du village des Hurons Wendake, réserve de salmonidés de l’Estuaire de l’Orne, … »


On peut imaginer que cette fonctionnalité va s’améliorer avec le temps, cette première version ne disposant pas, pour l’instant, de retours utilisateurs pour déterminer les jeux de données les plus pertinents pour une requête. 

Le nombre de citations, une idée séduisante (dans l’absolu)

L’impression de familiarité qui se dégageait de la page d’accueil disparaît totalement dès la présentation des résultats. La liste figure à gauche (sous la forme d’onglets) et la page présente les méta-données du jeu de données ainsi que le logo du producteur, quand il est disponible.

Résultats pour la requête « réserve parlementaire »

Comme cela a déjà été souligné par d’autres, notamment ce billet de Singapour, l’expérience utilisateur n’est pas à la hauteur de la qualité à laquelle Google nous avait habitué, même en mode bêta. Ici le moteur ne propose ni recherche par facette, ni tri selon la date de fraîcheur ou format de fichier par exemple. C’est minimaliste.

Chaque résultat mentionne le titre du jeu de données, le ou les site(s) sur lesquels on peut le télécharger ainsi qu’un ensemble de métadonnées: la date de création, de dernière mise à jour, le nom du producteur, la licence et les formats disponibles. 

Plus intriguante est la fonction qui liste le nombre de citations du jeu de données dans Google Scholar (le portail de Google qui recense les articles scientifiques publiés en ligne). L’idée est très séduisante: compter le nombre d’articles scientifiques qui utilisent un jeu de données pourrait amener une autre manière de mesurer l’impact de l’open data. Hélas, trois fois hélas, là encore l’expérience proposée par Google Dataset Search est décevante. Sur les 158 articles qui sont censés citer les données de la réserve parlementaire, une très grande majorité ne font en réalité qu’évoquer l’existence de cette réserve parlementaire. Bien peu d’entre eux citent le jeu de données lui-même ou les données qu’il contient.

J’ai fait le même test sur les « prévisions Météo-France« , un jeu de données disponible sur data.gouv.fr et indexé par Google Dataset Search. Parmi les résultats liés dans Google Scholar on retrouve même un vieil article scientifique avec la phrase suivante: « faute d’accès aux prévisions Météo-France, nous avons eu recours à une autre source de données« . Ce qui compte comme une citation est donc en fait un non-usage (sic). 

Il y a donc encore du travail pour faire de cette métrique une mesure objective et fiable de l’utilisation des données ouvertes par la recherche.

Le problème de la découvrabilité

Le jugement peut paraître sévère mais, dans cette première version bêta, Google Dataset Search ne fait pas vraiment le job. Il répond de manière incomplète à l’enjeu principal, celui de la découvrabilité des jeux de données.

La découvrabilité est aujourd’hui l’une des grandes difficultés à laquelle nous sommes confrontés tant en France qu’à l’étranger. L’offre de données est plus importante que jamais, mais elle n’est pour autant pas facile à trouver.

Pourquoi ? On peut avancer plusieurs explications:

  • la multiplicité des portails et des sources de données: rien qu’au niveau français l’observatoire de l’open data des territoires a recensé plus d’une centaine de plateformes, portails ou sites web qui hébergent des données ouvertes, cela joue d’ailleurs clairement en faveur de Google Dataset Search qui offre un point d’accès unique,
  • l’extrême diversité des thématiques couvertes par les jeux de données et l’absence de standardisation pour une très grande majorité des jeux de données,
  • des niveaux de complétude des méta-données très variables d’un producteur à l’autre. Un jeu de données qui traite de la même thématique peut porter des titres très différents selon deux régions… alors on imagine ce que cela donne entre deux pays !
  • la difficulté à analyser le contenu lui-même des jeux de données, c’est à dire à ne pas se limiter aux méta-données.

Dans cet article de janvier 2017, publié sur le blog Google AI (tiens, tiens) et consacré justement au problème de la découvrabilité des jeux de données on peut y lire la phrase suivante: « there is no reason why searching for datasets shouldn’t be as easy as searching for recipes, or jobs, or movies« . Heu… Comment dire… ? Des raisons on en voit au contraire beaucoup, j’ai commencé ci-dessus à en citer quelques unes. Mais l’approche par les méta-données, telle que Google l’a retenu est un sacré pari.  

Ce pari, c’est celui de s’en remettre aux producteurs de données pour qu’ils fournissent des méta-données les plus complètes et les plus pertinentes possibles. L’expérience montre que le travail de sensibilisation des producteurs  sur ce point reste encore largement devant nous. Et c’est là que Google Dataset Search peut y contribuer.

Avec Google Dataset Search, le géant américain pourrait reproduire ce qu’il a déjà réussi dans le domaine de l’information transport: encourager les producteurs à adopter un standard (de données ou de méta-données) en leur faisant miroiter une visibilité accrue via leur présence dans les produits Google.

l

De la même manière que, pour apparaître dans Google Transit il faut publier ses données au format GTFS, pour apparaître dans Google Dataset Search il faut adopter le modèle de méta-données défini par schema.org, organisation à but non lucratif dont le premier sponsor est… Google.

L’alternative à cette approche par les méta-données consisterait à regarder le contenu lui-même des jeux de données pour être par exemple capable de reconnaître un identifiant comme un numéro SIRET. Or, comme le confirme cet article de Nature pour le moment Google n’a pas prévu de regarder le contenu des jeux de données eux-mêmes.

Comment faisait-on avant Google ?

Tous les éditeurs de plateforme de données ouvertes ont tenté, avec un succès plus ou moins relatif, de répondre à cet enjeu de découvrabilité. La recherche par facette, que l’on retrouve sur quasiment tous les portails, est un moyen de rendre les données plus faciles à identifier. Ainsi on peut raffiner progressivement les résultats d’une recherche en affinant sur le producteur, la date de mise à jour, la couverture géographique et bien d’autres critères. Data.gouv.fr, les plateformes OpenDataSoft ou encore Enigma et Socrata de l’autre côté de l’Atlantique procèdent ainsi. Certains proposent aussi des approches thématique, des tags, des catégories, etc. D’autres pistes consistent à identifier des liens entre les jeux de données, par exemple ceux qui partagent un identifiant commun.

Enigma enrichit la recherche avec des classifications, de la taxonomie et de l’éditorialisation (public.enigma.com)

Je ne dis pas que les solutions existantes sont parfaites. C’est encore très loin d’être le cas. Quand le catalogue de données est important il est parfois malaisé de savoir si une recherche infructueuse signifie que le jeu de données n’existe pas… ou qu’on n’a pas su le trouver ! 

Quelles implications pour l’open data ? 

A ce stade les producteurs de données et les responsables de plateformes open data n’ont rien à perdre à rendre leur offre découvrable par Google. Tout ce qui peut rendre un jeu de données plus facile à découvrir est bon à prendre.

L’impact en terme d’audience reste à confirmer, mais pour le moment il est faible. Pour data.gouv.fr par exemple, Google Dataset Search a amené la semaine dernière un peu plus de 550 visites … sur un total de 81 000. Bien sûr on peut imaginer que cet apport d’audience pourrait être beaucoup plus important si cette nouvelle fonctionnalité de recherche de données est à terme intégrée dans le moteur Google lui-même – au même titre que la recherche dans les images ou les actualités, qui étaient autrefois autant de produits Google distincts avant d’être intégrés dans le moteur principal.

Il sera alors temps de se poser la question du risque de désintermédiation des plateformes open data au profit du moteur de recherche, risque que nous avions déjà évoqué il y a quelques années pour les sites de cinéma…

Et vous, qu’en pensez-vous ? Faut-il se réjouir de cette nouvelle initiative ou s’en inquiéter ? 

Une Data Expedition, pas à pas

SafariScreenSnapz080J’ai récemment animé un atelier dans le cadre de l’Open Data Camp organisé par Etalab. Cette Data Expedition portait sur le thème de l’égalité hommes-femmes, en lien avec le projet de loi actuellement en discussion au Parlement. Je vous propose ici un retour détaillé sur l’un des 2 sujets que nous avons traité, à savoir la participation des femmes à la vie économique.

1 – Définir le sujet: la représentation féminine au sein des chambres consulaires

Le site du Sénat référence l’étude d’impact du projet de loi sur l’égalité hommes – femmes. Le document est dense (près de 140 pages) et il couvre de nombreux sujets (les inégalités salariales, les violences faites aux femmes, les impayés des pensions alimentaires, …). Je me suis particulièrement intéressé aux annexes, qui comprennent un grand nombre de tableaux avec des données. Le tableau ci-dessous recense le nombre de femmes élues au sein des chambres consulaires territoriales et régionales (CCI), pour la mandature en cours (2010-2015). Ce sera le point de départ de notre expédition: je vous laisse l’étudier rapidement.

Le tableau issu de l'étude d'impact

Le tableau issu de l’étude d’impact

2 – Comprendre les données

Le tableau n’est pas d’un abord aisé. Certaines colonnes concernent des données actuelles, d’autres des projections et mesurent l’impact du projet de loi sur cette question précise. Il m’a fallu relire les chapitres consacrés à cette disposition pour mieux cerner le sujet. J’ai ensuite retravaillé les données pour les extraire et les rendre réutilisables.

Il faut noter à ce stade que l’étude d’impact est proposée en deux formats sur le site du Sénat: en PDF et en HTML. Bien sûr, il est plus simple d’utiliser le second format pour importer les données. J’ai donc utilisé mon tableur favori pour copier toutes les cellules, puis j’ai procédé à un rapide reformatage, en me concentrant sur les CCI territoriales: suppression des colonnes relatives au CCI regionales et des données de projection, dé-fusionnage de cellules, …

3 – Le fichier base de travail

Voilà le travail à l’issue de ces premières opérations. Je précise qu’à ce stade toutes ces opérations se sont déroulées en amont de l’Open Data Camp, ce n’est qu’une étape de préparation des données. J’ai ensuite crée un document partagé à l’aide de Google Drive. En voici une copie d’écran ci-dessous.

Le fichier nettoyé

Le fichier nettoyé

Le matin du 28 novembre nous avons donc lancé cette expédition – un atelier parmi la demi-douzaine proposés par les participants. Mon sous-groupe était composé de Marie-Cécile Huet, Claudio Vandi, Louis-David Benyayer et de renforts ponctuels au cours de la journée. Nous avons donc commencé par nettoyer le fichier en corrigeant quelques erreurs et abréviations. Par exemple on pouvait lire « Puy-de-D. » que nous avons transformé en « Puy-de-Dôme ». La discussion a ensuite porté sur les réutilisations que nous pourrions imaginer: faire une carte, proposer un classement, proposer des pistes d’analyse, etc…

4 – Compléter et enrichir le fichier

Nous avons d’abord complété le fichier en rajoutant les adresses de chaque chambre de commerce. Le site CCI France propose un annuaire … mais aucune donnée en open data ! Une partie de l’équipe a donc rajouté manuellement toutes les adresses (NB: notre fichier comporte une centaine de lignes, il est probable que s’il avait compté 1000 lignes nous aurions cherché un moyen d’automatiser cette tâche). Puis, les adresses ont été géocodées (ie. transformées en coordonnées X,Y) à l’aide du site gpsfrance.net.

La fiche d'une CCI (source CCI France)

La fiche d’une CCI (source CCI France)

Autre enrichissement de la donnée initiale: le même site CCI France propose le nom du président et du directeur général pour chaque chambre de commerce de France. Nous avons donc rajouté 2 colonnes: le genre (H/F) pour ces deux fonctions. Là, nous avons été confronté à quelques cas plutôt amusants: beaucoup d’entre eux portent le prénom Dominique, un prénom unisexe (notons qu’il n’y a rien de très surprenant ici: les Dominique ont l’âge d’occuper de tels postes, pas encore les Kevin ou les Emma !). Nous avons donc recherché leur sexe via Google… et très majoritairement nos Dominique sont des hommes.

5 – Visualiser les données à l’aide de Google Fusion Tables

Nous avons ensuite importé les données dans l’outil Google Fusion Tables, l’un des (nombreux) services en ligne qui permettent de réaliser des visualisations basiques. A noter que Fusion Tables propose son propre outil de géocodage, qui produit des erreurs relativement faciles à repérer (ex. la ville de Vienne, située en Isère, est confondue avec son homonyme autrichienne).

Fusion Tables nous propose plusieurs visualisations, nous avons commencé par une carte de chaleur (heatmap), présentée ci-dessous.

La carte de chaleur

La carte de chaleur

La carte est jolie, mais elle est hors de propos ;-(

Ce qu’elle nous donne à voir ce n’est pas tant l’inégalité hommes-femmes que la densité territoriale des chambres de commerce ! Pour pouvoir faire une carte de chaleur, il nous faudrait des données beaucoup plus nombreuses, plus denses. Nous aurions aussi besoin d’une donnée non disponible: le découpage territorial de chaque chambre de commerce…

Nous avons donc travaillé sur une carte plus classique, avec des points colorés en fonction du taux de féminisation (qui varie de 0% à 30%).

Fusion Tables permet de personnaliser le nombre de classes différentes que l’on veut représenter: on peut souhaiter représenter les CCI selon un code avec 2, 3 ou même 6 couleurs. La fonction « use this range » (cf. détail ci-dessous) permet de répartir automatiquement chaque point dans l’une des classes. Gros souci: le choix des couleurs proposé par l’outil est inepte dès que l’on dépasse 3 niveaux différents… et le résultat n’est guère compréhensible, il vaudrait mieux utiliser des dégradés de couleurs (ou conseiller aux ingénieurs de Google de relire Bertin…).

Les options de Fusion Tables

Les options de Fusion Tables

Nous nous sommes donc limités à trois couleurs, avec un code simple à comprendre: en vert les 4 CCI qui ont un taux de féminisation supérieur à 30%, en rouge celles dont le taux est inférieur à 15% et en orange les autres… Bien sûr l’on peut rediscuter du choix des classes. Par exemple, nous pourrions tout aussi bien choisir de ne mettre en vert que les CCI où la parité est atteinte – au risque bien réel de n’avoir aucun point vert sur la carte !

Voilà la carte telle qu’elle est aujourd’hui publiée. Dans la version interactive, quand on clique sur un point on retrouve davantage d’informations: le nom du territoire, le nombre de sièges, le taux de féminisation et les genres des directeurs et présidents.

Le résultat

Le résultat (la légende est décrite dans le texte ci-dessus)

6 – Une histoire à raconter ?

Une fois la visualisation terminée, nous avons essayé de comprendre ce qu’elle nous racontait… Elle révèle bien sûr une inégalité hommes-femmes, mais nous espérions secrètement découvrir des motifs géographiques beaucoup plus nets. C’est le comble: nous attendions une confirmation de nos pires stéréotypes (« c’est vraiment des gros machos dans le Sud ! »).

Nous en étions là de notre relative déception quand Sabine Blanc est arrivée. Sabine est journaliste. Ex-Owni, elle signe notamment les nombreux papiers de la Gazette des Communes sur l’open data. Elle nous a rassuré en disant que la visualisation n’était sans doute pas l’histoire, mais qu’elle pouvait très bien accompagner un article, par exemple sur le fait que seules 4 CCI sur 117 ont plus d’un tiers de femmes parmi leurs élus !

7 – Pour aller plus loin

Le jeu de données est disponible en ligne, vous pouvez le compléter et l’enrichir. Il s’agit essentiellement de « densifier » les données existantes. Par exemple en ajoutant des données historiques: le jeu publié ne concerne que la mandature 2010-2015. On pourrait aussi poursuivre le travail de qualification: les femmes élues occupent-elles des places au sein du bureau des CCI ? Sont-elles davantage issues de l’industrie, du commerce ou des services ? On peut aussi imaginer des jeux de données pour compléter celui-ci. Par exemple le découpage territorial précis des CCI (astuce: on doit pouvoir le recomposer à partir du site CCI France qui indique, pour chaque commune de France, la CCI de rattachement)… A vous de jouer !

Quelques conseils aux participants des concours et autres hackathons

Ce lundi j’interviens à Marseille lors d’un atelier ouvert aux participants du concours Open Data lancé par la région PACA. L’objectif : encourager la créativité des réutilisateurs et des développeurs. La saison des concours et des hackathons est bel et bien lancée ! Je vous propose des extraits de cette intervention, sous forme de conseils aux participants, illustrés de quelques réutilisations que j’ai repéré ces derniers mois…

1 – Parole de jury

TransitVis, l'un des lauréats du Urban Data Challenge

TransitVis, l’un des lauréats du Urban Data Challenge

Commençons par la fin de l’histoire. Vous avez fini vos développements, votre dossier de participation est complet, vous venez de soumettre votre service ou votre application. Le jury doit maintenant se réunir pour l’étudier et départager les vainqueurs parmi les participants.

En tant que candidat il ne faut jamais oublier qu’un concours (ou un hackathon) c’est une compétition, pas un examen (contrairement au bac, il ne suffit pas d’avoir la moyenne pour être reçu). Le jury est un élément essentiel de cette compétition. Sa composition est souvent rendue publique. Il rassemble généralement des représentants des organisateurs (collectivité ou entreprises), les partenaires du concours et, parfois, des personnalités qualifiées.

Le jury d’un concours devra identifier les lauréats parmi 40 à 50 participants, celui d’un hackathon aura deux heures pour départager 5 à 10 équipes… La clé de la compétition repose donc souvent sur la différenciation d’un dossier ou d’une application parmi l’ensemble des réutilisations (je parle bien de différenciation plutôt que d’originalité, je reviendrai ultérieurement sur cette distinction qui me semble essentiel). Comment proposer quelque chose de différent ? Je vous propose quelques pistes illustrées.

2 – La donnée, un ingrédient

A la base de tous les concours vous avez donc des données, que l’on peut considérer comme des ingrédients. Lisez bien le règlement du concours : il précise souvent les données que vous pouvez utiliser (uniquement celles de l’organisateur, toutes celles en rapport avec le thème ou le territoire, etc…).

Si je poursuis la métaphore culinaire, vous êtes donc, en tant que participant, le cuisinier. Votre premier travail sera d’évaluer tous les ingrédients qui rentrent dans votre cuisine. Cette donnée est-elle bien fraîche ? Comment pourrais-je l’utiliser ? Faut-il la modifier, l’arranger, la transformer ou peut-on la consommer « crue » ? Une très belle donnée, bien riche, peut parfois se consommer crue si l’on sait la présenter, par exemple à l’aide de visualisations…

L’erreur serait d’aller directement de l’ingrédient vers son utilisation la plus immédiate. La plupart des réutilisateurs qui se voient proposer un jeu de données sur les horaires de bus font des applications d’informations voyageurs, les plus malins en détournent l’usage (dit autrement : avec des pommes de terre on peut faire autre chose que des frites…). La différenciation, toujours !

Une donnée peut donc être l’ingrédient principal d’un plat, ou simplement un ingrédient parmi d’autres. Une donnée peut être proposée crue, mise en forme, transformée ou cuite avec d’autres … Autant de manières différentes d’utiliser ces ingrédients qui sont à votre disposition.

Le concours Urban Data Challenge fournit une très bonne illustration de ce principe de diversité. A partir d’un même jeu de données historiques sur les transports de San Francisco, Genève et Zurich, les participants ont mis en oeuvre des scénarios très différents. Urban Bus Race propose une course virtuelle entre les bus des 3 villes, TransitVis affiche une représentation des flux en 3 dimensions. D’autres participants ont ajouté une nouvelle donnée, par exemple en calculant un indice de frustration (qui combine la densité du nombre de passagers, le temps d’attente à un arrêt et les retards sur le réseau de bus)…

3 – Varier les supports  et les registres 

Une seconde piste de différenciation est liée aux supports que vous pouvez mettre en oeuvre (mobile, web, autres). J’ai déjà eu l’occasion sur ce blog d’expliquer le lien historique et fécond entre l’open data et les applications mobiles. Mais on peut faire beaucoup d’autres choses avec des données ouvertes : des sites web, des vidéos, des infographies, … Rien ne nous oblige par ailleurs à nous limiter à des médiations numériques, on peut très bien utiliser des données ouvertes pour concevoir des supports papiers (par exemple une lettre d’information à l’entrée d’un jardin public, avec l’aide des données ouvertes).

Enfin, on peut aussi rechercher de la différenciation du côté des registres d’expression. A partir d’un même jeu de données, on peut proposer quelque chose d’utile, de ludique, de décalé, … La variation entre les registres peut aussi être intéressante. Le service BrokenLifts s’appuie sur l’état de fonctionnement des ascenseurs des transports berlinois. La donnée est à la fois présentée sous une forme utile (« est-ce que cet ascenseur fonctionne ? ») mais aussi sur le registre de la  transparence et de l’accountability (« combien de jours de panne sur cet ascenseur géré par cette société ? ».

Un point de vigilance, cependant. La différenciation ne peut pas seulement passer par le choix d’un mode d’expression décalé. Le format « pitch » du hackathon encourage les discours décalés, mais la forme ne remplace pas complètement le fond.

Le site Brigand Futé (réalisé lors du HackIDF 2030) aide à planquer un cadavre en région parisienne, à partir des données du plan d’urbanisme… Le propos est donc décalé, mais la réalisation est d’un très bon niveau.

J’ai beaucoup moins accroché sur le récent lauréat d’un autre hackathon « a place to pee » qui, comme son nom l’indique, permet de localiser les toilettes dans la ville de Paris… Le sujet est pourtant bien réel (Rennes édite par exemple un guide papier très précis, réalisé avec des associations de malades), on aurait pu jouer sur plusieurs registres – et pas uniquement sur les multiples jeux de mots proposés par les concepteurs du service : « let piss a chance », « game of throne », …).

4 – Emprunter des pistes moins balisées

Il reste par ailleurs des pistes qui ont été jusqu’à présent peu explorées par les participants au concours, et notamment la conception d’outils pour les réutilisateurs et les développeurs. L’approche « business-to-developers » (B2D) plutôt que strictement « business-to-business » (B2B) ou « business-to-consumer » (B2C) est aussi une source de création de valeur. On peut citer par exemple la start-up britannique Placr qui a développé une API pour interroger les données des réseaux de transports urbains.

 

 

Donnée brute ou donnée contextualisée ?

La mission gouvernementale Etalab lance une consultation autour de l’évolution du portail data.gouv.fr. Vous êtes invités à contribuer à cette démarche de co-design. C’est aussi l’occasion de repenser plus globalement la conception des portails open data… A quoi et à qui servent-ils ? Comment doit-on présenter les données ? Je vous propose une série de billets sur ce thème. Le premier traite de la donnée elle-même et de la tension entre donnée brute et donnée contextualisée…

1 – Un cas pratique : la fréquentation des musées

J’ai récemment animé un atelier de sensibilisation à l’open data pour les acteurs culturels d’une collectivité. A cette occasion, j’ai repéré un jeu de données disponible sur le portail gouvernemental. Ce fichier propose les chiffres de la fréquentation des musées de France, de 2006 à 2010. Je vous invite à télécharger celui qui concerne la région Bretagne (pour plus de facilité, je vous propose aussi une copie d’écran ci-dessous, que vous pouvez agrandir en cliquant).

(cliquer pour l'agrandir) - fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr

La fréquentation des musées de France, source Ministère de la Culture sur data.gouv.fr (cliquer pour agrandir l’image)

Le tableau présente les chiffres de fréquentation pour chaque « musée de France » situé dans la région. On a donc le nom du musée (ex. « musée des beaux-arts »), une ville, puis les chiffres de fréquentation répartis en 2 colonnes « total » et « grat ». On peut raisonnablement supposer qu’il s’agit des entrées gratuites (mais rien ne le précise formellement, ni dans le fichier, ni dans la fiche de métadonnées). D’autres colonnes précisent l’évolution de la fréquentation d’une année sur l’autre.

Le code couleur est expliqué en pied de page du fichier. La couleur noire représente des « données confidentielles », avec la mention « contacter le chef d’établissement », les autres couleurs viennent apporter des éléments de contexte sur la fréquentation de tel ou tel musée. En l’occurence il y est surtout question d’évènements exceptionnels susceptibles d’expliquer le chiffre de fréquentation : fermeture ou réouverture d’un musée, exposition temporaire ayant entraîné une fréquentation exceptionnelle, …

Plus intéressant, la première colonne du tableau contient un numéro de référence, qui **semble** être un identifiant unique accordé à chaque musée de France.

2 – La tension « brutification » vs. contextualisation

La lecture de ce fichier permet d’illustrer la tension entre deux tendances qui s’expriment aujourd’hui dans le monde de l’open data.

La première tendance est liée à une demande de « brutification ». Je reprends ici le terme évoqué par Samuel Goeta et Jérôme Denis pour décrire l’une des actions qui se déroulent dans les coulisses de l’open data (le thème de la thèse de Samuel à Telecom Paris Tech).

Pour permettre la mise en place d’un ensemble de services sur le portail open data, il faudrait que la donnée proposée soit la plus brute possible (et je parle bien là d’une donnée brute techniquement, pas en termes sociologiques).

Parmi ces « services » on peut citer par exemple la pré-visualisation des jeux de données sans avoir à ouvrir le fichier (une fonctionnalité très utile et déjà mis en oeuvre ailleurs), la datavisualisation ou représentation cartographique par défaut (un exemple ici), ou enfin même les API (des interfaces de programmation qui font aujourd’hui cruellement défaut dans la plupart des portails, à quelques exceptions près). Sans même parler d’un pas vers le web des données et le Linked Data, une attente forte des acteurs du web sémantique.

Reprenons le fichier sur la fréquentation des musées : pour proposer tous ces services il faudrait donc faire un travail *supplémentaire* de brutification : retirer les codes couleurs, ignorer les colonnes qui proposent une donnée recalculée (le taux d’évolution d’une année sur l’autre, les totaux, …) et plus globalement retirer tout ce qui concerne la mise en forme du fichier. On pourrait d’autre part mieux utiliser des données qui y figurent déjà, ainsi le fameux numéro de référence.

J’ai trouvé sur le portail un autre fichier qui fournit des informations complémentaires sur les musées de France : leur adresse postale, le site web, les horaires et jours d’ouverture. Problème : ce fichier ne propose aucun identifiant unique. On a là une occasion manquée de permettre une mise en relation et un enrichissement de deux fichiers (open data 1 – web sémantique 0).

La donnée proposée ici n’est donc pas tout à fait « brute » … mais elle n’est pas tout à fait contextualisée non plus !

La seconde demande qui émerge – et qui de prime abord peut sembler contradictoire avec la brutification – est liée à la contextualisation de la donnée.

J’ai déjà eu l’occasion ici de parler de l’importance d’une lecture critique des données. Si l’on considère le fichier sur la fréquentation des musées, ce besoin de contextualisation apparaît rapidement : qu’est-ce qu’un « musée de France » ? comment les données de fréquentation sont-elles collectées ? quel est l’usage initial des données ? qui la collecte et pour quoi faire ? Et enfin, la meilleure : pourquoi certaines données sont-elles considérées comme « confidentielles » (celles dont les cases portent la couleur noire) ?

La réponse à bon nombre de ces questions se trouve sur le site du Ministère de la Culture (précision importante : j’ai trouvé cela via Google, pas depuis la fiche de métadonnées). On y apprend qu’un service du ministère publie annuellement un très intéressant document de 75 pages, appelé « MuséoStat« . J’ai ainsi pu comprendre que le terme « musée de France » correspond à une appellation officielle (accordée et retirée par les services du ministère), que les variations de fréquentation sont très souvent liées à des expositions temporaires (d’où l’importance des annotations colorées), que la notion de gratuité a elle aussi une définition officielle précise, …

Le document reproduit aussi le questionnaire envoyé aux différents responsables de musée, questionnaire très détaillé puisqu’il précise aussi le mode de mesure de la fréquentation (comptage manuel, automatisée, estimation, …). Enfin, on peut apercevoir en fin de questionnaire une case à cocher par les répondants : « acceptez-vous que ces chiffres soient diffusés ? ». Voilà donc l’origine de cette formule un peu ambigüe de « données confidentielles » !

Cette demande de contextualisation me semble tout aussi pertinente que la demande de brutification du jeu de données. On doit pouvoir y répondre en repensant profondément la manière de documenter les jeux de données – c’est à la fois le rôle des métadonnées mais aussi plus globalement la fonction éditoriale des portails open data.

3 – Sortir de l’opposition « qualité vs. quantité » des données

Le fichier de la fréquentation des musées ne représente bien sûr pas à lui seul la diversité et la richesse des jeux de données disponibles, sur data.gouv.fr ou ailleurs … Mais cet exemple illustre quand même je pense la situation actuelle : des données ni tout à fait brutes, ni tout à fait contextualisées.

La particularité du ni-ni est qu’il ne satisfait ni ceux qui attendent des services plus poussés (API, Linked Data pour les développeurs), ni ceux qui militent pour une meilleure appropriation des données par tous (façon Infolab) – bien qu’ils ne faillent pas opposer les uns et les autres.

Dans le débat qui va s’ouvrir sur les fonctions des portails open data, il y a à mon avis un écueil majeur à éviter : réduire cela à une opposition « qualité vs. quantité » des jeux de données.

La qualité ne peut s’évaluer qu’à l’aune de l’objectif : un développeur, un chercheur ou un associatif qui veut évaluer la fréquentation des musées de sa région ont tous besoin de fichiers de qualité.

C’est la manière dont ils expriment ce besoin qui diffère (notre tension brutification / contextualisation). Il nous faut donc à la fois de la qualité ET de la quantité…

4 – De qui est-ce le travail ?

Reste la question du rôle de chaque acteur impliqué : qui doit assurer ces tâches de brutification et de contextualisation ? Est-ce la mission du service détenteur de la donnée ou du service qui met en oeuvre le portail, en l’occurence Etalab ? Les réutilisateurs  enrichissent eux-aussi les jeux de données, par exemple en reliant deux fichiers via des identifiants, peut-on imaginer qu’un portail officiel puisse héberger, ou faire un lien vers le fruit de leur travail ?

On voit qu’à partir d’une question précise – quelles fonctions pour les portails open data ? – on en arrive à interroger le périmètre même des portails et des organisations qui les mettent en oeuvre…

Un hackathon, sinon rien ?

Le hackathon est à la mode en ce début d’année 2013 ! Les développeurs qui s’intéressent à l’open data vont être très sollicités. C’est l’occasion de se pencher sur ce format d’animation original. A quoi sert un hackathon ? Quels en sont les valeurs mais aussi les limites ? 

(photo la Cantine Rennes)

(photo la Cantine Rennes)

Tout à la fois dispositif créatif et mode d’animation, le hackathon rassemble dans une unité de temps (généralement un week-end) et de lieu des réutilisateurs qui travaillent en mode projet. Il fait partie de la panoplie des outils d’animation que j’ai déjà eu l’occasion de détailler sur ce blog. Plus léger qu’un concours, a priori moins complexe à mettre en place que d’autres formes d’animation au long cours, le hackathon pose aussi ses propres défis.

Les 3 valeurs du hackathon

Le hackathon a d’abord une dimension de mobilisation, tant interne qu’externe. On pourra noter d’ailleurs que ce format est de plus en plus utilisé en amont de l’ouverture des données. C’est tout d’abord l’opportunité pour obtenir l’ouverture, même partielle ou limitée dans le temps, de jeux de données. Le hackathon est alors un prétexte en interne pour faire bouger les lignes, en arguant du caractère éphémère – donc perçu moins impliquant ou risqué – de l’opération.

Dans un curieux renversement de logique, on ne propose pas un hackaton parce que l’on a des données, on demande des données parce que justement un hackathon est organisé ! La dimension mobilisatrice est aussi importante en externe, c’est un excellent moyen de faire baisser la pression sur le sujet, mais aussi d’engager de premières relations avec un écosystème de réutilisateurs.

La seconde valeur du hackathon est liée à l‘expérience-même du hackaton par ses participants. Ceux qui ont eu l’occasion d’en vivre un vous le diront : ils ont vécu une expérience. Tout d’ailleurs dans l’organisation vise à renforcer cette dimension : l’unité de lieu (on vit en vase clos pendant 48 heures), le travail en petit groupe d’individus qui ne se connaissaient pas nécessairement auparavant (la colonie de vacances est l’archétype du team building, c’est bien connu), la contrainte de temps (à la fin chaque groupe présente son projet), voire la compétition (quand le hackathon donne lieu à un vote).

Le problème avec cette dimension expérientielle est qu’elle ne produit guère d’externalités pour ceux qui ne l’ont pas vécu. Je vais le dire autrement : soit vous avez vécu le hackathon – et vous en comprenez la valeur -, soit vous ne l’avez pas vécu. La transmission d’une expérience vécue est toujours délicate, hackathon ou pas – d’où l’importance de la documentation projet sur laquelle je reviendrai ultérieurement dans ce billet.

La troisième valeur du hackathon est liée à la communication. C’est un dispositif qui permet de donner corps à une démarche d’ouverture des données et constitue en tant que tel un objet de communication. Comment dès lors rendre compte des travaux et de l’ambiance générale ? Le hackathon permet certes d’avoir quelque chose à montrer de l’open data, mais cela ne peut pas se réduire à une photographie de quatre gars et une fille devant un ordinateur 😉

L’opération MuseoMix, largement disséquée dans cet article d’Hubert Guillaud d’Internet Actu ou, dans une moindre mesure, les hackathons organisés par Transilien SNCF, font l’objet d’un retour en ligne assez poussé : vidéos, témoignages de participants, présentation détaillée des projets réalisés (ou en cours de réalisation). Mais le budget nécessaire à cette couverture ne correspond pas tout à fait l’idée du hackathon comme formule d’animation un peu cheap et accessibles à toutes les bourses.

Et pourtant cette fonction de communication est essentielle pour essayer de transmettre aux non-participants un peu de l’essence de l' »expérience hackathon« . Il faut donc l’inclure dans son organisation et sans aucun doute la considérer comme une fonction à part entière. On retrouve ici l’idée de la documentation de projet au fil de l’eau mise en place notamment à la 27ème Région.

Les défis du hackathon

La question principale qui se pose aux organisateurs du hackathon est celle de la finalité : à quoi sert-il ? S’agit-il essentiellement de mettre en oeuvre des démarches agiles et des pratiques d’innovation plus légères, ce qui en soit présente déjà un intérêt comme le souligne Fréderic Charles dans son article « Un hackathon pour innover à la DSI en mode start-up » ? Ou le hackaton a-t-il un objectif de réalisation (de prototypes, de services) ?

Faute d’avoir défini, clarifié et partagé en amont les objectifs, on risque d’être un peu déçu par la réalité des réalisations. De la même manière qu’un Start-Up Week-End (marque déposée, sic) fait émerger des idées d’entreprises (et non des entreprises elles-même), le hackathon fait émerger des idées de service, éventuellement des prototypes. Mais le passage à la phase opérationnelle demande bien souvent un effort supplémentaire.

C’est aussi sur ce point que l’organisateur devra se positionner : comment souhaite-t-il accompagner la concrétisation ? Est-il prêt à financer les projets les plus intéressants ou considère-t-il que son action s’arrête le dimanche soir ? Le hackathon est peut-être finalement une formule un peu plus engageante et impliquante que nous pourrions initialement le penser. L’après-hackathon est un sujet à part entière.

L’autre question qui se pose – au hackathon mais aussi plus globalement aux autres formes d’animation ponctuelles comme les concours – est celle de la répétabilité. Peut-on répéter indéfiniment la formule sur un public cible de développeurs intéressés par l’open data, cible qui n’est pas -par définition – extensible à l’infini ? Dit autrement, un hackathon ca va, trois hackathons bonjour les dégâts ? Les équipes des premières éditions se concentrent sur la concrétisation de leurs idées, il faut donc être capables de mobiliser de nouveaux participants – et ce n’est pas toujours simple. Le premier semestre 2013 va être un bon test grandeur nature, vu le nombre important d’hackathons annoncés…

Ps : j’en profite pour vous conseiller la lecture du guide pratique d’organisation d’un hackathon, proposé par Open Data BC (British Columbia) en anglais, donc.

Moderniser l’action publique par l’open data ?

Moderniser l’action publique par l’open data, c’est le sens du nouveau rattachement de la mission Etalab en charge de la politique gouvernementale d’ouverture des données. Cela passe notamment par la capacité à faire (enfin) jouer la boucle de rétroaction : que les données permettent d’améliorer les services publics. Revue des initiatives existantes et propositions d’actions : comment boucler la boucle de l’open data ?

Central Park (photo NYC Parks)

Central Park, New-York
(photo NYC Parks)

En septembre dernier, j’ai suivi avec un grand intérêt l’annonce d’un hackaton dédié aux parcs et jardins new-yorkais (NYC Government DataKind). La politique open data de Big Apple reste pour moi une référence, tout comme son plan global pour le numérique.

A l’époque, je préparais des ateliers de réutilisations des données liées aux arbres du parc du Thabor et j’imaginais donc y trouver des sources d’inspiration pour des applications ou des services originaux ou ludiques… J’ai été très agréablement surpris par la qualité et le niveau des projets développés lors de cet évènement DataKind – pourtant aucune application mobile flashy n’a été développée ! Mieux, les résultats illustrent bien comment l’open data peut répondre à des questions concrètes et contribuer in fine a améliorer l’action publique.

1 – DataKind : des questions, des données, des réponses

L’organisation DataKind se propose de mettre à disposition des compétences liées aux données pour répondre à des problèmes concrets. L’ancien nom de DataKind – Data Without Borders (données sans frontières) – traduit par cette ambition d’un peace corps dédié aux données. Leur slogan « Using data in the service of humanity » m’a bien fait marrer (sauver le monde par la technologie, une idée très anglo-saxonne), mais leur action est bien sérieuse. DataKind organise régulièrement des hackatons, toujours en relation avec des institutions (associations, ONG ou villes) qui accueillent l’évènement et posent les questions. Pour cette édition new-yorkaise, le partenaire était le service des Parcs et Jardins de la ville (NYC Parks). Pour vous et moi, les jardins new-yorkais cela se résume sans doute à Central Park… mais en tout cela représente 600 000 arbres d’alignements (dans les rues) et plus de 2 millions dans les parcs publics !

En amont de la manifestation, NYC Parks et DataKind ont identifié les problèmes qui seront soumis aux participants. J’ai retenu deux questions qui ont donné lieu à des projets : pouvons-nous prédire où une future tempête risque de faire le plus de dégâts dans nos parcs ? Les opérations préventives d’élagage ont-elles un impact sur les demandes ultérieures d’intervention, notamment par les habitants ?

Les organisateurs ont aussi recensé un ensemble de jeux de données, en grande partie déjà ouvertes sur le portail open data comme tous les appels au 311 (le numéro des services urbains pour les demandes d’intervention), les travaux programmés (work orders), mais aussi des sources extérieures (les principaux événements météorologiques, l’historique des interventions liées aux précédentes tempêtes). L’ensemble a fait l’objet d’un brief que l’on peut retrouver en ligne.

Les participants (des data-scientists) n’ont pas développé des services en ligne, ils ont proposé des modèles pour répondre aux questions posées. Ainsi, un groupe a proposé un index de risque de tempête pour chaque bloc, en fonction des arbres que l’on y trouve et de leur ancienneté. Un autre a remis en question, à partir des données brutes et d’un modèle mathématique, l’intérêt de la politique préventive d’élagage. Bref, ils ont répondu à des questions concrètes et ont permis d’améliorer l’action publique sur ce champ précis.

2 – La boucle de rétroaction de l’open data V.2

Par contraste, l’exemple de DataKind illustre bien ce qui fait aujourd’hui défaut dans notre approche de l’open data : nous ne bouclons pas la boucle. Le modèle actuel est le suivant : un acteur public (ou privé) met à la disposition des réutilisateurs des données ouvertes. Ces derniers développent des services, des applications, souvent utiles, parfois ludiques mais bien souvent aucune d’entre elles n’impacte la manière de faire de l’organisation. Avec des horaires de bus on peut certes développer des services d’information voyageurs, mais l’on peut aussi analyser la desserte de chaque quartier et – potentiellement – proposer des améliorations au gestionnaire du réseau de transport.

Ce qui nous manque donc c’est l’application de la boucle de rétroaction (feedback loop) : une organisation ouvre des données, qui servent ensuite à des tiers pour améliorer les actions de l’organisation… une sorte d’open data  version 2.

Le principe de la boucle de rétroaction est l’un des éléments fondateurs de la cybernétique (j’ai eu l’occasion dans mon livre d’évoquer le lien entre l’open data et les théories de Norbert Wiener). Vous pouvez en voir un exemple à l’oeuvre dans la plupart des villages de France avec l’affichage en temps réel de la vitesse de votre véhicule… Il suffit d’offrir au conducteur une information qu’il possède pourtant déjà sur son tableau de bord pour qu’il réduise en moyenne de 10% sa vitesse… Cet article de Wired raconte la genèse de ce dispositif et explique pourquoi l’efficacité n’en diminue pas avec le temps.

3 – Des projets pour l’action publique

Je reviens sur l’exemple de New-York. La ville s’était déjà illustrée par son équipe interne de data-scientists et son approche très pragmatique des données (tant big data que open data). Toutes les villes n’ont pas les moyens du maire de New-York, mais la plupart des acteurs publics qui ouvrent aujourd’hui leurs données pourraient travailler sur la boucle de rétroaction. Je vous propose deux exemples pour tenter de vous en convaincre.

Projet 1 : du marketing achats avec l’open data

Une partie de la modernisation de l’action publique passe par une maîtrise des dépenses. Mieux acheter est une source importante d’économies. L’open data pourrait faciliter la mise en place d’une démarche de marketing achats. L’opérateur des transports londoniens (TfL) met en ligne sur son portail open data toutes les dépenses d’achats et d’équipements supérieures à 500 livres. Ainsi, un nouveau fournisseur peut se positionner pour faire la meilleure offre, en connaissant le détail et le prix des prestations acquises par TfL…

Projet 2 : les « Happy Hours » de la piscine municipale

Dans ma ville, on peut accéder à la piscine municipale avec sa carte de transport (genre pass Navigo). La mise en place du système a accompagné l’introduction d’une tarification horaire, où l’on paie en fonction du temps passé dans le bassin. Les services de la ville disposent donc d’une grande masse de données sur la fréquentation des piscines et le système fournit aussi une vision en temps réel du nombre de nageurs.

Comme tout équipement, la piscine municipale connaît des pics de fréquentation, certains liés à des variations saisonnières (été/hiver) ou à la météo du moment… En ouvrant la donnée de fréquentation en temps réel, on pourrait informer les usagers de l’affluence qu’ils risquent d’y trouver à cet instant. Mieux, en anonymisant les données de fréquentation on pourrait proposer, sur le modèle de DataKind, d’imaginer des formules d’incitation pour aller nager aux heures creuses.

L’idée : j’ouvre 3 mois d’historique de fréquentation, je fournis des données sur les événements météorologiques ou autres (les vacances scolaires, …) et je lance un challenge avec une question : « aidez-nous à définir les Happy Hours de la piscine !« .

Les deux exemples présentés ici sont plutôt anecdotiques, mais ils sont réalisables à plus ou moins court terme. On peut aussi imaginer travailler sur d’autres champs de l’action publique avec des questions plus ambitieuses... Celles du logement ou de la prise en charge de la petite enfance par exemple.

4 – En pratique, comment faire ?

Comment boucler la boucle de l’open data ? Il va tout d’abord falloir revoir notre manière de procéder. Les formules d’incitation (type concours ou hackatons) ne devraient pas partir des données disponibles mais plutôt des questions et des problèmes concrets. Bien entendu, la puissance publique n’est pas la seule à pouvoir définir les problèmes, la société civile peut aussi jouer son rôle (DataKind a par exemple organisé un évènement londonien avec plusieurs ONG).

Le plan de route serait donc le suivant :

– définir une question, un problème de politique publique,

documenter la problématique et les principaux enjeux,

– recenser, lister et ouvrir les jeux de données pertinents,

– s’appuyer sur des médiateurs tiers,

– proposer des challenges, des concours, des hackatons pour inviter les participants à répondre à la question… (souvenons-nous que les sites data.gov et challenge.gov vont de pair),

faciliter la réintégration des résultats au sein des services et des administrations (leur implication est amont dans la définition des questions est un bon levier pour cela).

Il ne s’agit pas pour autant de brider les réutilisateurs dans leur créativité, libres à eux de participer ou non aux actions proposées. Libres à eux de développer l’application de leurs rêves.

Mais n’ayons pas non plus peur de partager les questions qui se posent quotidiennement dans l’action publique. Ainsi, nous ferons le lien entre l’ouverture des données publiques et la cohérence des politiques publiques, un argument développé par ceux qui ne veulent pas ouvrir leurs données

Animer l’open data, mille possibilités

Animer-opendata-chignard.001« Animer, animer et encore animer » : Hubert Guillaud résumait ainsi pour Internet Actu une partie des échanges lors de la Semaine européenne de l’open data en mai dernier. L’animation de l’open data est aujourd’hui à la fois un enjeu reconnu par tous et une « expression-valise ». Proposition d’une grille d’analyse pour recenser la grande diversité des pratiques.

Passé les premiers temps de l’effervescence, tous ceux qui – acteurs publics ou privés – ont ouvert des données se posent les mêmes questions. Pourquoi animer ? Comment, selon quels formats ? Auprès de quels publics ? Pour quels résultats ? … La question de l’animation rejoint en partie celle de l’appropriation par le plus grand nombre, mais elle est à mon avis plus large. Un concours de développement d’applications, un hackaton sont autant de formats qui visent à stimuler la réutilisation sans pour autant viser le grand public.

Si le constat semble partagé, il n’en est pas de même des réponses mises en oeuvre. L’observateur attentif de l’actualité open data aura remarqué que les dispositifs d’animation se déploient aujourd’hui partout en France, avec parfois des modalités très différentes. Du concours DataConnexions d’Etalab aux Infolabs citoyens de la FING, du week-end BeMyApp Tourisme au Hackdays internes de SNCF Transilien, autant de manière d’animer l’open data…

La grille d’analyse : animer l’open data en 5 questions

Animer-opendata-chignard.001

Je vous propose une grille d’analyse de l’animation de l’open data, en 5 questions :

pourquoi ? identifier les objectifs de l’animation (de la stimulation de la réutilisation à une sensibilisation à la culture de la donnée, les enjeux sont différents),

comment ? les modalités varient, on peut notamment citer le concours de développement d’applications, les hackatons et challenges courts, les appels à projets et concours d’idées, les ateliers et workshop (data journalisme, …) et les infolabs,

pour qui ? les publics cibles, destinataires de ces animations peuvent être multiples : réutilisateurs (développeurs, journalistes, étudiants, …), le « grand » public, les médiateurs traditionnels du numérique (et notamment les espaces publics numériques), les détenteurs (decideurs publics ou privés, élus et agents des services),

quand ? ces actions peuvent être proposées en amont du lancement du portail open data (par exemple les animations internes autour du repérage des données), au lancement du portail (les concours par exemple) ou au long cours, par exemple pour pérenniser la démarche,

par qui ? les acteurs qui portent ces animations peuvent aussi être très divers : l’acteur (public ou privé) qui ouvre les données, mais aussi des tiers-lieux (les Cantines numériques, les espaces publics numériques), les collectifs open data, les « agences numériques » (par exemple l’AEC en Aquitaine) voire des prestataires spécialisés (par exemple les organisateurs de BeMyApp).

En mixant les différentes options, on arrive au final à près de 1200 combinaisons possibles pour animer l’open data ! Certaines sont bien documentées (les concours en phase de lancement), d’autres beaucoup moins (en particulier les actions internes ou celles au long cours).

Comment utiliser cette grille d’analyse ?

On peut utiliser cette grille d’analyse de plusieurs manières. La première est de s’en servir pour recenser et classer les initiatives déjà recensées, en France et en Europe. Quelques illustrations à partir des exemples cités précédemment :

Concours DataConnexions #2 proposé par Etalab : stimuler la réalisation de services par des réutilisateurs (plutôt start-ups mais pas exclusivement) par l’organisation d’un concours / appel à projet, au long-cours,

Infolab Paris Citoyens proposé par la FING : sensibiliser à la culture de la donnée, imaginer des services par le biais d’un dispositif Infolab éphémère, pour un public d’acteurs associatifs,

Week-end Open Tourisme organisé par Be My App avec Google et Bouches du Rhône Tourisme : un hackaton pour imaginer et réaliser des services avec des données ouvertes, plutôt pour une cible de développeurs, en accompagnement du portail data.visitprovence.com, par un prestataire spécialisé,

Le Hackaton des Cheminots de SNCF Transilien : un week-end de développement réservé aux cheminots, sur le modèle des HackDays « tous publics » de l’été dernier, pour un public de réutilisateurs internes, en animation au long-cours de la démarche,

les ateliers du collectif Open Data Rennes lors de VivaCités : sensibiliser un public scolaire aux données, par une approche graphique et ludique des données d’abord personnelles, la « dataviz des enfants ».

Une autre utilisation possible de la grille d’analyse est d’imaginer des croisements à partir des 5 questions pour identifier de nouvelles pistes d’animation… A vous de jouer !

L’open data et le grand public : on n’attrape pas les mouches avec du vinaigre

La question de l’appropriation des données ouvertes est, avec celle du potentiel économique, l’un des sujets chauds de l’open data. Ayant eu l’opportunité de tester plusieurs formats d’animation et de sensibilisation au cours des derniers mois, je vous propose un billet sous forme de retour d’expérience. Vos commentaires, idées et réactions sont les bienvenus !

1 – Pour le grand public, le problème dans « open data » c’est d’abord la « data »

L’infolab « données de mobilité »
(photo Ville de Rennes)

J’avais fait cette remarque à l’occasion de la Semaine européenne de l’open data qui s’est tenue à Nantes avant l’été; pour les entreprises, le problème de l’open data c’est plutôt le côté « open« , mais pour le grand public c’est d’abord l’objet « donnée » qui constitue une difficulté.

Les data sont partout autour de nous, elles sont indispensables au bon fonctionnement des services de notre quotidien (de la crèche aux transports), mais pourtant cet objet reste largement méconnu. J’ai développé dans un précédent billet les différents formats d’animation de l’open data, en particulier en fonction des cibles visées; les ateliers dont je fais mention ici visent à développer une culture de la donnée au sens large (et pas uniquement de la donnée ouverte).

2 – D’abord, partir d’une thématique (et surtout pas de l’open data)

Le proverbe dit que l’on n’attrape pas les mouches avec le vinaigre. Je trouve, toutes comparaisons malveillantes mises à part, qu’il s’adapte bien à la question de l’appropriation de l’open data par le grand public.

Faîtes l’expérience : proposez à vos amis de participer à une séance de sensibilisation aux données ouvertes. Qu’allez-vous entendre ? L’anti-geek : « oh, tu sais moi je suis pas trop branché par les trucs informatiques, cela ne m’intéresse pas trop« , l’apprenti geek : « ah oui bonne idée, justement j’avais des problèmes avec Open Office… tu me parles bien de cela, non ?« , la père divorcé : « Ah oui, cela aurait été avec plaisir mais à cette heure-là j’ai kiné/piscine/les enfants à aller chercher à l’école, parce que tu connais mon ex, hein…« .

Je caricature un peu mais vous avez compris le message : l’open data pour l’open data, cela n’attire pas les foules ! L’une des pistes, pour sensibiliser à la culture de la donnée, est de partir d’un thème auquel chacun puisse facilement s’identifier. On n’invite pas à « découvrir l’open data » mais à parler du jardin botanique, des déplacements en vélo dans la ville, ou encore des prénoms. Le thème n’est pas qu’un « hameçon« : je l’ai choisi parce qu’il correspond à chaque fois à des jeux de données déjà ouverts… Ce n’est pas seulement un prétexte, c’est une opportunité pour parler des données, à travers des exemples concrets et accessibles.

3 – Les médiations

Les trois ateliers que j’ai eu le plaisir d’animer à Rennes durant l’évènement Viva-Cités auront permis de tester plusieurs formes de médiation. Le format est de type infolab éphémère : un lieu, un temps déterminé, une méthodologie d’animation pour « faire des trucs » avec l’open data.

Ces trois ateliers, bien qu’ayant des approches très différentes, ont des points communs : aucun participant n’avait à manipuler un ordinateur. On a utilisé des photographies, des plans, des crayons de couleur, des gommettes, … Tout pourvu que l’on n’ait pas besoin d’informatique ! Tous les ateliers ont commencé par des mises en situation, afin que chaque participant puisse faire sien le sujet que nous allions aborder.

Trois exemples de question que j’ai posé en introduction : « Pourriez-vous me dessiner votre parcours-type lorsque vous allez au Jardin du Thabor ?« , « Comment peut-on se déplacer aujourd’hui à Rennes ?« , « Quels sont les prénoms qui figurent sur vos papiers d’identité ?« …

Cette introduction a souvent permis de briser la glace entre les participants qui ne se connaissaient pas avant l’atelier. Elle a surtout permis d’éviter le tour de table des présentations un peu formelles. En effet, j’avais invité sur chacun des ateliers un représentant des services de la Ville en relation avec le jeu de donnée qui nous intéressait… et je ne souhaitais qu’ils se placent, ou soient placés par les autres, « hors du groupe« .

Nous avons ensuite utilisé des méthodes et des supports d’animation très différents pour chaque atelier. Pour celui concernant le Jardin du Thabor, j’ai distribué une cinquantaine de tirages de photographies que j’avais réalisé. Nous avons décrit chaque photo puis placé sur le plan du jardin ces différents « points d’intérêts » (les arbres, les statues, les toilettes, les entrées et sorties du parc…).

L’atelier sur les déplacements s’est déroulé sous le mode d’une chasse aux données. Chaque groupe est parti équipé d’un kit comprenant une photo aérienne du quartier, des gommettes de couleur et des instructions pour prendre des photos sur le mode « rapport d’étonnement ». Enfin, pour le dernier atelier j’avais imprimé sur des grandes feuilles A3 la liste des prénoms les plus populaires (toujours dans l’idée de ne pas avoir à utiliser un tableur Excel…).

4 – Au programme de ces infolabs

Chaque atelier aura permis d’aborder une ou plusieurs facettes des données ouvertes.

L’infolab « Thabor » a montré la richesse et la diversité des sources de données (publiques avec le portail open data de la Ville, mais aussi collaboratives avec la carte Open Street Map). Nous avons insisté sur la possibilité de mixer deux sources de données pour donner naissance à une troisième (à l’instar de la carte des arbres allergènes du parc, réalisée à partir du mix entre la localisation et l’espèce des arbres et la liste des espèces allergènes publiée sur le site de l’ADEME).

L’infolab « données de mobilité » était une invitation à ouvrir l’oeil (et le bon !) pour découvrir les données, signes et informations pertinentes pour se déplacer dans un quartier. Nous avons pu faire le lien entre un objet concret (un ascenseur), la donnée ouverte le concernant (l’état de fonctionnement interrogeable sous la forme d’API) et surtout sa réutilisation possible. J’avais déjà proposé cet atelier à Rennes, Nantes et Marseille et pourtant je continue encore à découvrir de nouvelles choses en observant les participants : par exemple le fait que la majorité des signes s’adressant aux piétons sont des injonctions négatives : « attention travaux, traversée obligatoire pour les piétons », « zone interdite aux piétons », « le petit bonhomme est rouge, on ne passe pas », …

Infolab prénoms
(photo Franck Hamon / Ville de Rennes)

L’infolab « prénoms » aura surtout mis l’accent sur la lecture critique des données (où naît-on vraiment ? comment le fichier est-il constitué ? pour quel usage initial ?). Nous avons aussi pu voir concrètement que chaque visualisation est l’objet d’une intention (ce que l’on veut montrer) et que la manière dont les données sont mises à disposition a un impact sur les réutilisations possibles…

Bref, nous avons essayé de poser les bases d’un programme pédagogique (lire / écrire / compter) pour des  infolabs « culture de la donnée ». C’est bien, maismais… j’entends déjà la question qui se murmure dans le milieu de l’open data :

5 – … à quoi cela sert tout cela ?

La première critique concerne le type de donnée auquel je me suis intéressé. La seconde à l‘ambition qui est poursuivie.

« Les données sur les arbres, ça sert à rien, ce qu’il faut ce sont des **vraies** données sur la transparence des budgets » : ainsi s’exprimait l’ancien président du Conseil national du numérique. J’ai déjà entendu ce point de vue : il y aurait des données « bonnes à ouvrir » et puis les autres, le jugement dépendant bien sûr de celui qui l’exprime. « Il nous faut des données **utiles** » a précisé un intervenant britannique lors de la dernière conférence parisienne sur le sujet. Qu’est-ce qu’une donnée utile ? Celle avec laquelle on peut faire des applications mobiles ? Des applications mobiles rentables ? Celle qui nous sert à appuyer la thèse que l’on défend ? Celle qui est populaire ? …

Bien sûr, il faut des données sur la transparence budgétaire ! D’ailleurs, certaines collectivités qui proposent la localisation des arbres (ou les prénoms populaires) proposent aussi ce type de jeu de données. Est-ce qu’il faut encourager les acteurs publics à ne publier que des données sur les prénoms ? Non ! Est-ce qu’il faut clouer au pilori celles qui publient aussi ce genre de données ? Non, non plus !

La seconde critique tient à l’ambition que l’on se fixe : est-ce que je crois sérieusement qu’un atelier sur les prénoms va répondre à la promesse de capacitation citoyenne et de renforcement démocratique de l’open data ?

Mon ambition n’était pas celle-là, il s’agissait juste d’essayer de transmettre deux ou trois idées sur les données ouvertes et leur intérêt (et malheureusement, cela aurait été plus difficile à faire avec les données budgétaires). Je suis convaincu que nous avons besoin de multiplier les formes d’animation autour du sujet, que ce soit vers les associations, les entreprises ou le grand public.

Infolab#3 De la mode et des prénoms

Poursuite du retour sur les 3 ateliers de découverte des données ouvertes organisés à l’occasion de Viva-Cités. Le premier atelier avait pour thème le Jardin du Thabor, le second les données de mobilité (le récit d’une participante est à lire sur le Mag de la Cantine numérique rennaise). Ce troisième et dernier infolab était consacré aux prénoms, une donnée ouverte à Rennes et ailleurs.

L’infolab prénoms
(photo Franck Hamon / Ville de Rennes)

Faut-il y voir un effet du thème proposé pour cet infolab ? Les participants à cet atelier étaient exclusivement des participantes. Nous avons commencé par décliner nos prénoms, pas uniquement le premier prénom (ou le prénom usuel) mais l’ensemble de ceux qui figurent sur nos papiers.  On constate déjà un effet de génération : la mode est plutôt à donner deux prénoms, plus rarement trois ou plus. J’avais déjà eu l’occasion de m’intéresser à cette question des prénoms en open data (notamment avec Loïc Hay lors du dernier Forum des Usages Coopératifs de l’Internet). L’objet « prénom » est relativement facile à comprendre (contrairement à d’autres jeux de données plus techniques) et les données sont disponibles sur plusieurs territoires (facilitant les comparaisons d’une ville à l’autre). Enfin, le fichier des prénoms est l’un des fichiers les plus téléchargés sur les portails open data des collectivités. Un objet populaire, facile à comprendre et disponible : que demander de plus pour sensibiliser le grand public aux données ouvertes ?

Qu’il y a t-il dans un prénom ?

La première partie est consacrée à une étude de l’objet « prénom ». J’ai préparé quelques documents pour nous y aider. Une partie est issue de l’ouvrage « Sociologie des prénoms » du sociologue Baptiste Coulmont (Editions La Découverte). Nous échangeons ainsi sur ses travaux sur les réussites au bac en fonction des prénoms des candidats – l’occasion de faire la distinction entre corrélation et causalité :  malheureusement appeler votre fille Hortense n’est pas la garantie qu’elle obtienne une mention très bien au bac !

Le « stock » de prénoms grandit chaque année
(source : revue Octant Insee Bretagne, 2004)

L’autre source que nous consultons est une étude publiée par l’INSEE Bretagne sur les prénoms (revue Octant, 2004). On y trouve notamment des éléments intéressants sur la progression du « stock » de prénoms utilisés : « de1946 à 1970, moins de 40 prénoms suffisaient à nommer la moitié des enfants nés en Bretagne, en 2002 il en faut 109« .

La mode qui cache la forêt : choisir un prénom original, c’est très banal

J’invite ensuite les participantes à prendre connaissance des données proposées sur les portails open data de Rennes et de Nantes. Le fichier (que j’ai retravaillé) mentionne les occurrences pour chaque prénom, ainsi que le nombre total de naissances réparties par sexe. Ainsi, en 2011 les prénoms les plus populaires pour les filles sont Manon, Louise et Chloé (respectivement 57, 55 et 50 occurrences à Rennes). Ce résultat ne surprend personne : a priori ce sont des prénoms que l’on dit « à la mode ».

Cette même année 2011, ce sont pourtant près de 3546 filles qui sont nées sur le territoire rennais. Manon, notre « top », représente à peine 1,6 % des prénoms donnés. Dit autrement: en moyenne il naît à Rennes une fille toutes les deux heures et demi… mais le prénom Manon n’est donné (toujours en moyenne) qu’une fois par semaine !

Il y a largement de quoi relativiser l’impact de la mode des prénoms… Ce qu’une sage-femme pourrait d’ailleurs nous confirmer : la norme dans les maternités ce ne sont pas les Léa, Emma ou Malo mais plutôt les prénoms originaux avec, parfois, des variations orthographiques (Sarah / Sara, Ryan / Rayan, Mathis / Mathys).

Le fichier que nous étudions ne comporte pas les prénoms donnés moins de 6 fois au cours de l’année. La responsable du service en charge de l’état-civil de la Mairie de Rennes nous apprend ce qui ne figure pas dans notre jeu de données : près d’un quart des prénoms donnés chaque année dans la ville sont uniques ! Unique car ils n’ont été donné qu’une fois, mais aussi unique dans la mesure où souvent ces enfants n’ont qu’un seul prénom. Il est vrai qu’avec un prénom très original, nul besoin d’en avoir un deuxième pour éviter l’homonymie…

Que veut-on raconter avec ces données ?

La dernière partie de notre atelier est consacré à une réflexion sur les réutilisations possibles des jeux de données prénoms de Rennes et Nantes. On pourrait tout d’abord imaginer de comparer les prénoms les plus populaires dans les deux métropoles (Top 50). En pratique, on voit qu’il y a relativement peu de différences entre rennais et nantais.

La discussion s’engage ensuite sur l’objectif que nous pourrions fixer à des visualisations (représentations graphiques) de nos données. Veut-on mettre en avant la chronologie (pour montrer les prénoms qui montent ou descendent année après année dans chaque ville) ? Ou encore mettre en lumière la diversité des prénoms (au besoin en recalculant l’indicateur fourni par l’INSEE au niveau national, à savoir le nombre de prénoms nécessaires pour nommer la moitié des naissances) ?

Souhaite-t-on aider les parents à choisir le prénom le plus original possible (en leur garantissant que ce prénom n’a pas été donné à Rennes au cours des 3 dernières années) ? Ou a contrario leur montrer que même s’ils nomment leur garçon Arthur, la probabilité qu’ils soient plusieurs à porter ce prénom dans sa classe de maternelle est finalement assez faible ?

Au final, on voit bien qu’en matière de réutilisation des données, l’intention aussi est importante : à partir d’un même jeu de données, on peut raconter mille histoires.

Infolab#1 : des données pour mettre en valeur le jardin du Thabor

Dans le cadre de Viva-Cités, j’anime du 2 au 7 octobre trois ateliers de découverte des données ouvertes à Rennes. Retour sur le premier infolab, consacré au Jardin du Thabor, une institution rennaise et un lieu de promenade pour les habitants et les visiteurs de la capitale bretonne… 

« Et vous, que venez-vous faire au Thabor ? » Les participants à ce 1er infolab organisé sur le Village numérique de Viva-Cités sont accueillis par une question. Chacun est invité à tracer son parcours au sein du parc puis à le décrire à ses voisins de table.

La volière, la roseraie, le jardin à la française, l’orangerie : quelques incontournables d’une promenade au Thabor se dégagent assez vite des échanges. On distingue aussi des parcours différents selon le contexte : en famille avec des enfants en bas âge on privilégie les jeux pour enfants, le bassin aux poissons rouges (au centre de la roseraie), voire un tour de manège… D’autres viennent au Thabor pour profiter des rayons du soleil, seul ou avec des amis : sur les pelouses autorisés (!) ou dans les chaises longues du jardin à la française. Les passionnés de botanique eux se tiennent au courant des dates de floraison de la roseraie, une période-clé pour leur visite. Au final, on voit bien qu’il y a beaucoup de manières de visiter le Thabor … et que les attentes en matière d’information sont elles aussi très variées.

Repérer les « points d’intérêts » du Thabor

Nous listons collectivement toutes les informations dont nous pourrions avoir besoin pour préparer une visite au Thabor. Spontanément, les participants citent la météo comme la principale information utile avant toute promenade ! Les horaires, le plan du parc, les évènements en cours viennent ensuite. Les habitués du parc évoquent l’idée d’une information du type « Quoi de neuf au Thabor ? » qui regroupe des informations dynamiques de nature très diverses : les expositions à l’orangerie, les concerts organisés dans le kiosque à musique, mais aussi les floraisons ou les travaux en cours.

Je distribue une cinquantaine de photographies prises dans le parc. Chacune représente un « point d’intérêt » que nous reportons ensuite sur une grande carte papier. On trace une croix pour les équipements (toilettes publiques, bancs, …), les entrées du parc (et leur accessibilité pour les personnes à mobilité réduite), les statues (nombreuses dans le parc, elles peuvent constituer un but de visite), les arbres remarquables, les « incontournables » déjà cités ci-dessus et les éléments à découvrir (les ruches du Thabor !).

Une matière première à enrichir et remixer 

Le portail open data de Rennes Métropole propose plusieurs jeux de données en rapport avec le Jardin du Thabor : la localisation des massifs et des arbres, les principaux équipements, les horaires d’ouverture. Nous nous intéressons plus particulièrement à celui qui recense les arbres du parc et précise pour chacun sa localisation et son espèce. Dans le cadre du concours open data, deux développeurs ont imaginé une application mobile Android « Promenade au Thabor« . Les participants à cet infolab ne sont pas tous capables de faire de la programmation informatique, quels usages peuvent-ils faire de ces données ?

Le fichier qui nous intéresse est géré par la direction des Jardins de la ville de Rennes, et est issu du système d’information géographique (SIG). Il est donc normal que sa présentation mettent en avant des données de type géographiques, cependant il faut faire un effort pour imaginer d’autres usages que la production de cartes. On peut par exemple faire un inventaire du Thabor sous la forme d’un quizz : quelle est l’espèce la plus courante dans le parc ? combien y-a-t-il d’arbres dans le parc (réponse : près de 1200) ? quel agrume peut-on trouver au Thabor (réponse : des citrons !) ?

J’invite ensuite les participants à imaginer des croisements de données à partir de plusieurs sources. Le site web de la Maison de la consommation et de l’environnement (MCE) propose par exemple un recensement des arbres remarquables de Bretagne, dont une vingtaine pour le Thabor. Nous pourrions croiser le fichier des arbres avec ces informations complémentaires : l’âge, la hauteur, l’envergure… voire intégrer les photographies (proposées sous licence Creative Commons). Autres sources de données à croiser : les bases cartographiques d’Open Street Map et notamment la localisation des escaliers présents dans le parc.

Nous imaginons ensuite une carte pour localiser les principaux arbres allergènes du Thabor, en combinant la donnée sur l’espèce de chaque arbre et la liste des espèces les plus allergènes publiée sur le site de l’ADEME

Des données pour informer, aider et mettre en valeur

L’introduction de l’atelier avait permis de mettre en lumière la très grande diversité des attentes en matière d’information des visiteurs du Thabor.

Le contexte (une visite en solo, avec des amis, des enfants), le but de la visite (pour flâner, pour faire du sport, pour découvrir le patrimoine botanique, …), la connaissance préalable du parc et même la météo influent sur le besoin d’information des visiteurs… Réutiliser les données issues de plusieurs sources (dont les données ouvertes par la collectivité), c’est aussi l’opportunité de répondre à une partie de ces attentes.

Le mot de la fin revient à l’un des participants, qui me faisait remarquer qu’il vient précisément au Thabor pour faire une pause et se détendre loin de son ordinateur… Il nous faut donc bien sûr imaginer d’autres médiations que celles des écrans. Une invitation pour les graphistes et autres designers d’informations à s’emparer des données ouvertes !

Les deux prochains ateliers infolab auront lieu le vendredi 5 octobre de 15h à 17h sur le thème des déplacements et le samedi 6 octobre de 10h à midi sur celui des prénoms des petits rennais. Inscription recommandée en ligne.