3 ateliers pour jouer avec les données ouvertes

En passant

3 ateliers pour jouer avec les données ouvertes !

Dans le cadre de Viva-Cités à Rennes, j’organise du 2 au 7 octobre prochain trois ateliers Infolab pour découvrir les données ouvertes et imaginer des réutilisations. L’open data, ce n’est pas (seulement) pour les développeurs ! Inscription gratuite et recommandée en ligne.

Oups, on a fait un infolab

A l’occasion du Forum des Usages coopératifs de l’Internet à Brest, j’ai eu le plaisir de co-animer une session consacrée à la fabrique des données avec Loïc Hay de La Fonderie (agence numérique d’Ile-de-France) et la Fondation Internet nouvelle génération. Ce billet retrace cette expérience pratique de mise en place d’un infolab, dans un temps et un lieu déterminé.

De droite à gauche : Denis Pansu (Fing), Loïc Haÿ (La Fonderie) et moi – crédit photo La Fonderie

1 – La fabrique des données

La fabrique des données propose d’illustrer une démarche de réutilisation de données ouvertes. De la recherche de la matière première, jusqu’à la réalisation de quelques infovisualisations, cet atelier combine dans un format court (2h30) une approche critique (d’où viennent les données ?) et pratique (comment les représenter ?).

2 – Le thème retenu : les prénoms

Nous avons retenu la thématique des prénoms pour ce premier atelier. Le prénom présente plusieurs avantages :
– d’abord on en a tous un ! (voire deux, trois ou quatre). Chacun peut se sentir concerné par cette thématique, a fortiori s’il a des enfants et s’est donc déjà retrouvé en position de choisir un prénom,
– ensuite, la matière première est disponible : les jeux concernant les prénoms les plus populaires sont disponibles sur les portails open data de Paris, Nantes et Rennes. Plutôt que de râler contre la non-disponibilité des données, utilisons celles qui sont déjà proposées !
– les jeux de données sont faciles à appréhender et à comprendre. Nul besoin de savoir développer une application mobile ou d’être un expert de la comptabilité publique pour s’en saisir.

Nous nous sommes ensuite appuyé sur une actualité de ce début juillet : la publication par Baptiste Coulmont (sociologue et auteur de « Sociologie des prénoms » aux éditions La Découverte) d’une étude sur les prénoms des candidats au bac ayant reçu la mention très bien. Elle révele des succès très différents pour les Eleonore et les Jessica, les Augustin et les Kevin.

Prénoms et mentions TB au bac par Baptiste Coulmont (source coulmont.com/blog)

La représentation graphique fait réagir la salle, et elle est surtout pour nous l’occasion de souligner la confusion fréquente entre corrélation et causalité – ce n’est pas le prénom qui détermine le résultat au bac (contrairement à ce que laissent penser nombre d’articles de presse qui ont repris l’information) !

Le prénom est un marqueur d’un milieu social ou d’une région. Ainsi, Loïc explique qu’on lui demande souvent quelles sont ses racines bretonnes (réponse : aucune). Bref le prénom laisse imaginer – à tort ou à raison – beaucoup de choses sur celui qui le porte … et sur celui qui le donne (voire sur celui qui le juge).

3 – D’abord, apprendre à lire les données

Après cette introduction sur les prénoms, j’aborde le « tronçon commun » de tous les ateliers que j’anime, c’est-à-dire une courte séquence pour expliquer la différence entre une donnée et une information, une donnée publique et une donnée ouverte… Donner des bases de compréhension me semble plus que jamais indispensable et c’est en tout cas un pré-requis avant de pénétrer dans la fabrique des données.

Nous proposons ensuite aux participants de découvrir les jeux de données disponibles sur les portails open data de Paris, Nantes et Rennes. Chacun est invité à suivre les liens à partir de son propre ordinateur. J’ai volontairement fourni l’adresse des pages descriptives des jeux de données (et non le lien de téléchargement) or la majorité de nos participants commencent d’abord par télécharger le fichier lui-même… Comment ce fichier a-t-il été constitué ? Que comprend-t-il ? Que nous raconte-t-il ? Quelle est la licence  juridique applicable ? On ne peut répondre à aucune de ces questions sans consulter la notice de chaque jeu de données – c’est une démonstration « par l’exemple » et une première illustration de l’importance des métadonnées.

crédit photo La Fonderie

Une dizaine de minutes sont consacrées à une lecture critique et comparée des trois jeux de données. Les participants notent ainsi que les stratégies de diffusion ne sont pas les mêmes selon les villes. Paris ne distingue pas les filles des garçons pour les naissances intervenues avant 2011 – Camille par exemple est un prénom populaire dans la capitale. Rennes et Paris proposent un fichier consolidé pour plusieurs années, alors que Nantes a scindé chaque année dans un fichier spécifique – un moyen pas bien méchant mais pas discret non plus de « gonfler » artificiellement le nombre de jeux de données disponibles…

On constate aussi que d’une manière générale les prénoms les plus populaires – ceux qui figurent dans le top10 – sont souvent les mêmes dans les 3 villes : Emma, Manon, Matthis, …

Les participants remarquent aussi, sur les portails de Rennes et Nantes, la mention d’une soi-disant recommandation de la CNIL sur les prénoms ayant été donnés moins de 6 fois au cours de l’année considérée (nous reviendrons dans un prochain billet sur cette « recommandation »… l’histoire vaut vraiment le détour !). Cela signifie en pratique que les fichiers ne comportent pas tous les prénoms donnés afin de respecter la vie privée des individus. Cela nous amène à évoquer rapidement les problématiques d’anonymisation à partir des données personnelles.

Ayant bien fait le tour de notre matière première, de ses atouts mais aussi de ses limites, je passe la main à Loïc Haÿ pour la suite de l’atelier. Maintenant que nous savons « lire » les données, on passe au niveau supérieur : l’écriture.

4 – Ensuite, apprendre à écrire

Loïc montre tout d’abord deux exemples de visualisations que l’on peut réaliser facilement : des « nuages de tag » reprenant les 150 prénoms les plus populaires à Rennes et Nantes pour l’année 2008. Il explique ensuite comment les réaliser à partir du site wordle.net.

« La Dataviz de la dataviz » par WeDoData pour Expoviz – La Fonderie

La Fonderie, agence numérique Ile de France est à l’origine de l’exposition Expoviz consacrée à la visualisation de données. A cette occasion, l’agence WeDoData a réalisé le poster « La Dataviz de la dataviz » que Loïc nous détaille. Il insiste notamment sur la grande diversité des modes de représentation possibles des données (dont la photovisualisation). La parole est ensuite donnée à la salle : et vous, comment aimeriez-vous représenter les données concernant les prénoms ?

Léa Lacroix explique le travail qu’elle a réalisée pour son site LesPtitsRennais, on évoque l’idée d’une photographie de petites Emma, Manon et Louise sur les marches d’un escalier, pour illustrer le classement qui change d’une année sur l’autre. L’idée de classement revient souvent et nous cherchons donc de l’inspiration du côté des résultats sportifs… Un participant nous fait à juste titre remarquer que l’on devrait d’abord définir ce que l’on cherche à montrer – avant de chercher le bon outil pour le faire !

Loïc présente différents outils de représentation de données dont Many Eyes. Certains sont accessibles au plus grand nombre, d’autres réclament plus de temps pour les maîtriser.

5 – Oups, on a fait un infolab !

Revenons maintenant sur le titre de ce billet, « oups, on a fait un infolab« . Le concept d’infolab a connu récemment un regain d’intérêt suite à l’article d’Internet Actu « Avons-nous besoin d’infolabs ?« , article qui reprend les réflexions en cours à la Fondation Internet nouvelle génération sur les modes d’appropriation des données. Notre atelier brestois s’est d’ailleurs conclu par une intervention de Denis Pansu de la FING sur ce propos.

On sent bien que la problématique de l’animation autour de l’open data, de son accès à un public plus large que les seuls développeurs suscite de nombreuses réflexions – le sujet était d’ailleurs central lors de la semaine européenne de l’open data. La Fonderie avec Expoviz, ou moi-même avec les ateliers autour des données de mobilité, nous expérimentons de nouveaux formats d’animation et de transmission…

Initialement une blague partagée avec Loïc, le titre de ce billet traduit aussi une conviction : ce dont nous avons avant tout besoin ce sont des médiateurs motivés (et si possible compétents)… qu’ils travaillent ou pas dans un « infolab ».

Rendre visible les données ouvertes de Rennes, Nantes et Marseille

Comment rendre visibles les données ouvertes ? J’ai déjà eu l’occasion de raconter l’atelier que j’ai animé à Rennes pour les étudiants de Sciences Po sur le thème des données de mobilité dans la ville. J’ai eu l’opportunité de proposer deux nouvelles sessions, l’une à Nantes lors de la Semaine européenne de l’open data, et l’autre à Marseille lors des rencontres régionales Open PACA. Je vous propose un regard croisé sur ces 3 ateliers…

1 – La chasse aux données en quelques mots

Pour rappel, l’ambition de cette animation est de fournir en 2 heures les éléments de base pour comprendre les données ouvertes et être capable de les repérer dans la ville. La thématique de la mobilité a été choisie pour de multiples raisons, déjà amplement détaillées dans de précédents billets. Chaque atelier regroupe une douzaine de participants et se déroule en 3 temps. On débute tout d’abord par une séance de remue-méninge collectif : « Comment se déplace-t-on aujourd’hui à Rennes / Nantes / Marseille ? Quelles sont les informations nécessaires pour se déplacer en vélo / en bus / à pied / en voiture ? ». Un court exposé théorique permet de faire la distinction entre une donnée et une information, une donnée publique et une donnée ouverte.

Chaque groupe (de 3 à 4 participants) se voit remettre un plan du quartier (une photographie aérienne ou une carte Open Street Map), des gommettes de couleur correspondant à des modes de déplacements (en l’occurrence : la voiture individuelle, le bus et métro, le vélo). Panneaux de signalisation, fiche horaire de bus, information de voirie, … Tout ce qui permet de se déplacer est répertorié et photographié. La dernière partie de l’atelier est consacrée à une mise en commun de nos « découvertes » et surtout à une première lecture critique des données (ou de leurs artefacts pour être plus exact) : à quoi et à qui sert cette donnée ? Qui la collecte et la gère ? Quelle réutilisation peut-on en imaginer ?

2 – Rennes, Nantes et Marseille : les terrains de notre chasse aux données

La Cantine numérique rennaise a accueilli la première session en mars 2012. Situé au sein de l’équipement culturel Les Champs Libres, le lieu est à proximité immédiate du quartier de la gare, hub important des transports rennais. On y trouve notamment les gares routières et ferroviaires, une ligne de métro, de nombreux arrêts de bus urbain, des stations de vélo en libre-service, …

La seconde session s’est déroulée en mai 2012 à la Cantine numérique de Nantes et le terrain choisi pour notre chasse était les environs de la place du Commerce, lui aussi un hub important des transports de la ville (stations de tram, bus, parkings souterrains, stations de vélo en libre-service, …) bien que plus éloigné de la gare. A noter, les nantais sont les seuls français à pouvoir jouir d’un mode de transport ancestral : l’éléphant (quoique sous une forme largement modernisée et plutôt destinée aux touristes).

Les rencontres régionales de l’open data en région Provence Alpes Côte d’Azur ont fourni le cadre de la troisième session à Marseille en juillet 2012. L’atelier s’est déroulé dans les environs immédiats du siège du Conseil régional, dans le quartier de la Porte d’Aix. Si vous êtes déjà venus à Marseille en voiture, vous connaissez cet endroit car jusqu’à récemment c’était la fin de l’autoroute… Mais le quartier est aussi desservi par le métro et de nombreux bus.

J’ai détaillé les terrains de notre chasse aux données car il me semble évident qu’ils ne sont pas étrangers aux différents résultats obtenus. La session rennaise a fait l’objet d’un compte-rendu détaillé, je vous invite donc à le consulter. Voici les points marquants de mon rapport d’étonnement pour Nantes et Marseille.

3  – En vélo, tu iras à Nantes … mais pas toujours en open data

La part modale du vélo s’établit à environ 2% dans la capitale ligérienne (pour mémoire, cet indicateur mesure la part des déplacements qui sont effectués à l’aide de ce mode de transport), contre 4% à Rennes et 1% à Marseille (source des données Fubicy et EPOMM). Les participants nantais de l’atelier ont ainsi pu repérer de très nombreuses données et informations sur cette thématique autour de la place du Commerce : indication de pistes cyclables et de parking vélos, itinéraires vélo, …

Le service de vélo en libre-service Bicloo a attiré l’attention du groupe. En effet, la plate-forme nantaise open data propose bien un jeu de données sur le service Bicloo mais celui-ci ne concerne que la localisation des stations… et non les données les plus utiles pour les réutilisateurs à savoir la disponibilité en temps réel des vélos et des places restantes.

« Mais pourtant, le site web du Bicloo c’est bien celui de Nantes Métropole, non ? » m’a fait remarquer l’un des participants à cet atelier. Une remarque de bon sens évidemment, puisque le visiteur du site bicloo.nantesmetropole.fr devra consulter les mentions légales pour constater que le site est géré par JC Decaux, l’exploitant du système de vélo en libre-service… et non pas Nantes Métropole, dont le logo apparaît pourtant en bonne place.

Cet exemple a permis au groupe d’illustrer la différence entre une donnée et une donnée publique – JC Decaux n’exerçant pas dans le cas présent une « mission de service public » et n’étant donc pas concerné par la loi CADA de 1978. La lecture des conditions générales d’utilisation de l’application iPhone officielle de JC Decaux démontre aussi parfaitement ce que n’est pas une donnée ouverte. Le design de l’application AllBikesNow et ses écrans de pub sont en tant que tels des pousses-au-crime, en l’occurrence une véritable incitation à la réutilisation sauvage. Vu la qualité des développements internes, il sera difficile de justifier longtemps le contrôle exercé sur les données…

4  – A Marseille en voiture tu iras … et patient tu seras

Marseille, le Vieux-Port, la vue depuis Notre Dame de la Garde, les plages … J’aime beaucoup la ville, surtout depuis que j’y viens en TGV et que je m’y déplace en tram et à pied… Mais ma vision de touriste n’était pas celle des participants à la 3è session de cet atelier. Le groupe « vélo » a sillonné le quartier pendant près d’une heure et sans grand succès. Mis à part une station de vélo en libre-service, peu d’informations disponibles pour les rares cyclistes de la capitale du Sud… Le groupe « voiture » a par contre repéré plusieurs dizaines de points d’intérêt pour l’automobiliste : des parkings, des panneaux de signalisation, de nombreuses déviations, des plots pour empêcher les automobilistes de se garer sur les trottoirs, …

Devant la profusion des informations (des ordres et des contre-ordres), l’information la plus claire n’est pas toujours là où on l’attend : c’est le panneau publicitaire géant pour une grande chaîne hôtelière qui indique le plus sûrement son chemin à l’automobiliste qui veut rejoindre l’A55 et le quartier de la Joliette ! Dernier élément de curiosité : les panneaux qui indiquent le fast-food le plus proche sont très intelligemment (et sans doute aussi très illégalement) disposés. A chaque carrefour important, depuis les principaux arrêts de bus, à partir de la sortie du métro : celui qui cherche le Mac Donald’s ne peut pas se perdre !

Au-delà de leur caractère anecdotique, ces deux exemples montrent que les données utiles pour la mobilité ne sont pas l’apanage exclusif des acteurs publics ou des grands opérateurs. Si elle se veut complète, l’ouverture des données doit donc aussi impliquer ces acteurs qui ne relèvent d’une mission de service public – et échappent donc ainsi à la loi CADA de 1978 (voir à ce sujet mon précédent billet : pourquoi ouvrir ses données quand la loi ne vous y oblige pas ?).

5 – Comment améliorer cet atelier ?

L’ambition de ce format d’animation est de fournir en un temps court les bases de compréhension des données et de montrer leur réalité dans notre vie quotidienne. La thématique de la mobilité n’est au final qu’un prétexte, et je travaille d’ailleurs sur de nouveaux ateliers avec d’autres thématiques (la culture, le tourisme, la petite enfance, …).

Je pense que cet objectif de « vue d’ensemble » est à peu près atteint (si vous avez participé à cet atelier et/ou que vous souhaitez proposer des idées, n’hésitez pas à commenter ce billet). Cependant, j’en vois aussi les limites et je m’interroge sur plusieurs points :

– l’intérêt de la carte comme support de découverte : cet atelier n’est pas une cartopartie, on ne vise pas l’exhaustivité mais plutôt la diversité des points d’intérêt. La carte sert aussi à délimiter le terrain de jeu, mais est-elle vraiment utile ?

– le caractère parfois déceptif de l’exercice : cet atelier vise aussi à susciter l’intérêt et la curiosité pour les données ouvertes or parfois, comme dans l’exemple du Bicloo à Nantes, on peut en ressortir en se disant « qu’on ne peut rien faire avec les données ouvertes à ce jour… » En 2 heures on ne produit pas de réalisations concrètes, on pose juste les bases de compréhension du contexte juridique de l’open data en France,

– la capacité à porter un regard critique sur la donnée : ce format permet de montrer qu’avant la réutilisation il y a une utilisation… mais c’est à peu près tout en matière de critique de la donnée brute. Je pense que c’est en grande partie dû à la thématique retenue, celle de la mobilité qui se prête peut-être moins à l’exercice que d’autres sujets…

Je travaille actuellement à la définition de formats d’animation autour de la culture de la donnée. Un prochain billet racontera l’atelier que j’ai eu le plaisir de co-animer la semaine dernière à Brest, une pierre de plus à l’édifice d’un « truc » genre infolab. A suivre 😉

En finir avec le mythe de la donnée brute

A l’occasion de la semaine européenne de l’open data (Open Data Week) à Nantes la semaine dernière, j’ai traité de la sensibilisation du grand public aux données, et par extension aux données ouvertes (open data). Il y a notamment été question d’en finir avec le mythe de la donnée brute. Extrait et complément à cette intervention.

« Je fume donc je vis ? »

Tout commence lors de la dernière rentrée scolaire, la première pour mon fils. L’année de sa naissance son prénom – Nathan – figurait parmi les plus populaires au niveau national. J’étais donc surpris de constater qu’il était le seul petit garçon à s’appeler ainsi dans l’école maternelle de notre quartier rennais. Il y avait bien plusieurs Maxime et Quentin, mais un seul Nathan, pourquoi ? Et si, par hasard, ce prénom était beaucoup moins populaire à Rennes qu’ailleurs en France, à Paris ou Nantes par exemple ?  

La liste des prénoms les plus populaires fait partie des données ouvertes par ces trois villes. C’est en cherchant le nombre total de naissances que j’ai trouvé une curiosité. Paris propose cette donnée sur son portail open data, l’INSEE aussi. Mais … les deux chiffres ne coincident pas ! Comment expliquer ce décalage entre deux faits que j’imaginais pourtant bruts ? La ville recense toutes les naissances ayant eu lieu sur son territoire (c’est-à-dire dans les maternités, les hôpitaux, les rames de métro ou ailleurs) alors que notre institut statistique national comptabilise lui les nouveaux-nés au domicile de leur mère.

Si une femme domiciliée à Montrouge accouche dans une maternité parisienne, son enfant – quel que soit son prénom ! – sera comptabilisé à Paris (selon la Ville) et à Vanves (selon l’INSEE). Pour la seule année 2010, il y a ainsi un décalage de plus de 10 000 naissances (un quart du total). Il y a donc deux méthodes de calcul : qui a tort, qui a raison ?

1- La donnée brute n’existe pas

Je pense que l’open data devrait intègrer une dimension plus critique vis-à-vis des données ouvertes et réutilisées. Il me semble indispensable de comprendre l’origine des données et les buts initiaux de la collecte. Pourquoi cette donnée existe-t-elle ? A quoi et à qui sert-elle initialement ? Car, soulignons-le, avant la ré-utilisation il y a l’utilisation tout court.

Pour revenir à notre exemple, personne n’a raison ou tort d’appliquer sa propre méthode de calcul. Si l’INSEE retient comme critère le domicile de la mère c’est pour mieux refleter la réalité démographique des territoires – après tout, dans le cadre du recensement on comptabilise la population selon leur lieu d’habitation, pas seulement leur lieu de naissance.

J’ai pris conscience, avec mes modestes moyens, de ce que les chercheurs en sciences sociales savent depuis fort longtemps (lire à ce sujet le commentaire argumenté de Jérôme Denis sur Internet Actu) : il n’y a pas plus de fait brut que de données brutes. Une donnée est toujours le résultat d’une intention, d’une méthode de calcul, de la volonté de représenter ou de mesurer une certaine partie de la réalité. La donnée ne résume pas le Monde qu’elle cherche à décrire.

2- Pour une critique de la donnée

Quiconque met les mains dans le cambouis des données ouvertes se rend très vite compte qu’il est indispensable de faire un détour par les «cuisines» de la data avant d’envisager toute réutilisation sérieuse (d’où l’importance d’ailleurs de la documentation des jeux de données). L’exemple de la comptabilisation des naissances n’est pas une exception, je pense au contraire que c’est une règle.

Savons-nous par exemple que la comptabilisation des morts sur la route n’est pas la même selon les services de l’Etat concernés. On pourrait pourtant penser qu’un décès c’est tout de même un fait brut par excellence : soit tu es mort, soit tu es vivant point barre (troisième possibilité : tu es dans un vieux clip du défunt roi de la pop). Et pourtant les services ne le comptabilisent pas de manière identique : certains recensent les personnes décédées sur le lieu-même de l’accident, d’autres prennent en compte les décès intervenus dans les 3 jours suivants. Pour la DDE (direction départementale de l’équipement) ou pour le SAMU, être mort ne veut pas tout à fait dire la même chose !

Etre critique de la donnée c’est donc essayer de comprendre pourquoi et comment l’information initiale est collectée et à quoi elle sert. Ensuite, c’est accepter l’idée que les données ne nous racontent pas tout, bref remettre en cause le dogme de la toute puissance de la donnée.

Un dernier exemple pour nous en convaincre : certaines collectivités publient la liste des subventions aux associations de leur territoire dans une optique de transparence. Ces données ont été collectées dans un but précis : permettre la délibération des conseils municipaux qui attribuent ces aides. On a donc un fichier avec le nom d’une association, un montant, un numéro de délibération. Comme l’a montré l’expérience menée par Bug , cette donnée ne nous permet de mesurer le soutien de la ville au secteur associatif, ni de mesurer si certaines associations sont «sous perfusion» de subventions publiques (en effet on ne dispose pas de leur budget global et l’on ne sait donc pas si l’aide représente 10% … ou 80% des ressources de la structure).

Etre critique de la donnée ce serait donc aussi parfois s’interroger : qu’est-ce que cette donnée ne nous raconte pas ?

Les données ne sont donc pas aussi neutres que l’on voudrait nous le faire croire. Mais il faudrait, pour être plus complet, intégrer aussi les effets de la donnée et les phénomènes de rétroaction. On a par exemple récemment discuté de l’effet de renforcement des classements des lycées ou des hôpitaux publiés par la presse. Les parents d’élèves qui le peuvent vont choisir le meilleur lycée pour leur enfant, renforcant ainsi le phénomène initial. Ignorer les effets potentiels de la donnée et de sa divulgation c’est faire preuve d’une grande naïveté.

3- La visualisation nous sauvera tous ?

La visualisation et l’infographie sont-elles des solutions pour faciliter l’appropriation et la compréhension des données, notamment les plus complexes, par le grand public ? La dataviz est à la mode c’est sûr (et leur histoire est très riche, comme en témoigne la présentation de Gaëtan Gaborit lors de l’Open Data Week). Mais nous sauvera-t-elle tous pour autant ?

Le site GapMinder permet depuis des années de visualiser simplement des statistiques mondiales liés à la santé, l’économie, le développement, … La vidéo de son créateur Hans Rosling lors de la conférence TED a marqué les esprits et comptabilise plus de 4 millions de vues. Gapminder a fait de l’open data avant l’heure : on peut y télécharger les jeux de données «brutes» pour créer ses propres visualisations. L’ambition du site se résume dans sa promesse : «Unveiling the beauty of statistics for a fact-based world view».

« Je fume donc je vis » ?

Le graphique que j’ai produit met en relation la part des fumeurs dans la population et l’espérance de vie à la naissance (les données sont issues de l’OMS et datent de 2005). Mon tableur favori m’a proposé de tracer la courbe de corrélation entre ces deux variables.  On peut ainsi constater que, dans les pays où l’on fume le plus, l’espérance de vie est la plus élevée.

Peut-on pour autant remettre en question la nocivité du tabac à partir de ce graphique ? Ce qui est en jeu ici c’est la différence entre corrélation et causalité… Il me semble que dans ce cas la visualisation, plutôt que de nous éclairer sur la réalité aurait tendance à nous embrouiller (ou, dans le cas d’espèce, à nous enfumer).

L’infographie a parfois cet effet pervers d’anihilier tout sens critique. Ainsi celle présentant le baromètre de l’open data en France, infographie qui a connu un grand succès en ligne. L’image nous explique, carte de France à l’appui, que 19 acteurs publics ont lancé leurs portails open data. Viennent ensuite les résultats de l’observatoire et notamment la phrase suivante : «3% des acteurs ont libéré au moins 4 jeux de données sur le volet budgétaire». De prime abord j’ai trouvé cela bizarre, ce que m’a confirmé ma calculette : 3% de 19 acteurs celà fait 0,57 acteur. Donc, cette infographie nous dit : «0,57 acteur ont libéré au moins 4 jeux de données budgétaires». Qu’est-ce que celà peut bien vouloir dire ? Qu’un seul acteur a libéré au moins 8 jeux de données ? 😉

4 – Comment sensibiliser le grand public ?

Force est de constater que les dispositifs d’animation actuels de l’open data ont du mal à atteindre le grand public. Les concours et les appels à projets ne visent bien souvent qu’une cible particulière, celle des développeurs réutilisateurs. Les cartoparties ou les ateliers de chasse aux données adressent un public plus large mais ne sont cependant pas suffisantes.

Développer un sens critique de la donnée passe sans doute par l’exposition des conditions de sa production… C’est non seulement en visitant cette «fabrique des données», mais aussi en mettant soi-même les mains dans le cambouis que l’on peut espérer faciliter une plus large appropriation.

Animer l’open data ?

Jeu de données recherche réutilisateur H/F – pas sérieux s’abstenir.

Publier un jeu de données ouvertes en ligne n’est que la première étape de l’open data. Encourager la participation et la réutilisation, s’assurer que l’ouverture profite à tous, voilà les objectifs de l’animation. Pourquoi animer l’open data ? Comment le faire ? Ce billet propose quelques pistes. Commençons par une petite fable.

Il était une fois un jeu de données qui se préparait pour le bal du samedi soir. Il avait mis toutes les chances de son côté : paré de ses plus beaux habits (un costume au format .csv) il avait négocié avec ses parents de pouvoir faire ce qui lui plairait, avec qui il le voudrait (une licence ODbL)… Bref il avait mis toutes les chances de son côté pour faire des rencontres, et surtout LA rencontre que tous les jeux de données comme lui attendent : rencontrer un réutilisateur, un développeur Php ou même un journaliste de données – il n’était trop exigeant. Et le soir venu, malheureusement ce pauvre jeu de données resta seul et observa du coin de la piste le seul élu de la soirée : le fichier des horaires de bus qui comme chaque samedi, trouvait toujours quelqu’un pour s’intéresser à lui…

Pourquoi animer ?

Il est indispensable d’animer l’ouverture des données pour :

  • encourager et stimuler la réutilisation des données ouvertes, car la réutilisation spontanée ne concerne bien souvent que les données transports,
  • et s’assurer l’appropriation par tous, pour que l’open data ne reste pas l’affaire de quelques uns.
Ces deux objectifs ne se recoupent pas nécessairement, car ils concernent des publics et des types de données différents, comme l’illustre le schéma suivant (en CC-BY comme tous les contenus de ce site).

1 – Encourager la réalisation de services à partir des données ouvertes

Apps For Democracy : l’un des tous premiers concours open data

Les concours sont des modes d’animation bien connus dans le domaine de l’open data. Ils sont pour la plupart construits sur le modèle de AppsForDemocracy mis en place dès 2007 à Washington et récompensent des applications mobiles ou des services en ligne, parfois des visualisations.

En France, on recense dès fin 2010 plus de 45 participants au concours Rennes Métropole en accès libre. Nantes vient récemment d’annoncer sa compétition « Rendez-moi la ville plus facile« , au moment où le Conseil Général de Saône-et-Loire publie une première liste de participants.

Les concours ont une vertu : ils permettent de produire, concrètement, des services et pas uniquement des idées. Les concours ont aussi une limite majeure : ils ne s’intéressent qu’à une population restreinte, celle de ceux qui savent réutiliser des données ouvertes, et en premier lieu les développeurs.

2 – Imaginer, proposer des idées

Le second type d’animation se concentre non pas sur la production de « services » mais plutôt sur la génération d’idées de réutilisation des données ouvertes. L’avantage est de permettre une plus large participation du public – on peut avoir de bonnes idées sans savoir programmer !

Dans ce domaine, on peut souligner l’initiative de la filiale Transilien de la SNCF avec le concours « Open App : une idée d’appli pour améliorer votre quotidien« . Le principe : chaque participant décrit l’application ou le service dont il aimerait disposer. Un jury les recense et en propose certaines au vote du public. Les idées sont parfois étonnantes : par exemple « C’est ma faute by Transilien » la possibilité d’envoyer automatiquement (à son boss ou à son professeur) un bulletin de retard dès que votre train est immobilisé plus de 10 minutes !

Séminaire Libertic/Stereolux/Grrr (source : actionsopendata.org)

Dans le cadre de l’ouverture des données sur Nantes, Libertic et StereoLux ont organisé un séminaire sur le thème : « l’ouverture des données peut-elle améliorer l’expérience touristique ?« . L’agence Grrr a invité les agents des administrations et des acteurs associatifs et économique du domaine culturel et touristique a réfléchir sur des scénarios d’utilisation à horizon 2015. De fausses coupures de presse ont été utilisées pour sensibiliser les acteurs et les aider à esquisser des usages. La discussion ne se concentre pas uniquement sur les données ouvertes, mais intègre aussi les données collaboratives et les données privées.

3 – Développer une culture de la donnée

Le troisième type d’animation concerne la diffusion à un public encore plus large d’une culture de la donnée. C’est l’une des conditions (nécessaire mais pas suffisante) de l’appropriation de l’open data par tous. De telles actions peuvent aborder notamment la distinction entre une donnée et une information, mais peuvent aussi encourager à porter un regard critique sur les données, les conditions de leur « collecte » et de leur utilisation. A qui et à quoi sert cette donnée à l’origine ? Pourquoi a-t-elle été ouverte et dans quel but ? Que nous apprend-t-elle ? Qu’est-ce qu’elle ne nous dit pas ?

Il est intéressant pour cela de partir d’exemples et de domaines concrets : les déplacements dans la ville, la vie culturelle, la petite enfance, … Il est tout à fait possible de parler des données sans allumer un ordinateur, comme nous l’avons proposé lors du séminaire consacré aux données de mobilité à la Cantine numérique rennaise.

[Atelier] Comment parler des données ouvertes à des non-développeurs ?

Comment parler des données ouvertes à un public de non-développeurs ? Comment fournir les bases nécessaires pour mieux en saisir les contours, les enjeux et les limites ? Dans le cadre du séminaire Cultures numériques de Sciences Po Rennes, j’ai animé un atelier pratique qui visait à répondre, par l’exemple des données de mobilité,  à ces questions.

Une thématique : la mobilité urbaine

Le marquage au sol

J’ai choisi d’orienter cet atelier sur la thématique de la mobilité urbaine. En effet, ce thème occupe une place à part dans le domaine de l’open data :

  • les données liées à la mobilité et aux transports sont celles qui sont les plus demandées par les réutilisateurs-développeurs (tant en France qu’à l’étranger),
  • ce sont aussi celles qui font le plus souvent l’objet d’une réutilisation sous la forme d’applications mobiles, et ces dernières sont la « vitrine » la plus visible  de l’open data pour un public non-initié (voir notamment la part des applications transport dans les concours open data),
  • les confrontations entre les détenteurs et les réutilisateurs (tant professionnels qu’amateurs) préexistaient à l’open data mais se trouvent largement renforcées par le mouvement d’ouverture des données (les litiges ayant opposés la RATP ou JC Decaux à des développeurs ont alimenté la chronique),
  • enfin, le cadre juridique, technique et institutionnel est particulièrement complexe : les questions de mobilité concernent des acteurs publics multiples (à tous les échelons administratifs) mais aussi des acteurs privés (délégataires de service public ou opérateur privé hors délégation).
Le tableau des départs

Le tableau des départs

La séance réunit une vingtaine d’étudiants de Sciences Po Rennes, de l’Université Rennes 2 et de l’Ecole des Beaux-Arts. Elle débute par une question : « comment peut-on se déplacer aujourd’hui dans une ville comme Rennes ?« .

Les étudiants ont recensé plus d’une vingtaine de modes de transports différents, du métro au vélo individuel en passant par l’auto-partage ou le taxi-vélo. A mon grand étonnement, la voiture individuelle est citée en dernier dans cette liste. Faut-il y voir un signal faible ? Ou plus simplement le fait que posséder un véhicule reste un luxe pour nombre d’étudiants ?

L’information, l’autre carburant de la mobilité

Une information voyageurs

Une information voyageurs

On se pose ensuite la question de toutes les informations dont nous avons besoin pour utiliser un mode de transport, par exemple le bus : le plan du réseau, les horaires, la localisation des points de vente, le mode d’emploi du réseau (tarifs), l’information sur des déviations, des travaux ou des perturbations, … On recense ensuite tous les « lieux », physiques ou numériques, où l’on peut trouver cette information : aux arrêts bien sûr, mais aussi sur le site de l’opérateur du réseau de transport, dans les brochures et les guides papier, par SMS, en utilisant l’une des nombreuses applications mobiles (héritage du concours open data). On peut aussi – et c’est parfois le plus simple – interroger un ami, un membre de la famille, un inconnu ou le chauffeur à un arrêt de bus … L’objectif est ici de montrer que l‘information est aujourd’hui une composante essentielle de la mobilité dans sa diversité.

Les données : de quoi parle-t-on ?

J’introduis alors par un court exposé la différence entre une donnée et une information, une donnée publique et une donnée ouverte, … On évoque aussi les données collaboratives (par exemple les alertes contrôleurs sur Twitter, avatar numérique des appels de phares sur la route). Je propose par ailleurs des éléments de typologie, notamment pour distinguer les données statiques des données dynamiques.

La chasse aux données : la mise en pratique

Dans le kit : une photo du quartier

Dans le kit : une photo du quartier

Chaque groupe de quatre étudiants se voit remettre un kit et des instructions pour partir à la chasse aux données de mobilité dans un rayon de 300 mètres autour de la Cantine numérique rennaise. Le kit contient :

  • une photographie aérienne du quartier, proposée sur le portail open data de Rennes Métropole,
  • des gommettes de couleur, pour identifier chaque mode de transport : vélo/piéton, bus/métro, car/train, voiture, …
  • des instructions pour prendre une photo à l’aide d’un téléphone mobile / smartphone (nota : la plupart des étudiants en sont équipés : pas d’argent pour une voiture, mais du budget pour un téléphone… un autre signal faible ?).

Je n’ai pas choisi le quartier par hasard : il concentre un très grand nombre de modes de transport, les gares routières et ferroviaires, des stations de vélo en libre service, une station de taxis, de voitures en auto-partage, de métro, …

La mise en commun : ce qu’ils ont ramené de la chasse

Dans la gare

Les participants se retrouvent après 45 minutes pour faire une mise en commun de leurs découvertes. Chacun présente sa carte du quartier annotée et un court rapport d’étonnement. Ils ont recensé, localisé et décrit plus de 80 points correspondants à une donnée de mobilité dans le quartier: un panneau de signalisation, un temps d’attente à un arrêt de bus, la localisation d’un ascenseur accessible aux personnes à mobilité réduite, … J’ai reçu plus de 40 photos – qui servent d’ailleurs à illustrer ce billet. L’échange se poursuit autour de quelques questions-clés : qui produit ces données ? à qui et à quoi servent-elles ? sont-elles ouvrables ou peut-être même déjà ouvertes ? que pourrait-on imaginer avec ?

Mettre en lumière la complexité et les enjeux

L'état de fonctionnement de l'ascenseur du métro : une donnée ouverte

L’état de fonctionnement de l’ascenseur du métro : une donnée ouverte

L’exercice aura aussi permis de mettre en lumière quelques curiosités. Par exemple, dans la gare de Rennes il y a deux ascenseurs situés de chaque côté des escalators et séparés à peine de quelques dizaines de mètres. Celui de gauche relie la station de métro, le hall de la gare et l’accès au premier étage (où se situent les guichets et l’accès aux quais). Il est géré par l’exploitant du métro, Keolis Rennes (filiale de la SNCF) et son état de fonctionnement est une donnée ouverte – c’est à dire qu’elle est disponible pour la réutilisation via la plate-forme open data de l’opérateur.

Celui de droite est apparemment géré par Gares & Connexions (une autre filiale de la SNCF) qui ne fournit pas cette même donnée en mode ouvert. Si l’on cherche à développer un service en ligne pour l’accès des personnes à mobilité, la différence est très nette. Cet exemple, relevé par les étudiants, permet d’illustrer concrètement la complexité institutionnelle du sujet.

Une information dynamique

La gare routière, toute proche, révèle elle aussi l’enchevêtrement des acteurs qui produisent, gèrent, détiennent et potentiellement ouvrent des données liées à la mobilité. Les lignes interurbaines sont gérées sous la marque Illenoo (autorité compétente : le département), mais le lieu accueille aussi un service de transport par car de la Région Bretagne, et un service assuré par la SNCF… Le parking tout proche est pour sa part sous la gestion d’Effia.

Le taxi, parent pauvre de la donnée ouverte ?

Le taxi, parent pauvre de la donnée ouverte ?

Les étudiants ont par ailleurs noté qu’il est un service de mobilité qui ne fournit que très peu d’informations à ses usagers : les taxis. En effet à la station toute proche, l’information se réduit à deux numéros de téléphone, … On imagine pourtant que les systèmes de localisation et de dispatch qu’ils utilisent pourraient fournir des informations très précieuses pour les clients potentiels – par exemple le nombre de taxis présent sur la zone à un instant T, une indication de la durée d’attente moyenne, …

On constate que si la majorité des services de mobilité manient et utilisent des données (taxis y compris), peu les ouvrent encore pour en permettre une réutilisation par des tiers.

Une alternative : le crowdsourcing ?

Pour finir, une anecdote. Les étudiants avaient pour mission de prendre des photographies à l’extérieur mais aussi à l’intérieur des gares. Or, en raison du plan Vigipirate il est interdit de prendre de telles vues et l’un des groupes se l’est vu rappeler gentiment mais fermement par les forces de l’ordre en patrouille dans la bâtiment… L’idée d’une collecte par les usagers eux-mêmes (en mode crowdsourcing), comme réponse à la complexité institutionnelle, se heurte donc à de nouveaux obstacles…

Epilogue

Ce séminaire a été l’occasion de tester une version beta de cet atelier. Dans une prochaine édition, et avec plus de temps, nous pourrions imaginer prolonger cette chasse aux données sur des supports numériques, en abondant des services existants (Open Street Map) ou en construisant de nouveaux jeux de données concernant « toute la mobilité du quartier en données ouvertes »… A suivre.

Merci aux participant-e-s à cet atelier, à Christophe Carriou organisateur du séminaire Cultures numériques, ainsi qu’aux « invités spéciaux » Hugues Aubin et Sébastien Dupas (@instantarchi) pour les photographies.