Mais pourquoi contribue-t-on ?

La question des motivations revient dès que l’on évoque les mécanismes de contribution dans l’open data ou les données collaboratives. On a parfois du mal à comprendre pourquoi des individus a priori sains de corps et d’esprit consacrent une partie de leur temps libre à ce type d’activité, qu’il s’agisse de développer une application mobile sans grand espoir de gain, ou de cartographier son quartier pour Open Street Map…

Les processus contributifs et participatifs sont au coeur de l’open data. Dans le concours organisé par Rennes Métropole en 2010, deux tiers des participants étaient des particuliers. Il y avait certes parmi eux quelques apprentis entrepreneurs et quelques rares militants de la cause du logiciel libre et de l’open source, mais plus généralement les motivations n’étaient ni pécuniaires ni politiques. Dès lors, pour sortir de l’image d’Epinal du geek à la vie sociale (entendez : vie sexuelle) limitée, il m’a semblé intéressant de se pencher sur la question : mais, diable, pourquoi contribue-t-on ?

1 – Une approche par les motivations : mais pourquoi contribuez-vous ?

Une recherche sur le sujet à partir de la littérature scientifique (références des travaux universitaires utilisés à la fin de ce billet) m’a permis de recenser quelques ressorts de la motivations des contributeurs.

En résumé, les grandes catégories de motivations sont :

– la réciprocité : « je le fais parce que j’aimerai qu’on le fasse pour moi »
– le sentiment d’utilité : « je le fais parce c’est utile pour moi / pour ma communauté »
– l’appartenance, l’identité, l’affiliation : « je le fais parce que je crois aux valeurs du projet / ça me ressemble / ça me constitue / en opposition à quelque chose »
– le jeu et l’apprentissage : « je le fais parce que c’est amusant / parce que j’apprends des choses »
– la recherche du gain (direct ou indirect) : « je le fais parce que je vais y gagner quelque chose, plus ou moins directement »
– la réputation : « ce que je fais contribue aussi à ma réputation sur le sujet »
– le sentiment de communauté : « avec QUI je partage est aussi important que CE QUE je partage »

Bien entendu ces motivations sont aussi à mettre en relation avec deux autres facteurs :

– la dimension sociale : avec qui je partage ma contribution : des gens que je connais ou j’apprécie, des proches, des inconnus, tout le monde, …
– et enfin la dimension temporelle : dans quelle situation je me trouve à ce moment-là. Je peux être contributeur à un moment donné et pas du tout à un autre moment, sur le même sujet.

2 – Ni Mère Theresa, ni Rockfeller : des pratiques et des niveaux d’engagements variés

Les entretiens que j’ai pu mener auprès des développeurs qui participent à l’open data font bien apparaître une grande variété dans les motivations, ni totalement altruistes, ni totalement orientées vers la recherche d’un profit immédiat. Le jeu, l’apprentissage, la recherche de la notoriété (gagner le concours, ce n’est pas seulement toucher un chèque), la compétition aussi (faire mieux que le voisin) sont des motivations courantes.

J’ai aussi noté que, pour nombre de développeurs locaux, le fait que le concours se passe dans leur ville de résidence (ou de travail) n’était pas anodin. Les sentiments d’appartenance, d’utilité et de communauté se combinent : je développe une application utile pour les habitants de ma ville… parce que j’y habite aussi. D’après l’enquête menée par Socrata aux Etats-Unis, le sentiment d’utilité était l’une des toutes premières motivations citées par les réutilisateurs.

Message donc à ceux qui voient en eux de doux rêveurs qui se font gentiment exploiter : la plupart des réutilisateurs sont bien conscients que la fortune n’est pas au bout de l’App Store…

3 – Ne pas sous estimer le facteur d’opposition

Il est un facteur que j’ai souvent vu à l’oeuvre, de manière plus ou moins explicite dans la production de données collaboratives : l’opposition. Se donner un ennemi commun c’est un bon moyen de se fédérer (c’est aussi valable dans d’autres domaines : j’en tiens pour preuve le « tout sauf Sarkozy » ou le « tout sauf Ségolène » en 2007).

Open Street Map est souvent cité comme le meilleur exemple des processus contributifs, au même titre que Wikipédia. Au-delà de leur engagement pour une connaissance plus libre, il y a aussi bien sûr une part d’opposition à un ordre établi. Pour OSM, il me semble clair que l’opposition à Google – et à l’IGN – a pu (peut encore ?) jouer un rôle de motivation pour certains contributeurs, comme en témoignent les débats pour l’adoption de la licence ODbL.

La contribution ne se limite pas à Open Street Map ou à Wikipédia, on la retrouve parfois dans des actes en apparence plus anodins ou moins engageants. Ainsi, j’ai étudié l’an dernier l’émergence de comptes Twitter d’alertes contrôleurs dans les principaux réseaux de transport urbain de France. Ces comptes, créés et alimentés par des particuliers fournissent une information précieuse : la localisation des contrôles en cours dans le métro, le tram ou les bus. J’ai été frappé par le profil de la plupart des contributeurs et organisateurs de ces comptes : soit ils ne sont pas utilisateurs du réseau de transport, soit ils l’utilisent mais sont abonnés. En clair : ils ne sont pas a priori les destinataires du service et n’ont pas d’intérêt personnel à la fraude !

Il y a clairement dans cette pratique une part de jeu, mais aussi d’appartenance et d’opposition à un « ennemi » commun : l’exploitant du réseau de transport (« fuck la RATP !« ). Je me suis enfin souvenu que, sur la route des vacances, mon père pratiquait l’appel de phares entre conducteurs, une pratique non recommandable dont l’alerte contrôleurs pourrait être le pendant numérique. Pourquoi faisait-il celà ? Bien sûr pour la réciprocité attendue (« je le fais parce que j’aimerai que l’on fasse pour moi), le jeu, l’appartenance à la communauté des conducteurs qui ont déjà payé une amende pour excès de vitesse, mais aussi bien sûr par opposition au gendarme. Précisons enfin pour conclure que le père de ma mère était gendarme. Donc, si mon propre père faisait des appels de phare, c’était sans doute aussi un peu pour emmerder ma mère. Une motivation bien réelle mais qui dépasse largement le cadre de ce billet 😉

— Quelques lectures scientifiques que je vous conseille si le sujet vous intéresse :

«Mere Belonging» Gregory Walton et alii., Journal of Personality and Social psychology 2012 et «Motivation, reward size and contribution in idea crowdsourcing»,  Oguz Ali Acar, paper to be presented at DIME Conference 2011, Denmark

Monétiser les données du transport public… chiche ?

Le groupement des autorités responsables des transports (GART) vient de prendre publiquement position en faveur de l’instauration d’une redevance liée à l’usage commercial des données du transport public.Le sujet est loin d’être anodin pour l’open data Comment concilier innovation et contribution, sans jeter le bébé avec l’eau du bain ?

1 – « Une utilisation à des fins commerciales qui pose question »

Le communiqué du GART fait mention dès les premières lignes du mouvement d’ouverture des données (open data) qui « vise avant tout l’émergence de services innovants et le développement d’initiatives locales » (souligné par mes soins). Mais les données ainsi ouvertes intéressent aussi « tout particulièrement les opérateurs de transport, les géants du web (moteurs de recherche tels que Google, sites web ou acteurs de l’industrie informatique comme Apple) qui monétisent ces informations via l’intermédiaire de la publicité« . Le texte indique par ailleurs que l’utilisation à des fins commerciales de ces données pose question, eu égard au financement de leur production par les autorités organisatrices des transports.

Il y a beaucoup d’idées dans les quelques lignes de ce communiqué, je vais essayer de les clarifier en les étudiant une par une.

Premier élément : l’open data, cela sert à faire émerger des initiatives locales (comprendre : des petites choses bien sympathiques par de gentils contributeurs locaux). Second point : attention les données intéressent aussi des grands acteurs du numérique (Google, Apple) et « des opérateurs de transport » (par exemple la SNCF qui pourrait intégrer dans ses services web des données issues des AOT ?). Troisième point : c’est choquant que ces données fassent l’objet d’une réutilisation commerciale alors que les ré-utilisateurs ne contribuent pas à leur financement.

On retrouve, dans ce troisième point, l’écho des discussions houleuses en cours entre Google et une partie des éditeurs de presse sur le partage des revenus publicitaires liés au service Google Actualités.

Là où le bât blesse me semble-t-il c’est que les données des transports dont nous parlons ici sont juridiquement des données publiques. La commission d’accès aux documents administratifs, dont l’avis avait été sollicité par l’AFIMB l’avait bien confirmé pour les données des horaires théoriques par exemple. Le législateur européen (directive de 2007) a introduit un principe de non-discrimination selon l’usage commercial ou non-commercial des données publiques.

En résumé : si les données du transport public sont des données publiques (à la CADA de le préciser), on ne peut pas justifier l’instauration d’une redevance uniquement par le fait que la réutilisation génère des revenus commerciaux (notamment via la publicité). Dura lex sed lex

Reste l’argument moral : pourquoi laisser des tiers (hormis peut-être les gentils développeurs locaux déjà mentionnés) faire de l’argent sans leur demander de contribuer au bon fonctionnement du système ? Cette question-là me semble beaucoup plus intéressante !

2 – Google, le passager clandestin de l’information transport 

Il n’y point de hasard dans le fait que le communiqué du GART désigne Google parmi les « passagers clandestins » de l’information transport. J’ai déjà eu l’occasion dans mon ouvrage (Open Data, comprendre l’ouverture des données publiques) d’expliquer le rôle de Google dans le domaine de l’information voyageur.

Le géant américain intervient à plusieurs niveaux de la chaîne. Il a porté sur les fonds baptismaux le format d’échange de données GTFS (General Transit Feed Specifications dont le G signifiait initialement Google) aujourd’hui largement utilisé dans les initiatives d’ouverture des données transport. Son service Google Transit propose du calcul d’itinéraires sur le web et les smartphones. Enfin, il ne faut pas être devin pour imaginer qu’à terme Google puisse intervenir lui aussi sur le marché des transports, par exemple en vendant directement des titres de transport via Google Wallet.

Plus généralement, il y a je pense une grande méfiance de la part du secteur des transports vis-à-vis de Google, méfiance partagée tant par les financeurs que par les exploitants. La tribune publiée à la rentrée par le P-DG de la SNCF évoquait la « dangereuse hégémonie des géants du Net et de leurs services commerciaux« .

Risquons ici une opinion personnelle : je pense que l’on tolère d’autant plus mal les « passagers clandestins » du numérique que Google, Apple et autres multinationales du numérique pratiquent une « optimisation fiscale » (un terme politiquement correct pour désigner les stratégies légales pour réduire l’impôt) qui commence à choquer, et pas seulement dans l’Hexagone (voir à ce propos les enquêtes détaillées et édifiantes de BFMTV et de Bloomberg, deux sources pourtant très business-friendly). En ces temps de disette des finances publiques, on comprend aisément que de telles pratiques puissent irriter…

Il y a donc une vraie question posée à ces entreprises mais pour autant il me semble que la position du GART risque, en voulant les cibler, de pénaliser une dynamique encore naissante en France autour de la réutilisation des données transports, dynamique qui n’est pas uniquement portée par des géants du Net.

3 – Des services utiles… pour qui ?

Prenons les quelques agglomérations qui ont ouvert leurs données transport en France. Pour Rennes ou Nantes par exemple, combien d’applications développées par des développeurs tiers pour une application officielle ? A qui servent ces applications ? A ceux qui les utilisent bien sûr, mais pas uniquement me semble-t-il.

De tels services d’infomobilité renforcent l’attractivité du transport public, et c’est bien un objectif partagé par les autorités responsables des transports. Combien de collectivités auront l’envie, les moyens et la créativité de développer un service de calculateurs d’itinéraires pour personnes à mobilité réduite à l’instar d’Handimap ? Combien d’autorités organisatrices des transports sont organisées pour développer des applications mobiles pour un nombre croissant de plateformes ? Dès lors, la position du GART suscite au moins trois interrogations :

– Pourquoi prendre le risque, en voulant cibler les « passagers clandestins » de décourager l’émergence de nouveaux services par de nouveaux entrants ?

– Pourquoi vouloir limiter l’open data à des initiatives locales non-marchandes et ne pas encourager les économies d’échelles pourtant bien nécessaires pour assurer la pérennité de ces services ?

– Pourquoi demander au gouvernement un projet de taxe sur l’usage commercial des données transport plutôt que la mise en place d’un référentiel commun d’ouverture de ces données, valable partout sur notre territoire ?

4 – Des pistes pour concilier innovation et contribution … et ne pas jeter le bébé avec l’eau du bain

Comment dès lors concilier la possibilité d’innover avec la contribution au financement du système ? Des solutions existent et elles dépassent largement l’idée d’une redevance telle que la propose le GART.

Première piste : si la cible c’est Google, alors ouvrons les données transport en privilégiant une licence OdBL ! Le moteur de recherche n’aime pas beaucoup les obligations liées à cette licence – et c’est d’ailleurs l’une des raisons de son adoption par Open Street Map (mémo : regardez aussi la licence utilisée par la SNCF).

Deuxième piste : une tarification à l’usage sans barrière à l’entrée. On peut imaginer que, pour couvrir les frais de mise à disposition des données temps réel via des API, on mette en place une tarification double : gratuite jusqu’à X requêtes (par jour, par minute, …) puis payante pour les utilisateurs les plus gourmands. C’est d’ailleurs exactement le modèle mis en place par Google lui-même pour son service Google Maps !

Troisième piste : distinguer l’usage des données et l’usage des éléments de marque. Plusieurs réseaux de transport publics étrangers, et notamment le MTA (New-York) et TfL (Transport for London) font contribuer les ré-utilisateurs non pas sur la donnée mais sur l’usage des éléments de marque : le logo du réseau, les codes graphiques, le nom, … New-York par exemple demande aux développeurs qui souhaitent les utiliser de signer un contrat et de payer des royalties en cas d’usage commercial. En clair, si l’application est gratuite (ce qui n’interdit pas la pub !) et que le développeur ne veut pas mettre le logo du réseau dans ses écrans, il ne paie rien à personne. Et son service présente un bénéfice pour tous, autorité organisatrice incluse !

[Vidéo] L’open data des entreprises à la Cité de la Réussite

En passant

J’ai participé dimanche 21 octobre à une table-ronde organisée à la Sorbonne dans le cadre de la Cité de la Réussite qui a réuni 150 intervenants sur le thème du partage. La table ronde « Les enjeux de l’open data pour les entreprises » était animé par Martin Duval (Bluenove), avec la participation de Patrick Ropert (SNCF), Margaux Pelen (Home’n’Go), Cyrille Vincey (QunB) et moi-même. Cet évènement est à revoir en ligne (le débat commence à 3’30…).

De retour de Bordeaux

En passant

J’étais hier à Bordeaux pour y parler Open Data à l’invitation de la Coopérative métropolitaine. A cette occasion, je vous invite à lire l’interview réalisée par l’AEC (Aquitaine Europe Communication) sur le thème de l’appropriation des données. Ma présentation a donné lieu à un article de Cap Sciences « L’open data est une clé à molette » (la photo est sympa et en plus, je viens juste de changer de lunettes).

« S’il te plaît… dessine-moi l’open data »

Comment représenter et illustrer l’ouverture des données ? Quelles sont les métaphores graphiques les plus courantes pour représenter le mouvement open data ? Ce billet propose sans prétention aucune un premier recensement des figures imposées des données ouvertes, de la plus simple à la plus complexe…

(image par loop_oh sur Flickr)

« S’il te plaît … dessine-moi l’open data » : la demande revient souvent de la part de journalistes à la recherche d’illustrations sur les données ouvertes. Pas évident en effet de représenter l’open data : les mêmes métaphores reviennent très souvent pour illustrer les articles (un exemple ci-contre).

Cette approche par les représentations graphiques est un bon moyen de rentrer dans un univers et d’en saisir quelques facettes. En termes savants, cela s’appelle une recherche iconographique, mais plus prosaïquement on peut commencer par une recherche à l’aide de Google Images. Faîtes l’expérience avec le terme « ville intelligente » et vous verrez rapidement le mode de représentation dominant : des villes toujours verticales, souvent futuristes (les représentations en 3D et les vues d’artistes dominent) et dans tous les cas des villes où la place de l’humain est réduite. Bref, une vision de la ville intelligente tout droit sortie des récits de science-fiction… Qu’en est-il pour l’open data ? J’ai cherché les métaphores les plus courantes, à partir de Google Images mais aussi en regardant les comptes Flickr des organisations qui font la promotion du mouvement d’ouverture des données (Open Knowledge Foundation, Sunlight Foundation, Libertic).

1 – La métaphore du petit commerce : « entrez, c’est ouvert »

(source : OKFN)

Première métaphore rencontrée, celle du panneau annonçant que le commerce est ouvert. On reste dans une approche très simple (ouvert / open) et je ne crois pas qu’il faille y voir une allusion au potentiel économique et commercial de l’open data – ou alors sous une forme très très subliminale… L’image renvoie aussi immédiatement aux pays anglo-saxons. Peut-on d’ailleurs vraiment parler de métaphore dans ce cas ?

Dans le même ordre d’idée que cette image, on peut aussi citer la célèbre photo des stickers « Open Data » en bleu et blanc. Pas vraiment de signifiant profond, mais plutôt le révélateur d’un manque d’imagination … ou d’un manque de budget pour payer des illustrations !

2 – La métaphore de la clé à molette : la figure du hacker

Un grand classique de l’open data. Initialement développée par l’Open Knowledge Foundation (OKFN), reprise et adaptée, notamment en France par Libertic, l’idée de la clé à molette est déjà plus intéressante que celle du commerce. Elle renvoie à l’imaginaire du bricoleur, de la bidouille, bref du « hacker » dans sa définition première.

(source : OKFN)

La clé à molette, c’est un outil dans la mallette de celui qui intervient pour réparer quelque chose (la démocratie ?). En plus, la clé à molette permet d’ouvrir et donc de débloquer ce qui coince… a priori c’est une image positive et qui colle bien à l’idéal d’ouverture. Soit dit en passant, vous aurez remarqué que l’outil peut aussi servir à serrer et à fermer (en tous cas, je l’ai bien noté dimanche dernier en réglant la selle du vélo de mon fils). Intéressant double-sens donc que la métaphore de l’open data puisse aussi servir à « serrer la vis » 😉

3 – La métaphore du cadenas ouvert : la libération et le trésor

Troisième métaphore identifiée, celle du cadenas. On la retrouve sous plusieurs formes, plus ou moins complexes, certaines avec des 0 et des 1 en toile de fond (les données numériques). Le cadenas est déjà ouvert sur toutes les représentations que j’ai pu identifier. Il a dû servir à protéger un trésor (les données publiques ?), un coffre ou une mallette. On reste bien évidemment dans l’idée de la « libération » des données que jusqu’ici les détenteurs gardaient jalousement à l’abri des regards et des réutilisateurs. Curieusement je n’ai identité que quelques rares images avec des menottes : la donnée n’est donc pas personnifiée (ce qui pourtant aurait fait une bonne métaphore de la libération, non ?).

4 – La métaphore du bâtiment ouvert : l’open gouvernement

(source : Libertic)

Cette quatrième métaphore a été repérée par Samuel Goeta dans son mémoire du CELSA « Open Data : qu’ouvre-t-on avec les données publiques ? » (page 24, mais plus globalement je vous en conseille chaudement la lecture). On y voit un bâtiment symbolisant le pouvoir (le Capitole) dont la toiture s’ouvre sous l’effet de l’open data.

Samuel fait remonter son origine au premier concours AppsForDemocracy organisé à Washington D.C. en 2007. L’image a depuis été reprise et adaptée partout dans le monde. Sa dernière résurgence est nantaise. La métaphore est intéressante : ouvrir les données c’est ouvrir le toit du lieu où se prennent les décisions politiques. L’image résume la transparence, l’approche du gouvernement ouvert (open government), le regard public (public scrutiny).

5 – Et plein de combinaisons possibles

(source : Sunlight Foundation)

On peut bien sûr combiner ces différentes métaphores, avec plus ou moins de bonheur. Le logo de l’évènement « Transparency Camp » organisé dès 2009 par la Sunlight Foundation propose ainsi un remix intéressant des métaphores du cadenas et du bâtiment ouvert. La combinaison a toutefois un inconvénient : elle devient parfois difficile à comprendre pour celui qui la visualise…

Je suis sûr que vous aurez pu identifier d’autres figures classiques de la représentation de l’open data… Partagez-les dans les commentaires de ce billet !

L’open data et le grand public : on n’attrape pas les mouches avec du vinaigre

La question de l’appropriation des données ouvertes est, avec celle du potentiel économique, l’un des sujets chauds de l’open data. Ayant eu l’opportunité de tester plusieurs formats d’animation et de sensibilisation au cours des derniers mois, je vous propose un billet sous forme de retour d’expérience. Vos commentaires, idées et réactions sont les bienvenus !

1 – Pour le grand public, le problème dans « open data » c’est d’abord la « data »

L’infolab « données de mobilité »
(photo Ville de Rennes)

J’avais fait cette remarque à l’occasion de la Semaine européenne de l’open data qui s’est tenue à Nantes avant l’été; pour les entreprises, le problème de l’open data c’est plutôt le côté « open« , mais pour le grand public c’est d’abord l’objet « donnée » qui constitue une difficulté.

Les data sont partout autour de nous, elles sont indispensables au bon fonctionnement des services de notre quotidien (de la crèche aux transports), mais pourtant cet objet reste largement méconnu. J’ai développé dans un précédent billet les différents formats d’animation de l’open data, en particulier en fonction des cibles visées; les ateliers dont je fais mention ici visent à développer une culture de la donnée au sens large (et pas uniquement de la donnée ouverte).

2 – D’abord, partir d’une thématique (et surtout pas de l’open data)

Le proverbe dit que l’on n’attrape pas les mouches avec le vinaigre. Je trouve, toutes comparaisons malveillantes mises à part, qu’il s’adapte bien à la question de l’appropriation de l’open data par le grand public.

Faîtes l’expérience : proposez à vos amis de participer à une séance de sensibilisation aux données ouvertes. Qu’allez-vous entendre ? L’anti-geek : « oh, tu sais moi je suis pas trop branché par les trucs informatiques, cela ne m’intéresse pas trop« , l’apprenti geek : « ah oui bonne idée, justement j’avais des problèmes avec Open Office… tu me parles bien de cela, non ?« , la père divorcé : « Ah oui, cela aurait été avec plaisir mais à cette heure-là j’ai kiné/piscine/les enfants à aller chercher à l’école, parce que tu connais mon ex, hein…« .

Je caricature un peu mais vous avez compris le message : l’open data pour l’open data, cela n’attire pas les foules ! L’une des pistes, pour sensibiliser à la culture de la donnée, est de partir d’un thème auquel chacun puisse facilement s’identifier. On n’invite pas à « découvrir l’open data » mais à parler du jardin botanique, des déplacements en vélo dans la ville, ou encore des prénoms. Le thème n’est pas qu’un « hameçon« : je l’ai choisi parce qu’il correspond à chaque fois à des jeux de données déjà ouverts… Ce n’est pas seulement un prétexte, c’est une opportunité pour parler des données, à travers des exemples concrets et accessibles.

3 – Les médiations

Les trois ateliers que j’ai eu le plaisir d’animer à Rennes durant l’évènement Viva-Cités auront permis de tester plusieurs formes de médiation. Le format est de type infolab éphémère : un lieu, un temps déterminé, une méthodologie d’animation pour « faire des trucs » avec l’open data.

Ces trois ateliers, bien qu’ayant des approches très différentes, ont des points communs : aucun participant n’avait à manipuler un ordinateur. On a utilisé des photographies, des plans, des crayons de couleur, des gommettes, … Tout pourvu que l’on n’ait pas besoin d’informatique ! Tous les ateliers ont commencé par des mises en situation, afin que chaque participant puisse faire sien le sujet que nous allions aborder.

Trois exemples de question que j’ai posé en introduction : « Pourriez-vous me dessiner votre parcours-type lorsque vous allez au Jardin du Thabor ?« , « Comment peut-on se déplacer aujourd’hui à Rennes ?« , « Quels sont les prénoms qui figurent sur vos papiers d’identité ?« …

Cette introduction a souvent permis de briser la glace entre les participants qui ne se connaissaient pas avant l’atelier. Elle a surtout permis d’éviter le tour de table des présentations un peu formelles. En effet, j’avais invité sur chacun des ateliers un représentant des services de la Ville en relation avec le jeu de donnée qui nous intéressait… et je ne souhaitais qu’ils se placent, ou soient placés par les autres, « hors du groupe« .

Nous avons ensuite utilisé des méthodes et des supports d’animation très différents pour chaque atelier. Pour celui concernant le Jardin du Thabor, j’ai distribué une cinquantaine de tirages de photographies que j’avais réalisé. Nous avons décrit chaque photo puis placé sur le plan du jardin ces différents « points d’intérêts » (les arbres, les statues, les toilettes, les entrées et sorties du parc…).

L’atelier sur les déplacements s’est déroulé sous le mode d’une chasse aux données. Chaque groupe est parti équipé d’un kit comprenant une photo aérienne du quartier, des gommettes de couleur et des instructions pour prendre des photos sur le mode « rapport d’étonnement ». Enfin, pour le dernier atelier j’avais imprimé sur des grandes feuilles A3 la liste des prénoms les plus populaires (toujours dans l’idée de ne pas avoir à utiliser un tableur Excel…).

4 – Au programme de ces infolabs

Chaque atelier aura permis d’aborder une ou plusieurs facettes des données ouvertes.

L’infolab « Thabor » a montré la richesse et la diversité des sources de données (publiques avec le portail open data de la Ville, mais aussi collaboratives avec la carte Open Street Map). Nous avons insisté sur la possibilité de mixer deux sources de données pour donner naissance à une troisième (à l’instar de la carte des arbres allergènes du parc, réalisée à partir du mix entre la localisation et l’espèce des arbres et la liste des espèces allergènes publiée sur le site de l’ADEME).

L’infolab « données de mobilité » était une invitation à ouvrir l’oeil (et le bon !) pour découvrir les données, signes et informations pertinentes pour se déplacer dans un quartier. Nous avons pu faire le lien entre un objet concret (un ascenseur), la donnée ouverte le concernant (l’état de fonctionnement interrogeable sous la forme d’API) et surtout sa réutilisation possible. J’avais déjà proposé cet atelier à Rennes, Nantes et Marseille et pourtant je continue encore à découvrir de nouvelles choses en observant les participants : par exemple le fait que la majorité des signes s’adressant aux piétons sont des injonctions négatives : « attention travaux, traversée obligatoire pour les piétons », « zone interdite aux piétons », « le petit bonhomme est rouge, on ne passe pas », …

Infolab prénoms
(photo Franck Hamon / Ville de Rennes)

L’infolab « prénoms » aura surtout mis l’accent sur la lecture critique des données (où naît-on vraiment ? comment le fichier est-il constitué ? pour quel usage initial ?). Nous avons aussi pu voir concrètement que chaque visualisation est l’objet d’une intention (ce que l’on veut montrer) et que la manière dont les données sont mises à disposition a un impact sur les réutilisations possibles…

Bref, nous avons essayé de poser les bases d’un programme pédagogique (lire / écrire / compter) pour des  infolabs « culture de la donnée ». C’est bien, maismais… j’entends déjà la question qui se murmure dans le milieu de l’open data :

5 – … à quoi cela sert tout cela ?

La première critique concerne le type de donnée auquel je me suis intéressé. La seconde à l‘ambition qui est poursuivie.

« Les données sur les arbres, ça sert à rien, ce qu’il faut ce sont des **vraies** données sur la transparence des budgets » : ainsi s’exprimait l’ancien président du Conseil national du numérique. J’ai déjà entendu ce point de vue : il y aurait des données « bonnes à ouvrir » et puis les autres, le jugement dépendant bien sûr de celui qui l’exprime. « Il nous faut des données **utiles** » a précisé un intervenant britannique lors de la dernière conférence parisienne sur le sujet. Qu’est-ce qu’une donnée utile ? Celle avec laquelle on peut faire des applications mobiles ? Des applications mobiles rentables ? Celle qui nous sert à appuyer la thèse que l’on défend ? Celle qui est populaire ? …

Bien sûr, il faut des données sur la transparence budgétaire ! D’ailleurs, certaines collectivités qui proposent la localisation des arbres (ou les prénoms populaires) proposent aussi ce type de jeu de données. Est-ce qu’il faut encourager les acteurs publics à ne publier que des données sur les prénoms ? Non ! Est-ce qu’il faut clouer au pilori celles qui publient aussi ce genre de données ? Non, non plus !

La seconde critique tient à l’ambition que l’on se fixe : est-ce que je crois sérieusement qu’un atelier sur les prénoms va répondre à la promesse de capacitation citoyenne et de renforcement démocratique de l’open data ?

Mon ambition n’était pas celle-là, il s’agissait juste d’essayer de transmettre deux ou trois idées sur les données ouvertes et leur intérêt (et malheureusement, cela aurait été plus difficile à faire avec les données budgétaires). Je suis convaincu que nous avons besoin de multiplier les formes d’animation autour du sujet, que ce soit vers les associations, les entreprises ou le grand public.

Infolab#3 De la mode et des prénoms

Poursuite du retour sur les 3 ateliers de découverte des données ouvertes organisés à l’occasion de Viva-Cités. Le premier atelier avait pour thème le Jardin du Thabor, le second les données de mobilité (le récit d’une participante est à lire sur le Mag de la Cantine numérique rennaise). Ce troisième et dernier infolab était consacré aux prénoms, une donnée ouverte à Rennes et ailleurs.

L’infolab prénoms
(photo Franck Hamon / Ville de Rennes)

Faut-il y voir un effet du thème proposé pour cet infolab ? Les participants à cet atelier étaient exclusivement des participantes. Nous avons commencé par décliner nos prénoms, pas uniquement le premier prénom (ou le prénom usuel) mais l’ensemble de ceux qui figurent sur nos papiers.  On constate déjà un effet de génération : la mode est plutôt à donner deux prénoms, plus rarement trois ou plus. J’avais déjà eu l’occasion de m’intéresser à cette question des prénoms en open data (notamment avec Loïc Hay lors du dernier Forum des Usages Coopératifs de l’Internet). L’objet « prénom » est relativement facile à comprendre (contrairement à d’autres jeux de données plus techniques) et les données sont disponibles sur plusieurs territoires (facilitant les comparaisons d’une ville à l’autre). Enfin, le fichier des prénoms est l’un des fichiers les plus téléchargés sur les portails open data des collectivités. Un objet populaire, facile à comprendre et disponible : que demander de plus pour sensibiliser le grand public aux données ouvertes ?

Qu’il y a t-il dans un prénom ?

La première partie est consacrée à une étude de l’objet « prénom ». J’ai préparé quelques documents pour nous y aider. Une partie est issue de l’ouvrage « Sociologie des prénoms » du sociologue Baptiste Coulmont (Editions La Découverte). Nous échangeons ainsi sur ses travaux sur les réussites au bac en fonction des prénoms des candidats – l’occasion de faire la distinction entre corrélation et causalité :  malheureusement appeler votre fille Hortense n’est pas la garantie qu’elle obtienne une mention très bien au bac !

Le « stock » de prénoms grandit chaque année
(source : revue Octant Insee Bretagne, 2004)

L’autre source que nous consultons est une étude publiée par l’INSEE Bretagne sur les prénoms (revue Octant, 2004). On y trouve notamment des éléments intéressants sur la progression du « stock » de prénoms utilisés : « de1946 à 1970, moins de 40 prénoms suffisaient à nommer la moitié des enfants nés en Bretagne, en 2002 il en faut 109« .

La mode qui cache la forêt : choisir un prénom original, c’est très banal

J’invite ensuite les participantes à prendre connaissance des données proposées sur les portails open data de Rennes et de Nantes. Le fichier (que j’ai retravaillé) mentionne les occurrences pour chaque prénom, ainsi que le nombre total de naissances réparties par sexe. Ainsi, en 2011 les prénoms les plus populaires pour les filles sont Manon, Louise et Chloé (respectivement 57, 55 et 50 occurrences à Rennes). Ce résultat ne surprend personne : a priori ce sont des prénoms que l’on dit « à la mode ».

Cette même année 2011, ce sont pourtant près de 3546 filles qui sont nées sur le territoire rennais. Manon, notre « top », représente à peine 1,6 % des prénoms donnés. Dit autrement: en moyenne il naît à Rennes une fille toutes les deux heures et demi… mais le prénom Manon n’est donné (toujours en moyenne) qu’une fois par semaine !

Il y a largement de quoi relativiser l’impact de la mode des prénoms… Ce qu’une sage-femme pourrait d’ailleurs nous confirmer : la norme dans les maternités ce ne sont pas les Léa, Emma ou Malo mais plutôt les prénoms originaux avec, parfois, des variations orthographiques (Sarah / Sara, Ryan / Rayan, Mathis / Mathys).

Le fichier que nous étudions ne comporte pas les prénoms donnés moins de 6 fois au cours de l’année. La responsable du service en charge de l’état-civil de la Mairie de Rennes nous apprend ce qui ne figure pas dans notre jeu de données : près d’un quart des prénoms donnés chaque année dans la ville sont uniques ! Unique car ils n’ont été donné qu’une fois, mais aussi unique dans la mesure où souvent ces enfants n’ont qu’un seul prénom. Il est vrai qu’avec un prénom très original, nul besoin d’en avoir un deuxième pour éviter l’homonymie…

Que veut-on raconter avec ces données ?

La dernière partie de notre atelier est consacré à une réflexion sur les réutilisations possibles des jeux de données prénoms de Rennes et Nantes. On pourrait tout d’abord imaginer de comparer les prénoms les plus populaires dans les deux métropoles (Top 50). En pratique, on voit qu’il y a relativement peu de différences entre rennais et nantais.

La discussion s’engage ensuite sur l’objectif que nous pourrions fixer à des visualisations (représentations graphiques) de nos données. Veut-on mettre en avant la chronologie (pour montrer les prénoms qui montent ou descendent année après année dans chaque ville) ? Ou encore mettre en lumière la diversité des prénoms (au besoin en recalculant l’indicateur fourni par l’INSEE au niveau national, à savoir le nombre de prénoms nécessaires pour nommer la moitié des naissances) ?

Souhaite-t-on aider les parents à choisir le prénom le plus original possible (en leur garantissant que ce prénom n’a pas été donné à Rennes au cours des 3 dernières années) ? Ou a contrario leur montrer que même s’ils nomment leur garçon Arthur, la probabilité qu’ils soient plusieurs à porter ce prénom dans sa classe de maternelle est finalement assez faible ?

Au final, on voit bien qu’en matière de réutilisation des données, l’intention aussi est importante : à partir d’un même jeu de données, on peut raconter mille histoires.

Infolab#1 : des données pour mettre en valeur le jardin du Thabor

Dans le cadre de Viva-Cités, j’anime du 2 au 7 octobre trois ateliers de découverte des données ouvertes à Rennes. Retour sur le premier infolab, consacré au Jardin du Thabor, une institution rennaise et un lieu de promenade pour les habitants et les visiteurs de la capitale bretonne… 

« Et vous, que venez-vous faire au Thabor ? » Les participants à ce 1er infolab organisé sur le Village numérique de Viva-Cités sont accueillis par une question. Chacun est invité à tracer son parcours au sein du parc puis à le décrire à ses voisins de table.

La volière, la roseraie, le jardin à la française, l’orangerie : quelques incontournables d’une promenade au Thabor se dégagent assez vite des échanges. On distingue aussi des parcours différents selon le contexte : en famille avec des enfants en bas âge on privilégie les jeux pour enfants, le bassin aux poissons rouges (au centre de la roseraie), voire un tour de manège… D’autres viennent au Thabor pour profiter des rayons du soleil, seul ou avec des amis : sur les pelouses autorisés (!) ou dans les chaises longues du jardin à la française. Les passionnés de botanique eux se tiennent au courant des dates de floraison de la roseraie, une période-clé pour leur visite. Au final, on voit bien qu’il y a beaucoup de manières de visiter le Thabor … et que les attentes en matière d’information sont elles aussi très variées.

Repérer les « points d’intérêts » du Thabor

Nous listons collectivement toutes les informations dont nous pourrions avoir besoin pour préparer une visite au Thabor. Spontanément, les participants citent la météo comme la principale information utile avant toute promenade ! Les horaires, le plan du parc, les évènements en cours viennent ensuite. Les habitués du parc évoquent l’idée d’une information du type « Quoi de neuf au Thabor ? » qui regroupe des informations dynamiques de nature très diverses : les expositions à l’orangerie, les concerts organisés dans le kiosque à musique, mais aussi les floraisons ou les travaux en cours.

Je distribue une cinquantaine de photographies prises dans le parc. Chacune représente un « point d’intérêt » que nous reportons ensuite sur une grande carte papier. On trace une croix pour les équipements (toilettes publiques, bancs, …), les entrées du parc (et leur accessibilité pour les personnes à mobilité réduite), les statues (nombreuses dans le parc, elles peuvent constituer un but de visite), les arbres remarquables, les « incontournables » déjà cités ci-dessus et les éléments à découvrir (les ruches du Thabor !).

Une matière première à enrichir et remixer 

Le portail open data de Rennes Métropole propose plusieurs jeux de données en rapport avec le Jardin du Thabor : la localisation des massifs et des arbres, les principaux équipements, les horaires d’ouverture. Nous nous intéressons plus particulièrement à celui qui recense les arbres du parc et précise pour chacun sa localisation et son espèce. Dans le cadre du concours open data, deux développeurs ont imaginé une application mobile Android « Promenade au Thabor« . Les participants à cet infolab ne sont pas tous capables de faire de la programmation informatique, quels usages peuvent-ils faire de ces données ?

Le fichier qui nous intéresse est géré par la direction des Jardins de la ville de Rennes, et est issu du système d’information géographique (SIG). Il est donc normal que sa présentation mettent en avant des données de type géographiques, cependant il faut faire un effort pour imaginer d’autres usages que la production de cartes. On peut par exemple faire un inventaire du Thabor sous la forme d’un quizz : quelle est l’espèce la plus courante dans le parc ? combien y-a-t-il d’arbres dans le parc (réponse : près de 1200) ? quel agrume peut-on trouver au Thabor (réponse : des citrons !) ?

J’invite ensuite les participants à imaginer des croisements de données à partir de plusieurs sources. Le site web de la Maison de la consommation et de l’environnement (MCE) propose par exemple un recensement des arbres remarquables de Bretagne, dont une vingtaine pour le Thabor. Nous pourrions croiser le fichier des arbres avec ces informations complémentaires : l’âge, la hauteur, l’envergure… voire intégrer les photographies (proposées sous licence Creative Commons). Autres sources de données à croiser : les bases cartographiques d’Open Street Map et notamment la localisation des escaliers présents dans le parc.

Nous imaginons ensuite une carte pour localiser les principaux arbres allergènes du Thabor, en combinant la donnée sur l’espèce de chaque arbre et la liste des espèces les plus allergènes publiée sur le site de l’ADEME

Des données pour informer, aider et mettre en valeur

L’introduction de l’atelier avait permis de mettre en lumière la très grande diversité des attentes en matière d’information des visiteurs du Thabor.

Le contexte (une visite en solo, avec des amis, des enfants), le but de la visite (pour flâner, pour faire du sport, pour découvrir le patrimoine botanique, …), la connaissance préalable du parc et même la météo influent sur le besoin d’information des visiteurs… Réutiliser les données issues de plusieurs sources (dont les données ouvertes par la collectivité), c’est aussi l’opportunité de répondre à une partie de ces attentes.

Le mot de la fin revient à l’un des participants, qui me faisait remarquer qu’il vient précisément au Thabor pour faire une pause et se détendre loin de son ordinateur… Il nous faut donc bien sûr imaginer d’autres médiations que celles des écrans. Une invitation pour les graphistes et autres designers d’informations à s’emparer des données ouvertes !

Les deux prochains ateliers infolab auront lieu le vendredi 5 octobre de 15h à 17h sur le thème des déplacements et le samedi 6 octobre de 10h à midi sur celui des prénoms des petits rennais. Inscription recommandée en ligne.

3 ateliers pour jouer avec les données ouvertes

En passant

3 ateliers pour jouer avec les données ouvertes !

Dans le cadre de Viva-Cités à Rennes, j’organise du 2 au 7 octobre prochain trois ateliers Infolab pour découvrir les données ouvertes et imaginer des réutilisations. L’open data, ce n’est pas (seulement) pour les développeurs ! Inscription gratuite et recommandée en ligne.

Les conflits liés aux données « fermées » se multiplient

La Deutsche Bahn ne veut pas ouvrir ses données ? OpenPlanB s’en charge …

Le récent conflit qui oppose le site FourmiSanté et l’Assurance Maladie (1) vient s’ajouter à une longue liste de confrontations liées à des données « fermées ». Partout en Europe, nous assistons à la multiplication de cas similaires.

Comment peut-on analyser ces conflits ? L’open data peut-il être une réponse aux défis qu’ils posent ?

En Allemagne le groupe de data hacktivists Open Plan B vient de publier les données de la Deutsche Bahn, en réponse expliquent-ils à l’immobilisme du transporteur en matière d’open data. En Suisse, c’est le site fédéral permettant de calculer le montant des primes d’assurance maladie qui a lui aussi fait la une de l’actualité, un député réclamant récemment l’ouverture des données fédérales. En Belgique, le groupe de développeurs iRail.be propose une interface non-officielle d’accès aux données de la compagnie ferroviaire nationale, … On voit donc que cette question n’est pas spécifique à la France. 

1 – A l’origine, la multiplication des services en ligne

La réutilisation non-autorisée de données n’est pas une invention de l’ère Internet. Qui se souvient par exemple du 36 17 ANNU, le premier annuaire inversé sur Minitel qui a fait la fortune du tycoon français Xavier Niel ? Les numéros des abonnés étaient récupérés à partir de l’annuaire 36 11 proposé par France Telecom, en veillant à ne pas dépasser la limite fatidique des 3 minutes, au-delà desquelles le service devenait payant. Une pratique qui a d’ailleurs valu à cet éditeur l’une des plus lourdes condamnations jamais prononcées en matière de bases de données en France (pour mémoire, 100 millions de francs et une astreinte de 4 millions supplémentaires par jour).

Aujourd’hui ce ne sont pas seulement la liste des abonnés au téléphone que l’on peut retrouver sur Internet, mais la plupart des services et administrations publics : localisation et horaires des équipements, informations détaillées sur les transports et leur qualité, données sur la qualité des établissements hospitaliers ou sur les tarifs pratiqués par les médecins, … Ce qui demandait, à l’époque du Minitel, une batterie de serveurs, est aujourd’hui accessible à n’importe quel individu un peu motivé et équipé. La « barrière à l’entrée » pour la collecte non-autorisée de données s’est donc très largement abaissée.

Ajoutons aussi que le travail de collecte est aussi largement facilité par le fait que nombre d’administrations et d’entreprises ont recours aux mêmes prestataires et aux mêmes systèmes pour mettre en ligne leurs données. C’est l’exemple du calculateur d’itinéraires développé en Allemagne par la société Hafas et largement utilisée par de très nombreux réseaux de transport en Europe et aux Etats-Unis. Une fois que l’accès au système Hafas via des API devient documenté pour une ville, il le devient rapidement pour toutes

2 – En face, la réutilisation non-autorisée se professionnalise

L’histoire se déroule souvent de cette manière : une entreprise (ou une administration) découvre un jour qu’une application non-officielle a fait son apparition sur l’AppStore. Parfois – trop souvent -, on s’aperçoit aussi que le dit-développeur avait d’ailleurs fait auparavant une demande officielle d’accès à ces données mais que, ne sachant pas quelle position adopter, on ne lui a pas répondu. Face au « fait accompli« , la première réaction est de mettre en route la machine juridique : mise en demeure, demande du retrait de l’application ou du service en ligne, …

La suite a un air de déjà-vu : le développeur un peu malin médiatise le conflit et interpelle les pouvoirs publics. D’ailleurs cela marche souvent et le changement de champ de bataille (du juridique au moral) tourne rarement à l’avantage de celui qui voit ses données utilisées sans son accord : les élus s’en mêlent, écrivent des lettres ouvertes comme à New-York en 2009 (le fait déclencheur de l’open data du transporteur new-yorkais) ou à Lyon plus récemment.

Le conflit est alors plutôt de type asymétrique : le détenteur des données a le sentiment d’avoir le droit de son côté (n’a-t-il d’ailleurs pas pris le soin de détailler des conditions d’utilisation sur son site web ?), mais le réutilisateur a les « cartes médiatiques » en main, et le moment « open data » (déjà évoqué dans un précédent billet) joue à plein. L’incompréhension est totale.

Mais il y a mieux que les applications non-officielles. J’ai cité plus haut l’exemple de Open Plan B en Allemagne, on peut aussi citer aussi la kyrielle d’API (interfaces de programmation) non-officielles qui se multiplient, à Montpellier, en Suisse, en Belgique. Ceux qui développent ces outils font en quelque sorte le boulot que les détenteurs de données ne veulent pas faire. En voulant contrôler leurs données, ils encouragent l’émergence de tels services et in fine, abandonnent encore davantage leur capacité à maîtriser l’usage qui en est fait.

3 – L’open data : ouvrir pour fournir un cadre à la réutilisation

Personne n’a intérêt à la réutilisation non-autorisée des données, même pas le développeur. En procédant hors d’un cadre technique et juridique clair, il doit faire face à une incertitude juridique qui freine aussi sûrement l’innovation que les redevances tarifaires. A Londres, c’est l’exemple de ce développeur d’une application très populaire qui a découvert un matin que son service ne fonctionnait plus : le site web de l’opérateur Transport for London (TfL) avait modifié la structure de ses pages web sans avertir personne, …

Le détenteur de données a lui aussi intérêt à préciser le cadre juridique, technique et économique de réutilisation des données. Les mises en demeures, les demandes de retrait d’application : cela fonctionne peut-être dans un premier temps (en témoigne la prudence affichée par les réutilisateurs concernés) mais in fine cela ne saurait constituer une politique en matière de diffusion et de valorisation des données.

Hier la RATP, aujourd’hui l’assurance maladie ou certains opérateurs ferroviaires européens : si vos données ne sont pas encore réutilisées sans votre accord, vous savez ce qu’il vous reste à faire : commencer à réfléchir sérieusement à votre politique open data

(1) : Il s’agit dans le cas présent de la réutilisation non-autorisée des tarifs des médecins publiés sur le site ameli-direct.