Une Data Expedition, pas à pas

SafariScreenSnapz080J’ai récemment animé un atelier dans le cadre de l’Open Data Camp organisé par Etalab. Cette Data Expedition portait sur le thème de l’égalité hommes-femmes, en lien avec le projet de loi actuellement en discussion au Parlement. Je vous propose ici un retour détaillé sur l’un des 2 sujets que nous avons traité, à savoir la participation des femmes à la vie économique.

1 – Définir le sujet: la représentation féminine au sein des chambres consulaires

Le site du Sénat référence l’étude d’impact du projet de loi sur l’égalité hommes – femmes. Le document est dense (près de 140 pages) et il couvre de nombreux sujets (les inégalités salariales, les violences faites aux femmes, les impayés des pensions alimentaires, …). Je me suis particulièrement intéressé aux annexes, qui comprennent un grand nombre de tableaux avec des données. Le tableau ci-dessous recense le nombre de femmes élues au sein des chambres consulaires territoriales et régionales (CCI), pour la mandature en cours (2010-2015). Ce sera le point de départ de notre expédition: je vous laisse l’étudier rapidement.

Le tableau issu de l'étude d'impact

Le tableau issu de l’étude d’impact

2 – Comprendre les données

Le tableau n’est pas d’un abord aisé. Certaines colonnes concernent des données actuelles, d’autres des projections et mesurent l’impact du projet de loi sur cette question précise. Il m’a fallu relire les chapitres consacrés à cette disposition pour mieux cerner le sujet. J’ai ensuite retravaillé les données pour les extraire et les rendre réutilisables.

Il faut noter à ce stade que l’étude d’impact est proposée en deux formats sur le site du Sénat: en PDF et en HTML. Bien sûr, il est plus simple d’utiliser le second format pour importer les données. J’ai donc utilisé mon tableur favori pour copier toutes les cellules, puis j’ai procédé à un rapide reformatage, en me concentrant sur les CCI territoriales: suppression des colonnes relatives au CCI regionales et des données de projection, dé-fusionnage de cellules, …

3 – Le fichier base de travail

Voilà le travail à l’issue de ces premières opérations. Je précise qu’à ce stade toutes ces opérations se sont déroulées en amont de l’Open Data Camp, ce n’est qu’une étape de préparation des données. J’ai ensuite crée un document partagé à l’aide de Google Drive. En voici une copie d’écran ci-dessous.

Le fichier nettoyé

Le fichier nettoyé

Le matin du 28 novembre nous avons donc lancé cette expédition – un atelier parmi la demi-douzaine proposés par les participants. Mon sous-groupe était composé de Marie-Cécile Huet, Claudio Vandi, Louis-David Benyayer et de renforts ponctuels au cours de la journée. Nous avons donc commencé par nettoyer le fichier en corrigeant quelques erreurs et abréviations. Par exemple on pouvait lire « Puy-de-D. » que nous avons transformé en « Puy-de-Dôme ». La discussion a ensuite porté sur les réutilisations que nous pourrions imaginer: faire une carte, proposer un classement, proposer des pistes d’analyse, etc…

4 – Compléter et enrichir le fichier

Nous avons d’abord complété le fichier en rajoutant les adresses de chaque chambre de commerce. Le site CCI France propose un annuaire … mais aucune donnée en open data ! Une partie de l’équipe a donc rajouté manuellement toutes les adresses (NB: notre fichier comporte une centaine de lignes, il est probable que s’il avait compté 1000 lignes nous aurions cherché un moyen d’automatiser cette tâche). Puis, les adresses ont été géocodées (ie. transformées en coordonnées X,Y) à l’aide du site gpsfrance.net.

La fiche d'une CCI (source CCI France)

La fiche d’une CCI (source CCI France)

Autre enrichissement de la donnée initiale: le même site CCI France propose le nom du président et du directeur général pour chaque chambre de commerce de France. Nous avons donc rajouté 2 colonnes: le genre (H/F) pour ces deux fonctions. Là, nous avons été confronté à quelques cas plutôt amusants: beaucoup d’entre eux portent le prénom Dominique, un prénom unisexe (notons qu’il n’y a rien de très surprenant ici: les Dominique ont l’âge d’occuper de tels postes, pas encore les Kevin ou les Emma !). Nous avons donc recherché leur sexe via Google… et très majoritairement nos Dominique sont des hommes.

5 – Visualiser les données à l’aide de Google Fusion Tables

Nous avons ensuite importé les données dans l’outil Google Fusion Tables, l’un des (nombreux) services en ligne qui permettent de réaliser des visualisations basiques. A noter que Fusion Tables propose son propre outil de géocodage, qui produit des erreurs relativement faciles à repérer (ex. la ville de Vienne, située en Isère, est confondue avec son homonyme autrichienne).

Fusion Tables nous propose plusieurs visualisations, nous avons commencé par une carte de chaleur (heatmap), présentée ci-dessous.

La carte de chaleur

La carte de chaleur

La carte est jolie, mais elle est hors de propos ;-(

Ce qu’elle nous donne à voir ce n’est pas tant l’inégalité hommes-femmes que la densité territoriale des chambres de commerce ! Pour pouvoir faire une carte de chaleur, il nous faudrait des données beaucoup plus nombreuses, plus denses. Nous aurions aussi besoin d’une donnée non disponible: le découpage territorial de chaque chambre de commerce…

Nous avons donc travaillé sur une carte plus classique, avec des points colorés en fonction du taux de féminisation (qui varie de 0% à 30%).

Fusion Tables permet de personnaliser le nombre de classes différentes que l’on veut représenter: on peut souhaiter représenter les CCI selon un code avec 2, 3 ou même 6 couleurs. La fonction « use this range » (cf. détail ci-dessous) permet de répartir automatiquement chaque point dans l’une des classes. Gros souci: le choix des couleurs proposé par l’outil est inepte dès que l’on dépasse 3 niveaux différents… et le résultat n’est guère compréhensible, il vaudrait mieux utiliser des dégradés de couleurs (ou conseiller aux ingénieurs de Google de relire Bertin…).

Les options de Fusion Tables

Les options de Fusion Tables

Nous nous sommes donc limités à trois couleurs, avec un code simple à comprendre: en vert les 4 CCI qui ont un taux de féminisation supérieur à 30%, en rouge celles dont le taux est inférieur à 15% et en orange les autres… Bien sûr l’on peut rediscuter du choix des classes. Par exemple, nous pourrions tout aussi bien choisir de ne mettre en vert que les CCI où la parité est atteinte – au risque bien réel de n’avoir aucun point vert sur la carte !

Voilà la carte telle qu’elle est aujourd’hui publiée. Dans la version interactive, quand on clique sur un point on retrouve davantage d’informations: le nom du territoire, le nombre de sièges, le taux de féminisation et les genres des directeurs et présidents.

Le résultat

Le résultat (la légende est décrite dans le texte ci-dessus)

6 – Une histoire à raconter ?

Une fois la visualisation terminée, nous avons essayé de comprendre ce qu’elle nous racontait… Elle révèle bien sûr une inégalité hommes-femmes, mais nous espérions secrètement découvrir des motifs géographiques beaucoup plus nets. C’est le comble: nous attendions une confirmation de nos pires stéréotypes (« c’est vraiment des gros machos dans le Sud ! »).

Nous en étions là de notre relative déception quand Sabine Blanc est arrivée. Sabine est journaliste. Ex-Owni, elle signe notamment les nombreux papiers de la Gazette des Communes sur l’open data. Elle nous a rassuré en disant que la visualisation n’était sans doute pas l’histoire, mais qu’elle pouvait très bien accompagner un article, par exemple sur le fait que seules 4 CCI sur 117 ont plus d’un tiers de femmes parmi leurs élus !

7 – Pour aller plus loin

Le jeu de données est disponible en ligne, vous pouvez le compléter et l’enrichir. Il s’agit essentiellement de « densifier » les données existantes. Par exemple en ajoutant des données historiques: le jeu publié ne concerne que la mandature 2010-2015. On pourrait aussi poursuivre le travail de qualification: les femmes élues occupent-elles des places au sein du bureau des CCI ? Sont-elles davantage issues de l’industrie, du commerce ou des services ? On peut aussi imaginer des jeux de données pour compléter celui-ci. Par exemple le découpage territorial précis des CCI (astuce: on doit pouvoir le recomposer à partir du site CCI France qui indique, pour chaque commune de France, la CCI de rattachement)… A vous de jouer !