Je m'intéresse aux données publiques et à leur utilisation. Rue89 a été créée en 2007, comme pure player, employant aujourd'hui une trentaine de personnes, dont 19 sont titulaires de la carte de presse. Cet environnement numérique nous amène naturellement à pratiquer la visualisation de données issues de diverses sources. Ce sont des journalistes qui travaillent ces données et non pas des développeurs. Il importe donc pour nous que ces données soient « propres », lisibles par une machine, sans discontinuité et présentées de façon aisément compréhensibles. Ayant déterminé un angle, nous collectons des données, dans l'idéal déjà disponibles sur data.gouv.fr, afin d'y sélectionner celles que nous publierons. Ce site mis en place par Etalab en 2011 réunit les données de diverses administrations et collectivités. Depuis sa refonte l'an dernier, il est devenu une véritable plateforme collaborative. De nouvelles séries sont arrivées, qui étaient payantes auparavant. Avec l'open data, on passe d'une logique de demande à une logique d'offre. Il m'arrive de croiser des données publiées sur le site pour faire émerger de nouvelles idées.
Auparavant, les données accessibles paraissaient volontairement tronçonnées, comme pour en gonfler le volume. Un effort de clarification, de simplification, de regroupement des données a été heureusement accompli. Les résultats des élections municipales de 2008 sont encore ventilés par le ministère de l'intérieur entre communes de plus de 3500 habitants et communes de moins de 3500 habitants, ces dernières étant encore subdivisées en deux groupes. Il serait utile de regrouper l'ensemble.
A l'inverse, il y a sur le site des interfaces très bien faites, à développer, comme la base de données macroéconomiques de l'Insee ou la base de données d'économie de la santé de l'Irdes (Institut de recherche et documentation en économie de la santé), qui nous permettent de cocher les données qui nous intéressent pour les analyser par thèmes ou zones géographiques.
Le format des données importe particulièrement aux non-informaticiens que nous sommes. Sur la réserve parlementaire, un professeur de mathématiques du Lot-et-Garonne, M. Hervé Lebreton, a obtenu du tribunal administratif, après avoir dans un premier temps saisi la Cada, que le ministère de l'intérieur lui communique les données. Lui fut transmis un fichier au format pdf de 1038 pages qu'il a dû, avec son association « Regards citoyens », ressaisir manuellement pour le trier par commune, par parlementaire, etc, afin de transmettre un fichier tableur au format csv aux journalistes. Sur le site data.gouv.fr, les fichiers des réserves parlementaires 2011 et 2012 sont encore au format pdf. Nous avons dû rajouter à la main l'appartenance aux groupes politiques, aux circonscriptions des Parlementaires, afin de traiter les données géographiquement. Il existe beaucoup d'exemples semblables.
Les données relatives aux cadeaux faits aux médecins par les fabricants de médicaments sont publiques mais elles sont inexploitables : il s'agit de fichiers pdf qu'il faut ouvrir un par un et qu'il est donc difficile de compiler.
Les nomenclatures de fichiers posent aussi des problèmes. Ainsi, le fichier des accidents corporels sur la route, mis à jour tous les deux ans par le ministère de l'intérieur, figure sur data.gouv.fr mais les intitulés des colonnes sont abscons, et nécessitent de consulter une nomenclature : 0 pour un vélo, 1 pour une voiture... Il semble aisé de rendre ce fichier plus lisible, quoique cela supposerait de former tous les policiers qui y saisissent les données. Autre exemple : le ministère de l'intérieur n'a pas mis en ligne le découpage des circonscriptions. Or, pour faire des cartes lors des élections, nous avons besoin d'un fonds de carte qui ne soit pas une image mais un support interactif. Heureusement, des initiatives comme OpenStreetMap ont constitué un tel support.
Certaines bases de données devraient être immédiatement disponibles en ligne : je pense aux résultats des élections, aux données économiques essentielles... Les données publiées sur les élections sont peu commodes à exploiter : il y a une ligne par commune, ce qui rend difficile d'extraire, par exemple, les résultats d'une liste donnée dans un département. Un meilleur dialogue avec les services concernés devrait résoudre ce problème, en leur faisant mieux comprendre nos besoins. Le ministère de la culture est celui qui publie le moins de données. Certes, il communique les chiffres de la fréquentation des musées et des centres culturels. Mais il ne nous informe guère sur le patrimoine des musées. Or, il serait intéressant de disposer, par exemple, de toutes les métadonnées sur chaque tableau. Il n'est que de suivre l'exemple donné par le mobilier national.
Pour résumer, il faudrait que les différentes collectivités territoriales s'appliquent à diffuser les données dans un format ouvert et lisible par des machines, en respectant le référentiel général d'interopérabilité. Saisir la CADA suppose de connaître le document exact auquel on souhaite avoir accès, ce qui n'est pas toujours le cas. Les données économiques les plus importantes devraient être spécialement accessibles en ligne. Il faudrait aussi - mais cela dépasse peut-être le cadre de votre mission - que dans les cas où la loi contraint les entreprises à publier des données, comme c'est le cas pour la pratique des cadeaux faits aux médecins, cette publication soit faite sous une forme lisible.