Nous fournissons à nos clients les données dont ils ont besoin, à partir de sources diverses. Celles-ci sont produites automatiquement. Elles concernent, par exemple, les annonces d'appels d'offres publiques françaises publiées au bulletin officiel d'annonces des marchés publics (BOAMP) - il en paraît 2 000 par jour, provenant de 8 000 sources, mais aussi les bornes de recharges électriques pour automobiles, pour un constructeur...Nous sommes une jeune start-up française.
Nous identifions les sources (open data, données publiques, privées, celles de nos clients, par exemple, réseaux sociaux, médias) pour en extraire automatiquement, dans le respect du cadre légal, les données par aspiration (scraping), ou en parcourant les sites (crawl). Puis nous les structurons pour livrer à nos clients un jeu de données propres par flux ou en visualisation.
Nous sommes cofondateurs des Data Tuesday, événement réunissant une fois par mois les acteurs de la donnée. Il y a différents métiers : éditeurs de données publiques (Insee, Dila, Etatlab), production, repérage des données, analyse, fournisseurs d'outils logiciels, notamment d'infrastructures d'hébergement, visualisation, utilisateurs, clients... Cet écosystème est riche et est en cours de formation et de développement.
Nous avons réalisé le premier annuaire des données publiques françaises, avant même la création d'Etalab, avec lequel nous collaborons aujourd'hui. Nous lui fournissons de la donnée. Je participe d'ailleurs au groupe d'experts mis en place par Henri Verdier.
Il y a des acteurs comparables aux Etats-Unis, au Royaume-Uni, en Italie, en Chine...Ce métier est en développement, partout où un intermédiaire est nécessaire pour accéder aux données : le concept de place de marché, testé notamment pas Microsoft, ne fonctionne pas. Les essais de vente de données bon marché à grande échelle par carte de crédit sur le web ont échoué partout jusqu'à présent : la donnée est trop complexe et son coût trop élevé pour ce type d'utilisation.
Nous avons par exemple produit un tableau de bord de l'emploi agrégeant les données de tous les bassins d'emplois en France, pour un cabinet de conseil, un tableau de bord de l'immobilier à destination des notaires, un tableau de bord des 36 000 communes de France comportant des données sociodémographiques pour un autre client...
La qualité des données est généralement mauvaise, surtout chez nos clients. Les données publiques sont souvent de meilleure qualité que les données privées, ce qui est logique car elles sont regardées. L'Insee a des données fabuleuses.
Pour nous, la qualité n'est pas un problème, puisqu'une partie de notre métier est justement de produire des données de bonne qualité à partir de données de qualité variable. Il y a en effet une pénurie de données de qualité. Nous sommes une start-up de dix personnes. Les prix prohibitifs de certaines données (de l'Insee et de la Dila notamment) constituent, à nos yeux, une barrière à l'entrée protégeant les Cegedim, Altarès et LexisNexis, qui sont les taxis de la donnée : nous sommes les VTC (voitures de tourisme avec chauffeur) !
Nous souhaiterions donc que davantage de données brutes soient ouvertes, afin d'enclencher une dynamique, qui en améliore la qualité et en diminue le prix. A cet égard, le rapport Trojette va dans le bon sens.
Comme citoyen, je milite pour que la carte scolaire soit disponible : pourquoi ne l'est-elle pas ? Il est seulement possible de savoir à quel lycée votre adresse est rattachée.