Nous utilisons plusieurs types de données. Nous avons un certain nombre de données épidémiques - dépistage, tests positifs ou négatifs... - et sanitaires - admissions à l'hôpital, nombre de personnes hospitalisées en soins critiques et décédées à l'hôpital, etc. Ces données sont publiées par Santé publique France. Nous utilisons également des données concernant la vaccination : rythme de vaccination, nombre de personnes vaccinées avec une, deux ou trois doses, avec ou sans rappel...
Le troisième acteur de la publication des données est la Drees, qui publie notamment le statut vaccinal des personnes admises à l'hôpital. La Drees a effectué un appariement entre, d'un côté, les bases de données des personnes vaccinées et, de l'autre, celles des personnes admises à l'hôpital, pour connaître la proportion de personnes vaccinées admises à l'hôpital.
Tels sont les trois principaux jeux de données que j'utilise personnellement pour réaliser mes analyses.
Il faut savoir que ces données sont publiées en open data, c'est-à-dire de manière libre et gratuite sur internet. Que ces données soient publiées sur internet dans des formats informatiques permettant de les exploiter très facilement est la condition nécessaire pour que les citoyens puissent les réutiliser. C'est très important. Certains acteurs - je pense notamment au ministère de l'éducation nationale - publient les données dans des formats PDF, lesquels sont très difficilement réutilisables.
Les données publiées en open data doivent aussi, pour avoir de l'intérêt, être publiées avec une certaine fraîcheur, c'est-à-dire être mises à jour régulièrement, et être de bonne qualité - il ne doit pas y avoir d'erreurs ni de données manquantes.
Ces données ont été publiées petit à petit. Cela n'a pas été une évidence dès le début de l'épidémie. La France est aujourd'hui l'un des pays les mieux placés en termes de publication des données relatives au covid-19 : un certain nombre de données y sont publiées en open data, ce qui n'est pas le cas dans tous les pays. Au début du mois de mars 2020, aucune de ces données n'était publiée en open data. Puis, les données sanitaires ont été publiées, en mai 2020, sur l'initiative de Santé publique France : suivi des données de dépistage. Ensuite, les mois passant, les données ont été affinées, notamment par régions, départements et tranches d'âge. D'autres jeux de données sont arrivés, comme la vaccination, en janvier 2021, puis les données d'appariement de la Drees, en juillet 2021.
Un certain nombre de ces données ont été publiées sous l'impulsion de citoyens voulant les réutiliser. Nous avons parfois dû formuler des demandes très insistantes auprès de certaines organisations pour les obtenir. Auraient-elles été publiées sinon ? Nous l'ignorons.
Je pense notamment au ministère des solidarités et de la santé. Au tout début de la campagne de vaccination, il était très difficile d'obtenir des données de façon ouverte. À cette époque, nous avions lancé, sur CovidTracker, VaccinTracker, qui permettait de suivre la campagne de vaccination, mais aucune donnée officielle n'était publique. Nous comptabilisions donc nous-mêmes les vaccinations, notamment via les articles de presse. Nous avons dû être très insistants et arrêter VaccinTracker pour que le ministère de la santé publie, deux semaines plus tard, les données.
Je pense aussi au ministère de l'éducation nationale, auquel nous avons adressé, ces derniers mois, un certain nombre de demande pour obtenir des données. Il a été très difficile de les obtenir. Certaines d'entre elles n'ont toujours pas été publiées en open data à ce jour.
Dans d'autres cas, cela a été fait avec succès. Je pense notamment à la Drees, à laquelle nous avions demandé la publication des données de statut vaccinal pour les hospitalisations. La Drees a répondu favorablement à cette demande l'été dernier.
Je trouve regrettable que toutes les administrations ne veuillent pas forcément publier leurs données par défaut. Que les données non personnelles soient publiées en open data de manière libre et gratuite, à des fins de transparence, pour que les citoyens puissent les réutiliser et les analyser devrait vraiment être un paradigme dans toutes les organisations d'État, des ministères, des administrations.
Vous avez évoqué le changement de méthodologie Omicron. Deux méthodes permettent de suivre l'évolution des variants de cette épidémie.
La première est le séquençage, qui permet de connaître précisément le génotype des virus, donc de savoir précisément à quel variant on a affaire pour chaque cas positif. Le problème du séquençage est qu'il est long - il prend plusieurs jours, voire une à deux semaines -, et coûteux. En proportion, on n'en fait pas beaucoup : en France, seuls 1 % des tests positifs sont séquencés.
Depuis un peu plus d'un an et demi, Santé publique France réalise un criblage ; la direction générale de la santé (DGS) a aussi demandé à le faire. Celui-ci permet de viser certaines cibles précises, donc certaines mutations. Il ne permet pas de connaître précisément le variant auquel on a affaire ; il ne permet qu'une suspicion très forte. Le criblage est fait de manière beaucoup plus systématique : sur 100 cas positifs, plusieurs dizaines sont criblées, ce qui permet de suivre relativement précisément le développement de certains variants.
Via le criblage, on suivait une mutation appelée L452R, ce qui permettait un suivi relativement précis d'Omicron. Or la DGS a décidé de changer de système de criblage, de manière à détecter plus précisément Omicron, avec plusieurs cibles. La conséquence a été un arrêt du suivi d'Omicron à un moment critique, à la fin du mois de décembre, alors que ce variant était en train de se développer. Cette situation a peut-être été liée à un manque de fluidité entre la DGS et Santé publique France. En tout état de cause, je sais que Santé publique France a travaillé très dur à la fin du mois de décembre, entre les fêtes de fin d'année, pour appliquer la nouvelle méthode le plus rapidement possible.
De quelles données manquons-nous ? Nous effectuons en permanence des nouvelles demandes de données, mais la situation évolue extrêmement vite, ce qui est source de complexité. À certaines périodes, nous avons besoin de données extrêmement rapidement, comme, par exemple, pour le suivi d'Omicron.
Les données qui m'ont le plus intéressé ces dernières semaines sont celles de l'éducation nationale : nombre de classes et d'écoles fermées, de cas positifs chez le personnel et les élèves... Or ces données sont parcellaires. Elles sont publiées de manière partielle et sont mises à jour de façon relativement peu fréquente.