Intervention de Marc Lipinski

Mission commune d'information sur l'accès aux documents administratifs — Réunion du 27 février 2014 : 1ère réunion
Grands fournisseurs de données publiques — Audition de M. Marc Lipinski directeur de recherche au cnrs responsable de la mission « science et citoyens »

Marc Lipinski, directeur de recherche au CNRS :

Je précise que je ne suis pas mandaté par le CNRS et parle donc à titre individuel. Je dois rendre cet après-midi mon rapport sur la mission « Science et citoyens ». J'ai été vice-président du conseil régional d'Ile-de-France, en charge de l'enseignement supérieur et de la recherche, entre 2004 et 2010, ce qui m'a conduit en particulier à m'intéresser aux relations entre la science et les citoyens. C'est pourquoi le président du CNRS - qui a été reconduit hier en conseil des ministres - m'a confié cette mission.

Le CNRS est un établissement public à caractère scientifique et technologique, placé sous la tutelle du ministère de l'enseignement supérieur et de la recherche. Il est lié à l'Etat par un contrat d'objectifs pluriannuel ; le contrat actuel touche à son terme et doit être renouvelé. Il dispose d'un budget dont le montant était de 3,4 milliards d'euros en 2013, 800 millions d'euros de ressources propres, le reste financé par le budget de l'Etat. Notre établissement compte 25 à 26 000 permanents et 8 000 salariés en CDD. Il est régi par le code de la recherche qui définit les missions des organismes de recherche : accroître les connaissances scientifiques, partager et diffuser la culture scientifique, technique et industrielle, valoriser les résultats de la recherche au service de la société et promouvoir la langue française comme langue scientifique. Le CNRS est gouverné par un président, un conseil d'administration et un conseil scientifique ; il est organisé en dix instituts thématiques qui regroupent une quarantaine de sections disciplinaires et interdisciplinaires. Nous avons engagé une coopération internationale, dont un exemple est le laboratoire international de recherche en oncologie que je dirige, où nous travaillons avec des collègues russes. Une coopération existe aussi, en France, avec les universités et d'autres organismes de recherche, sous forme d'unités mixtes de recherche.

La question que vous posez est stratégique. Le traitement des big data ou données massives, qui sont une mine de connaissances potentielles donc de pouvoir, est un défi pour les institutions internationales qui en ont fait une de leurs nouvelles priorités de recherche et développement. La mission Etalab, sous l'autorité du Premier ministre, pilote depuis deux ans une politique ambitieuse d'ouverture généralisée des données publiques, avec des objectifs de réutilisation et de valorisation économique et sociétale. Dans la masse des données scientifiques, comment définir celles qui sont publiques et celles qui ne le sont pas ? Actuellement, au plan international, le critère qui semble naturel est celui du financement de l'acquisition des données : lorsque de l'argent public est intervenu, les données doivent être considérées comme publiques et doivent être traitées comme telles.

Depuis quelques années s'est développée la notion d'open science ou science ouverte, dont l'un des objectifs est le libre accès aux publications scientifiques. Les débats sont très vifs entre la communauté scientifique et les éditeurs, principal canal de diffusion des connaissances scientifiques. Il faut payer pour publier et payer pour lire les publications - y compris les siennes ! La tendance est donc à un libre accès aux publications scientifiques, mais nous sommes encore dans une phase de transition.

La science a beaucoup changé depuis vingt ans. Dans les sciences exactes, et notamment en biologie - je dirige un laboratoire de biologie - les évolutions technologiques produisent des milliards de données nouvelles, beaucoup plus que ce que les chercheurs peuvent analyser. Il y a pénurie de cerveaux face à cette masse de données. Le défi est de les rendre disponibles, réutilisables et interopérables, c'est-à-dire susceptibles d'être croisées et analysées non seulement par des scientifiques, mais aussi par des non-professionnels de la science - dans un mode de collaboration nouveau, celui des sciences citoyennes (citizen science). Il y a quelques jours, le principal éditeur scientifique, Elsevier, a proposé de fournir, en même temps que les articles publiés, les données massives sur lesquelles ils se fondent, afin qu'elles soient accessibles aux chercheurs et puissent servir de base à un travail d'extraction des données (data mining). Faudra-t-il signer un accord particulier pour avoir accès aux données brutes qui sont à la base des publications scientifiques ? La question reste posée, et le débat, je n'en doute pas, sera vif.

La science est une activité internationale à la fois hautement compétitive et collaborative ; elle fonctionne en « coopétition ». Le journal Le Monde s'est intéressé, il y a quelques jours, au burnout des scientifiques, qui doivent faire face à une compétition serrée en termes de publications et de résultats, tout en étant engagés dans une course aux crédits. Sur une période de cinq ans, les crédits du laboratoire que je dirige - une structure commune de recherche entre public et privé - sont venus à 80 % des contrats de partenariat avec les entreprises et non de subventions de l'Etat.

La politique d'ouverture des données scientifiques place le chercheur face à un dilemme : exploiter lui-même les données qu'il a produites, sans avoir les moyens d'en tirer toute la substance, ou les rendre accessibles pour que d'autres les exploitent et fassent avancer la connaissance scientifique. A mon sens, dès lors que les chercheurs sont payés sur des fonds publics, leur devoir est de faire avancer la connaissance au profit de l'intérêt général. S'ils le font intelligemment, ils peuvent même en tirer profit personnel !

L'objectif des industriels - créer de la valeur ajoutée pour faire du profit - est a priori contradictoire avec une démarche d'ouverture des données. Certains secteurs d'activité offrent néanmoins des exemples positifs, comme le monde numérique, tellement agile que ses acteurs ne perdent pas de temps à faire des brevets. Dans d'autres domaines, comme celui du lobby pharmaceutique ou big pharma, le débat est ouvert, les résultats des essais cliniques n'étant pas toujours publiés, souvent occultés ou affadis lorsqu'ils ne sont pas totalement positifs.

Le CNRS est un des organismes qui dépose le plus de brevets au monde, pour disposer de ressources propres et protéger ses intérêts. Pendant dix ans, le Taxotere, un médicament anti-cancéreux mis au point dans un de nos laboratoires de Gif-sur-Yvette, a été une manne qui a rapporté plus de 50 millions d'euros, avant que le brevet ne tombe dans le domaine public. Sur les données proprement dites, à ma connaissance, le CNRS n'a pas défini de politique précise sur le partage des données. Il encourage les chercheurs à déposer leurs publications dans des archives ouvertes, mais ils ont dans les faits une liberté de choix. En revanche, s'ils ont un contrat européen, ils doivent publier en accès libre. Le 6 décembre dernier, nous avons organisé un colloque avec ma collègue Mélanie Dulong de Rosnay, sur l'ouverture des données massives scientifiques. Le but était de passer en revue les approches et les problématiques des différentes disciplines : ils ont les mêmes approches, avec des particularités.

Grâce aux innovations technologiques, le grand public apporte sa contribution à l'avancée des connaissances scientifiques. Chacun peut utiliser son téléphone portable pour capter des sons, des images, des irradiations radioactives, et donc générer des données transmises ensuite à un organisme scientifique qui les centralise Cette tradition de contributions des amateurs forte de tous temps dans le monde naturaliste, en archéologie ou en astronomie, renaît aujourd'hui grâce aux nouveaux outils informatiques.

Pour observer l'évolution des espèces et lutter contre leur disparition, l'OCDE a ainsi mis en place en 2001 la plateforme GBIF (Global biodiversity information facility) dont le siège est à Copenhague, et qui a pour objectif de collecter dans le monde entier des jeux de données, informant sur l'état de la biodiversité. L'organisation compte plus de 100 membres, issus d'au moins 50 pays, organismes de recherche, grandes ou petites associations, consortiums, etc. En France, l'antenne du GBIF a fourni plus de 100 jeux de données, produits par des organismes de recherche - le Museum d'histoire naturel, l'INRA (Institut national de la recherche agronomique), l'Ifremer, des universités ou des associations bénévoles non-professionnelles. L'une d'elles est Tela Botanica, fondée par un ingénieur à la retraite et qui regroupe des botanistes amateurs francophones. Avec plus de 20 000 membres fournisseurs de données, elle est le deuxième plus gros contributeur français au GBIF, après le Museum d'histoire naturelle. Son siège est au Museum de Montpellier et elle est associée au CNRS qui la considère comme un acteur essentiel de la recherche en biodiversité. En tout le GBIF a reçu plus de 4 millions de données et de métadonnées, c'est-à-dire les informations contextuelles (qui a fait l'observation, où, quand, dans quelles circonstances) qui rendent les données compréhensibles, interprétables. Ce sont des outils précieux d'aide à la décision politique.

Le projet astronomique Galaxy Zoo est un autre exemple de collaboration entre les scientifiques et le grand public dans le traitement des données. En 2006-2007, un jeune doctorant en astronomie de l'université d'Oxford a eu l'idée brillante de mettre à contribution le grand public, en lui donnant accès sur internet aux images innombrables collectées par un télescope installé au Nouveau Mexique. Elles étaient assorties d'un questionnaire très bien conçu. Chaque contributeur pouvait ainsi observer et analyser des images qui n'avaient été vues ni traitées par personne ! Notre doctorant a engrangé des dizaines de milliers de contributions volontaires, et autant d'articles ont été publiés par des scientifiques à partir de ces contributions non-professionnelles, précieuses car les algorithmes d'analyse d'images ne sont jamais aussi performants que l'oeil humain.

Aucun commentaire n'a encore été formulé sur cette intervention.

Inscription
ou
Connexion