Notre mission commune d'information, créée à l'initiative du groupe écologiste, a désigné Mme Bouchoux en qualité de rapporteure. Elle a vocation à analyser les politiques menées par les pouvoirs publics en matière de communication des documents administratifs et d'ouverture des données publiques. Cette matinée est consacrée aux données culturelles.
Nous recevons tout d'abord Mme Chastagnier et MM. Puig, Grouas, Baldi, et Manoeuvre, qui participent, pour le ministère de la culture, au projet JocondeLab : ils nous présenteront les contours de cette initiative, nous donnant ainsi l'occasion d'aborder les questions de la valorisation des ressources culturelles : l'indexation collaborative, les conditions et limites de la réutilisation des données culturelles.
Le projet JocondeLab se situe dans le droit fil de nos missions, telles que précisées par l'arrêté du 17 novembre 2009 : mettre en oeuvre, conjointement avec d'autres ministères et d'autres services, des actions de l'Etat destinées à promouvoir le plurilinguisme. JocondeLab est un outil qui permettra, à terme, de consulter l'essentiel des catalogues des collections des musées de France, rassemblés au sein de la base Joconde, en quatorze langues, dont quatre régionales de France.
Le développement de ce projet, du côté du ministère, a été rendu possible par la constitution d'un pôle sur les langues et le numérique qui n'existait pas il y a un an et demi. JocondeLab s'inscrit dans le programme de modernisation et de simplification du ministère de la culture, conformément aux voeux du Premier ministre.
Avant JocondeLab existait un partenariat stratégique, SémanticPédia, entre le ministère de la culture, l'INRIA et Wikimédia France signé le 19 novembre 2012 pour favoriser l'échange des expertises et compétences pour réaliser des projets communs. Le premier projet financé par le ministère a consisté en l'extraction par DBpedia de ressources présentes sur Wikipédia, afin de constituer une nouvelle base de données, consultables en plusieurs langues. Le ministère a développé à cette fin un programme de sémantisation, dans le cadre du schéma directeur des systèmes d'information du ministère, qui vise à permettre l'alignement ou « liage » de bases de données entre elles. Voilà d'où est issu le projet JocondeLab qui, en partenariat avec l'Institut de recherche et d'innovation du Centre Pompidou, a associé trois directions du ministère de la culture, la délégation générale que nous représentons avec M. Baldi, le service des musées de France, la sous-direction des systèmes d'information... Ce n'était pas très courant ! En bref, JocondeLab aligne les données présentes sur Joconde avec les entrées de Wikipédia, dont le plurilinguisme est plus avancé, ce qui permet ensuite de consulter les données d'origine dans d'autres langues que le français. Nous ne nous en tenons pas à notre alphabet : le chinois et l'arabe sont déjà disponibles. Outre la langue française, quatre langues régionales de notre pays, le basque, l'occitan, le catalan, le breton, sont également présentes. Et ce, grâce à la richesse du fonds Wikipédia dans ces langues auquel il peut être accédé par des moteurs de recherche.
Nous sommes très heureux de participer à ce projet. Extrêmement innovant, il est porteur d'avenir pour Joconde. Il élargit notre réflexion.
La direction - devenue service - des musées de France a toujours eu le souci de rendre les oeuvres des musées accessibles au plus grand nombre. La base Joconde date des années soixante-dix : c'est une vieille dame. Elle a été créée pour et par des conservateurs de musées. En 1992, elle a été rendue disponible sur le minitel, au 3614 Joconde, et la première exposition virtuelle y a été organisée en 1994, elle concernait la peinture du siècle des lumières ; la base Joconde, pionnière en ce domaine, a ensuite été transférée sur Internet dès 1995.
Le catalogue mutualisé Joconde rassemble les collections de 200 musées, soit 500 000 notices, dont 300 000 illustrées ; 52 millions de recherches ont été effectuées sur son site l'année dernière et les images ont été ouvertes plus de 7 millions de fois en plein écran. Les utilisateurs sont le plus souvent francophones ou, du moins, francophiles. Ces collections provenant du monde entier, en ouvrir l'accès à de nouveaux publics dans leur langue était pour nous une priorité.
L'IRI, créé en 2006 par le Centre Pompidou, est une entité de recherche indépendante sous forme associative, dirigée par Bernard Stiegler. L'institut consacre ses recherches à l'avenir de la diffusion des savoirs, via son projet de digital studies - ou « études numériques » en français. Celles-ci croisent l'évolution des savoirs avec la manière dont le public se les approprie. JocondeLab croise une expertise ancienne, puisqu'elle date de l'invention des bibliothèques et l'on peut remonter à celle Alexandrie, et une autre expertise, celle du public ! Cette approche invite à développer des chantiers d'indexation collaborative.
La méthode suivie peut être directive et passer par la définition limitative des mots clés utilisables. Elle a été suivie avec succès pour la mise en ligne des archives départementales, grâce à la motivation très importante des contributeurs aux fonds d'archives généalogiques par exemple. Une deuxième méthode, plus libre, consiste à croiser des folksonomies - appellations populaires - et des taxonomies - appellations scientifiques. Une cartographie est ensuite élaborée pour les croiser mais elle mobilise toutefois d'importantes ressources informatiques et produit parfois des résultats qui manquent de nuance. D'où notre préférence pour une troisième méthode, celle d'une contribution libre mais encadrée, en fonction des mots clés déjà utilisés - en l'espèce, par les contributeurs de Wikipédia.
Ce projet se distingue aussi par sa rapidité et son faible coût : il a débuté en mai 2013 pour être achevé en janvier 2014 ; le site est ouvert depuis le 27 janvier. L'accès est possible par mots clés, par mappemonde, par références historiques ou par artistes. De nombreuses fonctionnalités innovantes sont offertes. Il ne s'agit pas de remplacer la base Joconde, mais d'expérimenter de manière ouverte, sans trop de contraintes techniques, de nouvelles approches et de prouver par l'exemple, l'intérêt qu'elles peuvent avoir. Cette méthode a déjà été utilisée pour le site « Histoire des arts ».
Le projet se caractérise également par son faible coût de développement. La convention de partenariat signée avec l'IRI s'élève à 50 000 euros : le projet est donc loin d'être pharaonique. Nous sommes du reste, au vu des résultats, fortement sollicités par les responsables de la modernisation publique.
Le travail dit d'alignement, c'est-à-dire de mise en relation des termes scientifiques et populaires n'a pas été simple, mais la correspondance a fonctionné pour 80 % des termes scientifiques. Il ne s'agit pas forcément des mêmes termes, ce qui nous a parfois imposé de réfléchir à ceux que nous devions retenir. Celui d'architecture commerciale, par exemple, n'existe pas dans Wikipédia, où l'on trouve plutôt « petit commerce » et « grandes surfaces ». Mais les vocabulaires ne sont, en définitive, pas si éloignés, même s'ils peuvent évoluer.
Nous avons aussi mis à profit cet outil pour lancer plusieurs processus collaboratifs. Les musées procèdent en ce moment à un colossal travail de récolement décennal qui devrait s'achever en juin 2014. Ils n'ont pas toujours le temps de faire des descriptions approfondies. On a donc lancé, comme souvent en matière d'archives, des appels à contribution du public pour indexer certaines données et images dans JocondeLab. A la fin de la semaine dernière, on comptait 2 000 contributions. Leur qualité est variable, mais elles sont faites très sérieusement. Une autre expérimentation vise à évaluer et valider les processus susceptibles de garantir la qualité des apports collaboratifs. Il faut être rigoureux et mettre en place un échange entre experts et contributeurs pour que les résultats offerts au public soient fiables. Le succès des projets collaboratifs, comme celui des archives de la Vendée, repose ainsi sur une forte participation du public.
Nous travaillons sur l'herméneutique du numérique, la science participative. En effet, la suprématie de certains moteurs de recherche conduit à l'appauvrissement de la langue ou des critères d'indexation, ce que l'on désigne par le terme d'« entropie ». De fait, vous tapez quelques lettres et l'on vous propose déjà des mots clés - on se demande d'ailleurs qui les a choisis mais c'est une autre affaire... Il faut combattre une telle tendance, procéder à un travail d'herméneutique et conduire des ateliers d'interprétation, comme le fait le Muséum d'histoire naturelle.
Sur Wikipédia, chaque article conserve la trace de ses rédactions successives auxquelles les internautes peuvent se référer, ce qui garantit la qualité de la catégorisation collaborative. Il serait utile de compléter en ce sens les outils comme JocondeLab. La confrontation fait progresser la science. La question de la catégorisation, qui est au coeur de nos activités, est très intéressante à discuter.
Une précision : l'indexation collaborative est également multilingue. La maison peinte sur une toile de Vincent van Gogh sera référencée à house en anglais, casa en espagnol. Les correspondances multilingues établies par Jocondelab entre les différentes notices nous ont permis de limiter la traduction aux seuls termes employés par l'interface de navigation.
Vous contribuez très utilement à la culture partagée. Comment concilier tout cela avec la sécurisation des collections publiques ? Certains musées, notamment américains, photographient le recto et le verso des tableaux. Le coût de cette opération est un vrai sujet. Y procéder systématiquement est impensable, s'y refuser totalement aussi. Que comptez-vous faire ? Une réponse par écrit est possible.
La libre réutilisation des données est la règle pour le projet de catalogue européen des collections des musées nationaux, Europeana. S'agissant des musées nationaux, nous avons débloqué tous les droits de réutilisations d'images et de textes. Pour les musées territoriaux en revanche, ce serait un gros travail de recueillir l'accord de toutes les collectivités. En outre, un petit musée de province comme le musée Alfred Danicourt à Péronne vend des clichés photographiques pour plusieurs milliers d'euros par an : ce revenu n'est pas négligeable.
La libre réutilisation a un enjeu : la National Gallery de Washington l'autorise, les photos des oeuvres qu'elle possède sont reproduites partout. Même chose pour les oeuvres du Rijksmuseum, dont les reproductions sont disponibles gratuitement en haute définition... Ces clichés ont vocation à circuler partout dans le monde et à s'imposer au détriment des nôtres. L'image de notre patrimoine en dépend.
La réponse n'est pas tout à fait complète. Lorsque l'auteur de l'image est vivant et détenteur de ses droits, la cession de droits au musée qui l'expose n'emporte pas forcément la pleine autorisation à transférer les droits de diffusion de ses images. Il faudrait étudier chaque contrat ! Je note aussi que lors du vote de la loi de 1985, beaucoup étaient persuadés que le la bataille était perdue d'avance et que le droit d'auteur allait en Europe s'effacer devant le système américain du copyright. C'est l'inverse qui s'est produit.
Les droits d'auteur en matière de logiciel sont un autre enjeu de taille pour les grands acteurs du numérique, un enjeu politique pour le W3C, le World wide web consortium, avec les menaces sur la neutralité du net. Les pressions politiques, pour une libération des données comme pour leur soumission accrue aux règles de la propriété, sont nombreuses et fortes. Des menaces planent sur la neutralité de l'internet. L'accès aux algorithmes permet seul de constituer le web sémantique. Les services informatiques du ministère de la culture sont attachés au principe de codes sources libres, ce qui garantit une bonne compréhension des rapprochements. L'accès aux algorithmes est aussi important que l'accès aux données. La revue Réseaux a publié en octobre dernier une contribution très intéressante sous le titre Politique des algorithmes, les métriques du web.
Nous recevons à présent Mme Elgey, présidente du Conseil supérieur des archives et M. Lemoine, directeur du service interministériel des archives de France, pour évoquer la communication des archives. Après nous avoir rappelé le statut et les missions du Conseil supérieur, pourriez-vous nous indiquer quelles sont ses recommandations ? Des modifications législatives vous paraissent-elles nécessaires ? Quelle est la position du Conseil sur la transposition de la directive de juin 2013 ?
Si un arrêté de 1988 a modifié sa composition, le Conseil supérieur des archives n'en est pas moins une institution centenaire. Elle est purement consultative, composée de quarante membres, dix-neuf de droit, les autres nommés par le ministère de la culture en qualité de personnalités qualifiées. Elle compte aussi des représentants de syndicats. En un mot, c'est le seul lieu où se rencontrent tous les acteurs qui s'intéressent aux archives. Depuis 1988, elle comprend deux parlementaires. Actuellement, il s'agit du sénateur Garrec et du député Gaymard. Leur présence a donné à l'institution un poids qu'elle n'avait pas. La lutte contre la suppression des archives d'état civil anciennes envisagé par un projet européen a porté ses fruits en partie grâce à eux. Nous avons récemment publié un guide des archives notariales. Nous travaillons actuellement sur le statut juridique des archives orales, problème qui n'a jamais été réglé.
Communication, mise en ligne, réutilisation des documents numérisés, transposition de la directive de 2013, où le SIAF en est-il sur tous ces chantiers ?
Ces questions sont d'importance. Avant même d'être un enjeu culturel, les archives ont une dimension régalienne et citoyenne. Le SIAF, héritier institutionnel de la direction des archives de France, existe en son état actuel, au sein de la direction générale des patrimoines du ministère de la culture depuis la RGPP. Service du ministère de la culture, il met en oeuvre les dispositions du code du patrimoine, essentiellement son livre II : conception, coordination et pilotage de la politique d'archivage. Nous vous enverrons une contribution écrite sur ce point.
Notre première responsabilité est de veiller à ce que les archives publiques, d'abord garantes de droits pour les citoyens, soient conservées dans le réseau des services publics d'archives. Nous avons donc un droit - exorbitant ! - de vie ou de mort sur les archives. C'est une responsabilité très forte à l'égard de la conception de ce qui va constituer le socle de connaissance juridique et citoyen pour les temps futurs !
Deuxième mission : nous sommes la tête de réseau des centres des archives nationales : celui de Paris et ses sites de Fontainebleau et de Pierrefitte, et le réseau territorial des archives départementales. Les directeurs des archives départementales sont des fonctionnaires d'Etat mis à disposition des collectivités territoriales, qui assurent le contrôle scientifique des archives territoriales. Ce maillage fin du territoire atteste qu'en la matière, la décentralisation a été réussie. Notre troisième mission - mais je ne m'y attarde pas - est de nature culturelle.
Les archives sont un domaine interministériel par excellence, avec cependant un régime d'autonomie pour les archives de la défense et celles du Quai d'Orsay.
Bien entendu, et sur le fondement d'une loi organique. Le réseau représente 4 000 kilomètres linéaires de documents : 70 nouveaux kilomètres linéaires de plus chaque année ! Une fois échue leur durée d'utilité administrative, les documents nous sont versés. Les demandes de consultation des documents sont de deux ordres : les plus nombreuses sont le fait de chercheurs ou de particuliers, à des fins de recherche historique ou généalogique ; les autres demandes sont motivées par la nécessité pour l'intéressé de justifier d'un droit. Celles-ci concernent des documents ayant une durée de vie administrative « secondaire » plus longue - consultation d'un jugement de divorce à l'occasion d'une succession, de dossiers de tutelle, d'adoption, d'hypothèques par exemple, qui font l'objet de 8 000 consultations par an rien qu'à Paris. Ces dernières années, de nombreux services ont cherché à limiter la durée d'utilité administrative « première » si je puis dire des documents, afin d'en accélérer le transfert vers les services d'archives départementales, et ainsi leur transférer une charge non négligeable, ce dont les conseils généraux ne manquent pas de se plaindre.
L'accès aux archives est encadré par les articles L. 213-1 à L. 213-3 du code du patrimoine. Les conditions ont été alignées sur celles définies à l'article 4 de la loi du 17 juillet 1978 relative à la communication des documents administratifs.
Le principe est celui d'une consultation gratuite sur place, l'envoi d'une copie payante par courrier ou encore l'envoi gratuit par courriel quand le document est déjà numérisé. Le délai de réponse est d'un mois, ce qui pose parfois difficulté pour les documents administratifs nécessaires dans des procédures judiciaires. Les services, qui ne peuvent donner priorité à une demande sur l'autre, ne peuvent pas toujours répondre en temps utile pour l'intéressé, surtout lorsqu'à côté un particulier demande la copie de centaines de pages de registres, alors que nous manquons de personnel pour ce faire. L'alignement du code du patrimoine sur la loi de 2008 pour l'accès aux documents administratifs et la consultation des archives publiques, a donc eu des effets de bord problématiques et nous ne parvenons pas toujours à tenir les délais.
Autre difficulté, la numérisation de données personnelles. Faut-il transférer à celui qui en fait la demande la totalité du fichier ? La réutilisation suppose en principe une autorisation de la CNIL. Dans le même temps, nous ne pouvons en interdire la consultation. Or de tels documents sont particulièrement volatiles et le risque est grand, qu'à l'occasion de cette consultation, ils nous échappent, nous privant ce faisant de tout contrôle sur leur réutilisation future. La question du rapprochement opéré en 2008 pose à cet égard problème, je ne vous cache pas que nous cherchons à remédier à ces écueils dans le projet de loi en préparation. Nous entretenons de bonnes relations avec la Commission d'accès aux documents administratifs (CADA), à laquelle nous siégeons. Nous avons parfois des débats, comme sur la définition de la demande abusive : est-ce seulement la volonté de nuire à l'administration, ou bien aussi une demande excessive de copies ?
Je reviens sur la question des délais de communication, Selon la loi de 2008, tout document administratif est immédiatement disponible, sauf exceptions. Il faudrait mieux articuler les délais et les simplifier, aussi bien pour le citoyen que pour le praticien des archives. Pour un même dossier d'archives, entité physique, il existe souvent plusieurs délais : soixante ans, soixante-quinze ans, vingt-cinq ans à partir du décès de la personne, cent ou cent vingt ans à partir de la naissance de la personne.
Il serait par ailleurs utile de poursuivre l'ouverture des archives aux citoyens. Il existe beaucoup trop d'exceptions, dont certaines choquantes, et la ministre de la culture s'est émue de l'existence d'archives réputées définitivement incommunicables.
Lors de l'inauguration du site de Pierrefitte, le Président de la République a souligné que, si le secret était légitime, il ne devait pas faire obstacle à la transparence démocratique nécessaire. C'est évidemment notre feuille de route.
Nous sommes très favorables à des dérogations générales spécifiques, lorsqu'elles répondent à des demandes sociales fortes. M. Lionel Jospin en avait accordé une pour des archives de la Seconde Guerre mondiale. Nous travaillons sur des dérogations générales spécifiques concernant les archives de la Seconde Guerre mondiale non encore communicables ; celles relatives aux grands travaux de la présidence de François Mitterrand ; ou encore celles du procès de Klaus Barbie, enregistré à des fins historiques. Nous nous efforçons de répondre ainsi aux demandes des historiens et à la demande sociale.
Qu'en est-il de la diffusion numérique ? Depuis quinze ans, nous avons, les collectivités territoriales et l'Etat, mené une politique délibérément volontariste de numérisation et de mise en ligne des archives publiques. Photos, cartes postales, se prêtent particulièrement bien à la numérisation, qui est un vecteur de démocratisation de la connaissance.
Cette politique a porté ses fruits : 300 millions de documents sont d'ores et déjà disponibles sur les sites Internet des archives nationales et départementales, plus de 2 milliards de pages sont lues annuellement, ce qui fait des archives les données culturelles les plus consultées en France. Les internautes, particulièrement les généalogistes, sont très friands des archives de l'état civil, mais aussi les registres de délibérations des communes - on apprend beaucoup sur l'histoire de leur commune en lisant les comptes rendus des délibérations des conseils municipaux. Il en est de même pour les archives photographiques, souvent méconnues, qui sont de précieux documents sur l'histoire sociale et patrimoniale de nos terroirs.
Actuellement, nous portons un grand projet avec les collectivités locales, notamment les départements : un mémorial électronique des 9 millions de combattants de la Première Guerre mondiale. Pour l'heure, le site « Mémoire des hommes » ne recense que les « morts pour la France ». Nous voudrions aller plus loin afin de reconstituer le parcours et les opérations de toutes les unités combattantes, donc de tout soldat. Le Président de la République y attache une grande importance, il l'a mis en exergue dans sa conférence de presse du 7 novembre 2013. Au moment où l'on parle de la Grande Guerre, l'enjeu est que chacun puisse retracer le parcours de guerre détaillé d'un aïeul, d'un collatéral, d'un proche. Cette base sera reliée avec les journaux de toutes les unités combattantes.
Tout cela serait impensable sans un partenariat fort, étroit et innovant, entre l'Etat et les départements.
A cet égard, il nous revient d'assurer la sécurité juridique des projets, notamment en instruisant les demandes auprès de la CNIL, et leur sécurité technique, notamment l'interopérabilité des données et le moissonnage des données. Administration centrale, nous avons également à coeur de soutenir financièrement les projets locaux et de garantir un accès équitable aux données sur tout le territoire, faire en sorte qu'aucun site départemental n'affiche une page blanche parce qu'il n'a pas eu les moyens de les mettre en ligne.
La première directive de 2003, telle que transposée dans notre droit national, restait floue s'agissant des données culturelles, en principe exclues de son champ, ne prévoyant que la possibilité de dérogations à ce droit commun. Cela a amené certaines collectivités à considérer qu'elles pouvaient opposer un refus à toute demande de réutilisation à titre commercial émanant d'une société privée. La CADA a considéré que seul un motif d'intérêt général pouvait justifier un tel refus, ce qui n'est guère plus précis. D'où des contentieux.
Espérons que la transposition de la prochaine directive lèvera toutes les ambiguïtés - à commencer pour la réutilisation des données personnelles, qui nécessite une autorisation de la CNIL. Il le faut car les collectivités territoriales, qui ont beaucoup investi depuis quinze ans en ce domaine, ont le sentiment d'être « siphonnées » par des sociétés privées à des fins commerciales. La transposition prochaine de la nouvelle directive est l'occasion d'y revenir pour trouver une solution pragmatique, concrète et durable. Nous sommes favorables à la réutilisation sous condition de licences précisant les conditions, notamment financières. En 2010, nous avons élaboré un règlement général encadrant le principe de cette réutilisation ; nous allons y retravailler avec Etalab.
Il faut aussi préciser le champ de ce que l'Union européenne désigne sous le vocable de documents administratifs, dont l'acception paraît plus large dans la directive qu'en droit français. En effet, quid des archives privées, qui sont nombreuses dans nos services, car elles font l'objet de dations ? Il conviendra de le préciser à l'occasion de la transposition de la nouvelle directive afin d'éviter des contentieux.
Pour contribuer à la réflexion collective, nous rencontrons, en ce domaine comme dans d'autres, un choc entre le possible et le souhaitable. Ceux qui ont demandé la création de cette mission veulent plus de souhaitable ; d'autres devront bien dire à un moment ou à un autre, ce qui est possible.
La gratuité pose une question d'intérêt général. Le droit de tirage qu'elle confère à tout citoyen, pour tout motif, même le plus futile, sur le temps et la diligence des fonctionnaires chargés des archives s'exerce au détriment de la collectivité. La gratuité peut être, de plus, banalisante et dévalorisante, et modifier l'attitude des citoyens vis-à-vis du service qui leur est rendu. Ce principe, il faut le dire, n'est pas forcément égalitaire ni progressiste ; il coûte à la collectivité.
Les archives sont un acte de souveraineté. En français, le terme d'Etat renvoie à ce qui reste, ce qui subsiste, ce qui tient debout. Les archives sont un élément du squelette de l'Etat ! Malgré tout le respect que j'éprouve pour le Président de la République, la mode de la transparence, un peu superficielle, méconnaît complètement l'intérêt général dans certains cas. Il existe de solides raisons de ne pas toujours imposer la publicité immédiate des archives. Comment un juge se prononcera-t-il s'il sait que ses propos dans le cadre du délibéré ne seront pas tenus secret de son vivant ? Le fonctionnement de la justice pourrait en être altéré.
Madame Elgey, dans votre carrière d'historienne de la IVe République, avez-vous eu des difficultés à vous faire communiquer des archives publiques ?
La plupart des dérogations que j'ai demandées m'ont été accordées. Je dois toutefois signaler que j'ai rencontré plus de difficultés à accéder aux rapports de Germaine Tillion aux archives de la France d'outre-mer. Après avoir enfin obtenu une dérogation, ma déception a été grande car le carton étiqueté à son nom ne contenait que des échanges de correspondances sur le virement de son traitement entre le CNRS et le gouvernorat général : aucun de ses rapports rédigés lorsque Jacques Soustelle était gouverneur général de l'Algérie n'avait été conservé !
Du reste, la consultation des archives est délicate. Les documents peuvent parfois être éparpillés. J'ai souvenir, aux archives historiques de l'armée de terre, d'une dénonciation d'exactions par le maire d'une commune de la banlieue d'Alger, attestée par de nombreuses signatures. Or, dans un autre dossier, il apparaissait en réalité que les faits allégués étaient totalement faux et qu'il s'agissait d'une manoeuvre contre le régiment du général de La Bollardière. Cela vaut pour d'autres épisodes que la guerre d'Algérie. Je songe à la lettre d'un ancien compagnon de la Libération protestant parce que le mari algérien de sa nièce avait été tué par l'armée. Dans un autre dossier, on comprenait que cet homme avait été dénoncé... par sa femme, la nièce en question. Les archives, précieuses et passionnantes, doivent être traitées avec précautions et humilité. Elles ne recèlent pas forcément la vérité - si tant est que celle-ci existe.
Merci pour cet échange passionnant. J'ai veillé, lors de la discussion de la loi sur les archives, à ce que les directeurs d'archives départementales soient encadrés et nommés par l'Etat, avec l'accord de la collectivité locale. C'est une garantie de professionnalisme.
En effet. Je suis souvent amené à présenter notre modèle à l'étranger ; j'insiste sur la nécessité d'une unité de la « doctrine archivistique » sur le territoire, afin d'assurer une équité totale sur le territoire. C'est une question régalienne. Pour autant, la doctrine n'est pas hors-sol : critères de sélections, délais, tout cela est discuté entre administration centrale et services départementaux au sein de groupes de travail. Notre modèle est du reste un exemple pour de nombreux pays.
Une question pour l'avenir : comment la « e-administration » conservera-t-elle ses données à long terme, données paradoxalement plus nombreuses qu'à l'époque du papier ?
Il y a un risque de page blanche en effet.
Tout est électronique, notamment dans les échanges avec la préfecture. On stocke, bien sûr. Mais ensuite, comment archive-t-on ?
Je m'en inquiète depuis longtemps. Il y a des enjeux techniques et un problème de moyens.
Un tiers des départements se sont dotés de plateformes d'archivage électronique depuis 4 à 5 ans seulement. L'Etat travaille, dans le cadre d'un projet interministériel entre les archives nationales, les affaires étrangères et la Défense, sur une brique logicielle, dénommée VITAM, pour faciliter cet archivage et gérer le cycle de vie des données électroniques, mais nous sommes encore loin du schéma idéal...
Le Sénat participe également à ce projet. Il est en avance, il faut le dire car c'est peu connu.
Nous entendons M. Bruno Racine, président de la Bibliothèque nationale de France (BnF), accompagné de M. Arnaud Beaufort, directeur général adjoint chargé des services et des réseaux.
L'ouverture des données culturelles est un enjeu majeur mais aussi un défi technique et juridique. Pouvez-vous nous présenter la politique de diffusion et de réutilisation des données de la BnF ? Quels sont ses objectifs ? Quels partenariats avez-vous développés, y compris avec les acteurs privés ? Comment voyez-vous la transposition de la directive de juin 2013 et la mise en oeuvre des engagements de gratuité pris dans le cadre du G8 ?
Je précise que M. Arnaud Beaufort a également été le rapporteur du volet « numérisation » de la culture, hors archives, demandé par le Premier ministre dans le cadre de la modernisation de l'action publique (MAP).
La BnF a une politique ancienne de numérisation du patrimoine : Gallica a ouvert en 1998, à la fin du siècle dernier. La politique de numérisation, initialement concentrée sur les textes fondamentaux, a changé d'échelle en 2005, à la suite de l'annonce de la diffusion massive de textes par Google. Nous sommes alors passés d'un processus artisanal à un processus de masse pour les imprimés, livres et revues. Nous allons prochainement lancer le troisième marché de numérisation de masse qui sera ouvert à hauteur de 30 % à des bibliothèques partenaires en France.
Depuis 2009, nous nous attachons également à numériser ce que nous appelons dans notre jargon les collections spécialisées : manuscrits, partitions, estampes, gravures, photographies, cartes et plans, monnaies et médailles... qui font la singularité de notre patrimoine.
Gallica rend accessibles 2,9 millions de documents libres de droit. Si on leur ajoute les documents sous droits de Gallica qui ne sont pas consultables à distance mais seulement intramuros, cela fait 3,2 millions de documents en tout. Cet écart va s'accroître avec la numérisation de textes sous droits, notamment dans le cadre de la loi sur les indisponibles.
Nos objectifs sont les suivants : rendre disponibles à distance les collections de la BnF, dont la consultation était naguère réservée à quelque 1 300 lecteurs accrédités par jour, mais aussi assurer la conservation des manuscrits fragiles jusqu'alors très peu accessibles qui deviennent ainsi largement accessibles sans dommage pour les originaux, enfin ouvrir le champ aux réutilisations à des fins récréatives, éducatives ou commerciales, notamment éditoriales. Il convient en la matière de distinguer les « métadonnées » - les notices descriptives des documents et notices bibliographiques - et les documents eux-mêmes. Les deux problématiques, si différentes soient-elles, sont naturellement liées.
Notre public n'est pas limité. Il est composé certes essentiellement des chercheurs et éditeurs mais, avec la numérisation, nous pouvons toucher les enseignants et les communautés virtuelles qui se cristallisent autour de tel ou tel thème ou centre d'intérêt. C'est en quelque sorte, et comme le souhaite la Commission européenne dans ses recommandations, faire de cette masse considérable de données culturelles un aliment pour la croissance d'industries créatives et favorisant l'émergence de nouveaux services ou produits marchands.
Concernant les métadonnées, il a fallu, car elles étaient enregistrées sous un format assez ancien, entreprendre un travail considérable de reprise des 13 millions de données bibliographiques, qui n'étaient pas exploitables par les moteurs de recherche. Ce service est mené via data.bnf.fr qui, à la différence d'un catalogue classique, réalise des clusters - des agrégations de données sur un sujet particulier. Prenons, que sais-je, Balzac. Vous trouverez rassemblées sur une même page l'intégralité de ses oeuvres, des travaux sur ses oeuvres, mais aussi des gravures ou des photos. Ainsi se trouve structuré un réservoir très riche et très facilement repérable par les moteurs de recherche. Depuis le 1er janvier 2014, l'ensemble de ces données ont été placées sous la licence Etalab.
Europeana, le portail qui donne accès aux ressources numériques européennes et dont j'assure la présidence pour deux ans encore, a demandé aux institutions contributrices de placer les métadonnées sous la licence libre la plus ouverte possible (CCO), qui n'oblige pas à mentionner la source initiale, tout simplement parce que nous n'avons pas les moyens de contrôler la réutilisation des données ni d'appliquer des sanctions. Tous les services culturels français n'avaient pas procédé ainsi, certaines notices très savantes étant protégées par le droit d'auteur, et leurs contenus sont donc sortis d'Europeana, ce qui a réduit la part des contenus français sur ce portail. Les bibliothèques françaises toutefois n'ont généralement pas suivi cette voie restrictive et préféré considérer que leurs notices étaient faites pour être mises à disposition, sauf à disparaître.
Pour la BnF ou l'INA, la libération des métadonnées ne posait pas de problème majeur. Les musées et les archives la voyaient d'un autre oeil, dès lors que les notices étaient couvertes par le droit d'auteur. Finalement, nous en sommes venus à l'idée que la libération des métadonnées est un phénomène de fond, y faire obstacle diminuerait la part des auteurs français dans Europeana.
J'en viens aux contenus eux-mêmes. La problématique rejoint celle des archives. La réutilisation des contenus de Gallica est libre dès lors qu'elle n'a pas de but commercial. Si tel est le cas, nous appliquons une grille de tarifs, votés au conseil d'administration, publics et qui respecte l'esprit de la directive : le tarif est légèrement supérieur au coût marginal de production. Et il est identique pour tous : nous ne sélectionnons pas les clients au plus fort potentiel.
La filiale de numérisation de la BnF a été créée il y a deux ans, dans le cadre des investissements d'avenir. La création de cette structure dédiée répondait à une condition posée par le Commissariat général à l'investissement. La filiale a conclu deux accords : sur le livre imprimé ancien, antérieur à 1700 ; et sur les collections sonores. Un autre projet à venir porte sur la presse ; il n'entre pas dans le cadre de la numérisation de masse des imprimés car cette dernière dépend financièrement du Centre national du livre alors que la presse relève d'un système de financement spécifique. Les collections numérisées dans le cadre de ce nouveau partenariat, qui intéressent un public plus large que les textes en latin du XVIe siècle, seront immédiatement accessibles, contrairement au partenariat précédent qui prévoyait une exclusivité de dix ans au partenaire privé. Ces conditions de réutilisation sont conformes à la directive européenne. Nous plaidons pour une durée d'indisponibilité des données abaissée à sept ans.
En matière de collections sonores, le modèle est hybride : une partie est en libre accès à travers la plateforme qui héberge certaines de ces données : YouTube, Dailymotion, etc. Les partenariats à venir concerneront également des fonds thématiques, -histoire de l'art et droit, auquel contribue la bibliothèque du Sénat-, ou régionaux, notamment les revues des sociétés savantes locales qui sont une mine de renseignements considérable.
La BnF anime un réseau de pôles associés - bibliothèques municipales et universitaires, auxquelles nous redistribuons sous forme de subventions environ 2 millions d'euros par an. Cette coopération alimente maintenant principalement la numérisation de masse et permet d'assurer la cohérence de la démarche de numérisation, ce qui permet d'éviter les doublons et que subsistent des lacunes importantes, dans le cadre du schéma national de numérisation des bibliothèques qui m'avait été demandé par Mme Albanel alors ministre de la culture, et que j'ai remis à son successeur. Nos partenariats couvrent également la diffusion. Gallica procède en outre au moissonnage des ressources numériques d'autres bibliothèques publiques et devient ainsi une sorte de bibliothèque numérique de France, au-delà des seules collections de la BnF.
Les données numériques étant périssables, la BnF a développé, grâce au financement du CNL (Centre national du livre), un système de préservation et d'archivage réparti (SPAR) qui offre également ses services à des tiers, du simple stockage à la diffusion. Nous mettons en outre en oeuvre avec la bibliothèque nationale universitaire de Strasbourg, le service « Gallica marque blanche », qui permet aux bibliothèques partenaire de se doter de leur propre bibliothèque numérique sans avoir à réaliser tous les investissements techniques ou logiciels nécessaires : leur bibliothèque numérique, entièrement personnalisée à ses couleurs, est en fait opérée par Gallica, qui référence également les ressources du partenaire dans un enrichissement à double sens : le partenaire peut en effet importer toutes les références qui présentent en effet un intérêt pour lui, par exemple nos documents sur l'Alsace repris par Numistral, mis en oeuvre par la BNU de Strasbourg. C'est un bon exemple de ce qu'un grand établissement public national peut faire en matière de mutualisation de ses réalisations, toutes les améliorations apportées aux fonctionnalités de Gallica bénéficiant immédiatement aux bibliothèques numériques des partenaires.
Par ailleurs, nous voyons bien la demande de libération des contenus numérisés qui émerge. C'est en réalité un choix politique qui est sous-jacent et qui n'est pas celui du Gouvernement français ni le nôtre. La réutilisation commerciale est aujourd'hui payante. La rendre gratuite pour stimuler la croissance et l'édition numérique se conçoit, mais le modèle économique des institutions publiques culturelles devrait alors être revu en profondeur. Aujourd'hui, la BnF perçoit 500 000 euros par an au titre de ces redevances pour exploitation. Cette ressource peut même aller croissant : nous avons conclu un accord avec Hachette pour l'impression à la demande des oeuvres numérisées de Gallica et, depuis l'année dernière, nous voyons croître la demande et donc les recettes potentielles.
- Présidence de M. Yves Détraigne, vice-président -
Lorsque cette mission a été demandée, la question de la gratuité n'était qu'une parmi d'autres. J'ai suivi les débats à l'Assemblée nationale : qu'est devenue la question de la consultation des accords de partenariat par les parlementaires ?
J'ai sollicité l'avis de la CADA sur ce point. Son avis très circonstancié indique ce qui peut être communiqué. Sont donc disponibles en ligne les accords dûment biffés pour les stipulations nuisant au secret industriel et commercial. J'ai en outre transmis à M. Bloche les accords intégraux. Ce qui a été possible à l'Assemblée nationale le sera pour le Sénat...
Une précision : la directive n'a pas d'incidence sur nos tarifs, car nous l'avions anticipée.
Les positions du G8 sur la gratuité dépassent le cadre de cette modeste mission...
- Présidence de M. Jean-Jacques Hyest, président -
Nous recevons maintenant M. Trojette, magistrat à la Cour des comptes, auteur du désormais fameux rapport intitulé sur L'ouverture des données publiques : les exceptions au principe de gratuité sont-elles toutes légitimes ?. Après nous avoir rappelé les principales conclusions de votre rapport, pourriez-vous nous éclairer plus particulièrement sur les éléments de calcul des bénéfices susceptibles de résulter, en France, pour les différentes catégories d'acteurs, de l'ouverture des données publiques ; l'ampleur et l'intérêt, pour les différentes catégories d'utilisateurs, des gisements de données publiques non encore ouvertes ; les capacités des producteurs de données publiques à supporter les coûts de leur mise à disposition ; les modalités de calcul des redevances pour accès aux données publiques qui seraient maintenues, en particulier : le lien entre la prestation et le service rendu ; le calcul du coût du service ; la pertinence de clauses d'exclusivité temporaire (dans le domaine culturel notamment) ; enfin, les conditions auxquelles pourrait être développée une offre de services complémentaires payants par les producteurs de données publiques : les acteurs que vous avez entendus ont-ils une démarche documentée à moyen terme en la matière ? Votre rapport trace tout un programme !
Je vous remercie de m'avoir invité à m'exprimer sur ce sujet sur lequel je me suis beaucoup investi car je l'estime crucial pour la santé de notre démocratie, la capacité de modernisation de notre administration, ainsi que pour certaines filières industrielles d'avenir. Ingénieur en informatique et télécoms de formation, ancien élève de l'ENA et aujourd'hui magistrat à la Cour des comptes, chargé de cours à Sciences Po sur l'Etat et la révolution numérique, j'ai à connaître de questions liées à l'informatique tant sous l'angle technique qu'à travers celui de la gestion publique depuis une dizaine d'années. Mes propos n'engagent nullement la juridiction à laquelle j'appartiens.
Conformément aux orientations fixées par lettre de mission, mon rapport traite exclusivement des cas où les informations publiques mises à disposition dans le cadre de la loi Cada sont commercialisées. Il est intervenu alors que le gouvernement, qui envisageait de donner un second souffle à l'ouverture des données publiques, s'interrogeait sur le sens des résistances opposées à ce mouvement par certaines administrations. Ce rapport apporte d'abord des clarifications factuelles et étayées sur plusieurs points : les raisons pour lesquelles les administrations ont fait le choix de mettre à disposition des données publiques de manière payante, alors que d'autres jeux de données sont accessibles gratuitement ; le montant des recettes tirées des redevances associées et les modèles économiques retenus par les administrations qui ont fait le choix de la commercialisation. Je me suis intéressé, en deuxième lieu, à l'impact sur la société de l'ouverture des données publiques, en m'appuyant notamment sur une comparaison internationale. J'ai enfin exploré les perspectives d'évolution des modèles de mise à disposition des données publiques.
Pour réaliser cette étude, j'ai envoyé un questionnaire sommaire à l'ensemble des administrations publiques productrices ou collectrices de données publiques avant d'auditionner chacune d'entre elles, et j'ai élaboré, pour chacun des services concernés, une fiche de synthèse validée par ce service. J'ai également fait parvenir un questionnaire à trente-six missions économiques françaises à l'étranger : sans doute serait-il intéressant que la direction générale du Trésor mette les réponses à votre disposition, voire les publie. J'ai enfin auditionné de nombreux experts et personnalités issus de l'administration française ou étrangère, de la société civile, de la sphère économique ou encore du monde universitaire.
J'ai tiré cinq grands enseignements de ces travaux. En premier lieu, les motivations avancées pour mettre en place des redevances de réutilisation de données publiques apparaissent parfois contestables. Ensuite, les recettes perçues en 2012 n'étaient pas de 100 millions d'euros et en hausse, comme certaines administrations ont pu le prétendre, mais de 35 millions d'euros - dont 4,5 millions acquittés par des acteurs publics -, en baisse d'un tiers par rapport à 2010. Le montant de ces recettes est concentré sur un très faible nombre d'acteurs, principalement l'Insee et l'IGN. Troisièmement, les modèles économiques retenus portent le plus souvent atteinte au principe de gratuité régulièrement réaffirmé par les autorités politiques et font fréquemment office de barrière à l'entrée pour les acteurs économiques, les citoyens et les associations. En quatrième lieu, tout porte à croire que l'ouverture des données publiques est source de bénéfices pour la société dans son ensemble, avec des effets directs et indirects qui pourraient s'élever à plusieurs milliards d'euros selon des estimations réalisées à l'étranger. Ces effets bénéfiques s'exercent à la fois sur le bien-être social, sur la création de valeur et d'emplois et sur les gisements de productivité grâce aux externalités générées. Enfin, la mise à disposition de données brutes doit être faite sur un modèle de plateforme qui attirera des utilisateurs innovants et favorisera l'apparition d'écosystèmes de réutilisation.
Quatre des motifs invoqués par les administrations pour mettre en place ou maintenir des redevances de réutilisation me paraissent fragiles. Le motif budgétaire a quasi-systématiquement été mis en avant, que la redevance soit présentée comme une « recette de poche », une « poire pour la soif » en période de contrainte budgétaire ou comme une ressource propre développée en contrepartie de la suppression ou de la diminution de subventions dans le cadre de la révision générale des politiques publiques (RGPP). Cette situation rend sensible, et non impossible, le passage à un modèle dans lequel les administrations ne percevraient plus de redevance. Ce motif est parfois accompagné d'un argument qui me paraît juridiquement fragile, et qui peut sonner comme une forme de chantage vis-à-vis des autorités budgétaires, selon lequel il faudrait renoncer à la production de données en cas de disparition de la redevance associée, dans la mesure où cette recette sert au moins à couvrir la collecte et la production des données. Or, la constitution de ces informations relève pour les établissements publics concernés de missions de service public statutairement définies et constitue une charge permanente et courante financée par autorisation budgétaire, conformément à la loi organique relative aux lois de finances (LOLF). Troisième motivation avancée par les administrations : la mise en place de redevances permettrait de réguler, c'est-à-dire de limiter, la demande de données - alors que, dans le même temps, l'Etat cherche à mettre en place une mise à disposition et une réutilisation massives de données ! Cette motivation me semble sinon choquante, du moins très contestable. D'autres acteurs conçoivent la redevance, de manière plus ou moins consciente, comme un moyen de protéger certains acteurs économiques en instaurant une barrière à l'entrée, c'est-à-dire en mettant en place une atteinte à la concurrence. Telle administration indique ainsi qu'elle souhaite « favoriser les gros clients » tandis que telle autre justifie l'inutilité d'élargir la base de ses clients par une baisse des prix par le fait que « les principales entreprises concernées sont déjà servies ». D'autres administrations évoquent un « consentement à payer » des acteurs établis... qui annoncent bien sûr un prix conforme à leurs intérêts, c'est-à-dire suffisamment bas pour assurer leur rentabilité et suffisamment élevé pour éviter que de nouveaux acteurs n'entrent sur le marché. Parfois captées par les intérêts de leurs clients, les administrations craignent alors que la suppression de leurs redevances ne déstabilise l'écosystème existant.
J'aimerais à présent revenir sur le modèle de plateforme, qui consiste à attirer à soi les profils créatifs afin de favoriser l'innovation. Ce concept, exposé dans l'ouvrage L'Âge de la multitude d'Henri Verdier et Nicolas Colin et repris dans le rapport de Nicolas Colin et Pierre Collin sur la fiscalité du numérique, fait écho à une réalité. Par exemple, en donnant gratuitement accès à sa bibliothèque Apple Store, l'entreprise Apple attire à elle des dizaines de milliers de développeurs d'applications souvent innovantes, qui totalisent des milliers d'années-travail, et récupère des données d'utilisation qui lui permettent d'identifier des usages ; en outre, elle perçoit 30 % des recettes issues des ventes. Ce concept de plateforme est très ancien : ainsi, les universités ont pour vocation de former des étudiants, mais elles fournissent également des services de base (de l'immobilier, du mobilier, la présence d'enseignants, une cafétéria, une bibliothèque...). Lorsque cela fonctionne bien, elles attirent à elles de bons étudiants et de bons enseignants. L'interaction au sein de l'écosystème universitaire favorise ainsi l'innovation et apporte un bénéfice à la collectivité. Pourquoi l'Etat ne fournirait-il pas semblablement une infrastructure informationnelle à disposition de tous et régie par le principe de gratuité, qui soit ainsi susceptible de profiter à la collectivité ? Il s'agit ainsi de récolter le produit des initiatives de la société civile et du tissu économique : c'est ce qu'on appelle, en économie, internaliser les externalités.
Il conviendrait de limiter la multiplication des licences locales, spécifiques à telle administration ou telle base de données, et de promouvoir les licences standards, interopérables et utilisables à l'international, à la fois pour favoriser la simplicité et la lisibilité de nos bases de données et pour augmenter leur attractivité. Je suis partisan des licences libres, qui permettent de diffuser des données brutes ou enrichies. Une clause de paternité des données pourrait éviter les attributions fallacieuses. Les clauses de share-alike supposent que la rediffusion de données même enrichies ou tronquées se fasse sans condition juridique supplémentaire par rapport à la mise à disposition initiale ; elles encouragent ainsi les démarches coopératives et collaboratives. Les gros projets - Linux, Wikipédia, OpenStreetMap - sont fondés sur ce modèle qui permet aux derniers maillons de la chaîne de se hisser sur les épaules des géants qui sont passés avant eux. On comprend que certains acteurs commerciaux soient effrayés ! La ville de Paris propose un modèle intéressant : l'accès gratuit aux données suppose l'acceptation de clauses de share-alike ; dans le cas contraire, l'accès devient payant.
L'ouverture des données publiques n'est pas exempte de risques ou de freins. Il ne faut pas oublier tout d'abord qu'une telle politique exige, en amont, une conception nouvelle des systèmes d'information et une réflexion lors de la conclusion de contrats de commande publique afin que les données ne soient pas appropriées par des acteurs privés. Le deuxième risque est celui d'une approche patrimoniale des données publiques et des redevances associées, qui résulte souvent d'une interprétation erronée du rapport Lévy-Jouyet sur le patrimoine immatériel de l'Etat. Cette perspective fait obstacle à une approche interministérielle et de long terme de la gestion des données publiques ; dans certains pays, des data officers y veillent, appliquant une vision transversale. Attention, d'ailleurs, à ne pas fournir des prétextes à l'inaction administrative. L'organisation de l'administration peut être propice à l'inertie ; et pour peu que celle-ci voie dans la redevance une recette de poche, le blocage n'est pas loin. La protection de la vie privée est souvent brandie comme un chiffon rouge, prétexte à ne pas progresser dans l'ouverture des données. Sur le sujet du big data, ensuite, il ne faut céder ni à la naïveté ni à la paranoïa. Son périmètre doit être bien distingué de celui de l'open data : la politique d'ouverture des données publiques n'a pas vocation à mettre en danger la vie privée des citoyens. Les données personnelles aujourd'hui les plus utilisées sont d'ailleurs celles mises en ligne par les utilisateurs eux-mêmes. Vous saurez plus vite si j'ai la grippe en consultant ma page Facebook qu'en fouillant la base de données de remboursement de la caisse nationale d'assurance maladie (Cnam). Quatrième risque : la préférence des acteurs pour le court terme. En 2010, l'IGN a ainsi perçu quelques millions d'euros pour la vente de ses bases cartographiques aux géants du Web. On s'est cependant rendu compte quelques années plus tard qu'il s'agissait d'une opération unique : les acteurs privés, qui font travailler gratuitement les utilisateurs en leur offrant par exemple des sacs à dos équipés de caméras, ont désormais les moyens de se passer des données de l'IGN. En outre, cette barrière à l'accès aux données a empêché de nombreux utilisateurs potentiels de développer des services alternatifs. Au total, le bénéfice de cette vente a été très inférieur à la valeur potentielle actualisée de la base de données de l'IGN. Face à ce risque, la plateforme est une stratégie intelligente et qui permet de conserver la souveraineté sur les données publiques ; l'IGN y travaille actuellement. Le dernier risque est celui d'une approche défensive et protectionniste. Le niveau élevé de certaines redevances s'explique par la peur de la captation de la valeur par de grands groupes privés qui échappent à l'impôt en France ou en Europe. Mais comment penser sérieusement qu'une redevance de 15 millions d'euros puisse arrêter des groupes tels que Google, Facebook ou Amazon ? Attention à ne pas différer des choix importants sous l'effet d'un complexe de citadelle assiégée.
A la suite de mon rapport, le Gouvernement a pris plusieurs mesures : il a supprimé certaines redevances, a clarifié sa doctrine sur ce point en précisant qu'elles ont toutes vocation à disparaître, et a confié au secrétariat général pour la modernisation de l'action publique une mission d'accompagnement de plusieurs opérateurs dans leur transition vers de nouveaux modèles économiques.
J'en viens aux questions que vous m'avez adressées. Vous m'interrogez sur les éléments de calcul des bénéfices susceptibles de résulter pour les différentes catégories d'acteurs de l'ouverture des données publiques. Celle-ci présente tout d'abord un intérêt non marchand non négligeable pour la démocratie et la modernisation des administrations. D'un point de vue économique, les références scientifiques permettant de chiffrer l'impact de l'ouverture des données sur la société sont rares. Des modèles empiriques existent néanmoins, qui font état d'une évolution en trois phases, au terme de laquelle les données sont sources de revenus. La première, où l'on renonce à la redevance et où l'on investit (on sème), est une phase coûteuse et déficitaire pour la collectivité publique. Puis vient la phase de germination, les premiers gains de productivité apparaissent, une activité économique se développe. Enfin vient la récolte, sous forme de bénéfices sociaux et économiques, donc fiscaux. Voyez l'expérience danoise, ou le cas du secteur de la météo aux Etats-Unis après l'ouverture des données publiques. Une étude finlandaise conclut que le chiffre d'affaires du secteur de l'information géographique croît davantage (de l'ordre de 15 % supplémentaires) dans les pays qui ouvrent cette information gratuitement ; les travaux de l'IGN semblent corroborer ce constat, puisque l'ouverture de ses données aux organismes chargés d'une mission de service public a conduit à la multiplication par vingt des volumes de leur téléchargement. Au Royaume-Uni, l'ouverture des données publiques en 2010-2011 a engendré un profit estimé à plus de 8 milliards d'euros, dont 2 en bénéfices directs.
Vous m'interrogez également sur l'ampleur et l'intérêt pour les différentes catégories d'utilisateurs des gisements de données publiques non encore ouvertes. Le propre de ces données est l'incertitude des effets qui résulteraient de leur ouverture ; pour autant, il est possible d'anticiper l'impact de l'utilisation de certains types de données. S'agissant des données de santé, les informations relatives à la prescription des statines en Angleterre, qui étaient remboursées à hauteur de 450 millions d'euros par an, montrent qu'une économie de près de 230 millions d'euros aurait pu être réalisée si un générique avait été systématiquement prescrit. L'exploitation de ce type de données, qui laissent entrevoir des possibilités d'économies considérables, peut constituer un instrument très précieux d'aide à la décision publique. Il faut par ailleurs avoir à l'esprit que le monopole de fait ou de droit dont disposait l'Etat sur la collecte ou la production des données constituant des référentiels, comme les registres d'entreprises, les données géographiques ou les informations figurant dans les bulletins officiels (pour l'achat public notamment) est aujourd'hui remis en cause. Dans ce contexte, plutôt que sur les gains de l'ouverture, il faut s'interroger sur les pertes certaines que font courir le maintien des barrières et l'absence d'une réutilisation massive : perte d'un lien avec les citoyens, de valeur économique et de souveraineté dès lors que les utilisateurs se tournent vers des bases de données privées. OpenStreetMap, souvent plus performant que les services de Google, Microsoft et Apple dans les zones denses, est de plus en plus utilisé par les services publics de sécurité, notamment les pompiers et le Samu. Idem pour le projet collaboratif Open Meteo Foundation ; il est aujourd'hui préféré par les acteurs publics. Il a été imaginé par un petit génie français de 22 ans dans sa chambre, chez ses parents...
Avant d'étudier les coûts de la mise à disposition, il faut se poser la question de l'utilité d'une redevance pour service rendu. Est-il même souhaitable de mettre en place une redevance sur des données brutes élaborées dans le cadre d'une mission de service public ? À cette question, le Gouvernement a clairement répondu non. Il me semble que l'analyse par les coûts n'est pas pertinente. D'abord, parce que les coûts associés à une mission de service public ne peuvent être financés que par l'autorisation budgétaire. Ensuite, parce que la comptabilité analytique n'est pas toujours efficace pour calculer ces coûts. En troisième lieu, le respect de l'article 15 de la loi Cada est difficile à contrôler. Enfin, dans le secteur du numérique, un tarif défini a priori, fondé par exemple sur le consentement à payer, est nécessairement hasardeux dans la mesure où tous les utilisateurs potentiels ne sont pas connus. Toutes les entreprises du web, dans leur phase d'expérimentation, appliquent la gratuité pour identifier les vrais usages et en déduire ensuite la tarification appropriée.
Il me semble que l'article 15 de la loi Cada, et notamment ses premier et troisième alinéa, crée une confusion quant au concept de gratuité de la réutilisation des données publiques et entretient une ambiguïté autour des motifs qui peuvent justifier la mise en place d'une redevance, sans compter que la vérification des plafonds de recettes est très complexe. Il me semble en revanche intéressant qu'une tarification puisse reposer sur des services ou des droits supplémentaires dits premium - à condition qu'une telle tarification ne s'oppose pas à la possibilité d'accéder gratuitement à l'ensemble d'une base de données brutes, qui constitue un bien public informationnel. Ces services supplémentaires peuvent recouvrir un débit accru, un accès anticipé aux ressources, un accès à des traitements supplémentaires, la mise à disposition d'espaces de stockage volumineux, la fréquence de mise à jour de la base de données ou encore la mise en place de hotlines. En ce qui concerne les droits supplémentaires, on peut penser à un droit de réutilisation dans le cadre de licences très permissives. J'y insiste, il faut ouvrir l'accès aux données brutes, notamment pour les jeunes pousses, les entreprises innovantes. Tout modèle qui limite leur accès, en privilégiant les gros volumes ou l'activité commerciale de l'acquéreur, est dangereux.
Les financements coopératifs peuvent être particulièrement adaptés pour des opérations ponctuelles de financement de services complémentaires détachables d'une mission de service public. Je pense par exemple à l'ouverture de stocks de données qui ne sont plus alimentés et qu'il est nécessaire de remettre en forme. Ces modes de financement, qui n'engagent à rien, ont le mérite d'éviter les barrières à l'entrée et les clauses d'exclusivité dans le temps. La plateforme MyMajorCompany a rencontré un grand succès dans le domaine culturel.
En conclusion, plutôt que de considérer les bases de données publiques comme des ressources naturelles épuisables, reprenons l'analogie du grain de blé qui est semé et récolté ou encore celle de la bougie de Thomas Jefferson qui peut servir pour en allumer d'autres sans perdre elle-même en luminosité...
Sans tomber dans la grandiloquence, je pense que ce rapport fera date, comme en son temps le rapport Nora-Minc et sa vision de l'évolution de la société française. Vous avez précisé que votre présentation n'engagerait que son auteur. Quelle a été la réception de votre rapport au sein de la Cour des comptes ? Avez-vous le sentiment que les acteurs politiques et économiques en ont perçu les enjeux ? Que répondez-vous à un syndicaliste qui disait que votre rapport était le chaînon manquant, ajouté à la LOLF, pour une remise en cause du service public ?
Au sein de la Cour des comptes, mon rapport a été transmis à tous les présidents de chambre, et je suis sollicité en interne pour en présenter les conclusions.
Dans la presse, on a parlé de ce rapport d'une façon réductrice, en mettant en avant l'idée d'une gratuité absolue alors que je me suis bien gardé d'aller jusque-là, au vu de la situation de nos finances publiques. Pour ma part, j'insiste sur la notion de stratégie de plateforme : là est l'important à l'ère du numérique. Enfin, fonctionnaire et ancien boursier de l'enseignement supérieur, je suis très loin de vouloir planter un poignard dans le dos de l'Etat en sapant le service public. Ce qui est en question aujourd'hui, c'est la mutabilité, y compris technologique, du service public. Sur la question de la gratuité, je ne suis pas sûr d'avoir été bien entendu par tous les acteurs publics. Plus exactement, certaines administrations publiques, qui ont des intérêts particuliers, préfèreraient que mon rapport n'existe pas.
Votre rapport a-t-il été conçu également comme un moyen de lutter contre le poids des lobbies et les conflits d'intérêts, ou cet aspect des choses vous est-il apparu par la suite ?
Après avoir lu votre rapport, j'ai décidé de faire un stage, comme chaque parlementaire en effectue dans les entreprises ou les institutions, au sein de la Cour des comptes.
Je suis heureux d'avoir suscité une vocation ! Je n'ai pu travailler directement sur la question de la prévention des conflits d'intérêts dans le cadre qui m'avait été fixé. Néanmoins, la mise en place de barrières à l'accès aux données publiques et d'obstacles à la concurrence peut apparaître troublante... Il faut également garder à l'esprit que l'ouverture des données publiques est nécessaire pour alimenter la transparence et la confiance que les citoyens peuvent placer dans l'action publique. En outre, selon l'association Regards citoyens, la transparence sur les marchés publics est une condition essentielle pour favoriser l'accès des petites entreprises à l'achat public.
Nos travaux nous ont permis d'identifier un certain nombre d'obstacles juridiques à l'ouverture des données, sur lesquels nous aimerions faire le point avec vous. Quels sont les droits attachés aux données publiques ? Comment les administrations peuvent-elles circonscrire précisément ces droits afin qu'ils n'en limitent pas l'utilisation ? La licence vous paraît-elle toujours nécessaire ? La gouvernance des données publiques doit-elle être améliorée ?
Je ne rappellerai pas le droit existant, chacun peut facilement consulter maintes sources à ce sujet ; je préfère formuler des recommandations. Les grands principes sont connus : on les trouve sur le site de la Cada. Notre modèle, ancien - la France a d'ailleurs été pionnière -, est inadapté à l'émergence de la société d'information. Protection des données personnelles, respect des droits des tiers détenteurs ou transparence et participation citoyenne, tout cela nous conduit à réinterroger notre modèle et notre cadre juridique. Il serait nécessaire de clarifier le droit applicable aux données publiques, de mieux définir les usages des données, de revoir la gouvernance publique.
La loi du 17 juillet 1978 ne concerne que les documents administratifs, y compris ceux émanant des opérateurs privés exerçant une mission de service public. Le droit français distingue le droit à l'information, souvent appelé droit d'accès ou droit de communication, du droit à la réutilisation, seul visé par la transposition de la directive du 26 juin 2013. Le droit à l'information se décompose en un droit général et un droit restreint - je vous renvoie à l'article 6 de la loi de 1978.
L'Union européenne a souhaité étendre ce droit en facilitant la réutilisation des données possédées par les musées, les bibliothèques et les archives et en limitant les freins à cette réutilisation, qu'il s'agisse des redevances, des droits d'exclusivité ou de recours en cas de refus d'accès.
La tentation serait, pour le Parlement, de se focaliser sur ce seul droit à la réutilisation. Or le droit de l'information, qui a une finalité fondamentalement démocratique, est le préalable du droit à la réutilisation. Leurs logiques sont certes différentes : l'information procède en effet du gouvernement ouvert, alors que la réutilisation procède de la logique des données ouvertes. Les données ouvertes ou open data ne sont qu'un des aspects du gouvernement ouvert. Le chantier est large : il concerne toutes les informations qui ont vocation à être mises en ligne. Est-il normal que toutes les collectivités territoriales ne publient pas leurs délibérations et leurs budgets sur Internet ? Certaines le font, mais dans des formats non standardisés, qui ne permettent pas une réutilisation facile. Autre difficulté : les droits d'auteur ; je pense par exemple aux conclusions des rapporteurs publics du Conseil d'Etat, qui permettent d'éclairer la décision mais ne sont pas diffusées.
Quelle réponse synthétique apporter à vos interrogations ? Les droits d'information et de réutilisation connaissent des exceptions parfois justifiées : la protection de la vie privée ou les intérêts nationaux, par exemple. En revanche, certains cas sont plus discutables : certaines administrations refusent de communiquer l'information malgré l'avis favorable de la Cada, d'autres font preuve de mauvaise volonté en transmettant des contenus dans des formats non standardisés.
Soulignons une autre difficulté : le producteur de la base de données a, en sus du droit d'auteur, un droit, qui lui est propre, d'empêcher l'extraction de sa base de données. Dans l'affaire qui a opposé Notrefamille.com au service d'archives départementales de la Vienne s'agissant des données d'état civil, le tribunal administratif de Poitiers a rendu une décision originale le 31 janvier 2013, en considérant le département comme un producteur de données ayant mis en oeuvre des moyens de production et des investissements.
Les difficultés devraient être levées avec la transformation de la loi de 1978 du fait de la transposition de la directive. Les services d'archives, les bibliothèques, les musées devraient être désormais couverts - mais pas les services publics industriels et commerciaux, dont les bases de données continueront d'être protégées.
Par ailleurs, la faiblesse des pouvoirs de la Cada explique la limitation de l'open data. Cela étant, les opérateurs non couverts par la loi de 1978 se réfèrent au droit de la propriété intellectuelle. Celui-ci protège non seulement les bases de données, les créateurs mais aussi les logiciels dès lors qu'ils sont uniques. Je souligne que l'administration a la possibilité d'acquérir les droits d'exploitation, mais non les droits moraux, distincts des droits patrimoniaux. Il en résulte que les auteurs peuvent toujours opposer un droit de divulgation ou un droit de repentir pour s'opposer à la réutilisation des données.
En revanche, les algorithmes ou les fonctionnalités d'un programme ne sont pas protégés par le droit d'auteur. La Cour de justice de l'Union européenne l'a confirmé en 2012, de même que la Cour de cassation dans un arrêt du 14 novembre 2013. Celle-ci a précisé que de tels outils conceptuels ne reflètent pas la personnalité de leur auteur et qu'ils n'expriment pas une originalité propre.
Depuis 2006 cependant, les agents publics bénéficient dans une certaine mesure d'un droit - encadré - de propriété intellectuelle sur leur production numérique. Cela peut limiter l'accès aux données, ces agents disposant d'un droit de divulgation et d'un droit de repentir ou de retrait. Pour faciliter la diffusion des oeuvres, le législateur a souhaité restreindre ces droits moraux à l'instar de ce qu'il a prévu en matière de logiciels. L'agent public dispose d'un droit de divulgation, mais dans le respect des règles auxquelles il est soumis dans le cadre de ses missions. De même, l'agent public ne peut s'opposer à la modification de son oeuvre par sa hiérarchie dès lors qu'elle ne représente pas une atteinte à son honneur ou sa réputation. Afin de prévenir tout conflit, le législateur pourrait prévoir que les données collectées par les agents publics relèvent en principe de leur mission de service public et que leur modifications sont réputées intervenir pour l'intérêt du service.
Qu'en est-il des oeuvres collaboratives associant agents publics et privés ? Au regard du droit existant, les jeux de données peuvent être rattachés à la notion d'oeuvre collective, ce qui donne un droit à l'administration sur l'ensemble de l'oeuvre.
Licences et clauses d'exclusivité peuvent limiter l'usage des données, vous l'avez noté. Les accords d'exclusivité sont encadrés car il s'agit d'un monopole d'exploitation, mais ils peuvent aussi se comprendre au regard de l'investissement nécessaire et important de la part du secteur privé. Par exemple, Google a décidé de numériser 15 millions d'ouvrages sur les 130 millions existants, il a passé un accord sur 400 000 ouvrages avec la Bibliothèque nationale australienne, un million d'ouvrages en Italie, respectivement pour 30 millions et 100 millions d'euros. En cela, il effectue une mission de service public, en contrepartie de quoi l'entreprise a un monopole d'exploitation.
La directive du 26 juin 2013 prévoit deux exceptions à l'interdiction de principe des clauses d'exclusivité : lorsqu'elle est nécessaire au fonctionnement d'un service d'intérêt général et pour la numérisation des ressources culturelles des administrations publiques. Elle recommande alors une durée d'exclusivité de dix ans, avec une clause de réexamen.
Pour finir, j'en viens à la gouvernance des données publiques. Elle doit évoluer, c'est une nécessité. Je propose trois axes. Distinguer le producteur du gestionnaire serait particulièrement innovant ; les administrations collecteraient les informations selon un référentiel commun, mais la définition des politiques d'open data resterait aux collectivités. En revanche, il faut un gestionnaire public des données. Erigé en établissement public et en gestionnaire unique, Etalab aurait une force de frappe considérable. L'intérêt serait de proposer davantage de services à partir d'un compte individualisé, notamment de nouveaux moyens de rémunérations pour les services complémentaires, et de créer une licence nationale pour les grands comptes - les entreprises multinationales qui consomment beaucoup de données nationales sans acquitter d'impôts en France. Ce ne serait pas une mesure de discrimination mais un droit d'utilisation.
Deuxième axe : les licences doivent être multiples, pour répondre à tous les besoins. Le share-alike est intéressant pour certaines entreprises, pour les collectivités. Pour d'autres, la clause de partage présente des inconvénients : elle met en place une viralité, puisque l'on est contraint de partager les données dans les mêmes conditions.
Enfin, un organe de contrôle renforcé pourrait prendre le relais de la Cada : j'imagine une commission nationale de l'information publique, qui saurait tirer les conséquences de l'évolution de la notion de document administratif vers celle d'information publique.
Je propose donc un aménagement plus vaste du droit existant que la stricte transposition de la directive. A la France d'affirmer son leadership tout en tenant compte de son modèle administratif multiséculaire face à un Royaume-Uni qui veut s'imposer comme le pionnier de l'open data.
rapporteure. - À votre sens, quel est le niveau d'acceptabilité de vos propositions dans le monde politique ?
La loi de 1978 a évolué à la suite de l'affaire Safari. À nouveau, nous réfléchissons à ces questions, dans une conjoncture où le respect de la vie privée peut être bafoué, on l'a vu. Comment lever les obstacles politiques ? En expliquant l'intérêt citoyen de mes recommandations.
Je ne retranche rien aux pouvoirs des collectivités territoriales qui restent maîtres de leurs politiques. Au contraire, je souhaite une structure plus forte, sortie du giron de l'Etat, en charge de la seule gestion des données, pour avoir une plus grande accessibilité et éviter toute forme de recentralisation. Alternativement, on pourrait avoir des structures d'envergure régionale, et l'Etat la sienne, en veillant bien sûr à l'interopérabilité. Enfin, la question n'est pas tant celle de l'acceptation par le monde politique que celle de l'intérêt des citoyens.
Quel est le coût de vos propositions, à l'heure où l'on cherche 50 milliards d'euros d'économies ?
Je vais m'atteler à une évaluation. Quoi qu'il en soit, la création d'une licence grands comptes et la rémunération des services à valeur ajoutée sont une voie du financement pour ce nouvel organisme chargé de valoriser les données publiques.
Vous pensez donc que l'on peut approfondir le rapport Trojette. Le débat n'est pas clos !
Trop souvent, les universitaires réfléchissent de leur côté, les administrations du leur. Il faudrait les réunir, ainsi que les utilisateurs, au sein d'une nouvelle mission de réflexion.
Nous avons à coeur de les entendre tous. Nous vous remercions.
La séance est close à 12 h 50.