Je précise que M. Arnaud Beaufort a également été le rapporteur du volet « numérisation » de la culture, hors archives, demandé par le Premier ministre dans le cadre de la modernisation de l'action publique (MAP).
La BnF a une politique ancienne de numérisation du patrimoine : Gallica a ouvert en 1998, à la fin du siècle dernier. La politique de numérisation, initialement concentrée sur les textes fondamentaux, a changé d'échelle en 2005, à la suite de l'annonce de la diffusion massive de textes par Google. Nous sommes alors passés d'un processus artisanal à un processus de masse pour les imprimés, livres et revues. Nous allons prochainement lancer le troisième marché de numérisation de masse qui sera ouvert à hauteur de 30 % à des bibliothèques partenaires en France.
Depuis 2009, nous nous attachons également à numériser ce que nous appelons dans notre jargon les collections spécialisées : manuscrits, partitions, estampes, gravures, photographies, cartes et plans, monnaies et médailles... qui font la singularité de notre patrimoine.
Gallica rend accessibles 2,9 millions de documents libres de droit. Si on leur ajoute les documents sous droits de Gallica qui ne sont pas consultables à distance mais seulement intramuros, cela fait 3,2 millions de documents en tout. Cet écart va s'accroître avec la numérisation de textes sous droits, notamment dans le cadre de la loi sur les indisponibles.
Nos objectifs sont les suivants : rendre disponibles à distance les collections de la BnF, dont la consultation était naguère réservée à quelque 1 300 lecteurs accrédités par jour, mais aussi assurer la conservation des manuscrits fragiles jusqu'alors très peu accessibles qui deviennent ainsi largement accessibles sans dommage pour les originaux, enfin ouvrir le champ aux réutilisations à des fins récréatives, éducatives ou commerciales, notamment éditoriales. Il convient en la matière de distinguer les « métadonnées » - les notices descriptives des documents et notices bibliographiques - et les documents eux-mêmes. Les deux problématiques, si différentes soient-elles, sont naturellement liées.
Notre public n'est pas limité. Il est composé certes essentiellement des chercheurs et éditeurs mais, avec la numérisation, nous pouvons toucher les enseignants et les communautés virtuelles qui se cristallisent autour de tel ou tel thème ou centre d'intérêt. C'est en quelque sorte, et comme le souhaite la Commission européenne dans ses recommandations, faire de cette masse considérable de données culturelles un aliment pour la croissance d'industries créatives et favorisant l'émergence de nouveaux services ou produits marchands.
Concernant les métadonnées, il a fallu, car elles étaient enregistrées sous un format assez ancien, entreprendre un travail considérable de reprise des 13 millions de données bibliographiques, qui n'étaient pas exploitables par les moteurs de recherche. Ce service est mené via data.bnf.fr qui, à la différence d'un catalogue classique, réalise des clusters - des agrégations de données sur un sujet particulier. Prenons, que sais-je, Balzac. Vous trouverez rassemblées sur une même page l'intégralité de ses oeuvres, des travaux sur ses oeuvres, mais aussi des gravures ou des photos. Ainsi se trouve structuré un réservoir très riche et très facilement repérable par les moteurs de recherche. Depuis le 1er janvier 2014, l'ensemble de ces données ont été placées sous la licence Etalab.
Europeana, le portail qui donne accès aux ressources numériques européennes et dont j'assure la présidence pour deux ans encore, a demandé aux institutions contributrices de placer les métadonnées sous la licence libre la plus ouverte possible (CCO), qui n'oblige pas à mentionner la source initiale, tout simplement parce que nous n'avons pas les moyens de contrôler la réutilisation des données ni d'appliquer des sanctions. Tous les services culturels français n'avaient pas procédé ainsi, certaines notices très savantes étant protégées par le droit d'auteur, et leurs contenus sont donc sortis d'Europeana, ce qui a réduit la part des contenus français sur ce portail. Les bibliothèques françaises toutefois n'ont généralement pas suivi cette voie restrictive et préféré considérer que leurs notices étaient faites pour être mises à disposition, sauf à disparaître.
Pour la BnF ou l'INA, la libération des métadonnées ne posait pas de problème majeur. Les musées et les archives la voyaient d'un autre oeil, dès lors que les notices étaient couvertes par le droit d'auteur. Finalement, nous en sommes venus à l'idée que la libération des métadonnées est un phénomène de fond, y faire obstacle diminuerait la part des auteurs français dans Europeana.
J'en viens aux contenus eux-mêmes. La problématique rejoint celle des archives. La réutilisation des contenus de Gallica est libre dès lors qu'elle n'a pas de but commercial. Si tel est le cas, nous appliquons une grille de tarifs, votés au conseil d'administration, publics et qui respecte l'esprit de la directive : le tarif est légèrement supérieur au coût marginal de production. Et il est identique pour tous : nous ne sélectionnons pas les clients au plus fort potentiel.
La filiale de numérisation de la BnF a été créée il y a deux ans, dans le cadre des investissements d'avenir. La création de cette structure dédiée répondait à une condition posée par le Commissariat général à l'investissement. La filiale a conclu deux accords : sur le livre imprimé ancien, antérieur à 1700 ; et sur les collections sonores. Un autre projet à venir porte sur la presse ; il n'entre pas dans le cadre de la numérisation de masse des imprimés car cette dernière dépend financièrement du Centre national du livre alors que la presse relève d'un système de financement spécifique. Les collections numérisées dans le cadre de ce nouveau partenariat, qui intéressent un public plus large que les textes en latin du XVIe siècle, seront immédiatement accessibles, contrairement au partenariat précédent qui prévoyait une exclusivité de dix ans au partenaire privé. Ces conditions de réutilisation sont conformes à la directive européenne. Nous plaidons pour une durée d'indisponibilité des données abaissée à sept ans.
En matière de collections sonores, le modèle est hybride : une partie est en libre accès à travers la plateforme qui héberge certaines de ces données : YouTube, Dailymotion, etc. Les partenariats à venir concerneront également des fonds thématiques, -histoire de l'art et droit, auquel contribue la bibliothèque du Sénat-, ou régionaux, notamment les revues des sociétés savantes locales qui sont une mine de renseignements considérable.
La BnF anime un réseau de pôles associés - bibliothèques municipales et universitaires, auxquelles nous redistribuons sous forme de subventions environ 2 millions d'euros par an. Cette coopération alimente maintenant principalement la numérisation de masse et permet d'assurer la cohérence de la démarche de numérisation, ce qui permet d'éviter les doublons et que subsistent des lacunes importantes, dans le cadre du schéma national de numérisation des bibliothèques qui m'avait été demandé par Mme Albanel alors ministre de la culture, et que j'ai remis à son successeur. Nos partenariats couvrent également la diffusion. Gallica procède en outre au moissonnage des ressources numériques d'autres bibliothèques publiques et devient ainsi une sorte de bibliothèque numérique de France, au-delà des seules collections de la BnF.
Les données numériques étant périssables, la BnF a développé, grâce au financement du CNL (Centre national du livre), un système de préservation et d'archivage réparti (SPAR) qui offre également ses services à des tiers, du simple stockage à la diffusion. Nous mettons en outre en oeuvre avec la bibliothèque nationale universitaire de Strasbourg, le service « Gallica marque blanche », qui permet aux bibliothèques partenaire de se doter de leur propre bibliothèque numérique sans avoir à réaliser tous les investissements techniques ou logiciels nécessaires : leur bibliothèque numérique, entièrement personnalisée à ses couleurs, est en fait opérée par Gallica, qui référence également les ressources du partenaire dans un enrichissement à double sens : le partenaire peut en effet importer toutes les références qui présentent en effet un intérêt pour lui, par exemple nos documents sur l'Alsace repris par Numistral, mis en oeuvre par la BNU de Strasbourg. C'est un bon exemple de ce qu'un grand établissement public national peut faire en matière de mutualisation de ses réalisations, toutes les améliorations apportées aux fonctionnalités de Gallica bénéficiant immédiatement aux bibliothèques numériques des partenaires.
Par ailleurs, nous voyons bien la demande de libération des contenus numérisés qui émerge. C'est en réalité un choix politique qui est sous-jacent et qui n'est pas celui du Gouvernement français ni le nôtre. La réutilisation commerciale est aujourd'hui payante. La rendre gratuite pour stimuler la croissance et l'édition numérique se conçoit, mais le modèle économique des institutions publiques culturelles devrait alors être revu en profondeur. Aujourd'hui, la BnF perçoit 500 000 euros par an au titre de ces redevances pour exploitation. Cette ressource peut même aller croissant : nous avons conclu un accord avec Hachette pour l'impression à la demande des oeuvres numérisées de Gallica et, depuis l'année dernière, nous voyons croître la demande et donc les recettes potentielles.