Intervention de Gaëtan Gorce

Commission des lois constitutionnelles, de législation, du suffrage universel, du Règlement et d'administration générale — Réunion du 16 avril 2014 : 1ère réunion
Open data et protection de la vie privée — Examen du rapport d'information

Photo de Gaëtan GorceGaëtan Gorce, rapporteur :

L'anglicisme open data désigne la mise à disposition d'un maximum de données détenues par les administrations dans des conditions techniques, juridiques et financières favorables à leur réutilisation par des tiers. Techniques : en les rendant accessibles dans des formats non propriétaires. Juridiques : en limitant les obstacles à leur réutilisation. Financières : en ne soumettant pas leur réutilisation au paiement d'une redevance. Tels sont les principes retenus par la plupart des gouvernements. Cette nouvelle notion est intéressante, mais pose un certain nombre de problèmes.

D'abord, l'objectif de l'open data est encore incertain. Pourquoi diffuser largement des données servant au bon fonctionnement des services publics ? Dans les années 1990, la demande de libération des données émanait essentiellement d'universitaires soucieux de ne pas réserver le produit de leurs recherches à leurs seuls commanditaires ; d'aucuns y ont ensuite vu, aux États-Unis, une source de richesse ; depuis quelques années, l'open data est défendu au nom de principes politiques et démocratiques, et justifié par l'article 15 de la Déclaration des droits de l'homme et du citoyen de 1789.

Les textes existants, comme la circulaire Fillon ou le décret de février 2011 instituant Etalab reposent sur ces principes de transparence et de contrôle, ainsi que sur une exigence renouvelée de modernisation de l'action publique. Tous ces fondements, relativement confus, gagneraient à être priorisés. Au nom du débat public, le portail établi par Etalab accueille ainsi des données privées, sans que cela soit clairement mentionné ni qu'ait été préalablement définie la responsabilité de l'hébergeur...

Cette politique souffre ensuite d'une certaine complexité juridique. La principale base juridique à l'accès élargi aux données publiques est fournie par la loi du 17 juillet 1978 relative à l'accès aux documents administratifs. Or nous sommes passés d'une logique de la demande à une logique de l'offre. La loi distingue désormais les documents que l'administration a l'obligation de communiquer, de ceux qu'elle a la faculté de mettre à disposition des usagers. En 2005, le droit de réutilisation de ces données a été précisé par ordonnance, sous réserve des dispositions de la loi « Informatique et libertés » du 6 janvier 1978. Cette sédimentation rend l'ensemble peu cohérent et suscite des difficultés d'interprétation.

Enfin, la mise en place de la politique d'open data a été quelque peu improvisée. Le militantisme l'a emporté à toute force. L'approche défendue par Lionel Jospin dans son discours d'Hourtin de 1997 a été poursuivie par tous les gouvernements successifs, mais sans doctrine ni moyens. Un outil a été créé, l'Agence du patrimoine immatériel de l'État, puis Etalab. Celui-ci emploie sept personnes, mais le cadre juridique de son action n'est toujours pas clair. Il publie des vade-mecum sur la libération des données, mais n'assure aucune veille. Il participe à la politique de mise en ligne des données des administrations, mais ses pouvoirs ne sont pas précisément définis. Bref, stabilisons le pilotage de l'open data.

De manière plus préoccupante, le risque pesant sur la protection des données personnelles apparaît largement sous-évalué par les administrations. Ces préoccupations ne sont pas suffisamment rappelées aux différents acteurs. Une grande partie de nos interlocuteurs nous ont même assuré que la question ne se posait pas dès lors que la loi de 1978 excluait la publication de données personnelles non anonymisées ou en l'absence du consentement de la personne à laquelle elles se rapportent. La sous-estimation de ce risque est militante. Elle vise à ne pas contraindre par des principes le développement naturel des techniques. Cette situation n'est pas tenable : une consultation organisée par la CNIL a montré que 50 % des répondants, responsables open data, ont rencontré des problèmes liés aux données personnelles.

En la matière, les techniques ne sont pas infaillibles. La plus efficace combine cryptage et hachage des données. Mais tous les techniciens nous ont assuré qu'il n'existait aucun système absolument sûr. Toutes les données peuvent faire l'objet de recoupements, de croisements, pour remonter jusqu'à l'identité des personnes. La démonstration nous en a été faite... AOL avait par exemple rendu publiques les recherches effectuées par ses clients sur Internet : l'utilisation de pseudonymes n'a pas empêché de retrouver l'identité de certains d'entre eux à partir des informations qu'on déduisait de leurs recherches. Si la chose est possible dans une entreprise privée, elle l'est aussi dans l'administration.

Le rapport de Pierre-Louis Bras et André Loth sur les données de santé montre que 89 % des entrées à l'hôpital peuvent être analysées pour découvrir l'identité de la personne concernée, par simple recoupement avec d'autres informations - date et durée du séjour, date de naissance, code postal. Dans le cas d'une seconde hospitalisation dans le même établissement, la probabilité d'identification grimpe à 100 %... Il faut intervenir.

Aucun commentaire n'a encore été formulé sur cette intervention.

Inscription
ou
Connexion