Mes chers collègues, notre commission d'enquête poursuit ses travaux avec l'audition de Mme Claire Mathieu. Cette audition sera diffusée en direct sur le site Internet du Sénat et fera l'objet d'un compte rendu publié. Je rappelle, pour la forme, qu'un faux témoignage devant notre commission d'enquête serait passible des peines prévues aux articles 434-13, 434-14 et 434-15 du code pénal.
Conformément à la procédure applicable aux commissions d'enquête, Mme Mathieu prête serment.
Madame Mathieu, vous êtes informaticienne et directrice de recherche au CNRS, spécialisée dans la recherche sur l'algorithmique et, en particulier, sur la conception d'algorithmes destinés à trouver des solutions quasi optimales à des problèmes difficiles à résoudre exactement.
Vous vous êtes notamment intéressée à la modélisation du phénomène dit du « plafond de verre » dans les milieux sociaux.
Notre commission d'enquête s'interroge, à propos de la question de la souveraineté numérique, sur les moyens dont disposent la France et l'Europe en la matière. À cet égard, et dans la perspective de la réaffirmation de notre souveraineté numérique, qui concerne directement l'État, les citoyens ou les acteurs de la société - je pense en particulier aux entreprises -, en quoi la science des algorithmes peut-elle apporter des solutions de progrès ?
À la faveur de la réémergence de l'intelligence artificielle, dont on parle depuis très longtemps, et grâce aux capacités de calcul décuplées et aux gigantesques bases de données désormais disponibles, les algorithmes font l'objet de beaucoup de fantasmes.
C'est notamment la souveraineté des individus qui serait au premier chef, selon certains, menacée par les algorithmes. L'exemple qui vient naturellement à l'esprit, c'est celui du réseau social Facebook, dont l'algorithme risquerait de contraindre notre liberté de penser et d'être informé.
La question de la transparence des algorithmes est aussi l'objet de nombreuses interrogations. Le phénomène de la « boîte noire » est-il inéluctable ? Est-on condamné à ne plus connaître le contenu des algorithmes et leurs calculs ? Serons-nous un jour incapables de comprendre les décisions prises pour nous par des machines ?
Enfin, estimez-vous que la recherche française, publique comme privée, dispose de suffisamment de moyens en la matière pour faire le poids face aux géants du numérique ?
Merci de votre invitation. Cela fait plus de trente ans que je fais de la recherche sur les algorithmes. Après un parcours universitaire classique, j'ai travaillé dans l'enseignement supérieur et la recherche, essentiellement en France, dans des lieux très divers, mais aussi à l'étranger, aux États-Unis. J'ai en particulier passé huit années à temps plein comme professeur d'informatique à l'université Brown, aux États-Unis, l'une des universités de la Ivy League. Cela m'a permis de me familiariser de l'intérieur avec le système américain.
J'ai également été consultante pour quelques entreprises - NEC, AT&T, Microsoft Research - et, récemment, pour le compte du ministère de l'enseignement supérieur et de la recherche, au sujet de Parcoursup. J'ai rempli un rôle de consultant pour les laboratoires de recherche de ces entreprises, où j'ai effectué le même type de recherche que celles que je mène ordinairement, avec des collègues chercheurs travaillant pour Microsoft, AT&T, etc.
Quelques exemples des travaux de recherche que j'ai pu mener : J'ai conçu avec des collaborateurs un algorithme quasi optimal pour placer des rectangles dans une bande, de façon à utiliser le moins de longueur possible. Il s'agissait de réfléchir à la découpe de vêtements. Ceci est resté au niveau théorique. Avec d'autres collaborateurs, j'ai travaillé sur l'analyse d'une heuristique très populaire pour la classification de données en petite dimension. J'ai démontré qu'une variante était quasi optimale. Enfin, toujours avec des collaborateurs, j'ai proposé un modèle pour la croissance des réseaux sociaux et l'émergence d'un plafond de verre pour les minorités.
Tout mon travail s'articule autour de la conception, l'analyse d'algorithmes et parfois leur modélisation. Ma tâche est de concevoir des algorithmes et de démontrer des théorèmes.
Vous avez parlé de transparence. C'est un sujet auquel je me suis particulièrement intéressée dans le cadre de Parcoursup, la plateforme d'affectation des candidats bacheliers aux formations de l'enseignement supérieur. Cet exemple d'algorithme comporte des impacts sociétaux. Ce qu'on gère ce ne sont plus des rectangles, mais des êtres humains. Ceci change la donne : un algorithme, même s'il est totalement optimisé, ne pourra en effet être accepté que s'il a la confiance de ses utilisateurs.
Pour acquérir cette confiance, l'équipe de Parcoursup a essayé d'être très transparente. Comment y parvenir concrètement ? Nous avons publié l'algorithme et le code du coeur de Parcoursup. Ce n'est pas forcément une lecture très digeste pour tout un chacun, mais nos collègues informaticiens peuvent lire ces publications, les critiquer, voir s'il existe des erreurs et évaluer la qualité du travail réalisé. Cela contribue à la transparence, même si le citoyen moyen a du mal à comprendre ce qui se trouve dans ces publications.
Nous avons également essayé d'être simples. Lorsqu'une formation reçoit des candidats, elle réalise un classement. Celui-ci est ensuite modifié pour tenir compte d'un taux de boursiers, déterminé selon la loi par le recteur. Nous avons donc conçu un algorithme que nous avons essayé de rendre aussi simple que possible pour modifier le classement, de façon à respecter le taux du recteur.
Un candidat doit aussi pouvoir comprendre ce qui se passe, et pourquoi il est pris ou non. Pour cela, Parcoursup fournit chaque jour au candidat son rang sur la liste d'appel de la formation, ainsi que le rang du dernier appelé. Par exemple, s'il est 300e et que le dernier est 297e, l'intéressé sait qu'il n'y a plus qu'à attendre trois renoncements avant de recevoir une offre. Cela lui permet de suivre l'évolution et d'avoir une perspective.
Un travail supplémentaire est indispensable en matière de critères d'examen des voeux. Les formations doivent fournir des renseignements suffisamment précis sur leurs attendus et sur les critères pour que les futurs candidats sachent quels cours suivre pour être acceptés et sur quels sujets se concentrer durant leurs années de lycée. Il est, pour ce faire, indispensable que les informations soient suffisantes.
De plus, chaque candidat qui n'est pas retenu peut demander communication des motifs de la décision. C'est un sujet de débat juridique. Une piste de réflexion pour l'avenir : on pourrait synthétiser l'avis des jurys en présentant une liste de matières avec des coefficients, ainsi qu'une partie laissée à la libre appréciation du jury. Malheureusement, avec 14 000 formations et 900 000 candidats, une même formule peut difficilement s'appliquer à tous. La question n'est donc pas encore résolue.
Quelques suggestions en matière de transparence...
Ma première suggestion concerne Affelnet - qui signifie « Affectation des élèves par le Net ». Il s'agit d'orienter les élèves de 3e vers les lycées selon un système de points attribués en fonction de leurs résultats scolaires, du temps de trajet entre le domicile et le lycée, de leur situation sociale. Cet algorithme existe depuis de nombreuses années, mais souffre d'une opacité encore plus grande que Parcoursup. Comment améliorer la transparence de cet algorithme afin que les familles puissent en comprendre le résultat ?
Une possibilité serait de fournir à l'élève, avant candidature, une estimation de son barème en lui montrant combien de points il aurait eu s'il avait été candidat l'an dernier, et de publier les seuils d'admission passés de chaque lycée. Il serait fait de même, chaque année, en fin de campagne. Ceci pourrait permettre à chaque élève de vérifier que la décision qui a été prise répond à une certaine légitimité. Vous le voyez ; cette proposition améliorerait la transparence, sans qu'il soit besoin pour autant d'expliquer les détails de l'algorithme.
Mon deuxième souhait concerne le calcul de l'impôt sur le revenu. Actuellement, lorsqu'on a fait sa déclaration, on obtient seulement un chiffre correspondant au montant de l'impôt sur le revenu. J'aimerais, comme autrefois, que l'on indique également comment on est parvenu à ce résultat, et que l'on connaisse la formule de calcul. C'est tout à fait faisable, me semble-t-il, et l'explication donnerait plus confiance qu'un simple chiffre.
L'actualité récente nous apprend que la majorité des membres du Gouvernement n'ont pas été capables de remplir correctement leur feuille d'impôts : c'est bien qu'il existe un problème !
Je propose donc de simplifier les choses.. C'est une question en partie algorithmique, puisqu'il s'agit de trouver un graphe plus simple qui calcule la même chose. Cela me semble important pour l'intégrité du système.
Mon troisième souhait porte sur la transparence de la synthèse du grand débat national. En effet, la Société informatique de France s'est inquiétée de savoir si cette synthèse serait compréhensible et digne de confiance. Les contributions en ligne des participants sont accessibles à tous. C'est un élément important, n'importe quelle équipe scientifique pouvant s'en saisir pour essayer de faire sa propre analyse. Par ailleurs, les contributions ont été regroupées en catégories et sous-catégories. Ces catégories sont publiques. C'est également un élément de transparence. Ainsi, à la question : « Que pensez-vous de l'organisation de l'État et des administrations en France ? De quelle manière cette organisation devrait-elle évoluer ? », 2,9 % de la population a répondu spontanément en proposant la suppression du Sénat. En réponse ouverte, ce n'est pas négligeable. Reste qu'on ne sait pas comment les personnes ayant réalisé cette synthèse en sont arrivées à choisir comme catégorie la suppression du Sénat...
Il serait également bon de rendre transparentes les correspondances : pour chaque contribution, connaître les « étiquettes » qui lui sont attribuées par catégorie et sous-catégorie. Cela permettrait à chaque participant de vérifier la bonne correspondance et donc l'intégrité de la synthèse qui en a été faite. De plus, ceci aiderait à reproduire les résultats obtenus et à en vérifier la validité. Ce n'est pas ce qui est actuellement proposé.
L'algorithme n'est pas public... mais est-ce nécessaire pour la transparence ? Ce n'est pas indispensable, car même sans en connaître les détails, détenir suffisamment d'éléments sur les données, les résultats et les correspondances permet de vérifier la validité du résultat. Rendre l'algorithme public - ce qui poserait des problèmes de propriété intellectuelle - n'est donc pas forcément essentiel pour l'intégrité de la synthèse du grand débat national.
Enfin, on parle beaucoup d'algorithmes d'apprentissage profond s'agissant de l'intelligence artificielle. Comment le calcul est-il réalisé ? Chaque noeud regarde les noeuds de la couche précédente et établit une moyenne pondérée des entrées, en y appliquant certains coefficients. Par exemple, si la moyenne est supérieure à 10, on estime que le résultat est de 1, si elle est inférieure à 10, le résultat sera de 0. Les noeuds de la deuxième couche vont utiliser à leur tour ces résultats pour réaliser leurs propres calculs, et ainsi de suite. Au bout de quelques couches, on obtient une sortie.
Ces coefficients sont essentiels pour le fonctionnement de l'algorithme. Ils sont retenus grâce à une méthode d'apprentissage. C'est le cas de la météorologie, par exemple : on observe les données dont on dispose, et on ajuste les coefficients grâce à diverses méthodes d'optimisation, de façon à ce que les données produites par le réseau soient le plus exactes possibles, comparées aux données passées.
Les coefficients sont ainsi établis pour « coller » au mieux aux données du passé et sont jugés corrects par rapport aux éléments dont on dispose déjà. Une fois qu'on est parvenu à produire un résultat suffisamment proche de ces éléments connus, on estime avoir réussi à établir des coefficients satisfaisants pour que l'algorithme réalise des prédictions.
On peut donc, certes, réclamer la publication de l'algorithme, mais dans le cas de ce type d'algorithmes, à quoi cela servirait-il ? À supposer même que l'entreprise, oubliant les questions de propriété intellectuelle, publie généreusement la totalité de son algorithme avec tous ses coefficients, cela ne nous dira rien sur ce qui se passe vraiment.
C'est publier le principe et les méthodes de constitution de l'algorithme qui est utile, car cela peut aider les chercheurs à estimer si ce type d'algorithme souffre ou non de certains problèmes potentiels et à comprendre ce qui a été fait pour y remédier.
La qualité du réseau qui résulte de ces opérations dépend essentiellement des données sur lesquelles l'apprentissage a été réalisé. La qualité du résultat dépend de la qualité des données.Publier ces données serait donc idéal, car si les données étaient publiques, n'importe qui pourrait proposer ses propres prédictions et critiquer l'ensemble des données.
Cette méthode algorithmique prédit que le comportement futur de ce qu'on essaie d'estimer est similaire au comportement passé des données qu'on possède. Cela signifie que si les données ont un biais, l'algorithme reproduira ce biais. La qualité des données est essentielle. Il serait bon, a minima, que tous les algorithmes qui utilisent des données publient les caractéristiques de celles-ci et qu'on puisse expliquer ce qui a été fait pour obtenir des garanties sur leur qualité.
C'est ce qui se fait d'ailleurs de façon assez classique dans la recherche médicale : dans ce domaine, les résultats sont basés sur une étude en précisant un certain nombre de patients, d'hôpitaux, de cohortes, etc., avec des données statistiques. C'est fondamental pour avoir confiance dans la méthode utilisée.
Dans quels cas l'intelligence artificielle ainsi décrite fonctionne-t-elle bien ? J'ai demandé à un collègue spécialiste de l'apprentissage de me fournir des exemples et des contre-exemples. Selon lui, un des succès de l'intelligence artificielle réside actuellement dans la traduction et un autre dans la prédiction de tumeurs. En général, cela fonctionne si le contexte est très cadré, s'il existe peu d'incertitudes, que les données sont précises et que l'on sait exactement ce que l'on veut prédire. Plus le problème est précisément défini, mieux les méthodes fonctionnent.
Les problèmes qui présentent encore des défis pour l'intelligence artificielle se rencontrent lorsque les données sont floues, comportent beaucoup d'incertitudes et qu'on ne peut envisager toutes les configurations possibles.
Par exemple, la voiture autonome : elle peut fonctionner sur un circuit fermé, mais à partir du moment où on est sur la route, l'interaction avec les autres véhicules constitue un défi que l'intelligence artificielle ne peut actuellement pas surmonter de façon fiable.
Imaginez que l'algorithme commette une erreur sur un million... mais qu'on ait un million de voitures sur les routes : on aura tous les jours un accident imputable à une erreur de l'algorithme ! Ce n'est pas acceptable. Actuellement, l'intelligence artificielle ne peut produire des voitures autonomes capables de se débrouiller seules en milieu réel.
Un autre exemple est celui du diagnostic médical complet. Là aussi, il y a actuellement trop de paramètres, trop d'inconnues, trop de flou. On ne peut y parvenir.
Comment, dès lors, contrôler les algorithmes en matière d'intelligence artificielle ? Dans son livre À quoi rêvent les algorithmes ?, Dominique Cardon écrit: « Le futur de l'internaute est prédit par le passé de ceux qui lui ressemblent ». C'est une formulation qui décrit bien la façon dont fonctionnent ces algorithmes.
Que faire pour éviter une discrimination liée au genre ? On pourrait, dans les données, effacer l'information « hommes », « femmes » ou autres. Et pourtant, ce n'est pas efficace, car il est généralement facile de reconstruire le genre à partir des autres informations collectées. Par exemple, dans le cas de candidats à des formations d'enseignement supérieur, même si on ne sait s'il s'agit de garçons ou de filles, l'information selon laquelle ils font de la boxe, par exemple, permet de penser avec une bonne probabilité qu'il s'agit de garçons. En fait, l'information du genre est contenue implicitement dans ces données.
Il vaudrait mieux tenter de savoir si les données servant à l'apprentissage sont biaisées et, surtout, tester la discrimination a posteriori. Ainsi, il devrait être possible de demander aux entreprises utilisant des méthodes d'intelligence artificielle de préciser les outils qu'elles emploient pour corriger les biais des données et mettre en place des tests de discrimination avec des résultats a posteriori.
On a récemment entendu parler de propositions d'emploi faites à des femmes à qui un algorithme proposait des salaires moins élevés que ceux des hommes. Il faudrait donc que la loi impose des tests a posteriori pour signaler un biais. Les objectifs fixés par le législateur devraient pouvoir être traduits en conditions mathématiques servant à tester les résultats des algorithmes et à signaler un problème.
Pour conclure, que peut-on faire en matière de transparence des données ? On a vu qu'un bon résultat s'obtient en appliquant un bon algorithme sur des bonnes données. Les entreprises dominantes peuvent acquérir plus de données que les autres, ce qui leur permet d'améliorer leurs résultats et de passer à une situation d'hégémonie. C'est le cas, en France, pour le moteur de recherche Google. Ceci explique partiellement la position de force des GAFA.
Les risques sont nombreux. Le livre de Cathy O'Neal, Weapons of Math Destruction, aujourd'hui traduit en français, en décrit tout le panorama pour le grand public. Il présente ce dont il faut se méfier.
Que faire pour éviter les dérives ? Il conviendrait d'éviter de confier des marchés publics aux GAFA. Actuellement, par exemple, les données médicales françaises sont l'objet de la convoitise de toutes sortes d'entreprises. Celle qui remportera le marché, si elle n'est pas française, aura tout de suite un gros avantage par rapport aux entreprises nationales en bénéficiant de ces données.
Il existe beaucoup d'autres risques. Ainsi, lorsque le débat se déplace sur Twitter, il est conduit selon les règles de Twitter, qui décide qui a le droit de parler ou non, ce qu'on a le droit de dire ou de ne pas dire. C'est une des difficultés de l'extension du numérique dans notre société.
Vous m'avez demandé si la recherche française pouvait faire entendre sa voix, sachant que la société du XXIe siècle sera numérique. Je me placerai au niveau de l'Europe plutôt qu'au niveau de la France. La France est en effet un petit pays, et l'Europe dispose d'un plus grand poids.
En Europe, certaines tentatives ont avorté. L'une des difficultés vient du fait que le numérique a besoin de chercheurs. Or, en raison de l'importance de la demande de compétences par rapport au vivier, il existe actuellement une tension sur les salaires dans ce domaine. Quand la différence devient trop importante, les jeunes ont du mal à résister aux offres des entreprises étrangères.
Je pense aussi que les start-up ont du potentiel, pourvu que le Gouvernement ne contribue pas à faire pencher la balance du côté des GAFA. La situation hégémonique est là, et on ne peut guère que tenter de la contrôler, mais il reste dans le numérique beaucoup de domaines où les algorithmes ne sont pas encore au point. Des possibilités s'offrent donc à de nouveaux acteurs et l'Europe a toutes ses chances dans ce domaine.
Merci pour la clarté de votre exposé, madame et chère collègue.
Vous avez dit fort justement que le danger vient de ce que des sociétés monopolistiques accaparent une masse de données qui confortent leur position dominante sur un marché. La meilleure façon de protéger ces données n'est-elle pas finalement de les rendre publiques ? Un open data général, organisé par l'État, n'est-il pas une solution pour éviter toute position monopolistique ?
Un open data général ? Je n'ai pas envie que vous sachiez ce que j'ai commandé sur Amazon, par exemple.
L'open data anonymisé général serait-il envisageable, et les recherches que je fais sur Internet pourraient-elles être publiques ? Est-ce que ce serait acceptable ? Pourrait-on le mettre en place ? Avec quelles conséquences ?
Et si une application sur mon ordinateur pouvait me permettre de l'accepter, toutes les informations pourraient être données au Gouvernement, un peu comme en Chine... Je ne pense pas que ce soit votre suggestion, et j'y vois quelques dangers...
L'ambassadeur pour les affaires numériques nous a dit que les préfectures travaillaient avec Google Maps jusqu'au jour où le prix des licences est devenu exorbitant. Elles ont compris que fournir des données publiques à OpenStreetMap permettait de continuer à utiliser le service. Elles donnent aujourd'hui une large publicité à leurs données, permettant ainsi à des logiciels libres de s'en emparer pour offrir des solutions là où des opérateurs privés imposent des coûts prohibitifs.
C'est le même esprit qui a présidé à la publication de toutes les participations au grand débat national. Il est vrai que cela permet à tous les scientifiques d'utiliser les données comme ils le souhaitent.
On nous a également dit qu'il était fondamental que les données scientifiques restent publiques et accessibles à tout le monde.
Absolument !
C'est là un enjeu politique majeur. C'est un point qui me paraît fondamental pour l'avenir de la science si on souhaite que celle-ci ne soit pas privatisée au bénéfice de certains et au détriment du plus grand nombre.
Il est nécessaire, pour améliorer la transparence, de disposer de plus de données publiques de façon proactive. D'un autre côté, pour améliorer la transparence des moteurs de recherche, on pourrait imaginer que l'utilisateur reçoive tous les matins un message l'informant que telle et telle information le concernant a été collectée la veille et divulguée à tel et tel destinataire. Cela permettrait à chacun d'être conscient de ce qu'il partage...
Regardez LinkedIn qui adresse régulièrement à ses membres un rapport sur les personnes qui ont consulté leur profil ! J'arrive ainsi à savoir, en fonction de mes interventions, s'il s'agit de scientifiques ou d'une administration, étrangère ou non. C'est instructif.
En matière d'algorithmes, la question des biais est particulièrement intéressante. En informatique, on procède à de la rétro-ingénierie, remontant au code source pour comprendre les failles Ceci a-t-il un sens s'agissant des algorithmes d'apprentissage profond ?
Je fais d'ailleurs le lien avec le développement des super-calculateurs : si un algorithme devenait tout-puissant dans un domaine sensible, comme la santé, sous une influence étrangère ou dans un but commercial, ne pourrait-on parvenir techniquement, avec l'aide de puissants moyens de calcul, à comprendre sa construction sans même disposer des données de base ? Et cela présenterait-il un intérêt ?
Je ne suis pas spécialiste des algorithmes d'apprentissage automatique mais, en la matière, disposer des coefficients ne nous aide pas à comprendre le problème.
On peut toutefois, en réduisant les coefficients, essayer d'observer si le résultat demeure assez bon. On pourrait ainsi estimer que le résultat s'explique à 20 % par tel ou tel facteur et à 15 % par la combinaison de tel et tel autre. Quand le problème est simple, on peut, trouver les coefficients dominants pour expliquer une partie du résultat, ce qui est plus satisfaisant.
Malheureusement, on ne peut pratiquer de la sorte pour tout : pour prédire la météorologie à dix jours, trop de facteurs entrent en ligne de compte. Il est donc impossible de fournir une explication simple, le problème étant par nature complexe.
Le traitement des données et ce qui peut en être tiré m'apparaissent également importants. On imagine bien comment, à un moment donné, des algorithmes de traitement des données, s'ils tombent dans de mauvaises mains, peuvent volontairement déboucher sur de la manipulation ou de la discrimination, positive ou négative.
Comment faire pour prévenir les difficultés qui peuvent survenir dans le traitement des données ? Grâce aux évolutions technologiques, celles-ci vont être traitées dans un nombre sans cesse croissant de lieux. C'est l'absence de droit de regard sur leur traitement qui pose question.
Je n'ai hélas pas de réponse directe à votre question, mais un des dangers qui existe est fort bien expliqué dans le livre de Cathy O'Neal déjà cité : les algorithmes destinés à prédire l'apparition d'une tumeur peuvent être optimisés au fil du temps car les maladies se comporteront toujours de la même manière.
Mais avec des algorithmes ayant pour objet des êtres humains, on est confronté au fait que, les personnes peuvent justement adapter leur comportement à cet algorithme. Prenez l'exemple du classement de Shanghai, censé présenter les meilleures universités au monde. Les universités ont pris cela suffisamment au sérieux et changé la façon dont elles fonctionnent non pour s'améliorer de façon générale mais bien spécifiquement pour satisfaire aux critères dudit classement.
Le comportement se modifie... et la formule n'est plus bonne ! Ceci est vrai pour tous les algorithmes qui agissent sur le comportement humain. Toutes sortes de déviations deviennent ainsi possibles.
C'est une réponse à une forme de contrainte, une réduction des libertés...
En effet.