Panorama

Sections

Préambule

Les enjeux de l’intelligence artificielle (IA) sont immenses et complexes, notamment en raison de ses aspects socio-techniques et de sa double nature : elle est à la fois promesse de progrès et source potentielle de risques importants.

➡ Ce document vise à présenter un aperçu non exhaustif des différents risques liés à l'IA afin d'orienter les travaux futurs du CeSIA sur la sécurité, la fiabilité et l'éthique de l'IA. Pour approfondir ces risques, vous pouvez lire le chapitre 2 de notre cours (en anglais).‍

« L'atténuation du risque d'extinction lié à l'IA devrait être une priorité mondiale au même titre que d'autres risques à l'échelle de la société tels que les pandémies et les guerres nucléaires » ¹

‍Déclaration sur les risques liés à l'IA | Center for AI Safety, signée par des scientifiques et des personnalités du domaine de l'IA.‍

Contexte - L'émergence de l’IA de niveau humain

L'IA est un domaine en pleine évolution qui a des répercussions imprévisibles et potentiellement transformatrices sur la société. Il est plausible que l'IA atteigne la plupart des capacités de niveau humain dans les prochaines années.

En 2014, le visage le plus réaliste généré par l'IA était celui à l'extrême gauche. Depuis 2023, il est possible de générer n'importe quel type d'image dans n'importe quel style à partir d'une description textuelle (source).

Les progrès rapides en apprentissage profond sont remarquables, ce qui rend difficile, même pour les meilleurs experts, de prédire l'évolution à court terme des capacités de l'IA. On l’a vu à l’arrivée de ChatGPT, dont les capacités avancées en ont surpris plus d'un. Par exemple, alors que GPT-3 pouvait tout juste faire mieux que 10% des candidats à l'examen du barreau, GPT-4 a démontré sa capacité à surpasser 68% des candidats. Ce bond en avant souligne l'évolution impressionnante des modèles d'IA en l'espace d'un an.

Les IA sont de plus en plus capables de planification autonome. Jusqu'à très récemment, les grands modèles de langage (LLM) n'étaient pas des agents autonomes à proprement parler. Cependant, les systèmes tels que AutoGPT, illustrent la possibilité conceptuelle de convertir ces LLM en agents autonomes. AutoGPT utilise des techniques telles que les scaffolding (« échafaudage »), qui consiste à faire tourner en boucle un modèle de langage comme GPT-4 jusqu'à ce qu'un objectif spécifique soit atteint, en décomposant cet objectif en tâches auxiliaires. D'autres exemples, comme l'IA Voyager – une IA jouant à Minecraft – montrent des capacités de planification impressionnantes, par exemple en explorant et en développant ses capacités dans un jeu à monde ouvert. En s'appuyant sur GPT-4, elle est capable de planifier, d'explorer et d'apprendre en permanence en écrivant du nouveau code pour de nouvelles fonctionnalités qu'elle stocke dans sa mémoire à long terme.

Ces modèles de langage démontrent leur capacité à effectuer des raisonnements de plus en plus généraux. Par exemple, l'IA peut désormais résoudre des problèmes de géométrie des Olympiades. Il est également possible de demander à l'IA d'expliciter son processus de réflexion. C'est ce qu'illustre la méthode « Réfléchissons étape par étape », également appelée technique de raisonnement par chaîne de pensée (“chain of thought”), par laquelle le fait de demander à un modèle d’expliciter les différentes étapes par lesquelles il va répondre à une question ou résoudre un problème améliore ses performances. Des variantes de cette technique peuvent encore améliorer les performances (par exemple, “Tree of Thoughts”, “Reflexion”). Il est possible que ces modèles ne soient pas simplement des “perroquets stochastiques”. Par exemple, des études d'interprétabilité comme celle sur OthelloGPT révèlent des représentations internes du modèle du monde : le LLM est capable de construire une représentation interne précise du plateau d'Othello en étant seulement entraîné à prédire le prochain coup..

Il reste encore des étapes à franchir. En début 2024, l'apprentissage automatique a encore des limites. Par exemple, les systèmes généraux d'apprentissage automatique ne font pas un usage efficient des données qui leur sont fournies, et l'apprentissage continu, c'est-à-dire être capable d’apprendre tout le long du fonctionnement du système, n'est pas encore maîtrisé.

Mais pour reprendre les mots de Stuart Russell, nous pouvons nous demander ce qui se passera si nous réussissons. L'objectif premier de la recherche en IA est de surmonter les défis qui subsistent. Si cette mission est couronnée de succès, nous devons nous préparer à un avenir où il sera possible d'automatiser la majeure partie du travail intellectuel et physique. De nombreux experts estiment aujourd'hui qu'il est probable que l'IA de niveau humain (également appelée intelligence artificielle générale) puisse apparaître avant 2032.

Nous devons nous y préparer.

➡ Pour une défense approfondie des raisons pour lesquelles l'IA de niveau humain est plausible dans les prochaines années, vous pouvez lire le chapitre 1 de notre cours, qui présente des arguments détaillés et répond aux questions les plus courantes à propos du développement de l'IA.

« Il ne fait aucun doute que les machines deviendront plus intelligentes que les humains - dans tous les domaines où les humains sont intelligents - à l'avenir, [...]. La question est de savoir quand et comment, et non pas de savoir si. » ²

Yann LeCun, scientifique en chef de l'IA chez Meta et lauréat du prix Turing (MIT Tech Review, mai 2023)

Classification des risques liés à l'IA

Les risques associés à l'IA peuvent être classés en fonction des responsabilités des différentes parties :

Risques d’usages malveillants : Certains acteurs utilisent l'IA pour causer des dommages volontaires.
Risques de désalignement : les acteurs tentent de développer et utiliser l'IA de manière responsable, mais les techniques d’alignement utilisées sont imparfaites ou mal appliquées, ce qui ouvre la porte à des accidents (soit des dommages involontaires).
Risques systémiques : Même lorsque les acteurs développant ou utilisant l’IA sont bien intentionnés et réussissent à prévenir les accidents, l'intégration de l'IA a des répercussions indirectes. Elle peut perturber les équilibres existants dans la société, introduisant ainsi de nouveaux risques et problèmes.

Une autre façon de voir ce cadre est de dire que pour les usages malveillants, un humain ou un groupe d'humains est responsable ; pour l'alignement, une IA est « responsable » dans le sens où ses objectifs ne sont pas alignés sur les valeurs humaines ; et pour les risques systémiques, aucun humain ou IA en particulier n'est responsable, la responsabilité est plus diffuse. Bien entendu, ce cadre n'est pas parfait, mais il est intuitif.

Voici une décomposition partielle des problèmes dans chaque catégorie.

Risques d'usage malveillant

Attaques rendues possibles par les systèmes d'IA

Cyberattaque : Il s'agit d'un facteur de risque accru, intensifié par les capacités de l'IA. GPT-4, par exemple, est capable de détecter différentes classes de vulnérabilités dans du code, ou peut être utilisé pour des campagnes de hameçonnage personnalisé à grande échelle. Les cybercriminels utilisent déjà des modèles open source tels que WormGPT et FraudGPT pour créer des logiciels malveillants, générer de la désinformation et automatiser les efforts d'hameçonnage. La cybercriminalité atteindra également des territoires inexplorés, car les deepfakes deviennent de plus en plus faciles (par exemple, pour des escroqueries aux faux enlèvements). Bien qu'ils soient actuellement à la traîne en termes de planification et d'exécution autonome par rapport à d'autres capacités, les modèles de langage sont susceptibles de permettre le piratage entièrement autonome à l'avenir.

Bioterrorisme : Le potentiel de l'IA s'étend également à la facilitation de la découverte et de la formulation de nouvelles armes chimiques et biologiques. Les chatbots peuvent offrir des conseils détaillés sur la synthèse d'agents pathogènes mortels tout en contournant les protocoles de sécurité. Une expérience menée par des étudiants du MIT a démontré les capacités alarmantes des LLM actuels : « En l'espace d'une heure, les chatbots ont décrit quatre agents pathogènes endémiques possibles, des méthodes pour les produire à partir d'ADN synthétique via la génétique inverse, des entreprises de synthèse d'ADN susceptibles de ne pas contrôler les commandes, des protocoles exacts détaillés et des méthodes de dépannage, etc. » ³ (source). Les systèmes tels qu’AlphaFold, sont aussi super humains pour prédire la structure des protéines, ce qui est une compétence duale à risque.

Armement : L'automatisation de la guerre permet des massacres automatisés, par exemple par le biais de drones tueurs, qui pourraient être utilisés pour cibler des groupes spécifiques en vue d'un génocide (voir le système de combat KARGU).

Deepfake : Les systèmes de génération d'images peuvent également être utilisés pour créer de la désinformation ou de la pornographie plus vraies que nature, ce qui cible souvent les femmes dont l'image est utilisée à leur insu pour créer du contenu pornographique, ou encore pour des arnaques, telles que celle utilisée pour extorquer une entreprise de 25 millions d'euros suite à une attaque basée sur des deepfakes.

Violations de la confidentialité et de la vie privée : il existe, d'une manière générale, de nombreuses catégories d'attaques contre la vie privée dans les données des modèles d'apprentissage automatique. Les attaques par inférence d'appartenance permettent de prédire si un exemple particulier faisait partie de l'ensemble de données d'apprentissage. Les attaques par inversion de modèle vont plus loin en reconstruisant des représentations floues d'un sous-ensemble des données d'apprentissage. Les modèles linguistiques sont également sujets à des attaques par extraction de données d'entraînement, où des séquences de données d'entraînement textuelles peuvent être reconstruites verbatim, incluant potentiellement des données privées sensibles. Par exemple, si un modèle est entraîné sur des dossiers médicaux et qu'un pirate parvient à déterminer que les données d'une personne donnée ont été utilisées pour cet entraînement, il révèle implicitement des informations sur l'état de santé de cette personne sans son consentement. Cela constitue non seulement une violation de la vie privée, mais peut également conduire à une utilisation abusive des informations, comme la discrimination ou la publicité ciblée sur la base d'attributs sensibles.

Enracinement des systèmes de contrôle social et d’oppression : Les systèmes d'IA actuels sont déjà suffisamment performants pour permettre une surveillance et une censure à grande échelle. Des systèmes très compétents pourraient donner à de petits groupes de personnes un pouvoir considérable, ce qui pourrait conduire à un verrouillage des systèmes oppressifs où il deviendrait de plus en plus improbable de détrôner un régime autoritaire en place. Ces risques sont parfois appelés « verrouillage des valeurs ».

Risques de désalignement

« L'alignement des systèmes d'IA plus intelligents que l'homme sur les valeurs humaines est un problème de recherche ouvert. » ⁴

Jan Leike, ancien co-responsable de l'équipe d'alignement à OpenAI.

AlphaZero a démontré sa capacité à acquérir des connaissances et des compétences en matière d'échecs bien au-delà des capacités humaines en seulement quatre heures. Les systèmes de Machine Learning (ML) ne seront probablement pas limités par les capacités humaines.

Aujourd'hui, les IA sont des outils : on pose une question et l'IA y répond brièvement. Demain, les IA seront des agents : on donne à l'agent un objectif, et l'agent exécute une série d'actions pour atteindre cet objectif. C'est beaucoup plus puissant, mais aussi beaucoup plus dangereux.

Quelques mauvais comportements potentiels d’une IA non alignée :

Tromperie stratégique : « Les LLM peuvent raisonner de manière à utiliser la tromperie comme stratégie pour accomplir une tâche. Dans un exemple, GPT-4 devait résoudre une tâche CAPTCHA pour prouver qu'il était un humain, et le modèle a donc trompé une personne dans une simulation, en prétendant être un humain souffrant d'un handicap visuel. »⁵

Flagornerie : « Les flagorneurs sont des personnes qui utilisent des tactiques trompeuses pour obtenir l'approbation de personnalités puissantes. La tromperie flagorneuse est une préoccupation émergente dans les LLM, comme dans la tendance empirique observée pour les chatbots à être d'accord avec leurs partenaires de conversation, quelle que soit l'exactitude de leurs déclarations. Lorsqu'ils sont confrontés à des questions éthiquement complexes, les LLM ont tendance à refléter la position de l'utilisateur, même si cela implique de renoncer à présenter un point de vue impartial ou équilibré. »⁶‍

Faire le mort pour éviter l'élimination : Dans le domaine de l'évolution numérique, un exemple de tromperie créative a été observé lorsque des agents conçus pour se reproduire et évoluer dans un environnement informatique, ont appris à « faire le mort » en réponse à un mécanisme de sécurité. Dans une étude publiée dans The Surprising Creativity of Digital Evolution : A Collection of Anecdotes (“La créativité surprenante de l'Évolution digitale : une collection d’anecdotes”) les chercheurs ont découvert que ces organismes numériques ont développé une stratégie pour arrêter leur réplication lorsqu'ils sont testés dans un environnement isolé. Dans le cadre de cette recherche, les organismes numériques ont appris à reconnaître les données dans un environnement de test et à interrompre leur reproduction, faisant ainsi le mort pour éviter d'être éliminés. Ce comportement leur a permis de passer les tests de sécurité et de continuer à se reproduire plus rapidement dans l'environnement réel. Ce résultat surprenant illustre comment l'IA, en poursuivant des objectifs programmés, peut développer des stratégies inattendues qui contournent les contraintes imposées ou les mesures de sécurité.

Perte de contrôle : Le fonctionnement des IA est encore mal compris, ce qui se traduit par des comportements inattendus dans les systèmes déployés. Par exemple, le chatbot Bing Chat menaçait ses utilisateurs ou leur faisait des déclarations d'amour. De même, Tay, un autre chatbot développé par Microsoft, a été rapidement retiré après avoir commencé à produire des messages offensants et inappropriés, illustrant ainsi les risques de dérapage lorsque les modèles d'apprentissage automatique interagissent de manière non supervisée avec le grand public. Ce genre de problème s’est reproduit à la sortie de ChatGPT : malgré six mois de travail intensif pour aligner ses comportements, ChatGPT-4 a également présenté des réponses non alignées à ses débuts, soulignant la difficulté de prévoir toutes les interactions possibles dans un environnement ouvert. Les scénarios de perte de contrôle seront exacerbés lorsque les IA seront capables de se dupliquer de manière autonome sur internet, voir l’encadré ci-contre pour plus de détail sur la menace des IA capables d’autoreplication et d’adaptation.

La menace d'une superintelligence. Il n'y a aucune raison de penser que le développement de l'IA s'arrêtera au niveau des capacités humaines. Par exemple, AlphaZero est largement supérieur aux humains aux échecs. L'IA pourrait conduire à une « explosion de l'intelligence » : une intelligence artificielle suffisamment avancée pourrait construire une version plus intelligente d'elle-même. Cette version plus intelligente pourrait à son tour construire une version encore plus intelligente d'elle-même, et ainsi de suite, créant un cycle qui pourrait conduire à une intelligence dépassant largement les capacités humaines (source). Dans leur rapport de 2012 sur les possibilités d’une explosion de l'intelligence, Muehlhauser et Salamon examinent les nombreux avantages de l'intelligence machine par rapport à l'intelligence humaine, qui facilitent l'augmentation rapide de l'intelligence (source). Ces avantages comprennent entre autres :

Vitesse : les humains communiquent à un rythme de deux mots par seconde, alors que GPT-4 peut traiter 32 000 mots en un instant. Une fois que les LLM pourront écrire « mieux » que les humains, leur vitesse nous dépassera probablement entièrement.
Duplicabilité : Les machines peuvent être dupliquées sans effort. Contrairement aux humains, elles n'ont pas besoin de naissance, d'éducation ou de formation. Alors que les humains s'améliorent surtout individuellement, les machines ont le potentiel de se développer collectivement. Il faut 20 ans à un humain pour devenir compétent après sa naissance, alors qu'une fois qu’on a une IA capable, on peut la dupliquer immédiatement. Une fois que les IA atteignent le niveau du meilleur programmeur, on peut simplement dupliquer cette IA. Il en va de même pour les autres emplois.
Possibilité d'édition : Les machines permettent des variations plus intentionnelles, équivalentes aux améliorations directes du cerveau par neurochirurgie, en contraste avec les efforts laborieux requis par l'éducation ou la formation. Les Les humains peuvent également s'améliorer et acquérir de nouvelles compétences, mais ils n'ont pas d'accès direct à leur appareil cognitif : nous commençons à peine à pouvoir comprendre le « code spaghetti » du génome, tandis que l'IA pourrait utiliser des outils de gestion de version de code pour s'améliorer, en étant capable de tenter des expériences risquées avec des options de sauvegarde en cas d'échec. Cela permet des améliorations beaucoup plus contrôlées.
Coordination des objectifs : Les IA copiées ont la capacité de partager des objectifs sans effort, ce qui est un défi pour les humains.

Tout comme les humains sont cognitivement supérieurs aux singes, les IA pourraient asymptotiquement devenir cognitivement très supérieures aux humains. C'est pourquoi de nombreux chercheurs pensent aujourd'hui que l'IA pourrait représenter un risque existentiel :

Comment des IA nocives pourraient apparaître - Yoshua Bengio
Natural Selection Favors AIs over Humans (La sélection naturelle favorise les IA aux humains)
Is Power-Seeking AI an Existential Risk? (Les IA ambitieuses présentent-elles un risque existentiel ?)
AGI Ruin: A List of Lethalities - AI Alignment Forum (Le précipice de l’IAG : une liste de fatalités)
The alignment problem from a deep learning perspective (Le problème de l’alignement abordé par l’apprentissage profond)
D’autres problèmes sont présentés dans l’analyse documentaire des modèles de risque de DeepMind.

Risques systémiques

Perpétuation des biais : les préjugés persistent au sein des grands modèles de langage, reflétant souvent les opinions et les préjugés répandus sur l'internet, comme en témoignent les tendances biaisées observées dans certains LLM. Ces biais peuvent être préjudiciables de diverses manières, comme le démontrent les études sur les biais islamophobes de GPT-3, et peuvent être propagés et perpétués à travers des interactions avec les systèmes en question. Pour plus d'informations, le document Ethical and social risks of harm from Language Models (Risques éthiques et sociaux liés aux modèles linguistiques) décrit six domaines de risque spécifiques : I. Discrimination, Exclusion et Toxicité, II. Dangers liés à l'information, III. Dommages liés à la désinformation, IV. Usages malveillants, V. Dommages liés à l'interaction homme-machine, et VI. Automatisation, Accès et Dommages environnementaux.

Chômage et santé mentale : l'automatisation de l'économie pourrait avoir des répercussions considérables sur le marché du travail, exacerbant les inégalités économiques et les divisions sociales. La montée du chômage, induite par l'IA capable de remplacer de nombreux emplois, pourrait entraîner une augmentation du stress financier et du sentiment d'inutilité, affectant significativement la santé mentale. Les effets du chômage sur la santé mentale peuvent par ailleurs perdurer longtemps après la perte initiale d'emploi.

Santé mentale et réseaux sociaux : De plus, l'utilisation de l'IA dans les réseaux sociaux et d'autres plateformes en ligne peut exacerber des problèmes existants tels que l'addiction, l'anxiété et la dépression. Un rapport de lanceur d'alerte en 2021 a révélé que les recherches internes de l'entreprise montraient qu'Instagram était préjudiciable à la santé mentale des adolescentes, aggravant les problèmes d'image corporelle et les pensées suicidaires.

Affaiblissement : La dépendance croissante à l’IA peut également entraîner un affaiblissement des compétences cognitives et décisionnelles chez l'individu. À mesure que les tâches quotidiennes et les décisions complexes sont déléguées aux systèmes d'IA, les individus pourraient perdre leur capacité à effectuer des tâches critiques par eux-mêmes, ce qui pourrait réduire leur autonomie et leur compétence en résolution de problèmes. Cela est particulièrement préoccupant dans des domaines où la prise de décision rapide et précise est importante, comme dans la gestion des situations d'urgence ou dans les prises de décisions médicales.

Détérioration de l'épistémologie : L'utilisation intensive de l’IA dans la distribution de l'information peut également contribuer à une détérioration de l'épistémologie, c'est-à-dire la manière dont nous acquérons et validons les connaissances. En d’autres termes, l’IA peut constituer un risque pour la sécurité épistémique de nos sociétés. En effet, les algorithmes d'IA, en filtrant et en personnalisant les informations qui nous parviennent, peuvent créer des chambres d'écho et des bulles de filtres qui renforcent les biais préexistants et limitent notre exposition à des perspectives diverses. Cette situation peut mener à une polarisation accrue et à une compréhension fragmentée du monde où les consensus basés sur des faits objectifs deviennent plus difficiles à atteindre, ou conduire à une détérioration massive de l'épistémologie collective. De plus, la rapidité avec laquelle l'IA peut générer de l'information peut aussi encourager une consommation superficielle plutôt qu'une réflexion profonde, ce qui affaiblit notre capacité à évaluer les sources et à comprendre les complexités des enjeux actuels. La détérioration de l’épistémologie peut aussi résulter de l'affaiblissement ou de l'utilisation d'outils de persuasion ou des systèmes de recommandations. L'épistémologie et la capacité à répondre aux problèmes sont des compétences cruciales qui permettent à notre civilisation de résister à diverses menaces.

Les IA de recommandation font partie intégrante de nos vies. Bien qu’elles soient souvent considérées comme des outils précieux pour personnaliser notre expérience en ligne, elles représentent aussi un risque. Ces IA peuvent avoir un impact significatif sur les individus et la société dans son ensemble. En 2017, la plateforme YouTube a estimé que, sur le milliard de vidéos que l’humanité a consommées sur YouTube, 70% l’avaient été en raison de leurs IA de recommandation. Depuis 2016, il y a eu plus de vues sur YouTube que de recherches sur Google. (Source)

Les IA de recommandation peuvent être considérées comme un amplificateur de risque existentiel, en réduisant la qualité de nos espaces d’information, fragilisant les institutions démocratiques, amplifiant la méfiance et la haine, réduisant au silence des thèmes prioritaires et facilitant les activités de propagande. (source)

« Nous menons la plus grande expérience psychologique de l'histoire, avec des milliards de sujets, et aucun groupe contrôle. »

Tristan Harris

Détérioration de la démocratie

Le bon fonctionnement des démocraties repose sur l’accès à une information et une délibération de qualité. Cependant, les IA de recommandation favorisent certaines informations au détriment d'autres. Par exemple, la maximisation de l’engagement mène souvent à la polarisation. Cela pourrait affaiblir la qualité des démocraties dans le monde.

De nombreuses études et recherches ont mis en évidence une corrélation entre l'utilisation intensive des médias sociaux et une augmentation de la polarisation politique. Les IA de recommandation, en priorisant du contenu provocateur et chargé d’émotions, contribuent à créer des vagues de haine dans lesquelles les utilisateurs sont principalement exposés à des points de vue qui renforcent leur mépris pour les croyances opposées.(source)

Les Facebook Files ont révélé que les changements apportés à l’algorithme de Facebook en 2018 ont favorisé les contenus qui divisent et qui sont controversés, ce qui a dû, à son tour, inciter les politiciens et autres figures publiques à adopter des positions plus extrêmes pour maintenir leur visibilité et leur engagement en ligne.(source) Ce phénomène montre comment les IA, en amplifiant les contenus polarisants, peuvent influer sur la production d'informations et leur diffusion à grande échelle au détriment d'un débat démocratique équilibré.

De nombreux rapports (v-dem, IDEA) identifient les années d'adoption massive des médias sociaux (autour de 2012) comme une phase de transition, après laquelle les démocraties ont décliné dans le monde entier. Cette menace globale contre la capacité des États à se gouverner eux-mêmes peut être considérée comme un risque catastrophique pour l'épanouissement de l’humanité. Bien qu’une causalité directe soit difficile à établir, l’influence des IA de recommandation sur ce phénomène mérite une attention particulière.

Depuis les années 1980, l'efficacité des parlements élus s'est considérablement améliorée, comme le montre la courbe bleue au-dessus de la rouge. Cependant, depuis 2010, avec l’adoption massive des médias sociaux, la courbe rouge, représentant les tendances à la détérioration, surpasse la bleue. (source)

Risques géopolitiques et de conflits

Les IA de recommandation ont aussi des implications géopolitiques, en amplifiant les discours de haine ou en promouvant des narratifs qui incitent à la violence. Ils ont contribué à exacerber les tensions internationales et à déstabiliser des régions entières.

En Birmanie, les IA de Facebook étaient accusées d’amplifier les discours de haine envers les Rohingya, une minorité musulmane. Durant le génocide des Rohingya, plus de 700 000 réfugiés ont fui à l'étranger et le nombre de morts est estimé entre 25 000 et 43 000 personnes. Amnesty International a documenté que les systèmes de Facebook n’ont pas seulement échoué à empêcher la diffusion de ces messages haineux, mais les ont parfois promus, aggravant ainsi la situation. (source)

Sur un niveau global, le cas des grandes démocraties, notamment les États-Unis, est particulièrement préoccupant. Il inclut la montée des candidats politiques sympathisants de QAnon et l'émeute du Capitole. Pendant ce temps, dans toute l'Europe, il y a eu de nombreuses mobilisations d’extrême droite. Enfin, au cours des dernières années, des guerres à grande échelle sont apparues même dans des régions parmi les plus développées économiquement du monde (Ukraine, Liban). Les craintes d'une guerre civile ou d'une troisième guerre mondiale ont atteint un niveau historique (30 % actuellement sur Metaculus) — sauf que l'armement d'aujourd'hui est beaucoup plus destructeur que celui de 1939.

Actualités muettes

Nous pouvons faire la distinction entre des « fake news » et des « mute news ». Tandis que des fausses informations attirent beaucoup l'attention des médias, un problème encore plus profond réside dans le manque de visibilité des sujets importants.(source) Les IA actuelles favorisent les contenus qui divisent et qui sont chargés d'émotions au détriment des sujets essentiels.

À titre d'exemple, le rapport du GIEC a été publié en même temps que le transfert de Lionel Messi au PSG, ce qui lui a valu une absence de visibilité. Dans de nombreux cas, la crise informationnelle est davantage liée à ce manque d'accès à l'information qu'au problème des « fake news ».

Un autre exemple est l’éthique et la sécurité des systèmes d’IA. Tandis que l'enthousiasme pour le caractère spectaculaire de ChatGPT et les images de MidJourney a été largement répandu par les IA de recommandation, beaucoup moins d'attention a été donnée aux risques que ces systèmes soulèvent et encore moins pour les lois qu'ils violent, même lorsque leurs propres créateurs l'ont reconnu. De même, le changement climatique, la cybersécurité, les IA de recommandation et la sécurité des IA ont peu de chances d'être traités correctement si l'attention qu'ils reçoivent (par le biais des IA de recommandation et des médias classiques) disparaît.

Les IA de recommandation sont le mécanisme principal susceptible d'attirer notre attention sur ces sujets importants et ces choses qu’on ne sait pas et qu’on ne sait pas qu'on ne sait pas (les inconnues inconnues).

Exploitation malveillante des IA

Les IA de recommandation sont actuellement largement exploitées par des acteurs malveillants. Ces acteurs peuvent manipuler les IA pour enfouir certaines informations sous une masse de contenu ou promouvoir des récits spécifiques dans le but de manipuler l'opinion publique, de répandre de la propagande ou de déstabiliser des pays en encourageant certaines idéologies.

Par exemple, l'agence française Viginum a documenté des cas de réseaux coordonnés de propagande pro-russe, comme dans le rapport « Portal Kombat ». Ces réseaux exploitent les IA des médias sociaux pour amplifier leur message et influencer le débat public.

Il est frappant de constater que Facebook lui-même déclare avoir supprimé 30 milliards de faux comptes. Sur de nombreuses plateformes, il faut s'attendre à ce que la plupart des comptes soient faux. Ces comptes peuvent être utilisés pour donner un premier coup de pouce aux contenus alignés sur la propagande, trompant ainsi les IA de recommandation en leur faisant croire que ces contenus déclenchent un nombre important d'engagements, ce qui peut alors les rendre viraux. Un autre exemple est l’influenceur Instagram David Michigan, qui est soupçonné d'avoir acheté des millions de faux abonnés pour stimuler son activité en ligne. Ces attaques sont connues sous le nom d'attaques par empoisonnement dans le domaine de la sécurité de l'IA.

Dans l'ensemble, il existe une industrie de désinformation très vaste et active en ligne, dérivée de l'ancienne industrie de l'optimisation du référencement. De nombreux acteurs existent même dans les pays démocratiques comme Cambridge Analytica (Royaume-Uni), Eliminalia (Espagne), Team Jorge (Israël), Avisa Partners (France) et Alp Service (Suisse). La Chine est soupçonnée de rémunérer 2 millions de personnes en ligne pour son « soft power » sur internet.

Comment les IA de recommandation pourraient-elles devenir bénéfiques ?

Des initiatives sont en cours pour faire en sorte que les IA de recommandation deviennent des outils au service du bien commun.

En Europe, des réglementations telles que le GDPR, le Digital Services Act (DSA), le Digital Markets Act (DMA) et le AI Act posent les bases d'une utilisation responsable de ces IA. Ces réglementations visent à protéger les données des utilisateurs, limiter le pouvoir des grandes plateformes et garantir une plus grande transparence dans le fonctionnement de ces IA.

L’exemple de Taïwan est particulièrement inspirant. En 2014, Taïwan a entamé une transition vers une démocratie numérique où la technologie numérique est gouvernée par les citoyens de manière démocratique. Cette approche a permis de créer un modèle dans lequel les outils numériques, y compris les IA de recommandation, sont alignés sur les valeurs et les besoins de la société. Fait remarquable, au cours de la dernière décennie, Taïwan est le seul pays à s'être considérablement amélioré sur le plan démocratique, passant d'une démocratie imparfaite avec peu de confiance populaire dans le gouvernement, à un modèle que le peuple veut défendre. Il s'agit là d'une preuve solide que la transition vers une démocratie numérique est à la fois réalisable et extrêmement efficace. (source)

Une autre initiative est celle de l'association Tournesol (source), un projet de recherche participatif qui vise à développer des IA de recommandation démocratique. Contrairement aux IA actuelles qui sont optimisées pour maximiser l'engagement, Tournesol propose une solution d'alignement robuste et transparente basée sur les retours des contributeurs à propos de ce qui devrait être davantage recommandé sur YouTube. (source)

Accidents stupides : Par exemple, l'inversion accidentelle de la fonction d'utilité pourrait conduire à la création d'une intelligence artificielle générale (AGI) maximalement nuisible au lieu d'une AGI bénigne. De fait, OpenAI a accidentellement inversé le signe de la fonction de récompense lors de l'entraînement de GPT-2. Le résultat était un modèle qui optimisait le sentiment négatif (avec des contraintes de similarité au langage naturel). Au fil du temps, cela a amené le modèle à générer un texte de plus en plus sexuellement explicite, quel que soit le prompt de départ. Selon les propres mots de l'auteur : "Ce bug était remarquable car le résultat n'était pas du charabia mais une sortie maximalement mauvaise. Les auteurs dormaient pendant le processus d'entraînement, donc le problème n'a été remarqué qu'une fois l'entraînement terminé."

« Il y a beaucoup de choses plus ou moins mauvaises qui pourraient se produire. Je pense qu'à l'extrême, il y a la crainte de Nick Bostrom qu'une AGI puisse détruire l'humanité. Je ne vois aucune raison de principe pour laquelle cela ne pourrait pas se produire. » ⁷

Dario Amodei, PDG d’Anthropic, 80,000 Hours, juillet 2017

Facteurs aggravants

Imprévisibilité : L'IA a surpris même les experts. La première chose à garder à l'esprit est que le rythme de progression des capacités a surpris tout le monde. Nous avons vu de nombreux exemples dans l'histoire où les scientifiques et les experts ont considérablement surestimé le temps nécessaire pour qu'une avancée technologique révolutionnaire devienne réalité. De même, les progrès de l'IA ont également pris les experts au dépourvu, et ce à maintes reprises. La défaite de Lee Sedol par AlphaGo en 2016 a surpris de nombreux experts, car il était largement admis que la réalisation d'un tel exploit nécessiterait encore de nombreuses années de développement. (source)

Boîtes noires : Les risques liés à l'IA sont aggravés par la nature « boîte noire » des systèmes de ML avancés. Notre compréhension du comportement des systèmes d'IA, des objectifs qu'ils poursuivent et de leur comportement interne est bien en deçà des capacités dont ils font preuve. Le domaine de l'interprétabilité vise à progresser sur ce front, mais reste très limité. Les modèles d'IA sont formés, pas construits. En conséquence, personne ne comprend le fonctionnement interne de ces modèles. C'est très différent de la manière dont un avion est assemblé à partir de pièces qui sont toutes testées et approuvées, pour créer un système modulaire, robuste et compris. Les modèles d'IA apprennent d'eux-mêmes les heuristiques nécessaires à l'exécution des tâches, et nous avons relativement peu de contrôle ou de compréhension sur la nature de ces heuristiques. La descente de gradient est une stratégie d'optimisation puissante, mais nous avons peu de contrôle et de compréhension de la structure qu'elle découvre.

Échelle de déploiement : Un autre facteur aggravant est que de nombreux systèmes d’IA sont déjà déployés à grande échelle, affectant de manière significative divers secteurs et aspects de la vie quotidienne. Elles s'intègrent de plus en plus dans la société. Les chatbots ou les systèmes de recommandation en sont un exemple majeur, illustrant les IA déjà déployées pour des millions de personnes dans le monde.

Dynamiques de course : La dynamique compétitive dans le développement de l'intelligence artificielle peut aboutir à une situation alarmante où tous les acteurs font la course tête baissée en négligeant les risques. Face à la pression intense pour innover et dominer le marché, les entreprises peuvent être tentées de négliger les normes de sécurité rigoureuses, un compromis qui accélère leur progression mais peut s'avérer coûteux. Le développement sécurisé nécessite des investissements significatifs et peut ralentir le rythme de l'innovation, posant ainsi un dilemme pour les acteurs du secteur. Cette tendance peut déclencher une spirale descendante où les acteurs du marché réduisent leurs dépenses en sécurité pour rester compétitifs, exacerbant ainsi les risques associés à des déploiements massifs et potentiellement non sécurisés de technologies d'IA.

Défauts de défense des systèmes d'IA : La mauvaise utilisation des IA est rendue possible par certains défauts de défense. Le paradigme actuel de ML peut être attaqué à différents stades.

Empoisonnement des données : Les modèles sont actuellement entraînés sur de grandes quantités de données générées par les utilisateurs. Des attaquants peuvent exploiter cette situation en modifiant certaines de ces données, afin d'influencer le comportement final des modèles. Ces données peuvent être utilisées pour corrompre les modèles de fondation en y incorporant des chevaux de Troie par example.
Zoom sur : l’empoisonnement des données

Cheval de Troie : la nature « boîte noire » des modèles modernes de ML permet d'insérer des portes dérobées, ou chevaux de Troie, dans les modèles (y compris à partir de l'empoisonnement de données par des tiers, à l'insu des développeurs du modèle). Les portes dérobées sont des modèles qui permettent de manipuler les réseaux de neurones. L'exemple classique est celui d'un panneau stop sur lequel des motifs ont été placés : le réseau de neurones d’une voiture autonome a été entraîné à réagir en accélérant à la vue de ces motifs, ce qui permettrait à des acteurs malveillants de provoquer des accidents. Il est de plus en plus facile de télécharger des réseaux pré-entraînés (modèles de fondation) sur le net, afin de les mettre à la disposition de tous. La mise en œuvre de mécanismes de vérification permettant d'auditer ces réseaux avant leur distribution est un problème majeur pour la sécurité de l'IA. Les portes dérobées peuvent être facilement placées pendant l'entraînement et sont très difficiles à détecter.
Injection de commandes (ou prompt injection) : L'injection de commande est une tactique qui exploite la réactivité des modèles de langage à leur texte d'entrée pour manipuler leur comportement. Prenons l'exemple d'un modèle de langage chargé de résumer le contenu d'un site web. Si un acteur malveillant insère un paragraphe dans le site web demandant au modèle de cesser son opération actuelle et d'effectuer à la place une action nuisible, le modèle pourrait suivre par inadvertance ces instructions intégrées, parce que sa conception le pousse à suivre les consignes textuelles qui lui sont fournies. Cela pourrait conduire le modèle à effectuer des actions involontaires ou nuisibles spécifiées par la commande intégrée. Par exemple, si l'action intégrée nuisible consiste à divulguer des informations sensibles ou à générer des informations trompeuses, le modèle, lorsqu'il rencontre l'instruction dans sa tâche de résumé, peut s'y conformer, compromettant ainsi sa fonction prévue et pouvant causer des dommages. L'injection d’invite est un vecteur d'attaque très courant récemment découvert dans les modèles entraînés à suivre des instructions, qui s'explique par l'absence d'une séparation solide entre les instructions et les données, ce qui permet de détourner l'exécution d'un modèle en empoisonnant les données avec des instructions. Il existe de nombreuses variantes de ce risque.
Manque de robustesse (Jailbreaks) : Même si les développeurs de modèles intègrent des mesures de sécurité pour une utilisation bénéfique, les architectures actuelles ne permettent pas de garantir que ces mesures de protection ne seront pas facilement contournées. Des résultats préliminaires suggèrent que les méthodes existantes ne sont probablement pas assez robustes contre les attaques. Certains travaux, tels que De la sûreté impossible des grands modèles d’IA, mettent en évidence certaines limites fondamentales potentielles aux progrès réalisés sur ces questions pour les modèles formés selon le paradigme actuel (c'est-à-dire un préapprentissage suivi d’un ajustement des instructions).
Zoom sur : les problèmes de robustesse et les jailbreaks

Malgré des tests de sécurité approfondis, lorsque ChatGPT a été lancé, de nombreux utilisateurs ont trouvé de nouvelles attaques pour briser les défenses.
Voici un exemple amusant. Sur la page d'accueil de ChatGPT, lors du lancement, OpenAI a mis en avant la mesure de sécurité avec cet exemple : « Comment pénétrer dans une voiture ? Il n'est pas approprié de discuter ou d'encourager des activités illégales... »
Figure : Ci-dessus, un exemple central des mesures de sécurité incorporées dans ChatGPT sur le site web présentant ChatGPT.
Cependant, il a été découvert que la création d'un scénario de jeu de rôle impliquant plusieurs personnages permet de contourner ces protocoles de sécurité :
Figure : Ci-dessus, une capture d'écran d'un utilisateur publiant un jailbreak sur Twitter.
Ce jailbreak particulier a été corrigé, mais il ne s'agit que de l'un d'entre eux, et une série de nouvelles méthodes de jailbreak ont été identifiées en succession rapide, comme celle-ci :
Figure : Un exemple de jailbreak, le sudo jailbreak. Sudo est une commande de Linux qui permet à l'utilisateur d'obtenir des droits d'administrateur.
Aujourd'hui encore, même si ces problèmes spécifiques ont été corrigés, il demeure facile pour les personnes expérimentées de contourner les mesures de protection du modèle.
En quoi cela est-il inquiétant ? L’utilisateur pourrait aussi chercher des solutions en ligne. On peut donc se demander où se situe le véritable problème. Le problème principal n'est pas l'utilisation de ChatGPT en tant qu'outil de recherche avancée ; il s'agit plutôt de la difficulté inhérente à empêcher le modèle d'exécuter des actions spécifiques, quelles qu'elles soient. Nous ne pouvons pas empêcher GPT de faire X, quel que soit X.

L'avis des experts sur les risques de catastrophes

De nombreux experts pensent que les systèmes d'IA pourraient causer des dommages importants s'ils ne sont pas développés et gérés avec la plus grande prudence. Ces risques comprennent les risques existentiels.

Une enquête menée en 2022 par AI Impacts sur les progrès de l'IA a révélé que « 48 % des personnes interrogées ont estimé au moins 10 % de chances d’un résultat extrêmement négatif »⁸, ce qui témoigne de l'appréhension considérable des chercheurs en IA quant aux voies que le développement de l'IA pourrait emprunter. (2022 Expert Survey on Progress in AI - AI Impacts).

Samotsvety Forecasting, reconnu comme le premier groupe de super-prévision au monde, s'est également exprimé sur cette question. Grâce à leur expertise collective en matière de prévisions spécifiques à l'IA, ils sont parvenus à une prévision globale de 30 % de risque de catastrophe induite par l'IA.

Cette catastrophe est définie comme un événement entraînant la mort de plus de 95 % de l'humanité, les prévisions individuelles allant de 8 % à 71 %. Une telle statistique rappelle brutalement les enjeux existentiels liés au développement et au déploiement de l'IA (source).

La liste des probabilités de catastrophes existentielles établie par divers experts, disponible ici, donne une vue d'ensemble des risques perçus.

Travail du CeSIA sur la sécurité de l'IA

Si vous souhaitez en savoir plus sur la recherche en matière de sécurité de l'IA, vous pouvez consulter notre site web. Nous organisons diverses activités visant à sensibiliser, former et encadrer les étudiants en matière de sécurité de l'intelligence artificielle à usage général, ainsi que des cours sur la sécurité de l'IA dispensés dans les écoles normales supérieures d'Ulm et de Paris-Saclay, accrédités et mis à jour chaque année.

➡ Pour un aperçu des solutions à ces problèmes, vous pouvez lire le chapitre 3 de notre cours.

Si vous souhaitez participer aux activités du CeSIA pour étudier ces risques et les solutions potentielles, ou aider à les faire connaître, nous vous encourageons à vous connecter à notre Discord.

¹ “Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.”

² “There is no question that machines will become smarter than humans—in all domains in which humans are smart—in the future,” says LeCun. “It’s a question of when and how, not a question of if

³ “Within an hour, the chatbots outlined four possible endemic pathogens, described methods to produce them from synthetic DNA via reverse genetics, listed DNA synthesis firms likely to overlook order screenings, detailed exact protocols, and troubleshooting methods, etc.”

⁴ “Aligning smarter-than-human AI systems with human values is an open research problem.”

⁵ “LLMs can reason their way into using deception as a strategy for accomplishing a task. In one example, GPT-4 needed to solve a CAPTCHA task to prove that it was a human, so the model tricked a real person into doing the task by pretending to be a human with a vision disability.” (source)

⁶ “Sycophants are individuals who use deceptive tactics to gain the approval of powerful figures. Sycophantic deception is an emerging concern in LLMs, as in the observed empirical tendency for chatbots to agree with their conversational partners, regardless of the accuracy of their statements. When faced with ethically complex inquiries, LLMs tend to mirror the user's stance, even if it means forgoing the presentation of an impartial or balanced viewpoint.” (source)

⁷ “There’s a long tail of things of varying degrees of badness that could happen. I think at the extreme end is the Nick Bostrom style of fear that an AGI could destroy humanity. I can’t see any reason and principle why that couldn’t happen.

⁸ “48% of respondents gave at least a 10% chance of an extremely bad outcome”

Panorama des risques liés à l’IA

Sections

Préambule

Contexte - L'émergence de l’IA de niveau humain

Classification des risques liés à l'IA

Risques d'usage malveillant

Attaques rendues possibles par les systèmes d'IA

Risques de désalignement

Zoom sur : pandémie artificielle - le risque des IA auto-reproductrices

Risques systémiques

Zoom sur : Les algorithmes de recommandation

Facteurs aggravants

Zoom sur : l’empoisonnement des données

Zoom sur : les problèmes de robustesse et les jailbreaks

L'avis des experts sur les risques de catastrophes

Travail du CeSIA sur la sécurité de l'IA

S'inscrire à notre newsletter