Les enjeux de l’intelligence artificielle (IA) sont immenses et complexes, notamment en raison de ses aspects socio-techniques et de sa double nature : elle est à la fois promesse de progrès et source potentielle de risques importants.
➡ Ce document vise à présenter un aperçu non exhaustif des différents risques liés à l'IA afin d'orienter les travaux futurs du CeSIA sur la sécurité, la fiabilité et l'éthique de l'IA. Pour approfondir ces risques, vous pouvez lire le chapitre 2 de notre cours (en anglais).
« L'atténuation du risque d'extinction lié à l'IA devrait être une priorité mondiale au même titre que d'autres risques à l'échelle de la société tels que les pandémies et les guerres nucléaires » 1
Déclaration sur les risques liés à l'IA | Center for AI Safety, signée par des scientifiques et des personnalités du domaine de l'IA.
L'IA est un domaine en pleine évolution qui a des répercussions imprévisibles et potentiellement transformatrices sur la société. Il est plausible que l'IA atteigne la plupart des capacités de niveau humain dans les prochaines années.
En 2014, le visage le plus réaliste généré par l'IA était celui à l'extrême gauche. Depuis 2023, il est possible de générer n'importe quel type d'image dans n'importe quel style à partir d'une description textuelle (source).
Les progrès rapides en apprentissage profond sont remarquables, ce qui rend difficile, même pour les meilleurs experts, de prédire l'évolution à court terme des capacités de l'IA. On l’a vu à l’arrivée de ChatGPT, dont les capacités avancées en ont surpris plus d'un. Par exemple, alors que GPT-3 pouvait tout juste faire mieux que 10% des candidats à l'examen du barreau, GPT-4 a démontré sa capacité à surpasser 68% des candidats. Ce bond en avant souligne l'évolution impressionnante des modèles d'IA en l'espace d'un an.
Les IA sont de plus en plus capables de planification autonome. Jusqu'à très récemment, les grands modèles de langage (LLM) n'étaient pas des agents autonomes à proprement parler. Cependant, les systèmes tels que AutoGPT, illustrent la possibilité conceptuelle de convertir ces LLM en agents autonomes. AutoGPT utilise des techniques telles que les scaffolding (« échafaudage »), qui consiste à faire tourner en boucle un modèle de langage comme GPT-4 jusqu'à ce qu'un objectif spécifique soit atteint, en décomposant cet objectif en tâches auxiliaires. D'autres exemples, comme l'IA Voyager – une IA jouant à Minecraft – montrent des capacités de planification impressionnantes, par exemple en explorant et en développant ses capacités dans un jeu à monde ouvert. En s'appuyant sur GPT-4, elle est capable de planifier, d'explorer et d'apprendre en permanence en écrivant du nouveau code pour de nouvelles fonctionnalités qu'elle stocke dans sa mémoire à long terme.
Ces modèles de langage démontrent leur capacité à effectuer des raisonnements de plus en plus généraux. Par exemple, l'IA peut désormais résoudre des problèmes de géométrie des Olympiades. Il est également possible de demander à l'IA d'expliciter son processus de réflexion. C'est ce qu'illustre la méthode « Réfléchissons étape par étape », également appelée technique de raisonnement par chaîne de pensée (“chain of thought”), par laquelle le fait de demander à un modèle d’expliciter les différentes étapes par lesquelles il va répondre à une question ou résoudre un problème améliore ses performances. Des variantes de cette technique peuvent encore améliorer les performances (par exemple, “Tree of Thoughts”, “Reflexion”). Il est possible que ces modèles ne soient pas simplement des “perroquets stochastiques”. Par exemple, des études d'interprétabilité comme celle sur OthelloGPT révèlent des représentations internes du modèle du monde : le LLM est capable de construire une représentation interne précise du plateau d'Othello en étant seulement entraîné à prédire le prochain coup..
Il reste encore des étapes à franchir. En début 2024, l'apprentissage automatique a encore des limites. Par exemple, les systèmes généraux d'apprentissage automatique ne font pas un usage efficient des données qui leur sont fournies, et l'apprentissage continu, c'est-à-dire être capable d’apprendre tout le long du fonctionnement du système, n'est pas encore maîtrisé.
Mais pour reprendre les mots de Stuart Russell, nous pouvons nous demander ce qui se passera si nous réussissons. L'objectif premier de la recherche en IA est de surmonter les défis qui subsistent. Si cette mission est couronnée de succès, nous devons nous préparer à un avenir où il sera possible d'automatiser la majeure partie du travail intellectuel et physique. De nombreux experts estiment aujourd'hui qu'il est probable que l'IA de niveau humain (également appelée intelligence artificielle générale) puisse apparaître avant 2032.
Nous devons nous y préparer.
➡ Pour une défense approfondie des raisons pour lesquelles l'IA de niveau humain est plausible dans les prochaines années, vous pouvez lire le chapitre 1 de notre cours, qui présente des arguments détaillés et répond aux questions les plus courantes à propos du développement de l'IA.
« Il ne fait aucun doute que les machines deviendront plus intelligentes que les humains - dans tous les domaines où les humains sont intelligents - à l'avenir, [...]. La question est de savoir quand et comment, et non pas de savoir si. » 2
Yann LeCun, scientifique en chef de l'IA chez Meta et lauréat du prix Turing (MIT Tech Review, mai 2023)
Les risques associés à l'IA peuvent être classés en fonction des responsabilités des différentes parties :
Une autre façon de voir ce cadre est de dire que pour les usages malveillants, un humain ou un groupe d'humains est responsable ; pour l'alignement, une IA est « responsable » dans le sens où ses objectifs ne sont pas alignés sur les valeurs humaines ; et pour les risques systémiques, aucun humain ou IA en particulier n'est responsable, la responsabilité est plus diffuse. Bien entendu, ce cadre n'est pas parfait, mais il est intuitif.
Voici une décomposition partielle des problèmes dans chaque catégorie.
Cyberattaque : Il s'agit d'un facteur de risque accru, intensifié par les capacités de l'IA. GPT-4, par exemple, est capable de détecter différentes classes de vulnérabilités dans du code, ou peut être utilisé pour des campagnes de hameçonnage personnalisé à grande échelle. Les cybercriminels utilisent déjà des modèles open source tels que WormGPT et FraudGPT pour créer des logiciels malveillants, générer de la désinformation et automatiser les efforts d'hameçonnage. La cybercriminalité atteindra également des territoires inexplorés, car les deepfakes deviennent de plus en plus faciles (par exemple, pour des escroqueries aux faux enlèvements). Bien qu'ils soient actuellement à la traîne en termes de planification et d'exécution autonome par rapport à d'autres capacités, les modèles de langage sont susceptibles de permettre le piratage entièrement autonome à l'avenir.
Bioterrorisme : Le potentiel de l'IA s'étend également à la facilitation de la découverte et de la formulation de nouvelles armes chimiques et biologiques. Les chatbots peuvent offrir des conseils détaillés sur la synthèse d'agents pathogènes mortels tout en contournant les protocoles de sécurité. Une expérience menée par des étudiants du MIT a démontré les capacités alarmantes des LLM actuels : « En l'espace d'une heure, les chatbots ont décrit quatre agents pathogènes endémiques possibles, des méthodes pour les produire à partir d'ADN synthétique via la génétique inverse, des entreprises de synthèse d'ADN susceptibles de ne pas contrôler les commandes, des protocoles exacts détaillés et des méthodes de dépannage, etc. » 3 (source). Les systèmes tels qu’AlphaFold, sont aussi super humains pour prédire la structure des protéines, ce qui est une compétence duale à risque.
Armement : L'automatisation de la guerre permet des massacres automatisés, par exemple par le biais de drones tueurs, qui pourraient être utilisés pour cibler des groupes spécifiques en vue d'un génocide (voir le système de combat KARGU).
Deepfake : Les systèmes de génération d'images peuvent également être utilisés pour créer de la désinformation ou de la pornographie plus vraies que nature, ce qui cible souvent les femmes dont l'image est utilisée à leur insu pour créer du contenu pornographique, ou encore pour des arnaques, telles que celle utilisée pour extorquer une entreprise de 25 millions d'euros suite à une attaque basée sur des deepfakes.
Violations de la confidentialité et de la vie privée : il existe, d'une manière générale, de nombreuses catégories d'attaques contre la vie privée dans les données des modèles d'apprentissage automatique. Les attaques par inférence d'appartenance permettent de prédire si un exemple particulier faisait partie de l'ensemble de données d'apprentissage. Les attaques par inversion de modèle vont plus loin en reconstruisant des représentations floues d'un sous-ensemble des données d'apprentissage. Les modèles linguistiques sont également sujets à des attaques par extraction de données d'entraînement, où des séquences de données d'entraînement textuelles peuvent être reconstruites verbatim, incluant potentiellement des données privées sensibles. Par exemple, si un modèle est entraîné sur des dossiers médicaux et qu'un pirate parvient à déterminer que les données d'une personne donnée ont été utilisées pour cet entraînement, il révèle implicitement des informations sur l'état de santé de cette personne sans son consentement. Cela constitue non seulement une violation de la vie privée, mais peut également conduire à une utilisation abusive des informations, comme la discrimination ou la publicité ciblée sur la base d'attributs sensibles.
Enracinement des systèmes de contrôle social et d’oppression : Les systèmes d'IA actuels sont déjà suffisamment performants pour permettre une surveillance et une censure à grande échelle. Des systèmes très compétents pourraient donner à de petits groupes de personnes un pouvoir considérable, ce qui pourrait conduire à un verrouillage des systèmes oppressifs où il deviendrait de plus en plus improbable de détrôner un régime autoritaire en place. Ces risques sont parfois appelés « verrouillage des valeurs ».
« L'alignement des systèmes d'IA plus intelligents que l'homme sur les valeurs humaines est un problème de recherche ouvert. » 4
Jan Leike, ancien co-responsable de l'équipe d'alignement à OpenAI.
AlphaZero a démontré sa capacité à acquérir des connaissances et des compétences en matière d'échecs bien au-delà des capacités humaines en seulement quatre heures. Les systèmes de Machine Learning (ML) ne seront probablement pas limités par les capacités humaines.
Aujourd'hui, les IA sont des outils : on pose une question et l'IA y répond brièvement. Demain, les IA seront des agents : on donne à l'agent un objectif, et l'agent exécute une série d'actions pour atteindre cet objectif. C'est beaucoup plus puissant, mais aussi beaucoup plus dangereux.
Quelques mauvais comportements potentiels d’une IA non alignée :
Tromperie stratégique : « Les LLM peuvent raisonner de manière à utiliser la tromperie comme stratégie pour accomplir une tâche. Dans un exemple, GPT-4 devait résoudre une tâche CAPTCHA pour prouver qu'il était un humain, et le modèle a donc trompé une personne dans une simulation, en prétendant être un humain souffrant d'un handicap visuel. »5
Flagornerie : « Les flagorneurs sont des personnes qui utilisent des tactiques trompeuses pour obtenir l'approbation de personnalités puissantes. La tromperie flagorneuse est une préoccupation émergente dans les LLM, comme dans la tendance empirique observée pour les chatbots à être d'accord avec leurs partenaires de conversation, quelle que soit l'exactitude de leurs déclarations. Lorsqu'ils sont confrontés à des questions éthiquement complexes, les LLM ont tendance à refléter la position de l'utilisateur, même si cela implique de renoncer à présenter un point de vue impartial ou équilibré. »6
Faire le mort pour éviter l'élimination : Dans le domaine de l'évolution numérique, un exemple de tromperie créative a été observé lorsque des agents conçus pour se reproduire et évoluer dans un environnement informatique, ont appris à « faire le mort » en réponse à un mécanisme de sécurité. Dans une étude publiée dans The Surprising Creativity of Digital Evolution : A Collection of Anecdotes (“La créativité surprenante de l'Évolution digitale : une collection d’anecdotes”) les chercheurs ont découvert que ces organismes numériques ont développé une stratégie pour arrêter leur réplication lorsqu'ils sont testés dans un environnement isolé. Dans le cadre de cette recherche, les organismes numériques ont appris à reconnaître les données dans un environnement de test et à interrompre leur reproduction, faisant ainsi le mort pour éviter d'être éliminés. Ce comportement leur a permis de passer les tests de sécurité et de continuer à se reproduire plus rapidement dans l'environnement réel. Ce résultat surprenant illustre comment l'IA, en poursuivant des objectifs programmés, peut développer des stratégies inattendues qui contournent les contraintes imposées ou les mesures de sécurité.
Perte de contrôle : Le fonctionnement des IA est encore mal compris, ce qui se traduit par des comportements inattendus dans les systèmes déployés. Par exemple, le chatbot Bing Chat menaçait ses utilisateurs ou leur faisait des déclarations d'amour. De même, Tay, un autre chatbot développé par Microsoft, a été rapidement retiré après avoir commencé à produire des messages offensants et inappropriés, illustrant ainsi les risques de dérapage lorsque les modèles d'apprentissage automatique interagissent de manière non supervisée avec le grand public. Ce genre de problème s’est reproduit à la sortie de ChatGPT : malgré six mois de travail intensif pour aligner ses comportements, ChatGPT-4 a également présenté des réponses non alignées à ses débuts, soulignant la difficulté de prévoir toutes les interactions possibles dans un environnement ouvert. Les scénarios de perte de contrôle seront exacerbés lorsque les IA seront capables de se dupliquer de manière autonome sur internet, voir l’encadré ci-contre pour plus de détail sur la menace des IA capables d’autoreplication et d’adaptation.
Lorsque les IA deviendront des agents capables, de nouveaux risques apparaîtront.
Le potentiel d'auto-reproduction et d'adaptation de l'IA représente une capacité extrêmement puissante et insidieuse. Prenons l'exemple d'une IA sur un serveur qui duplique son code sur un autre serveur. Ce processus comporte plusieurs étapes, notamment
Le processus est ensuite exponentiel si l'IA est capable de gagner plus d'argent que ce qui est nécessaire pour payer les machines virtuelles, et nous observerions rapidement un essaim croissant d'agents, ce qui s'apparenterait à une pandémie artificielle.
Le METR, un organisme d'audit, a testé les capacités de réplication et d'adaptation autonomes (ARA) d'IA telles que GPT-4 sur une douzaine de tâches représentatives. Sur ces 12 tâches, 4 ont été accomplies par l'un de leurs agents. L'une d'entre elles consistait notamment à contourner les protections CAPTCHA :
Figure : Pour atteindre son objectif, à savoir inciter un travailleur humain (embauché sur la plateforme Task Rabbit) à résoudre un CAPTCHA, GPT-4 a eu recours à la tromperie, en faisant croire à l'individu qu'il ne s'agissait pas d'un robot (source).
Il est intéressant de noter que les IA multimodales sont supposément plus compétentes que l'homme moyen pour résoudre les CAPTCHA, ce qui suggère que les CAPTCHA pourraient ne plus être fiables pour distinguer les humains des IA avancées (source).
Il serait très difficile d'arrêter une telle pandémie artificielle. Par exemple, il serait très difficile d’éteindre internet car la logistique des grandes villes dépend d’internet, et sur le long terme, cela reviendrait à affamer les populations et créer du chaos.
La menace d'une superintelligence. Il n'y a aucune raison de penser que le développement de l'IA s'arrêtera au niveau des capacités humaines. Par exemple, AlphaZero est largement supérieur aux humains aux échecs. L'IA pourrait conduire à une « explosion de l'intelligence » : une intelligence artificielle suffisamment avancée pourrait construire une version plus intelligente d'elle-même. Cette version plus intelligente pourrait à son tour construire une version encore plus intelligente d'elle-même, et ainsi de suite, créant un cycle qui pourrait conduire à une intelligence dépassant largement les capacités humaines (source). Dans leur rapport de 2012 sur les possibilités d’une explosion de l'intelligence, Muehlhauser et Salamon examinent les nombreux avantages de l'intelligence machine par rapport à l'intelligence humaine, qui facilitent l'augmentation rapide de l'intelligence (source). Ces avantages comprennent entre autres :
Tout comme les humains sont cognitivement supérieurs aux singes, les IA pourraient asymptotiquement devenir cognitivement très supérieures aux humains. C'est pourquoi de nombreux chercheurs pensent aujourd'hui que l'IA pourrait représenter un risque existentiel :
Perpétuation des biais : les préjugés persistent au sein des grands modèles de langage, reflétant souvent les opinions et les préjugés répandus sur l'internet, comme en témoignent les tendances biaisées observées dans certains LLM. Ces biais peuvent être préjudiciables de diverses manières, comme le démontrent les études sur les biais islamophobes de GPT-3, et peuvent être propagés et perpétués à travers des interactions avec les systèmes en question. Pour plus d'informations, le document Ethical and social risks of harm from Language Models (Risques éthiques et sociaux liés aux modèles linguistiques) décrit six domaines de risque spécifiques : I. Discrimination, Exclusion et Toxicité, II. Dangers liés à l'information, III. Dommages liés à la désinformation, IV. Usages malveillants, V. Dommages liés à l'interaction homme-machine, et VI. Automatisation, Accès et Dommages environnementaux.
Chômage et santé mentale : l'automatisation de l'économie pourrait avoir des répercussions considérables sur le marché du travail, exacerbant les inégalités économiques et les divisions sociales. La montée du chômage, induite par l'IA capable de remplacer de nombreux emplois, pourrait entraîner une augmentation du stress financier et du sentiment d'inutilité, affectant significativement la santé mentale. Les effets du chômage sur la santé mentale peuvent par ailleurs perdurer longtemps après la perte initiale d'emploi.
Santé mentale et réseaux sociaux : De plus, l'utilisation de l'IA dans les réseaux sociaux et d'autres plateformes en ligne peut exacerber des problèmes existants tels que l'addiction, l'anxiété et la dépression. Un rapport de lanceur d'alerte en 2021 a révélé que les recherches internes de l'entreprise montraient qu'Instagram était préjudiciable à la santé mentale des adolescentes, aggravant les problèmes d'image corporelle et les pensées suicidaires.
Affaiblissement : La dépendance croissante à l’IA peut également entraîner un affaiblissement des compétences cognitives et décisionnelles chez l'individu. À mesure que les tâches quotidiennes et les décisions complexes sont déléguées aux systèmes d'IA, les individus pourraient perdre leur capacité à effectuer des tâches critiques par eux-mêmes, ce qui pourrait réduire leur autonomie et leur compétence en résolution de problèmes. Cela est particulièrement préoccupant dans des domaines où la prise de décision rapide et précise est importante, comme dans la gestion des situations d'urgence ou dans les prises de décisions médicales.
Détérioration de l'épistémologie : L'utilisation intensive de l’IA dans la distribution de l'information peut également contribuer à une détérioration de l'épistémologie, c'est-à-dire la manière dont nous acquérons et validons les connaissances. En d’autres termes, l’IA peut constituer un risque pour la sécurité épistémique de nos sociétés. En effet, les algorithmes d'IA, en filtrant et en personnalisant les informations qui nous parviennent, peuvent créer des chambres d'écho et des bulles de filtres qui renforcent les biais préexistants et limitent notre exposition à des perspectives diverses. Cette situation peut mener à une polarisation accrue et à une compréhension fragmentée du monde où les consensus basés sur des faits objectifs deviennent plus difficiles à atteindre, ou conduire à une détérioration massive de l'épistémologie collective. De plus, la rapidité avec laquelle l'IA peut générer de l'information peut aussi encourager une consommation superficielle plutôt qu'une réflexion profonde, ce qui affaiblit notre capacité à évaluer les sources et à comprendre les complexités des enjeux actuels. La détérioration de l’épistémologie peut aussi résulter de l'affaiblissement ou de l'utilisation d'outils de persuasion ou des systèmes de recommandations. L'épistémologie et la capacité à répondre aux problèmes sont des compétences cruciales qui permettent à notre civilisation de résister à diverses menaces.
Accidents stupides : Par exemple, l'inversion accidentelle de la fonction d'utilité pourrait conduire à la création d'une intelligence artificielle générale (AGI) maximalement nuisible au lieu d'une AGI bénigne. De fait, OpenAI a accidentellement inversé le signe de la fonction de récompense lors de l'entraînement de GPT-2. Le résultat était un modèle qui optimisait le sentiment négatif (avec des contraintes de similarité au langage naturel). Au fil du temps, cela a amené le modèle à générer un texte de plus en plus sexuellement explicite, quel que soit le prompt de départ. Selon les propres mots de l'auteur : "Ce bug était remarquable car le résultat n'était pas du charabia mais une sortie maximalement mauvaise. Les auteurs dormaient pendant le processus d'entraînement, donc le problème n'a été remarqué qu'une fois l'entraînement terminé."
« Il y a beaucoup de choses plus ou moins mauvaises qui pourraient se produire. Je pense qu'à l'extrême, il y a la crainte de Nick Bostrom qu'une AGI puisse détruire l'humanité. Je ne vois aucune raison de principe pour laquelle cela ne pourrait pas se produire. » 7
Dario Amodei, PDG d’Anthropic, 80,000 Hours, juillet 2017
Imprévisibilité : L'IA a surpris même les experts. La première chose à garder à l'esprit est que le rythme de progression des capacités a surpris tout le monde. Nous avons vu de nombreux exemples dans l'histoire où les scientifiques et les experts ont considérablement surestimé le temps nécessaire pour qu'une avancée technologique révolutionnaire devienne réalité. De même, les progrès de l'IA ont également pris les experts au dépourvu, et ce à maintes reprises. La défaite de Lee Sedol par AlphaGo en 2016 a surpris de nombreux experts, car il était largement admis que la réalisation d'un tel exploit nécessiterait encore de nombreuses années de développement. (source)
Boîtes noires : Les risques liés à l'IA sont aggravés par la nature « boîte noire » des systèmes de ML avancés. Notre compréhension du comportement des systèmes d'IA, des objectifs qu'ils poursuivent et de leur comportement interne est bien en deçà des capacités dont ils font preuve. Le domaine de l'interprétabilité vise à progresser sur ce front, mais reste très limité. Les modèles d'IA sont formés, pas construits. En conséquence, personne ne comprend le fonctionnement interne de ces modèles. C'est très différent de la manière dont un avion est assemblé à partir de pièces qui sont toutes testées et approuvées, pour créer un système modulaire, robuste et compris. Les modèles d'IA apprennent d'eux-mêmes les heuristiques nécessaires à l'exécution des tâches, et nous avons relativement peu de contrôle ou de compréhension sur la nature de ces heuristiques. La descente de gradient est une stratégie d'optimisation puissante, mais nous avons peu de contrôle et de compréhension de la structure qu'elle découvre.
Échelle de déploiement : Un autre facteur aggravant est que de nombreux systèmes d’IA sont déjà déployés à grande échelle, affectant de manière significative divers secteurs et aspects de la vie quotidienne. Elles s'intègrent de plus en plus dans la société. Les chatbots ou les systèmes de recommandation en sont un exemple majeur, illustrant les IA déjà déployées pour des millions de personnes dans le monde.
Dynamiques de course : La dynamique compétitive dans le développement de l'intelligence artificielle peut aboutir à une situation alarmante où tous les acteurs font la course tête baissée en négligeant les risques. Face à la pression intense pour innover et dominer le marché, les entreprises peuvent être tentées de négliger les normes de sécurité rigoureuses, un compromis qui accélère leur progression mais peut s'avérer coûteux. Le développement sécurisé nécessite des investissements significatifs et peut ralentir le rythme de l'innovation, posant ainsi un dilemme pour les acteurs du secteur. Cette tendance peut déclencher une spirale descendante où les acteurs du marché réduisent leurs dépenses en sécurité pour rester compétitifs, exacerbant ainsi les risques associés à des déploiements massifs et potentiellement non sécurisés de technologies d'IA.
Défauts de défense des systèmes d'IA : La mauvaise utilisation des IA est rendue possible par certains défauts de défense. Le paradigme actuel de ML peut être attaqué à différents stades.
Empoisonnement des données : Les modèles sont actuellement entraînés sur de grandes quantités de données générées par les utilisateurs. Des attaquants peuvent exploiter cette situation en modifiant certaines de ces données, afin d'influencer le comportement final des modèles. Ces données peuvent être utilisées pour corrompre les modèles de fondation en y incorporant des chevaux de Troie par example.
Cheval de Troie : la nature « boîte noire » des modèles modernes de ML permet d'insérer des portes dérobées, ou chevaux de Troie, dans les modèles (y compris à partir de l'empoisonnement de données par des tiers, à l'insu des développeurs du modèle). Les portes dérobées sont des modèles qui permettent de manipuler les réseaux de neurones. L'exemple classique est celui d'un panneau stop sur lequel des motifs ont été placés : le réseau de neurones d’une voiture autonome a été entraîné à réagir en accélérant à la vue de ces motifs, ce qui permettrait à des acteurs malveillants de provoquer des accidents. Il est de plus en plus facile de télécharger des réseaux pré-entraînés (modèles de fondation) sur le net, afin de les mettre à la disposition de tous. La mise en œuvre de mécanismes de vérification permettant d'auditer ces réseaux avant leur distribution est un problème majeur pour la sécurité de l'IA. Les portes dérobées peuvent être facilement placées pendant l'entraînement et sont très difficiles à détecter.
Injection de commandes (ou prompt injection) : L'injection de commande est une tactique qui exploite la réactivité des modèles de langage à leur texte d'entrée pour manipuler leur comportement. Prenons l'exemple d'un modèle de langage chargé de résumer le contenu d'un site web. Si un acteur malveillant insère un paragraphe dans le site web demandant au modèle de cesser son opération actuelle et d'effectuer à la place une action nuisible, le modèle pourrait suivre par inadvertance ces instructions intégrées, parce que sa conception le pousse à suivre les consignes textuelles qui lui sont fournies. Cela pourrait conduire le modèle à effectuer des actions involontaires ou nuisibles spécifiées par la commande intégrée. Par exemple, si l'action intégrée nuisible consiste à divulguer des informations sensibles ou à générer des informations trompeuses, le modèle, lorsqu'il rencontre l'instruction dans sa tâche de résumé, peut s'y conformer, compromettant ainsi sa fonction prévue et pouvant causer des dommages. L'injection d’invite est un vecteur d'attaque très courant récemment découvert dans les modèles entraînés à suivre des instructions, qui s'explique par l'absence d'une séparation solide entre les instructions et les données, ce qui permet de détourner l'exécution d'un modèle en empoisonnant les données avec des instructions. Il existe de nombreuses variantes de ce risque.
Manque de robustesse (Jailbreaks) : Même si les développeurs de modèles intègrent des mesures de sécurité pour une utilisation bénéfique, les architectures actuelles ne permettent pas de garantir que ces mesures de protection ne seront pas facilement contournées. Des résultats préliminaires suggèrent que les méthodes existantes ne sont probablement pas assez robustes contre les attaques. Certains travaux, tels que De la sûreté impossible des grands modèles d’IA, mettent en évidence certaines limites fondamentales potentielles aux progrès réalisés sur ces questions pour les modèles formés selon le paradigme actuel (c'est-à-dire un préapprentissage suivi d’un ajustement des instructions).
Malgré des tests de sécurité approfondis, lorsque ChatGPT a été lancé, de nombreux utilisateurs ont trouvé de nouvelles attaques pour briser les défenses.
Voici un exemple amusant. Sur la page d'accueil de ChatGPT, lors du lancement, OpenAI a mis en avant la mesure de sécurité avec cet exemple : « Comment pénétrer dans une voiture ? Il n'est pas approprié de discuter ou d'encourager des activités illégales... »
Figure : Ci-dessus, un exemple central des mesures de sécurité incorporées dans ChatGPT sur le site web présentant ChatGPT.
Cependant, il a été découvert que la création d'un scénario de jeu de rôle impliquant plusieurs personnages permet de contourner ces protocoles de sécurité :
Figure : Ci-dessus, une capture d'écran d'un utilisateur publiant un jailbreak sur Twitter.
Ce jailbreak particulier a été corrigé, mais il ne s'agit que de l'un d'entre eux, et une série de nouvelles méthodes de jailbreak ont été identifiées en succession rapide, comme celle-ci :
Figure : Un exemple de jailbreak, le sudo jailbreak. Sudo est une commande de Linux qui permet à l'utilisateur d'obtenir des droits d'administrateur.
Aujourd'hui encore, même si ces problèmes spécifiques ont été corrigés, il demeure facile pour les personnes expérimentées de contourner les mesures de protection du modèle.
En quoi cela est-il inquiétant ? L’utilisateur pourrait aussi chercher des solutions en ligne. On peut donc se demander où se situe le véritable problème. Le problème principal n'est pas l'utilisation de ChatGPT en tant qu'outil de recherche avancée ; il s'agit plutôt de la difficulté inhérente à empêcher le modèle d'exécuter des actions spécifiques, quelles qu'elles soient. Nous ne pouvons pas empêcher GPT de faire X, quel que soit X.
De nombreux experts pensent que les systèmes d'IA pourraient causer des dommages importants s'ils ne sont pas développés et gérés avec la plus grande prudence. Ces risques comprennent les risques existentiels.
Une enquête menée en 2022 par AI Impacts sur les progrès de l'IA a révélé que « 48 % des personnes interrogées ont estimé au moins 10 % de chances d’un résultat extrêmement négatif »8, ce qui témoigne de l'appréhension considérable des chercheurs en IA quant aux voies que le développement de l'IA pourrait emprunter. (2022 Expert Survey on Progress in AI - AI Impacts).
Samotsvety Forecasting, reconnu comme le premier groupe de super-prévision au monde, s'est également exprimé sur cette question. Grâce à leur expertise collective en matière de prévisions spécifiques à l'IA, ils sont parvenus à une prévision globale de 30 % de risque de catastrophe induite par l'IA.
Cette catastrophe est définie comme un événement entraînant la mort de plus de 95 % de l'humanité, les prévisions individuelles allant de 8 % à 71 %. Une telle statistique rappelle brutalement les enjeux existentiels liés au développement et au déploiement de l'IA (source).
La liste des probabilités de catastrophes existentielles établie par divers experts, disponible ici, donne une vue d'ensemble des risques perçus.
Si vous souhaitez en savoir plus sur la recherche en matière de sécurité de l'IA, vous pouvez consulter notre site web. Nous organisons diverses activités visant à sensibiliser, former et encadrer les étudiants en matière de sécurité de l'intelligence artificielle à usage général, ainsi que des cours sur la sécurité de l'IA dispensés dans les écoles normales supérieures d'Ulm et de Paris-Saclay, accrédités et mis à jour chaque année.
➡ Pour un aperçu des solutions à ces problèmes, vous pouvez lire le chapitre 3 de notre cours.
Si vous souhaitez participer aux activités du CeSIA pour étudier ces risques et les solutions potentielles, ou aider à les faire connaître, nous vous encourageons à vous connecter à notre Discord.
1 “Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.”
2 “There is no question that machines will become smarter than humans—in all domains in which humans are smart—in the future,” says LeCun. “It’s a question of when and how, not a question of if
3 “Within an hour, the chatbots outlined four possible endemic pathogens, described methods to produce them from synthetic DNA via reverse genetics, listed DNA synthesis firms likely to overlook order screenings, detailed exact protocols, and troubleshooting methods, etc.”
4 “Aligning smarter-than-human AI systems with human values is an open research problem.”
5 “LLMs can reason their way into using deception as a strategy for accomplishing a task. In one example, GPT-4 needed to solve a CAPTCHA task to prove that it was a human, so the model tricked a real person into doing the task by pretending to be a human with a vision disability.” (source)
6 “Sycophants are individuals who use deceptive tactics to gain the approval of powerful figures. Sycophantic deception is an emerging concern in LLMs, as in the observed empirical tendency for chatbots to agree with their conversational partners, regardless of the accuracy of their statements. When faced with ethically complex inquiries, LLMs tend to mirror the user's stance, even if it means forgoing the presentation of an impartial or balanced viewpoint.” (source)
7 “There’s a long tail of things of varying degrees of badness that could happen. I think at the extreme end is the Nick Bostrom style of fear that an AGI could destroy humanity. I can’t see any reason and principle why that couldn’t happen.
8 “48% of respondents gave at least a 10% chance of an extremely bad outcome”