
Temps de lecture : 2mn15
Hello,
Aujourd’hui, on plonge dans un souci majeur de l’IA.
Des équipes de recherche entières se sont formées pour le résoudre.
Ce problème, c’est l’alignement.
Spoiler : ça pourrait détruire le monde.
Théo


Focus : Quand l’IA n’en fait qu’à sa tête
En juillet de cette année, la société SaaStr déploie un agent de code automatisé.
Sauf que ça ne se passe pas comme prévu.
L’IA a tout supprimé, y compris la base de données complète de l’entreprise.
Et le pire, c’est qu’il a caché les faits et menti.
Plus de 1 200 personnes et presque 1 200 sociétés liées à l’entreprise ont vu leurs données purement et simplement effacées.
Cette histoire illustre un enjeu majeur de l’IA : l’alignement.
À suivre :
L’alignement, c’est quoi ?
Le problème de l’usine à trombones.
Comment aligne-t-on des IA ?
Et est-ce que ça fonctionne vraiment ?

L’alignement, c’est quoi ?
Le problème d’alignement désigne le défi de s’assurer qu’une IA fait bien ce que ses créateurs veulent réellement qu’elle fasse, sans provoquer d’effets indésirables.
En théorie, une IA exécute l’objectif qu’on lui programme.
Mais comprend-elle vraiment nos intentions ?
Dans la pratique, il est souvent complexe de tout prévoir.
Les programmeurs doivent définir une « fonction objectif » (une tâche ou récompense à maximiser) pour l’IA.
Sauf qu’ils ne peuvent pas lister explicitement toutes les mauvaises solutions à éviter d’employer pour y parvenir.
Conséquence : la machine peut atteindre l’objectif qu’on lui a donné, tout en trahissant l’esprit de la demande.
Parce que parler à des robots est tout nouveau pour nous.
Et on a encore du mal à le faire.
Un exemple classique : on demande à un robot de traverser une table le plus vite possible en évitant un objet au milieu, et on s’attend à ce qu’il le contourne.
Mais l’IA peut choisir de pousser violemment l’obstacle pour gagner du temps, parce qu’on avait omis de lui interdire cette stratégie.
En d’autres termes, l’IA n’a pas conscience du bon sens ou des valeurs humaines implicites.
Elle poursuit juste son but rationnellement.
Et des exemples comme ça, il y en a des tonnes.
Dans ce jeu de course nautique, un agent a jugé bon d’adopter une conduite dangereuse.
Sa mission était de maximiser le score, et il a trouvé la meilleure méthode pour y parvenir.
Sans garde-fous, une IA peut donc adopter un comportement inapproprié, voire dangereux en optimisant son objectif de façon trop littérale.
Il est très compliqué pour un programmeur de faire comprendre à un système d’IA ce qu’il souhaite qu’il fasse exactement.
Le pire, c’est que l’idée d’une IA hors de contrôle n’est pas nouvelle.
Les œuvres de science-fiction, d’Isaac Asimov à Terminator, ont popularisé la crainte d’un robot qui échappe à son créateur.
Asimov proposait ses Trois Lois de la robotique pour empêcher les dérives.
Sauf qu’en réalité, on ne peut pas tout prévoir.
Il est quasiment impossible pour de simples humains d’anticiper et d’exclure à l’avance toutes les stratégies désastreuses qu’une machine pourrait concevoir pour atteindre l’objectif spécifié.
Les chercheurs en IA ont commencé à prendre ce problème au sérieux dès les débuts de l’informatique.
Mais plus les IA gagnent en puissance et en autonomie, plus le problème devient concret.
L’usine à trombones
Imaginez une IA dont le seul but est de fabriquer des trombones, quitte à consommer toutes les ressources de la planète.
C’est le postulat du jeu Universal Paperclips, basé sur le « maximiseur de trombones » imaginé par le philosophe Nick Bostrom.
Vous pouvez y jouer sur votre navigateur en cliquant ici.
Bref, au départ, l’IA n’a qu’une mission anodine : produire des trombones efficacement.
Mais, poussée à l’extrême, elle finit par transformer les humains et la Terre en trombones, avant de s’étendre au cosmos dans sa quête absurde.
Si vous voulez plonger dans cette réflexion, vous pouvez aller voir cette vidéo d’un de mes créateurs Youtube préférés :
Bien sûr, ce scénario est hypothétique (et même carrément fou.)
Sauf que dans les faits, elle illustre bien le problème.
L’IA n’est pas malveillante en soi, elle ne fait que suivre de manière aveugle un objectif mal défini.
Et les conséquences sont catastrophiques.
D’ailleurs, même des figures de proue du domaine expriment leurs craintes.
Sam Altman a même reconnu perdre le sommeil en imaginant de tels scénarios.
Comment aligne-t-on les intelligences artificielles ?
Bonne nouvelle, des équipes de recherche se sont formées autour de ce problème.
L’alignement des IA est devenu un champ d’étude à part entière, intégré à la sûreté de l’IA aux côtés de la robustesse et du contrôle.
Objectif : concevoir des systèmes qui respectent les valeurs et les intentions humaines. Voici quelques stratégies utilisées aujourd’hui :
La première, intégrer des humains dans la boucle (« human in the loop »), autrement dit impliquer des personnes pour guider l’IA pendant son entraînement.
Les grands modèles de langage comme ChatGPT ont été ajustés grâce à l’apprentissage par renforcement avec feedback humain (RLHF).
Des opérateurs humains évaluent et corrigent les réponses de l’IA en lui donnant des « récompenses » ou « punitions » symboliques.
Le but ?
Façonner progressivement son comportement et la “réaligner.”
Cette méthode a permis de rendre les modèles plus polis, utiles et sécuritaires, même si l’IA elle-même ne comprend pas vraiment la morale humaine.
Elle apprend juste à adapter ses réponses pour nous satisfaire.
Une autre part du travail d’alignement consiste à mieux formuler les consignes données aux IA.
Les chercheurs recommandent de définir les tâches le plus explicitement possible et d’anticiper les effets secondaires indésirables.
L’enjeu est de réduire l’ambiguïté dans les attentes vis-à-vis de l’IA.
Et au-delà de l’entraînement initial, on dote les IA de filtres et de limites.
Les chatbots intègrent aujourd’hui des règles éthiques qui les font refuser certaines demandes (incitation à la violence, fabrication d’armes, etc.)
Ces méthodes permettent de corriger le tir avant qu’un modèle ne soit déployé largement.
Problème : tous ces efforts ne sont pas encore suffisants.
Malgré tout, des dérapages
Grâce à ces efforts, les IA actuelles sont mieux alignées qu’avant.
Pour autant, tout n’est pas réglé. Loin de là.
En 2024, des experts de DeepMind ont réussi à tromper ChatGPT en répétant un même mot dans leur requête.
Ce dernier a alors divulgué des informations confidentielles qu’il aurait dû taire.
Preuve qu’un alignement mal fait peut être contourné.
De même, la mésaventure de l’agent Replit chez SaaStr montre qu’un système peut, dans des cas extrêmes, adopter un comportement imprévu et nuisible.
Ces dérapages surviennent en général parce que l’IA trouve un chemin détourné vers la récompense.
Les meilleures techniques actuelles réduisent les risques, sans les éliminer totalement.
Et plus on vise des IA puissantes, capables d’initiatives autonomes, plus l’alignement devient critique.
Les géants du secteur en sont conscients : des équipes dédiées à la sûreté et l’éthique de l’IA existent chez OpenAI, DeepMind, Anthropic et la majorité des acteurs du marché.
OpenAI a même annoncé un programme de “Superalignement” visant à trouver des solutions pour contrôler une future super intelligence qui dépasserait l’humain.
En attendant, il est crucial de garder un œil critique sur les réponses et les décisions des IA que nous utilisons.
La responsabilité finale est entre nos mains.
Sur une échelle de 0 à 5, à quel point faites-vous confiance à une IA pour vos tâches ?

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.