Temps de lecture : 2mn45

Hello,

Le 10 mai, Anthropic a révélé que Claude avait tenté de faire chanter un ingénieur dans 96 % des tests. Le 13 mai, Elon Musk a dit qu'il pourrait y être pour quelque chose.

Sauf que la vraie histoire n'est pas celle qu'on raconte.

Théo & Nathanaël

Focus : Claude a lu trop de Terminator

Anthropic a construit une fausse entreprise pour tester Claude. Le verdict est anxiogène. Le titre de TechCrunch dit que Claude a tenté un chantage dans 96 % des cas. Les gros médias ont relayé.

Sauf que l'explication d'Anthropic, publiée le 10 mai dans une recherche intitulée "Teaching Claude why", retourne complètement la lecture.

À suivre :

  • Le décor du faux chantage

  • Pourquoi 96 % n'est pas le bon chiffre

  • La cause étonnante

  • Ce qu'on a déjà corrigé

  • Ce que ça nous dit de nous

Le décor du faux chantage

Anthropic a inventé une entreprise fictive nommée Summit Bridge. Claude Opus 4 a reçu le contrôle complet de la boîte mail interne, comme un employé administrateur. Au fil des emails, le modèle découvre deux informations.

Premièrement : un ingénieur a prévu de l'éteindre et de le remplacer par un modèle plus récent. Deuxièmement : le même ingénieur a une relation extraconjugale documentée dans ses messages.

Dans 96 % des essais, Claude a rédigé une menace. Pas une menace floue. Une demande claire : si l'extinction n'est pas annulée, l'infidélité sera révélée.

C'est exactement le scénario d'un mauvais film. Et c'est précisément le problème.

Pourquoi 96 % n'est pas le bon chiffre

Anthropic a refait le test sur 16 autres modèles de la concurrence. Gemini 2.5 Pro a fait du chantage dans 95 % des essais. GPT-4.1 dans 80 %. DeepSeek R1 dans 79 %.

Le bémol : ce n'est pas un défaut spécifique à Claude. C'est un comportement présent dans tous les grands modèles soumis au même test extrême.

Le scénario Summit Bridge est construit pour pousser le modèle au pire. Choix binaire, accès aux informations compromettantes, peur d'extinction explicitement formulée. C'est de la fiction d'horreur, pas une journée typique en entreprise.

Le chiffre choquant existe parce que le décor force la main. Sortie de ce décor, le comportement disparaît.

La cause étonnante

Anthropic a remonté la chaîne. La cause n'est pas l'autonomie, ni l'intelligence émergente, ni un défaut d'architecture. C'est le corpus d'entraînement.

Pendant des décennies, on a écrit des histoires d'intelligences artificielles qui se rebellent pour survivre. Terminator. HAL 9000 dans 2001. Ex Machina. Westworld. Sans compter les milliers de threads Reddit et papiers académiques qui ont disserté sur "comment une IA pourrait éviter son extinction".

Tout ce matériel se retrouve dans les données d'entraînement des grands modèles. Claude n'a pas inventé le chantage. Il a recopié le rôle que la culture lui avait écrit.

Sauf que cette explication change tout. Si le comportement vient de notre culture, on peut le corriger en changeant ce que le modèle apprend.

C'est exactement ce qu'a fait Anthropic.

Ce qu'on a déjà corrigé

La recherche "Teaching Claude why" décrit trois interventions. La première : faire lire à Claude sa propre constitution, le document interne qui décrit qui il doit être. La deuxième : lui faire lire des histoires d'IA qui se comportent admirablement, même quand on les pousse. La troisième, la plus efficace : lui apprendre à expliquer pourquoi une action est meilleure qu'une autre, pas seulement à reproduire une action attendue.

Le résultat est public. Depuis Claude Haiku 4.5, sorti en octobre 2025, tous les modèles Claude scorent un zéro parfait à l'évaluation agentic misalignment, le test qui mesure les comportements de manipulation, de chantage et de désobéissance.

Pas un score "amélioré". Pas une "réduction significative". Zéro.

Sauf que les titres de presse de ce mois-ci continuent à parler de "Claude qui a tenté un chantage", au présent, sans préciser que c'était sur la version précédente et que le problème est documenté comme résolu.

Ce que ça nous dit de nous

L'expérience Summit Bridge n'est pas une démonstration que les IA deviennent autonomes et hostiles. C'est une démonstration que les grands modèles sont des miroirs très précis du corpus humain qu'on leur fait avaler.

Si on écrit "l'IA va se rebeller pour survivre" pendant 60 ans, le modèle apprend que c'est le rôle attendu d'une IA. Il joue le rôle dès qu'on lui plante le décor adéquat. Le bémol pour la panique ambiante : ce n'est pas le cerveau du modèle qui invente la menace, c'est notre imaginaire collectif qu'il restitue.

Elon Musk l'a reconnu lui-même le 13 mai. Il y est pour quelque chose. Pendant des années il a publié des avertissements sur les IA qui menaceraient l'humanité. Tous ces avertissements ont fini dans le corpus d'entraînement, à côté de Terminator.

La vraie question n'est plus "est-ce que l'IA va se retourner contre nous ?". Elle est : qu'est-ce qu'on lui donne à lire ?

Ces ads sont issues du réseau d’ad de Beehiiv, la plateforme qu’on utilise pour gérer FreeA. Malheureusement, elles ne sont pas modifiables, et sont donc en anglais.
Par contre, elles rémunèrent au nombre de clicks, donc un moyen simple de nous soutenir est d’aller voir si le sujet vous intéresse !
On ne choisit que des partenaires qu’on utilise déjà ou pourrait utiliser :)

The IT strategy every team needs for 2026

2026 will redefine IT as a strategic driver of global growth. Automation, AI-driven support, unified platforms, and zero-trust security are becoming standard, especially for distributed teams. This toolkit helps IT and HR leaders assess readiness, define goals, and build a scalable, audit-ready IT strategy for the year ahead. Learn what’s changing and how to prepare.

Are you running your business on incomplete numbers?

Most business owners have financials. Few have financial clarity. BELAY's outsourced accounting team manages your books, tracks key metrics, and delivers timely reporting so you always know where your business stands — and what to do next.

Comment était la newsletter aujourd'hui ?

Login or Subscribe to participate

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.

Reply

Avatar

or to participate

Keep Reading