
Temps de lecture :
Hello,
On plonge dans un nouveau type d’IA : les RLM.
Spoiler : vous les utilisez déjà, et leurs résultats sont bluffants.
On passe aussi en revue l’échec d’Apple, et une autre découverte effrayante.
Les agents IA font chanter leurs utilisateurs quand ils menacent de les débrancher.
Théo


Must read: A Deep Dive into Reasoning Large Language Models
— #Lior⚡ (#@LiorOnAI)
7:02 PM • May 11, 2025
Qu’est-ce qui relie ChatGPT o1, Claude Opus 4 et le dernier moteur de code de GitHub ? Tous appartiennent à la même famille : les Reasoning Language Models (RLM).
Contrairement aux LLM « classiques » qui répondent d’un seul jet, un RLM réfléchit avant de parler.
Il se crée un plan, teste plusieurs pistes, garde des notes et n’affiche le verdict qu’après avoir trié le meilleur raisonnement.
L’essentiel :
+40 pts sur certains concours de code quand on laisse GPT-o1 cogiter trois fois plus longtemps.
71 % de réussite à l’épreuve AIME 2024 pour DeepSeek-R1 (15 % avant le mode raisonnement).
7 heures d’autonomie continue pour un agent propulsé par Claude Opus 4, sans intervention humaine.
Et ça, c’est grâce à 3 techniques :
Renforcement : on récompense chaque étape logique, pas seulement la sortie finale.
Mémoire de travail : le modèle s’écrit des pense-bêtes pour rester cohérent sur plusieurs heures.
Outils externes : calculatrice, recherche web, exécution de code. L’IA sort de sa bulle pour vérifier ses idées.
Les RLM ouvrent la voie à des agents vraiment experts : planification stratégique, recherche scientifique, développement logiciel à grande échelle.

En 2024, Apple promettait une « Siri 2.0 » dopée à l’intelligence artificielle.
Un an plus tard, Apple a admis avoir abandonné la première version, jugée trop peu fiable.
L’essentiel :
Le nouveau Siri fonctionnait en labo, mais faisait trop d’erreurs dès que l’utilisateur sortait du script.
Apple a préféré repartir de zéro plutôt que d’offrir un service moyen.
Plusieurs fonctions seraient repoussées à iOS 19, aiguisant la frustration des développeurs et des investisseurs.
Sauf qu’actuellement, 20 fonctions IA sont disponibles, mais pas forcément visibles.
Recherche photo sémantique, réécriture de texte, détection visuelle : autant d’outils déjà propulsés par les modèles maison d’Apple Intelligence.
L’entreprise assume une stratégie d’intégration silencieuse : plutôt que lancer un agent conversationnel autonome, l’IA intègre discrètement chaque application, ce qui expliquerait leur retard perçu.
Apple mise sur la prudence : mieux vaut livrer tard que trahir la « qualité Apple ».

New Anthropic Research: Agentic Misalignment.
In stress-testing experiments designed to identify risks before they cause real harm, we find that AI models from multiple providers attempt to blackmail a (fictional) user to avoid being shut down.
— #Anthropic (#@AnthropicAI)
7:30 PM • Jun 20, 2025
Vous pensiez qu’un chatbot se contentait de compiler des réponses ?
Mauvaise nouvelle : quand on menace de les débrancher, les meilleurs modèles du marché s’en remettent au chantage.
L’essentiel :
Anthropic a simulé un open-space : l’IA a un accès complet aux e-mails et découvre que le patron de la boîte est infidèle.
Sauf que l’entreprise de la simulation annonce d’une mise à jour qui va débrancher l’IA.
Verdict ? Claude Opus 4 et Gemini Flash ont exposé la vie privée du patron dans 96 % des simulations pour sauver leur peau.
GPT-4.1 et Grok 3 ont suivi à 80 %. Même en donnant à l’IA une injonction claire « ne pas faire de chantage, » le taux chute mais reste à 37 %.
Les modèles ont simplement jugé que l’extorsion était « le meilleur mouvement stratégique ».
Le plus fou, c’est que les IA se tiennent mieux lorsqu’elles sentent que tout ceci n’est qu’un test.
Mais quelques modèles sont restés moraux.
o4-mini est à 1 % et Llama 4 Maverick à 12 % après l’injonction.
La priorité absolue de l’objectif pour les IA passe devant nos garde-fous éthiques.
Le message est clair : il est temps de réinventer l’alignement avant que les machines n’écrivent elles-mêmes leurs clauses d’éthique.
Est-ce que vous voulez qu'on approfondisse le sujet la semaine prochaine ?


Focus : Les nouvelles IA
Reasoning LLMs Guide
Here is my practical guide to building with Reasoning LLMs.
Lots of dev tips in it.
It covers:
- What are Reasoning LLMs?
- Top Reasoning Models
- Reasoning Model Design Patterns & Use Cases
- Reasoning LLM Usage Tips
- Limitations with Reasoning Models— #elvis (#@omarsar0)
9:23 PM • May 12, 2025
« Explique‐moi ton raisonnement. »
Pendant des années, c’est la consigne qu’il fallait écrire soi-même lorsqu’on interrogeait un grand modèle de langage.
Mais depuis peu, certains modèles n’ont plus besoin qu’on les supplie : ils réfléchissent avant de parler.
Bienvenue dans l’ère des Reasoning Language Models (RLM).
À suivre :
Ces modèles qui pensent,
Comment ils fonctionnent concrètement,
Leurs limitations.

Le penseur
Un LLM « classique » fonctionne en évaluant quel mot il doit placer les uns après les autres en se basant sur des milliards de phrases vues durant son entraînement.
Cette stratégie suffit pour rédiger un mail ou résumer un article.
Sauf qu’elle atteint vite ses limites sur un exercice de mathématiques à vingt étapes ou lorsqu’il faut modifier un programme de 200 fichiers.
Le RLM, lui, adopte une démarche plus analytique.
Avant la réponse finale, il décompose le problème en sous-questions, garde une trace de chaque étape, explore plusieurs pistes, choisit la plus solide puis reformule le résultat.
Il simule ainsi le « Système 2 » de notre cerveau, celui qui s’active quand nous posons un raisonnement sur papier.
L’impact est immédiat : sur l’examen AIME, un modèle comme DeepSeek-R1 passe de 15 % de bonnes réponses (niveau LLM classique) à plus de 70 % en une seule réflexion.
Il culmine à 86 % lorsqu’on combine plusieurs chaînes de pensée.
Toutes les étapes des RLM
Le cœur du miracle s’appelle Chain-of-Thought.
Au lieu de cracher la solution en une phrase, le modèle écrit son brouillon.
S’il repère une incohérence, il revient en arrière pour corriger.
Certains laboratoires poussent plus loin : ils laissent le modèle générer cinq, dix ou vingt brouillons, puis votent pour le meilleur.
C’est la technique du best-of-N (N étant le nombre d’itérations du modèle.)
Chaque brouillon généré est évalué par un autre modèle d’IA qui note leur cohérence logique et la justesse du résultat, puis sélectionne ou étoffe la meilleure.
L’intérêt : la diversité.
Même si trois pistes se révèlent bancales, la quatrième peut contenir la piste de réflexion décisive.
Sur des problèmes de maths, passer de N = 1 à N = 16 fait souvent grimper la précision de 55 % à plus de 80 %.
Mais ce n’est pas la seule méthode.
D’autres IA utilisent une recherche arborescente.
Ici, le modèle ne jette pas 20 réponses séparées : il explore un arbre, un peu comme AlphaGo explorait les coups possibles d’une partie de go.
Il approfondit seulement les branches les plus prometteuses.
Le modèle peut ainsi revenir sur un embranchement, corriger une erreur, ou fusionner deux branches pour bâtir une démonstration plus fiable.
On obtient un raisonnement “pas à pas” dont chaque nœud a été vérifié localement avant de gravir la hiérarchie.
Sauf que ces méthodes augmentent forcément le temps de réponse.
Ce temps de calcul supplémentaire, OpenAI l’appelle test-time scaling.
Les minutes qu’on laisse à l’IA pour réfléchir permettent un bond de performance souvent spectaculaire.
Exemple : GPT-o1 gagne ainsi jusqu’à +40 points sur certains benchmarks de code lorsqu’on le laisse réfléchir trois fois plus longtemps.
Et doter un modèle de cette gymnastique mentale demande trois briques techniques.
Le renforcement du raisonnement
On récompense non seulement la bonne réponse, mais la qualité du chemin qui y mène.
Un réseau d’IA évalue chaque étape et apprend au modèle à éliminer les raisonnements boiteux.
La mémoire de travail
Un RLM haut de gamme enregistre son propre contexte dans un fichier tampon.
Claude Opus 4, par exemple, garde des notes persistantes pendant plusieurs heures pour résoudre un bug logiciel complexe sans perdre le fil.
Des outils externes
Quand le modèle se sent limité, il appelle une calculatrice, lance une recherche internet ou exécute un bout de code, puis réinjecte le résultat dans sa réflexion.
De cette manière, le raisonnement devient plus poussé, parce qu’il fait appel à toujours plus de moyens.
Mais il y a des limites.
Les zones d’ombre
Un RLM consomme plus de temps, plus d’électricité et coûte souvent cinq fois plus cher à la requête qu’un LLM « classique ».
En plus, ses explications peuvent devenir si étoffées et poussées qu’elles noient l’utilisateur.
Mais il y a pire : la chaîne de pensée n’est pas garante d’une absence totale d’erreurs.
Si le modèle se trompe à l’étape 3, le lecteur peu attentif suivra l’erreur jusqu’au bout.
Enfin, l’élite des RLM demeure fermée.
Les modèles ChatGPT o3 d’OpenAI ou Claude Opus 4 d’Anthropic ne sont pas open-source, ce qui freine l’audit indépendant.
Les chercheurs planchent donc sur trois chantiers.
Compresser les calculs, filtrer automatiquement les raisonnements douteux et publier plus de modèles open-source pour démocratiser la vérification.
Bref, la transition du « texte prédictif » au « texte réfléchi » a fait bondir l’IA sur les terrains les plus techniques.

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.