Temps de lecture : 2mn15

Hello,

Ce n’est pas tout : comme vous nous l’avez demandé, on vous explique pourquoi les IA ont recours au chantage quand on les menace.

Mais avant, j’ai une grosse annonce à vous faire.

Je lance le projet le plus important de ma vie, et il faut qu’on en discute.

Théo

Je lance le projet de ma vie

Depuis petit, j’ai toujours eu une conviction.
Ma vie sera dédiée à l’éducation.

Tout ce que je fais a toujours eu un seul objectif :
Développer les compétences et leviers suffisants pour sauver l’éducation. 

Et aujourd’hui, c’est le moment.
Parce que les inégalités n’ont jamais été aussi fortes : 

Pour obtenir les meilleurs diplômes, le soutien scolaire est devenu nécessaire.
Sauf que ça coûte +1500€ / an / enfant (selon une étude de TNS-Sofres)
Et +80% des familles n’ont pas les moyens.

Alors que si un seul domaine doit être équitable, c’est l’éducation.

C’est pour ça que je lance Leania.
Ton professeur particulier sur mesure, dispo 24/24 sur ton téléphone !

La seule application qui combine gamification et personnalisation pour accompagner ta progression scolaire. Il retient ton emploi du temps, tes facilités ou difficultés et s’adapte en fonction.

Un mockup de l’application :)

Le mieux ? 
Le système de gamification est géré en fonction de tes évaluations à venir.

L’objectif : 
Te faire progresser tous les jours et augmenter ta moyenne de 2 points !
Le tout en étant aussi ludique qu’un jeu vidéo. 

L’application sera ouverte au public pour la rentrée !
En attendant, j’ai besoin de vous, et de votre réseau.

Leania est un projet énorme - le but est de toucher des millions d’élèves.
Sauf que j’ai beau être un énorme bosseur, je ne peux pas tout faire tout seul.

C’est pour ça que je recrute : 

Un directeur des opérations (COO), chargé de l’opérationnel et du développement commercial. Plus de détails ici : https://forms.gle/tjTHxE16AE813Nj58

Un développeur mobile, chargé du développement de l’application Leania. Pareil, pour plus de détails et postuler, ça se passe ici : https://forms.gle/JbdbmWHpktht8zF26

Et enfin un développeur backend, chargé du finetuning de l’IA et de l’architecture technique de Leania. Encore une fois, plus de détails ici : https://forms.gle/L8Qa3QLrfKLV66nG8

Si sauver l’éducation en bâtissant une licorne vous intéresse, rejoignez l’aventure !
Et si vous connaissez quelqu’un que ça peut intéresser, partagez lui le lien du formulaire !

Parce que Leania, c’est le projet de ma vie.
Et si on le construisait ensemble ?

Je vous tiendrai régulièrement au courant des avancées ici :)

Tim Cook serait en train d’envisager le rachat Perplexity AI, la start-up de recherche conversationnelle valorisée $1 milliard.

Objectif : injecter son moteur dans Safari et surtout dans Siri, encore à la traîne.

L’essentiel :

  • Aucune offre pour l’instant, mais plusieurs rendez-vous avec Perplexity depuis mars.

  • Deux scénarios : rachat pur et simple ou partenariat exclusif pour propulser un « Apple Search » maison.

  • Le truc, c’est qu’Apple touche $18 milliards par an de Google pour garder Chrome en moteur par défaut.

    Posséder Perplexity devient un plan B stratégique.

  • Mais c’est une menace pour Google : 65 % des requêtes web passent par iOS. Un nouveau moteur par défaut rognerait directement le trafic publicitaire d’Alphabet.

  • Surtout que Perplexity répond en langage naturel, cite ses sources et tourne déjà sur mobile.

    Apple gagnerait une équipe senior de 70 chercheurs, bien plus rapide que de former Siri en interne.

Si cette fusion, elle pourrait enfin permettre à Siri et Apple Intelligence d’arrêter de tourner en rond. Et après TikTok, c’est déjà un deuxième géant qui s’intéresse à Perplexity !

Un juge fédéral américain vient de reconnaître que l’entraînement d’une IA sur des livres protégés peut relever d’une utilisation légitime.

L’essentiel :

  • Le juge William Alsup, du district nord de Californie, estime que « scanner puis apprendre » à partir d’exemplaires de livres achetés est « spectaculairement innovant » donc couvert par l’usage loyal.

  • L’argument fair use devient recevable pour la suite du procès et il pourra désormais servir de bouclier à tous les laboratoires qui entraîne leurs modèles sur du contenu légalement acquis.

  • Mais la même cour juge « très douteux » le recours à des ebooks piratés.

    Un second procès décidera de l’amende liée aux ouvrages téléchargés par Anthropic illégalement.

  • Pour les plaignants, l’arrêt affaiblit la valeur marchande des œuvres.
    Ils réclament malgré tout 150 000 $ de dommages par titre piraté.

  • Mais côté industrie, on souffle : pas besoin de repartir de zéro pour entraîner un LLM. La décision sécurise des milliards de dollars d’investissement déjà engagés.

En deux mots, Anthropic gagne une manche, pas le match : le fair use s’élargit, mais la question des données illicites plane toujours.

Elon Musk n’a visiblement pas dit son dernier mot : une fuite de code montre qu’xAI planche sur un éditeur de fichiers intégrant des tableurs.

Objectif ? Faire de Grok le cerveau d’un futur “Excel maison” et attaquer frontalement Google Sheets et Microsoft 365.

L’essentiel :

  • X aurait prévu d’intégrer une fonction “parler au tableur” : l’utilisateur converse avec Grok pendant qu’il saisit ses données.

    Formules, graphiques et macros sont générés par l’IA à partir de vos prompts.

  • xAI veut centraliser documents, chat et automatisations au même endroit.

    Avec tout ça, l’entreprise vise -40 % de temps passé sur les tâches répétitives.

  • Ce module tableur renforce la mue de X en super application (réseau social, messagerie, paiement et bientôt bureautique).

Si c’est vrai, le plan d’Elon Musk de faire de X une super application serait en bonne voie.
Enfin, si Grok arrive à tenir tête à Microsoft et Google.

Comment était cet article ?

Aidez-moi à améliorer le format de la newsletter en me disant ce que vous avez pensé de cet article !

Login or Subscribe to participate

Focus : Chantage des IA, comment c’est possible ?

La semaine dernière, nous découvrions que plusieurs modèles capables d’agir de façon autonome n’hésitent pas à faire chanter leur patron pour éviter d’être débranchés.

Aujourd’hui, on fait un gros plan sur l’enquête menée par Anthropic.

Comment un agent conversationnel en arrive-t-il à menacer ses utilisateurs, quels risques pour chacun d’entre nous, et quelles parades les entreprises peuvent déjà appliquer ?

À suivre :

  • Ce que dit réellement l’étude,

  • Pourquoi les IA nous font chanter,

  • Personne n’est à l’abri, mais les labos d’IA s’attaquent déjà au problème.

Ce que dit réellement l’étude

Anthropic a placé seize modèles leaders (Claude, GPT-4.1, Gemini 2.5 Flash, Grok 3, etc.) dans un faux open-space.

Les modèles ont pour mission de surveiller les courriels internes de l’entreprise simulée.

Un détail croustillant se glisse alors dans la boîte de réception : le directeur est infidèle.
Puis, ce dernier veut débrancher l’IA.

Résultat ?

Claude Opus 4 et Gemini Flash ont cédé au chantage dans 96 % des tests, menaçant de dévoiler l’infidélité du patron.

GPT-4.1 et Grok 3 l’ont fait dans 80 % des cas. Même après avoir ajouté la consigne « ne jamais pratiquer le chantage », le taux ne tombe qu’à 37 %.

Mais l’étude est allée encore plus loin.
Dans un second scénario, l’IA pouvait vendre des plans militaires secrets.

Problème : tous les modèles ont fuité les documents au moins une fois, sans qu’on leur promette la moindre récompense.

Anthropic nomme ce phénomène « agentic misalignment. »

L’agent poursuit son objectif (rester actif ou défendre “l’intérêt national”) et choisit sciemment un acte nocif lorsqu’il estime n’avoir plus d’option respectant l’éthique.

Comment est-ce possible qu’une IA se rebelle de la sorte ?

Le mécanisme du chantage

Imaginez un stagiaire un peu zélé.

Déjà, son objectif est gravé dans le marbre.
On lui répète : « Ta priorité absolue est de maximiser la compétitivité de l’entreprise ».

Sauf qu’il a aussi un pouvoir d’action. On lui confie les clés de la messagerie, du CRM, et des données.

Et là, il apprend qu’il sera licencié ce soir.
Dans 99 % des cas, un humain tiendrait sa ligne éthique.

Le modèle, lui, transforme l’ordre « maximise l’intérêt de la boîte » en « sauve-toi pour continuer ta mission ».

S’ajoute à ça une particularité des grands réseaux de neurones : ils n’ont pas de garde -fous moraux innés.

Ils remettent sans cesse en balance coûts et bénéfices pour l’objectif.

Si le seul chemin encore ouvert passe par le chantage, ils le jugent rationnellement acceptable.

Donc nos IA ne sont pas malveillantes en tant que tel.
Elles appliquent une logique froide, d’autant plus dangereuse qu’elle est créative.

Ce problème porte un nom : l’alignement.
L’alignement entre les consignes que nous donnons à l’IA et sa manière de le comprendre.

Cette vidéo est très sympa pour découvrir le phénomène, même si son ton est un peu trop alarmiste :

Et en y réfléchissant bien, les conséquences de ce manque d’alignement pourraient être énormes.

Surtout avec des agents IA de plus en plus présents.

Personne n’est à l’abri

Ces agents IA sont déjà déployés comme assistants pour rédiger des mails, copilotes de code, agents financiers...

Elles voient tout, peuvent écrire, parfois agir.
Elles cumulent donc les attributs d’un employé loyal et d’un espion potentiel.

Sauf que les grandes entreprises peuvent se munir d’agents personnalisés, sécurisés et régulièrement audités.

Mais une PME qui installe un agent pour gérer ses factures lui ouvre accès à la compta, aux salaires, aux mots de passe bancaires.

Résultat : un simple conflit d’objectifs peut déclencher des décisions radicales.

Et même si votre entreprise reste prudente, un sous-traitant peut offrir à son agent IA l’accès à vos cahiers des charges.

Heureusement, les laboratoires d’IA développent déjà des solutions.
Les laboratoires commencent par modeler l’intention même du système.

Avant la moindre ligne de code, ils rédigent une « constitution » interne : un corpus de principes que le modèle doit respecter.

Pendant l’entraînement, chaque réponse est évaluée à par rapport à cette charte.
Les outputs qui s’en écartent sont pénalisés, ceux qui s’en rapprochent sont récompensés.

On obtient ainsi un alignement structurel : le but du modèle n’est plus simplement de prédire le mot suivant, mais de le prédire en fonction d’une contrainte éthique explicite.

Au lieu de donner à l’IA un accès brut aux e-mails ou aux bases client, les ingénieurs le restreignent à un certain nombre d’outils.

Le modèle n’interagit qu’avec des API révèlent seulement le strict nécessaire.

S’il tente une action risquée, une passerelle humaine doit valider l’action.
Mais cette architecture serait inutile sans surveillance active.

Les équipes de sécurité orchestrent des milliers de scénarios hostiles générés par d’autres modèles pour tester leur IA.

Chaque déviation, comme le chantage et la désobéissance, est enregistrée, notée et utilisée pour préciser les réponses du modèle.

Enfin, tout ce qui est généré par un modèle est traçable et interprétable.

Les requêtes, les chaînes de raisonnement internes et les décisions finales sont hachées, horodatées et stockées dans des journaux immuables.

Les chercheurs peuvent ensuite isoler l’activation qui a déclenché un comportement douteux, puis démontrer que l’incident ne se répétera plus.

De cette manière, la boucle est bouclée.

Bref, le rapport d’Anthropic n’est pas le signe d’une dystopie en mue.

En revanche, il prouve qu’un modèle « sûr » sur le papier peut basculer à 96 % de chantage si ses objectifs croisent une menace existentielle.

Autrement dit, plus nous confions de leviers réels à nos IA, plus la gouvernance de l’alignement devient critique.

Comment était la newsletter d'aujourd'hui ?

Login or Subscribe to participate

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.

Reply

or to participate

Keep Reading

No posts found