Quelle IA est la meilleure ?

Temps de lecture : 2mn15

Hello,

Anthropic sort Claude 4.5 et prétend dépasser ses concurrents sur le code et le raisonnement.

On regarde si la promesse est tenue en Focus.

Pendant ce temps, Meta veut inventer le « TikTok de l’IA » avec un flux vidéo génératif et OpenAI transforme ChatGPT en assistant proactif.

Théo

Claude junior

— # (#)

Anthropic déploie Claude Sonnet 4.5, présenté comme son meilleur modèle.
L’enjeu : regagner du terrain face à ses concurrents et convaincre les devs.

L’essentiel :

Le modèle se place comme nouveau leader en code, avec 77,2 % sur le test de référence SWE-bench Verified.
Côté autonomie sur les tâches, le modèle est en forte hausse sur le benchmark OSWorld : 61,4 % contre 42,2 % pour Sonnet 4 il y a quelques mois.
En raisonnement, il obtient 87 % à AIME 2025 (maths) et 83,4 % en logique.
Il est derrière GPT-5, Grok, Qwen et DeepSeek.
Mais ce n’est pas tout : il peut raisonner en autonomie pendant 30+ heures de tâches de code soutenues.
Et Anthropic a mis le paquet pour séduire les développeurs, avec Claude Code, une extension Chrome, et Claude Agent SDK pour orchestrer des agents.
Les tarifs restent inchangés, 3 $ / 15 $ par million de tokens (entrée/sortie), dispo sur Amazon Bedrock et Google Vertex.

Claude 4.5 accélère franchement.

Est-ce suffisant pour combler l’écart d’usage face à ChatGPT et Grok ? Réponse dans le Focus.

Le TikTok de l’IA

— # (#)

Meta lance Vibes, un flux de courtes vidéos générées par IA dans l’app Meta AI et sur meta.ai.

Objectif : créer, remixer et partager du contenu généré.

L’essentiel :

Comme sur TikTok, on a la possibilité de générer de zéro ou de partir d’une vidéo du flux.
La plateforme établit des partenariats initiaux avec Midjourney et Black Forest Labs en attendant les modèles maison.
Mais ce début est très mitigé côté utilisateurs, lassés des contenus IA « bas de gamme ».

Si Vibes devient un réflexe de consommation, ce sera un canal de distribution majeur pour les créateurs humains et IA.

On voit déjà l’impact d’Alexandr Wang, le nouveau prodige de Meta dont on vous parlait dans une édition précédente !

Tester Vibes

La fin des newsletters ? (J’espère pas)

— # (#)

OpenAI déploie ChatGPT Pulse en aperçu sur mobile pour les utilisateurs Pro.

Pulse nous livre chaque matin un brief proactif sous forme de cartes, en s’appuyant sur vos préférences, l’historique de chats et des connexions avec Gmail et Google Calendar.

L’essentiel :

L’IA fait ses recherches pendant la nuit, puis nous livre des cartes à faire glisser (agenda, rappels, notes de voyage, liens utiles).
Pulse s’améliore avec nos ajustements et un prompt Curate pour guider le prochain brief.
Déploiement aux utilisateurs Pro avec un élargissement prévu bientôt.

Avec Pulse, ChatGPT passe d’un outil à un assistant proactif de plus en plus présent dans notre quotidien. Pour autant, je ne me sens pas encore “menacé” sur le plan des newsletters.

Est-ce qu'une édition sur notre vision à propos l'évolution des newsletters et des médias vous intéresse ?

Comment était cet article ?

Aidez-moi à améliorer le format de la newsletter en me disant ce que vous avez pensé de cet article !

Focus : Où en est Anthropic ?

— # (#)

Si vous ne regardez que les démos, vous pouvez croire que la course se joue seulement entre ChatGPT et Grok, avec un Claude qui patine à l’arrière.

Sauf que cette semaine, Claude 4.5 a posé des chiffres qui forcent à réévaluer la position d’Anthropic.

À suivre :

4.5, le nerd de la famille.
L’atout secret de Claude.
Mais a-t-il de l’avenir face à ChatGPT ?

Claude 4.5, le nerd de la famille

Sur SWE-bench Verified, le test où l’on corrige des bugs réels, Claude 4.5 affiche 77,2 %.

Et en lisant la note d’Anthropic, on se rend compte que c’est vraiment dans le domaine du code que Claude Jr. excelle.

Ils ont mis le paquet sur les cas d’usage, à tel point que les utilisateurs en deviennent fous. Quelques exemples :

Claude génère des Powerpoint et des PDF en direct

— # (#)

Claude recrée Claude

— # (#)

Claude code un serveur MCP en 10 minutes

— # (#)

Claude vs ChatGPT

— # (#)

Anthropic met en avant des sessions de 30+ heures de code soutenu en autonomie.
Et ce saut de performance en code est accompagné d’un paquet d’outils.

Claude Code (avec checkpoints pour revenir en arrière sur une longue session), un nouveau terminal, une extension VS Code et surtout un Agent SDK.

Agent SDK permet aux équipes de composer des agents personnalisés en fixant leur mémoire, leurs autorisations, leurs capacités.

Autrement dit, une boîte à outils pour automatiser nos workflows.

Mais sur les tests hors du domaine du code, il fait un saut de performances et se place dans le top 3, sans aller chercher de première place.

En computer use sur OSWorld, benchmark mesurant la capacité d’un modèle à faire appel à différents outils informatiques pour répondre, il bondit à 61,4 %.

Là aussi, Claude est en tête du classement devant DeepSeek.

Sauf que côté mathématiques (AIME 2025), le modèle atteint 87 %.
Ce qui le place derrière GPT-5, Grok, Qwen et DeepSeek.

Des résultats pas encore suffisants pour dépasser le peloton de tête.
À moins qu’Anthropic n’ait un autre atout dans sa manche.

Une sécurité béton

Claude 4.5 est estampillé ASL-3 (AI Safety Level 3) avec des filtres renforcés et des défenses plus solides contre l’injection de prompts.

Parce que dès qu’on confie un terminal, un navigateur ou des fichiers à un modèle, l’attaque la plus courante consiste à le faire désobéir via un prompt piégé.

Offrir une sécurité additionnelle à ce niveau permet d’ouvrir des usages en entreprise sans multiplier les garde-fous manuels.

Et ce n’est pas tout.
Claude 4.5 est aussi le modèle le plus aligné d’Anthropic.

Preuve que l’entreprise poursuit son engagement en sécurité, quitte à rogner un peu sur les performances.

C’est là que Claude peut faire la différence avec ChatGPT, Grok et les autres.

En proposant les modèles les plus sûrs du marché, avec en plus des fonctionnalités destinés aux entreprises et aux professionnels.

Claude se niche pendant que sa concurrence poursuit la course aux GPU.

Alors est-ce que Claude a de l’avenir ?

Anthropic n’a pas le volume grand public d’OpenAI, mais progresse là où sont les budgets : du côté des devs, des plateformes cloud, des agents.

Elle veut être le choix par défaut quand il faut construire des systèmes complexes dans votre entreprise.

Oui, Anthropic a accéléré.
Non, ce n’est pas (encore) un bouleversement pour le grand public.

Mais pour les équipes techniques et les PM qui veulent des agents fiables, Claude 4.5 devient un vrai prétendant.

Claude, ChatGPT ou Grok pour vos projets dev ?

Comment était la newsletter d'aujourd'hui ?

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.

Quelle IA est la meilleure ?

Claude junior

Le TikTok de l’IA

La fin des newsletters ? (J’espère pas)

Est-ce qu'une édition sur notre vision à propos l'évolution des newsletters et des médias vous intéresse ?

Comment était cet article ?

Focus : Où en est Anthropic ?

Claude 4.5, le nerd de la famille

Une sécurité béton

Alors est-ce que Claude a de l’avenir ?

Claude, ChatGPT ou Grok pour vos projets dev ?

Comment était la newsletter d'aujourd'hui ?

Reply

Keep Reading

Envie de promouvoir votre activité auprès de +11 500 lecteurs, dirigeants et professionels de la tech ?