
Temps de lecture : 2mn
Hello,
Sam Altman entre en concurrence avec Musk sur un nouveau terrain, et OpenAI retourne en arrière après la polémique GPT-5.
Spoiler : ce n’est pas de la magie, mais l’oeuvre d’un certain type d’IA.
Et c’est le futur de la robotique.
Théo


#NVIDIACosmos Reason, an open, customizable, 7-billion-parameter reasoning VLM for #PhysicalAI, enables robots, autonomous vehicles and visual AI agents to:
👀 See, reason, and act in the physical world.
🛠️ Solve multistep tasks and handle ambiguous or new experiences.Get
— #NVIDIA AI Developer (#@NVIDIAAIDev)
1:46 AM • Aug 12, 2025
Nvidia a dévoilé des robots construits avec Cosmos, une famille de modèles mondes capables de comprendre la physique.
Objectif : entraîner des IA dans des univers 3D réalistes, puis les utiliser dans le monde réel via les robots.
L’essentiel :
Cosmos Predict, un modèle de prédiction d’état du monde capable de générer jusqu’à 30 secondes de vidéo continue depuis des entrées.
Il sert à démontrer comment effectuer l’action au robot avant même qu’il n’est commencé à bouger.
Cosmos Transfer, pour décliner une simulation spatiale à grande échelle pour une génération de données vidéo synthétique totalement pilotable.
Cosmos Reason, le modèle monde personnalisable qui comprend à la fois dans le temps et l’espace afin d’alimenter des agents en production, qualifier les jeux d’entraînement pour la robotique et les véhicules autonomes.
Résultat : moins de coûts et plus de robustesse grâce à la possibilité de simuler des milliers de scénarios.

BREAKING: OpenAI and Sam Altman to invest $250 million in Merge Labs at $850 million valuation
> new venture, called Merge Labs
> Altman will co-found the company
> Merge Labs aims to raise $250mn from OpenAI, Sam Altman and other investors
> Aims to compete with Elon Musk’s— #NIK (#@ns123abc)
7:09 PM • Aug 12, 2025
Sam Altman serait en train de créer une nouvelle entreprise : Merge Labs, une start-up d’interface cerveau-ordinateur (BCI)
Sauf que le terrain est occupé par Neuralink d’Elon Musk.
L’essentiel :
Merge Labs viserait à créer des puces permettant de contrôler nos outils informatiques par la pensée.
La première levée de fond pourrait atteindre $850 millions.L’idée ? Une convergence directe entre l’IA et ces interfaces BCI pour des interactions plus naturelles avec les machines.
Mais Neuralink teste déjà des implants pour aider des patients lourdement paralysés à contrôler des dispositifs.
Si Merge Labs se confirme, la course effrénée de Sam Altman contre Elon Musk se déplace sur le terrain de la biotechnologie.

Recapping the updates we’ve made to ChatGPT in the past week:
- GPT-4o available under “Legacy models” by default for paid users
- Paid users can toggle on “Show additional models” in settings to add legacy models like o3 and GPT-4.1, as well as GPT-5 Thinking mini, to the
— #OpenAI (#@OpenAI)
4:34 AM • Aug 15, 2025
Après un tollé des utilisateurs qui trouvaient GPT-5 moins chaleureux et mieux adapté à certains usages créatifs, OpenAI a décidé de rendre 4o à nouveau disponible.
L’essentiel :
OpenAI avait décidé d’imposer GPT-5 à tout le monde, avec un mode Thinking et un mode Rapid à selectionner pour les utilisateurs premium.
Sauf que beaucoup regrettait les anciens modèles, jugés plus chaleureux que GPT-5, ainsi que le manque de personnalisation.
En réaction, OpenAI rend 4o disponible dans la rubrique Legacy Models et Sam Altman promet plus de transparence sur les performances de GPT-5.
Beaucoup conservent 4o pour son style, sa capacité de mise en forme et pour brainstormer.
GPT-5 garde l’avantage en code, raisonnement long et automatisation.
OpenAI navigue entre un moteur unifié et la liberté de choisir, un équilibre délicat quand 700 millions d’utilisateurs ont des attentes différentes.


Focus : Les modèles mondes, arme secrète de Nvidia
Today we unveiled the first humanoid robot that can fold laundry autonomously
Same exact Helix architecture, only new data
— #Figure (#@Figure_robot)
3:31 PM • Aug 12, 2025
Un robot plie parfaitement des vêtements.
Une voiture intelligente anticipe qu’un sol mouillé glisse et ajusté sa vitesse.
Bref, la machine comprend maintenant la physique de notre environnement.
Et ça vient d’une nouvelle technologie puissante : le modèle monde.
Au lieu d’apprendre seulement des textes et des images, l’IA comprend une représentation dynamique du monde.
À suivre :
La stratégie d’Nvidia,
Le fonctionnement d’un modèle monde,
Un futur monopole pour Jensen Huang ?

Ce que Nvidia a montré
Avec Cosmos, Nvidia donne un outil complet pour faire passer l’IA du monde virtuel au physique.
D’abord, Cosmos Reason, un modèle vision-langage de 7 milliards de paramètres qui ingère images, vidéo et texte, et garde en mémoire ce qu’il s’est passé.
C’est un traducteur permettant à une IA de comprendre notre monde, simplement en regardant une vidéo.
Ensuite, Cosmos Predict va encore plus loin en permettant à un robot de prédire ce qui va se passer s’il effectue telle ou telle action.
Enfin, Cosmos Transfer-2 génère des données synthétiques depuis des scènes 3D photoréalistes.
On peut créer en quelques heures des milliers de variantes du même geste en fonction de la lumière de la pièce, de la texture de l’objet, du poids, de la friction.
Et pour passer de l’entraînement aux applications réelles, on utilise des outils de reconstruction 3D de lieus rééls, comme des usines, pour que l’IA s’y entraîne.
Le tout, avant même qu’elle soit vraiment déployée.
Résultat : une chaîne industrielle qui va de la simulation à l’atelier.
Sauf que créer des modèles monde s’avère extrêmement complexe.
Comment un modèle monde apprend la physique
Ce type d’IA ingère des millions d’heures de séquences vidéo ainsi que des données informatiques issues de capteurs (caméras, LiDAR, IMU.)
Puis, on lui demande de prédire la suite.
Pour réussir, il doit coder dans ce même univers informatique, correspondant au monde réel, des actions comme la profondeur, la masse apparente, la friction ou la déformation.
On ajoute souvent un plannificateur qui traduit un but en séquence d’actions.
Et pour être certain de la robustesse, on génère des scénarios rares dans des mondes 3D réalistes, (une caisse qui tombe de travers, un sol instable, un objet mou).
Cosmos Transfer-2 pousse cette logique : il crée des vidéos synthétiques photoréalistes et des trajectoires d’agent prêtes à l’emploi.
De quoi nourrir l’entraînement sans multiplier les collectes de données sur le terrain.
Mais il reste une dernière étape pour être certain que le modèle s’adapte à l’écart entre la simulation et le monde réel.
Une fois entraîné virtuellement, on répartis les textures et l’éclairages aléatoirement dans un autre modèle, et on le calibre sur de petites sessions réelles.
À la fin, le robot n’a pas seulement vu des images, il a appris une physique implicite.
Si je pousse ici, ça glisse, si j’attrape là, ça se déforme, si je tourne trop vite, l’objet part.
Une fois l’IA créée et calibrée, les possiblités dans le monde réel sont folles.
Dans un entrepôt, on manipule des objets inconnus tous les jours.
Un modèle monde peut simuler des milliers de scénarios avant la première prise réelle, puis adapter la force appliquée.
Une voiture automatique peut comprendre les conséquences d’une météo capricieuse.
En industrie, on bâtit des jumeaux numériques d’une ligne, on essaie des variantes de cadence, puis on pousse le bon paramétrage côté réel.
Même à la maison, un robot de service peut inférer qu’une tasse pleine n’a pas la même inertie qu’une tasse vide et ajuster sa trajectoire.
Côté coût, l’équation change parce que le plus cher, c’était les données réelles (collecte, annotation, casse, temps d’arrêt).
En déplaçant 70–90 % des essais vers la simulation, on accélère et on sécurise.
Et dès qu’un incident arrive dans la vraie vie, on l’intègre en simulation pour éviter sa répétition.
Donc les modèles monde sont essentiels à la prochaine révolution robotique.
C’est pourquoi Nvidia se positionne en avance.
Ils ont été la première entreprise à bénéficier de l’IA.
Maintenant, ils veulent reproduire ce succès pour les robots.
Qui a le meilleur monde ?
Grâce à ses puces ultra performantes et ses suites d’outils, Nvidia a tout sous la main pour se positionner une nouvelle fois comme moteur du changement.
Ils vendent la meilleure puissance de calcul pour l’IA, et ils vendront sans doute la meilleure infrastructure pour entraîner des robots performants.
Mais Google DeepMind s’y intéresse aussi, tout en maitrisant le développement de modèles d’IA.
Tous les acteurs de l’industrie se postionnenent déjà pour essayer d’être autonome au maximum sur le front robotique.
Le but ?
Éviter une nouvelle hégémonie d’Nvidia.
Mais seront-ils à la hauteur du défi que représente la création d’un modèle monde ?
Surtout que la simulation n’est jamais équivalente à la réalité : il faut mesurer l’écart en continu et enregistrer les incidents réels pour corriger.
Et à l’échelle, l’enjeu n’est pas seulement technique, mais aussi juridique.
Les conséquences d’un modèle monde mal entraîné pourrait être désastreuse.
Parce que cette fois, on ne parle pas que d’une fuite de données, mais d’implications physique.
Quel usage de ces modèles vous excite le plus ?

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.