Home
Posts
Pourquoi la prochaine avancée majeure de l’IA passera par un modèle monde ?

Pourquoi la prochaine avancée majeure de l’IA passera par un modèle monde ?

Mar 21, 2024

Hello,

Bienvenue aux 20 nouveaux membres de l'IA Émergée, la newsletter pour découvrir les dernières avancées dans l'IA et les comprendre au-delà des titres aguicheurs.

On est maintenant 7720

Que tu sois passionné, effrayé ou curieux de l'IA, tu vas pouvoir mieux comprendre et maîtriser cet outil aussi puissant que dangereux.

Et c'est parti pour la plongée !

Théo

Cette newsletter t'as été transférée ? Reçois les prochaines en t'inscrivant ici

Dans l'email d'aujourd'hui :

- Nvidia vient de changer le monde avec leur puce

- Les nouveaux robots autonomes de Nvidia

- Pourquoi la prochaine avancée majeure de l’IA passera par un modèle monde ?

La semaine prochaine dans l'IA Émergée :

- Comment fonctionne Sora, l'IA d'OpenAI de génération de vidéos ?

- Comment générer un logo personnalisé avec l’IA

Tu peux voter pour les prochains sujets de newsletter ! Ca se passe ici

Nvidia vient de changer le monde avec leur puce

Nvidia vient de changer le monde avec une puce IA 30x plus rapide et 25x moins gourmande d'énergie.

Voici tout ce qu'il faut savoir dessus, et ce que ça va changer dans les prochains mois :

Nvidia a lancé son premier salon spécialisé dans l'IA : GTC. 900 conférences. Une meilleure organisation que Vivatech. Et Jensen Huang, le CEO de Nvidia, y a donné une keynote. Dedans, il a annoncé Blackwell, la nouvelle puce de Nvidia.

La salle n'en revenait pas. Parce que ses capacités sont complètement hallucinantes.

La base de référence, c'est H100. La puce de Nvidia sortie en 2021, déjà bien meilleure que tous les concurrents. Mais Blackwell n'est même pas comparable :

4x plus rapide pour entraîner des IA
30x plus rapide dans l'utilisation des IA (l'inférence)
25x moins de consommation d'énergie

Pour rappel : La consommation d'énergie est le plus gros enjeu de l'IA sur les prochaines années. Et Nvidia vient de le diviser par 25.

Mais comment ça se fait ? Comment Nvidia a atteint ces performances ?

1- Beaucoup d'améliorations marginales sur différentes parties techniques qui se cumulent

2- Une spécialisation de leur puce sur l'IA générative

3- Mais surtout, des GPUs collaboratifs

Au lieu d'avoir des GPUs travaillent chacun de leur côté sur des tâches parallèles, les Blackwells s'agencent ensemble pour former un énorme GPU bien plus puissant. Et ça change tout. Mais justement, ça va changer quoi dans le monde ?

Le développement de l'IA va (encore) s'accélérer. Les capacités des modèles doublaient tous les 6 mois, ça va aller encore plus vite.
La démocratisation de l'IA va (aussi) s'accélérer. Utiliser de l'IA va coûter beaucoup moins cher, donc être plus rentable. Donc même les petites entreprises vont s'y mettre, et vite.
Nvidia va devenir l'entreprise la plus puissante du monde. Parce que toutes les entreprises vont dépendre d'elle. On assiste à la naissance d'un monopole complet.
On approche du modèle monde. Entre ces puces et leur modèle de fondation pour des robots...

PS : Je ne rentre pas dans les explications techniques ici, je suis encore en train de travailler dessus pour être sur de bien tout comprendre parfaitement. Votez sur le nolt si vous voulez une édition dédiée à décortiquer leur fonctionnement : https://lia-emergee.nolt.io/

---

Les nouveaux robots autonomes de Nvidia

Nvidia dévoile le projet GR00T, un modèle fondamental multimodal généraliste destiné à révolutionner l'apprentissage et l'interaction des robots humanoïdes avec le monde réel. C'est le lien entre IA et robotique.

Le projet GR00T (Generalist Robot 00 Technology) représente une avancée majeure dans le domaine de l'intelligence artificielle appliquée à la robotique humanoïde. Développé par Nvidia, ce modèle de fondation généraliste promet de transformer l'apprentissage robotique, en permettant aux robots de comprendre le langage naturel, d'imiter les mouvements humains et d'acquérir rapidement de nouvelles compétences en observant les actions humaines.

Un modèle de fondation est une base sur laquelle des modèles spécialisés sont construits. GPT-4 est un modèle de fondation. Celui que nous utilisons, censuré via l'API ou sous forme d'interface avec ChatGPT, a été modifié et finetuné.

GR00T a été conçu pour apprendre dans des environnements simulés accélérés par GPU Nvidia, en utilisant l'apprentissage par imitation et l'apprentissage par renforcement via Nvidia Isaac Lab, ainsi que la génération de mouvements robotiques à partir de données vidéo. Ce modèle peut prendre des instructions multimodales et des interactions passées comme entrées pour produire les actions à exécuter par le robot.

Nvidia Isaac Lab est un univers virtuel.

Pour accompagner le développement de robots alimentés par GR00T, Nvidia a également introduit Jetson Thor, une nouvelle plateforme informatique optimisée pour la performance, la puissance et la taille. Le système sur puce (SoC) intègre un GPU de nouvelle génération basé sur l'architecture Nvidia Blackwell, capable de fournir 800 téraflops de performances AI en point flottant sur 8 bits, ce qui permettra aux robots d'exécuter des modèles génératifs AI multimodaux complexes comme GR00T avec une grande efficacité.

Nvidia s'est associée à plusieurs entreprises leaders dans le domaine des robots humanoïdes, telles que Agility Robotics, Apptronik, Boston Dynamics, Figure AI et Sanctuary AI, pour intégrer GR00T dans leurs plateformes existantes.

Pour aller plus loin sur le sujet :

- https://nvidianews.nvidia.com/news/nvidia-announces-project-gr00t-foundation-model-for-humanoid-robots-and-major-isaac-robotics-platform-update

- https://developer.nvidia.com/project-gr00t

- https://spectrum.ieee.org/nvidia-announces-gr00t-a-foundation-model-for-humanoids

- https://www.maginative.com/article/nvidia-unveils-project-gr00t-a-foundation-model-for-humanoid-robots/

Pourquoi la prochaine avancée majeure de l’IA passera par un modèle monde ?

Aujourd'hui, on est à un stade de l'IA où toutes les entreprises possédant des gros modèles et voulant une part importante du marché de l'IA veulent progresser dans le multimodal. Que ce soit ChatGPT, Gemini, Claude, etc.. Et contrairement à ce qu'on pourrait penser, ce n'est pas que du marketing. Ce que cherchent vraiment ces entreprises, c'est un modèle monde.

Déjà, qu'est ce que c'est ?

Un modèle monde, c'est une IA qui serait capable de comprendre son environnement, et potentiellement interagir avec. Ici, le mot clé est "comprendre". Aujourd'hui, on est capable de générer du texte, des images, et même des vidéos, alors on pourrait avoir l'impression que l'IA en est déjà capable. Elle comprend les phrases, les images, etc..

Non. Tout ce qu'elle est capable de faire, où plutôt ce que ses concepteurs lui font faire, c'est donner l'illusion qu'elle comprend le monde en maniant habilement les chiffres. Pour ChatGPT, votre phrase, ce n'est qu'une suite de mots avec des poids plus ou moins importants. Même si vous lui faites votre plus belle déclaration d'amour, il n'en comprendra pas le sens, et répondra seulement la suite de caractères la plus probable - "Désolé, je suis déjà pris".

Le but de beaucoup de chercheurs qui travaillent aujourd'hui sur l'IA est d'arriver à cette compréhension, particulièrement du monde. D'où l'importance de la vidéo, qui pourrait sembler futile ; c'est vrai, on a plus important à faire que générer des images de mammouths dans la neige.

Alors les chercheurs ont différentes stratégies. Pour certains, c'est de parier qu'à force de s'entraîner à générer des images et d'en recevoir en données d'entraînement, le modèle va comprendre les lois physiques de notre monde, la causalité, etc.. Qu'il va comprendre le monde. En pratique, ça fonctionne encore moyennement : si vous regardez les vidéos de démo de Sora, l'IA de génération de vidéos d'OpenAI et aujourd'hui la plus qualitative, ils assument que leur modèle a parfois beaucoup de mal avec certaines causalités (une tasse qui ne se casse pas en tombant, un liquide qui ne coule pas, etc).

D'autres, comme Yann Lecun, expliquent que ça ne sert à rien et que ce n'est que de l'illusion, de la poudre pour les yeux, mais qu'on ne construira jamais un modèle monde de cette manière. Il préfère se baser sur une Joint Embedding Predictive Architecture. On expliquera comment ça fonctionne une prochaine fois, mais retenez que ça tente de recréer des portions du monde réel sur des extraits vidéos.

Mais alors, quel est l'intérêt de ce modèle monde ?

Déjà, ça ouvrirait énormément de portes. Avec un modèle capable de comprendre les interactions, les causalités, etc, beaucoup d'innovations et de possibilités autrefois fermées par le manque de compréhension de la physique seraient possibles. Mais surtout, ce serait un pas vers l'AGI, l'intelligence artificielle générale, capable d'agir, de penser et de comprendre comme un humain (ou mieux).

Un modèle monde ouvrirait de nouvelle possibilités, mais ce ne serait pas le coeur de la révolution. Le vrai changement se ferait sur l'entraînement. Avec un modèle comprenant les lois physiques, les interactions, la quantité de données qu'on peut fourni augmente exponentiellement, et les possibilités des modèles à entraîner ou des évolutions technologiques qu'on peut amener suivent cette courbe. C'est ça, le réel changement.

La prochaine avancée majeure de l'IA passera par un modèle monde car il permettra des entraînements jusqu'alors impossibles.

Mais impossible n'est pas IA.

Et voici pour aujourd'hui !

On se retrouve lundi !

En attendant, dis moi-ce que tu as pensé de la newsletter d'aujourd'hui !

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.

Envie de plus de contenu sur l'IA ? Suivez-moi sur Linkedin

Envie de faire connaître votre entreprise, produit, offre d'emploi ou évènement auprès de +7000 passionnés d'IA ? Envoyez moi un mail ici

Keep Reading

No posts found