• FreeA
  • Posts
  • Comment fonctionne Sora

Comment fonctionne Sora

L'IA de génération de vidéo d'OpenAI

Hello,

Bienvenue aux 21 nouveaux membres de l'IA Émergée, la newsletter pour découvrir les dernières avancées dans l'IA et les comprendre au-delà des titres aguicheurs.

On est maintenant 7741

Que tu sois passionné, effrayé ou curieux de l'IA, tu vas pouvoir mieux comprendre et maîtriser cet outil aussi puissant que dangereux.

Et c'est parti pour la plongée !

Théo

Cette newsletter t'as été transférée ? Reçois les prochaines en t'inscrivant ici

Dans l'email d'aujourd'hui :

- La Chine prend de l'avance sur les Etats-Unis dans le développement des meilleurs talents en IA

- Comment fonctionne Sora

- Microsoft rachète Inflexion et les intègre dans une nouvelle équipe

- Ubisoft dévoile ses nouveaux PNJ (personnages non joueurs) dotés d'IA

La semaine prochaine dans l'IA Émergée :

- Comment générer un logo personnalisé avec l'IA

- Créer un livre entier en un week-end avec l'IA.

Tu peux voter pour les prochains sujets de newsletter ! Ca se passe ici

La Chine prend de l'avance sur les États-Unis dans le développement des meilleurs talents en IA

Visualize a detailed scene showing a dramatic competition between China and the United States in the realm of artificial intelligence development. This image should vividly illustrate the concept of rivalry, with two distinct sides represented by iconic symbols of each country - the Great Wall for China and the Statue of Liberty for the United States. Between them, a vast field of technology and education symbols, such as microchips, robots, AI brain graphics, and educational diplomas, indicating the battlefield of AI talent development. The Chinese side is filled with more vibrant energy and symbols of rapid growth, such as rockets and blossoming trees, showing their acceleration in the field. Meanwhile, the American side, while also technologically advanced, shows signs of struggling to keep the pace, with fewer symbols of rapid growth. The overall mood should capture the intense competition and strategic importance of leading in AI, with a focus on innovation and the future of technology.

Alors que les États-Unis sont en tête dans le développement de l'IA, de nouvelles recherches suggèrent que la Chine a dépassé les États-Unis dans la production des scientifiques qui développent une telle technologie.

Selon une étude de MacroPolo, un groupe de réflexion associé à l'Institut Paulson, la Chine produit près de la moitié des meilleurs chercheurs mondiaux en IA, alors qu'environ 18% proviennent d'institutions universitaires aux États-Unis. Les résultats suggèrent également une croissance considérable de la contribution de la Chine aux meilleurs talents en IA.

Comment la Chine a-t-elle fait ? La réponse est simple : le pays a réalisé d'importants investissements dans l'éducation en IA. Depuis 2018, la nation a lancé plus de 2 000 programmes de premier cycle en IA, ce qui a contribué à la grande réserve de talents en IA dont elle dispose aujourd'hui.

Pourquoi est-ce une mauvaise nouvelle pour les États-Unis ? Depuis près d'une décennie, l'écart de talents s'élargit. Par le passé, les États-Unis bénéficiaient d'un nombre significatif de grands chercheurs chinois poursuivant des opportunités de carrière dans le pays. Cependant, les tendances récentes indiquent un changement, avec davantage de chercheurs chinois choisissant de retourner en Chine et une nouvelle génération de chercheurs préférant y rester. Si cette tendance persiste, les États-Unis pourraient rencontrer des difficultés à maintenir leur position de leader en IA et finalement perdre leur avantage concurrentiel face à la Chine.

Comment fonctionne Sora ?

Au fait, pourquoi OpenAI a-t-il nommé Sora son IA générative de vidéos ? - Numerama

Pour rappel, Sora est l'IA d'OpenAI permettant de générer des vidéos réalistes d'une minute. Leur vidéos de démo avaient fait le tour du monde tant la performance était impressionnante.

Mais à quoi ça sert, un modèle de génération de vidéos ?

Parce que oui, il faut se l'avouer, même si c'est très divertissant... on a connu plus utile comme IA (Même s'il y a de nombreux cas d'usages, notamment dans le marketing). Alors pourquoi OpenAI investit autant dedans ?

Pour le chemin vers l'AGI, l'intelligence artificielle, qui passe par un modèle monde. Parce que la vidéo est aujourd'hui le chemin le plus probable accessible pour nous vers un modèle monde. On a parlé de l'intérêt d'un modèle monde jeudi, allez lire la newsletter si vous l'avez manqué :

Maintenant, revenons aux "bases". Comment est-ce qu'on génère une vidéo avec de l'IA ?

On doit entraîner une IA à générer la vidéo image par image. Sauf que le problème, c'est que les images doivent extrêmement proches pour éviter les problèmes d'incohérence complète, ou des effets un peu psychédéliques. Même si à une époque, c'était à la mode, et j'avais même fait une newsletter sur le sujet :

Bon.Pour réussir à générer de belles vidéos réalistes, OpenAI passe par plusieurs étapes :

Rendre le format vidéo lisible par l'IA.

Oui, parce que l'IA n'a pas d'oeil pour regarder les vidéos. Il faut transformer cette succession d'images en données que Sora sera capable de lire, et donc de s'entraîner avec. Et de la même manière que les LLMs (ChatGPT) ont des "tokens" à la place du texte, Sora a des "patchs d'espace-temps". Parce que rappelez-vous la difficulté : la vidéo doit être cohérente dans le temps. Un patch d'espace-temps, c'est un petit extrait de données d'une vidéo pour que l'IA ne le comprenne pas seulement comme une succession d'images, mais comme une double information ; l'image et sa localisation dans le temps.

Il faut y penser de la même manière qu'une image. Une IA de génération d'images doit rendre les pixels proches cohérents entre eux, et a donc besoin de deux informations : la couleur des pixels, et leur emplacement sur l'image. C'est un peu la même chose pour la vidéo, sauf qu'on rajoute une information : la position dans le temps.

Pour faire cette transformation, OpenAI a entraîné un premier réseau de neurones qui transforme les vidéos dans un espace dimensionnel inférieur. Je ne vais pas rentrer dans les détails aujourd'hui, parce que je ne vous ai pas encore expliqué le système dimensionnel des modèles d'IA. Et qu'il nous faudra au moins une newsletter dédiée. Retenez juste que ça permet à l'IA de lire les données.

Ensuite, on découpe des extraits de cette vidéo pour former des patchs d'espace-temps sur lesquels Sora va s'entraîner. Longtemps. Sur beaucoup de données. Et ça coûte cher.

Mais une fois que le modèle est entraîné, on passe à l'étape suivante. L’étape finale. On peut générer des vidéos. Alors comment ça fonctionne ?

De la même manière que les images, avec des modèles de diffusion. J'ai fait plusieurs newsletters dédiées, mais en 1 phrase : on entraîne une IA à "décrypter" des images pour retrouver leur forme originelle. Sauf que le twist, c'est qu'on demande à l'IA de décrypter des pixels aléatoires, donc elle hallucine des nouvelles images.

Mais aussi de la même manière que ChatGPT, avec un modèle transformer, qui va prédire les autres patchs. Oui, c’est la combinaison de Midjourney et de ChatGPT.

Comment c’est possible ?

En fait, grâce à ces patchs, on va demander à l’IA de générer les autres patchs de la vidéo. Sauf que pour déterminer le match suivant, on utilise un modèle de prédiction. C’est comme ChatGPT, sauf qu’au lieu de prédire le mot suivant, on prédit le match suivant.

Par exemple, l’IA a généré un premier patch d’un chien qui court dans l’herbe. Mais à la place de faire une phrase “le chien court après” => “la balle”, l’IA va générer le patch spatio-temporel du mouvement de la balle. Et comme ça, on obtient une vidéo cohérente avec un début de causalité (et l’émergence de propriétés physiques, on en reparle plus tard).

Ensuite, il ne reste plus qu'à demander à Sora de générer la vidéo. Et une fois qu'on a la méthode d'entraînement, on peut s'amuser pour permettre plusieurs types de demandes : du texte, un extrait vidéo, une image, etc.. Puisque la vraie difficulté était de conserver la cohérence dans les images, on peut désormais presque tout faire.

Par contre, ça coûte très cher. Moins que si on devait générer les images une par une grâce à la prédiction, mais ça reste un coût très important. Surtout que le nombre de fois où on réutilise la diffusion sur la même image améliore drastiquement la qualité.

Petite comparaison :

(C’est un screenshot, vous avez les vidéos sur leur site : https://openai.com/research/video-generation-models-as-world-simulators)

Alors c'est pour ça que pour l'instant, on a pas accès à Sora. Je ne suis pas rentré dans les détails de toutes les particularités techniques car ce n'était pas nécessaire à la compréhension. Et déjà, dites-moi si tout était clair !

Petit point à ajouter avant de passer à la suite, pour expliquer pourquoi est-ce qu'on se dirige vers un modèle monde. On s'est rendu compte empiriquement (avec les tests) que les IA de génération d'images commençaient à comprendre certaines règles de physique et de causalité. Alors attention, le mot "comprendre" est faux, elles se mettent plutôt à les appliquer "bêtement", mais au moins elle commencent à les apprendre. Parce qu'il y a 2 problématiques principales pour un modèle monde : comprendre des données "réelles", donc pas seulement une image, mais de la vidéo. C'est fait. Et comprendre la causalité : si je fais ça, il va se passer ça. Et ça fait partie des capacités émergeantes de ce type de modèles, même si on en est encore aux balbutiements.

PS : Merci à Lilian Delaveau pour ses relectures et explications, il m’a évité 2-3 petites erreurs.

Microsoft rachète Inflexion et les intègre dans une nouvelle équipe

Visualize an innovative and futuristic meeting of minds, symbolizing Microsoft's acquisition of Inflexion and the formation of the new Microsoft IA division. The scene depicts a dynamic and modern space where technology and innovation converge. In the center, a holographic interface displays the logos of Microsoft and Inflexion merging together, surrounded by digital code and AI icons, illustrating the integration of the two entities. Mustafa Suleyman and Karén Simonyan, represented as visionary figures, stand at the forefront, overseeing the fusion, symbolizing leadership and innovation. The background is filled with abstract representations of AI technology, such as neural networks and futuristic computer servers, indicating the advanced technological environment of Microsoft IA. This illustration should capture the essence of a groundbreaking moment in tech, highlighting collaboration, AI advancements, and the strategic move by Microsoft to lead in the AI space.

Microsoft annonce une nouvelle division, Microsoft IA, qui se concentrera sur Copilot et d'autres produits grand public. Elle sera dirigée par Mustafa Suleyman et Karén Simonyan, deux tiers de l'équipe fondatrice d'Inflection AI.

Entre les lignes :

Microsoft prend de gros paris sur de nombreux chevaux en IA. En plus d'être le cofondateur d'Inflection, Suleyman était auparavant cofondateur de DeepMind. Officiellement, ce n'est pas une acquisition mais ça en a tout sauf le nom.

Microsoft est également en train de débaucher la plupart du personnel d'Inflection, et les investisseurs d'Inflection ont rapporté être indemnisés par un paiement de licence de 650 millions de dollars pour apporter les modèles d'Inflection sur Azure.

Bien qu'Inflection ne soit probablement pas prête à fermer ses portes de sitôt (ayant levé plus de 1,5 milliard de dollars), il est difficile de présenter cela comme positif pour l'entreprise. Dans les prochaines années, nous allons voir plus d'entreprises en IA flancher alors qu'elles luttent pour se démarquer.

Ubisoft dévoile ses nouveaux PNJ dotés d'IA: une révolution dans les dialogues de jeux vidéo

Ubisoft, en collaboration avec Nvidia et InWorld, a présenté ses prototypes de personnages non-jouables (PNJ) alimentés par l'IA, baptisés "NEO NPCs". Ces PNJ novateurs visent à dépasser les traditionnels arbres de dialogue avec des réponses préétablies, offrant aux joueurs la possibilité d'avoir de véritables conversations avec eux. Bien que cette technologie soit encore en phase de prototype, elle promet une interaction plus naturelle et engageante dans les jeux vidéo. Ubisoft souligne que derrière chaque NEO NPC, il y a un scénariste humain qui collabore étroitement avec des data scientists pour former le modèle d'IA selon leur vision du personnage, assurant ainsi que ces avancées technologiques enrichissent le processus créatif plutôt que de le remplacer​

Et voici pour aujourd'hui !

On se retrouve jeudi !

En attendant, dis moi-ce que tu as pensé de la newsletter d'aujourd'hui !

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.

Envie de plus de contenu sur l'IA ? Suivez-moi sur Linkedin

Envie de faire connaître votre entreprise, produit, offre d'emploi ou évènement auprès de +7000 passionnés d'IA ? Envoyez moi un mail ici

Envie de vous faire accompagner dans l'intégration de l'IA dans votre entreprise pour passer à la vitesse supérieure ? Réservez votre appel ici

Reply

or to participate.