Hello,
Dans un contexte tendu entre la Chine et les Etats-Unis dû de l’arrivée de Trump à la Maison Blanche, une start-up chinoise décide de challenger directement OpenAI.
L’entreprise américaine a un leadership incontesté en ce qui concerne l’IA grand public avec leur modèle phare, ChatGPT, et ses déclinaisons.
Mais cette hégémonie pourrait toucher à sa fin.
Sauf si le marché de l’IA américaine redouble d’effort.
Et c’est ce qui pourrait être en train d’arriver. Les investissements vont bon train, et l’une de mes start-ups favorites vient de recevoir $250 millions.
Théo
PS : L’article dans la partie 2 est l’un des meilleurs que j’ai écrit, et l’impact de DeepSeek est tellement important sur le monde de l’IA que je vous recommande fortement de le lire :)
🚀 DeepSeek-R1 is here!
⚡ Performance on par with OpenAI-o1
📖 Fully open-source model & technical report
🏆 MIT licensed: Distill & commercialize freely!🌐 Website & API are live now! Try DeepThink at chat.deepseek.com today!
🐋 1/n
— DeepSeek (@deepseek_ai)
12:29 PM • Jan 20, 2025
Le monde de l’IA évolue vite.
Non, vraiment, j’insiste : très vite.
À peine un mois après la sortie complète du modèle le plus avancé d’OpenAI accessible au grand public, o1, un nouvel arrivant pourrait être encore performant.
Sauf qu’il est gratuit et open-source.
L’essentiel :
DeepSeek, une start-up chinoise financée par l’entreprise High-Flyer, sort un premier modèle qui choque toute l’industrie : R1.
R1 dépasse ChatGPT o1 sur quasiment tous les benchmarks de maths, chimie, physique et langage informatique. Vous pouvez le tester directement sur chat.deepseek.com
Deepseek R1 a aussi des capacités multimodales, comme la vision, qui en font un modèle complet.
Sauf qu’en plus, il est gratuit et open-source. Les développeurs du monde entier peuvent l’utiliser et créer des projets à partir du modèle, contrairement aux modèles payants et fermés de ses concurrents.
Et c’est pas tout : ce modèle n’aurait coûté que 6 millions à développer. Absurde. Mais génial.
Depuis l’écriture de cet article, DeepSeek a sorti un nouveau modèle multimodal open-source, Janus, capable de comprendre et de générer des images.
Cette stratégie open-source est répandue chez les start-ups d’IA chinoise, obligée de se tourner vers ce type de modèles pour concurrencer les Etats-Unis en attirant des talents du monde entier vers leurs modèles.
Et elle est terriblement efficace : l’application mobile DeepSeek est classée première sur l’Apple store, et le marché américain des nouvelles technologies a encaissé un choc énorme : -17 % pour Nvidia en une seule journée.
Parce que DeepSeek impacte toute l’industrie de la tech, et remet en question toutes les croyances pré-établies : ils ont montré que ce n’est pas nécessaire de dépenser des milliards pour concurrencer les géants. Et ce, grâce à plusieurs techniques d’entraînement très astucieuses.
Mais pour autant, je ne pense pas que ce soit la fin de Nvidia comme certains l’ont prédit après avoir retourné leur veste.
On détaille le sujet dans la partie 2 ci-dessous.
We’ve done a complete re-write of our docs.
Key improvements include:
- Conversational AI agent to guide you through the docs
- Quickstart guides for each model
- Best practices for prompting the models
- Interactive API playgroundMaking it much quicker to get started building… x.com/i/web/status/1…
— ElevenLabs (@elevenlabsio)
8:16 PM • Jan 28, 2025
Fondée en 2022, ElevenLabs connaît une progression fulgurante.
Et c’est loin d’être terminé.
L’entreprise spécialisée dans la génération de voix et de sons par IA est utilisée par des acteurs majeurs comme The Washington Post, HarperCollins ou Synthesia.
Mais elle compte se diversifier.
L’essentiel :
En levant 250 millions, la start-up monte sa capitalisation à $3 milliards.
Le chiffre d’affaires annuel d’ElevenLabs est passé de 25 millions à près de 90 millions de dollars en un an.
C’est une des success stories les plus marquantes de l’industrie.
Cette levée de fonds servira à étendre son influence dans les secteurs du divertissement, de l'accessibilité et des assistants vocaux virtuels.
L’entreprise va s’attaquer à de nouvelles industries tout en améliorant sa technologie pour éviter d’être rattrapée par ses concurrents.
Avec ce financement, ElevenLabs renforce sa position quasiment monopolistique de leader de la génération de sons par IA. Ils font un taf excellent, sont clean sur leurs pratiques et ne pratiquent pas des prix abusifs. Que demander de plus ?
Comment était cet article ?Aidez-moi à améliorer le format de la newsletter en me disant ce que vous avez pensé de cet article ! |
D’ici 2 semaines, cette section sera réservée à nos abonnés premium !
En pleine crise financière de 2008, trois ingénieurs chinois sentent que le vent tourne pour les Etats-Unis.
Alors que le monde sombre dans la récession et la panique totale, ils voient une opportunité.
Ils commencent à faire du trading.
Et ça fonctionne. Les trois amis trouvent une passion commune.
Sauf qu’en même temps, tous les médias commencent à parler d’une technologie révolutionnaire : l’IA et le machine learning.
C’est là que nos 3 amis ont une idée qui va déterminer la suite de leur aventure.
En 2015, ils fondent High-Flyer, une entreprise qui utilise l’IA pour effectuer des transactions sur les marchés financiers.
Et c’est un succès.
À tel point qu’en 2019 ils créent High-Flyer AI, une filiale dédiée exclusivement à la recherche sur les algorithmes IA et leurs applications pratiques en finance.
Trois ans plus tard, ChatGPT devient accessible au grand public.
Et cette sortie marque le début de la course à l’intelligence artificielle générale, l’IAG.
Une IA capable d’effectuer les mêmes tâches qu’un humain et d’égaler, voire de dépasser notre niveau d’intelligence.
Sauf que cette révolution commence aux Etats-Unis, et que la Chine doit rattraper son retard quoi qu’il en coûte.
Dans cette optique, High-Flyer annonce la création d’une nouvelle entreprise dédiée à la recherche en IA complètement indépendante de la finance.
En mai 2023, DeepSeek est née.
Et la boîte vient de faire son premier coup d’éclat avec un modèle qui dépasse ChatGPT.
DeepSeek emploie une stratégie qui lui a déjà permis de tirer son épingle du jeu face aux géants du marché chinois.
Elle développe des modèles open-source, gratuits pour les utilisateurs lambdas et accessibles pour les développeurs à moindre coût.
Exemple : en mai 2024, ils sortent la deuxième version de leur modèle open-source, DeepSeek V2.
Le modèle est tellement performant et peu cher qu’il force ByteDance, Tencent et Alibaba à baisser leurs tarifs.
L’open-source est un enjeu de taille pour l’IA chinoise, car il permettra au pays de plus en plus isolé technologiquement d’attirer “gratuitement” des développeurs du monde entier.
Mais pour que ça fonctionne, il faut des modèles à la pointe de la technologie.
Sinon, les développeurs et les entreprises auront tout intérêt à rester sur des solutions américaines.
Et ça, DeepSeek l’a bien compris, alors ils ont décidé de faire d’une pierre trois coups.
En sortant un modèle gratuit, open-source, égalant les capacités d’o1.
J’ai nommé Deepseek R1.
Il est sorti la semaine dernière, et ses performances choquent tout le monde.
Ces tests, provenant directement de Deepseek, montrent que le nouveau modèle surpasse OpenAI sur quasiments tous les benchmarks.
Ces derniers regroupent des examens en maths, en chimie, en code, en physique…
Bref, ces résultats fous nous montrent que nous sommes entrés dans une nouvelle ère.
L’avènement de l’IA chinoise.
Et leur stratégie pour faire face aux Etats-Unis et à leurs milliards d’investissement leur permet d’arriver directement sur le devant de la scène.
Le modèle se différencie grâce à une stratégie technologique complètement différente des entreprises américaines.
La Chine a compris qu’ils ne pouvaient plus se différencier sur le nombre de GPU et de centres de données, surtout avec les nouvelles politiques américaines d’embargo sur les GPUs.
Alors ils ont bouleversé les codes.
Contrairement à OpenAI ou Meta qui misent sur des architectures toujours plus gourmandes en GPUs, DeepSeek a choisi une approche diamétralement opposée.
L’optimisation. Plutôt que de miser sur des infrastructures massives et coûteuses, ils conçoivent des modèles capables de fonctionner sur des systèmes plus légers.
Sauf qu’ils arrivent à maintenir des performances égales, voire supérieures à leurs concurrents américains.
Pour y parvenir, DeepSeek s’appuie sur des techniques comme l’optimisation des paramètres des modèles et la compression des réseaux neuronaux.
Ces méthodes réduisent la taille des modèles sans compromettre leur performance, permettant une exécution rapide et efficace, même sur des équipements limités.
Par exemple, des ajustements lors de l’entraînement permettent d’éviter les gaspillages de puissance de calcul souvent observés dans les approches traditionnelles.
Est-ce qu'un article de vulgarisation pure uniquement sur la partie technique de DeepSeek vous intéresserait ?Rentrer dans le détail des différentes méthodes qu'ils ont utilisé pour réaliser cette prouesse |
En plus, le raisonnement en chaîne de pensée (COT) permet au modèle de décomposer des problèmes complexes en étapes logiques, augmentant sa précision et sa pertinence.
Petite précision : en pratique, tous les modèles d’IA font ça, mais DeepSeek nous permet de le voir en direct, ce qui lui donne un côté plus concret.
Concrètement, voilà ce que ça donne :
The raw chain of thought from DeepSeek is fascinating, really reads like a human thinking out loud. Charming and strange.
— Ethan Mollick (@emollick)
7:26 PM • Jan 20, 2025
Ce choix stratégique de DeepSeek repose sur une grande quantité d’ingénieurs extrêmement compétents et peu chers, ainsi que sur une culture chinoise de recherche axée autour de la maximisation de chaque ressource disponible.
Enfin, l’open-source est une arme redoutable pour l’IA chinoise : en rendant son modèle accessible, DeepSeek attire des développeurs internationaux, créant un écosystème participatif autour de R1.
Bref, DeepSeek fait le pari du "mieux avec moins.”
Et ça fonctionne.
Conséquence : avec seulement $6 millions, DeepSeek a réalisé une prouesse qui a demandé des milliards à ses concurrents américains.
Le mélange de technologies efficaces, limitant les coûts, et d’une accessibilité presque agressive permet à DeepSeek de se démarquer.
D’ailleurs, vous pouvez commencer à l’utiliser dès aujourd’hui.
Pour l’utiliser en ligne gratuitement :
Cliquez sur le bouton ci-dessous pour accéder à DeepSeek
Interagissez directement via l’interface et choisissez le modèle R1 pour de meilleurs résultats
Idéal pour des tâches rapides comme des questions techniques ou des analyses simples !
Vous pouvez même aller encore plus loin, en utilisant votre propre IA hors-ligne.
Elle vous permettra de rester maître de vos données tout en se pliant à vos demandes (et de faire du finetuning, soit l’entraîner à une tâche précise grâce à vos données. On détaillera cette notion dans une prochaine édition.)
Téléchargez LM Studio depuis son site officiel en fonction de votre système d’exploitation.
Dans LM Studio, allez dans l’onglet « Discover » et recherchez « DeepSeek R1 ».
Une fois téléchargé, accédez à l’onglet « Modèles Locaux ».
Chargez DeepSeek R1 et commencez à interagir avec le modèle sans connexion Internet.
Et voici quelques cas pratiques pour l’utiliser au mieux chez vous :
Cas simple : Résoudre un problème mathématique
Exemple :
Calcule 7.89 × (3.14 + 2.5) et donne-moi le résultat dans un format arrondi à deux décimales.
Cas intermédiaire : Générer un code simple
Créez un script pour automatiser une tâche.
Exemple :
Écris un script Python qui télécharge les 10 derniers tweets d'un compte donné en utilisant Tweepy.
Cas avancé : Résolution d’un problème complexe en chaîne de réflexion (CoT)
Analysez une situation en plusieurs étapes, comme la planification d’un voyage pas cher.
Exemple :
Aide-moi à organiser un voyage de 5 jours à Tokyo avec un budget total de 1500 €. Je veux inclure des visites culturelles, des repas locaux, et des suggestions d’hébergement à prix abordable.
PS : Pour cet exemple, un agent permettrait même de programmer l’itinéraire en réservant directement chaque endroit nécessaire. Mais les agents, c’est pour une prochaine édition !
Cas professionnel : Analyse de données avec auto-réflexion
Exemple :
Téléchargez un fichier contenant vos ventes mensuelles et demandez :
Analyse ces données pour me montrer les produits qui génèrent le plus de revenus et propose une stratégie pour augmenter leurs ventes.
Mais l’avènement de l’IA chinoise pourrait aussi être synonyme d’un futur tumultueux pour le développement de la technologie.
Regardez le benchmark fourni par DeepSeek de plus près.
Un détail vous apparaîtra alors sur les données du graphique :
DeepSeek a comparé son modèle uniquement à o1 d’OpenAI.
Pas à Claude d’Anthropic ou à d’autres LLM de l’industrie.
En fait, cette comparaison ciblée est complètement intentionnelle.
DeepSeek fait un pied de nez énorme au géant américain : ils savent que leur approche open-source est dangereuse pour OpenAI.
Parce que l’entreprise de Sam Altman a fait le choix de modèles très fermés, et surtout coûteux pour les développeurs.
Sauf que R1 est quasiment gratuit et disponible pour tous ceux qui souhaitent créer des projets à partir du modèle.
I just realized DeepSeek R1 JUST made reasoning cheaper than a cup of coffee, open source unlike GPT4, and somehow outperforms Claude 3.5 Sonnet
"Made in China" AI now costs $0.50/hour while US minimum wage is ~$15/hour
intelligence just got priced like an electricity bill
— GREG ISENBERG (@gregisenberg)
1:54 PM • Jan 22, 2025
Une guerre à plusieurs facettes se prépare.
Un conflit technologique en raison des approches opposées des deux pays, mais aussi géopolitique à cause de la rivalité entre la Chine et les Etats-Unis.
Les enjeux pour les deux pays sont gigantesques : on parle d’une industrie mondiale valorisée à $173 milliards (et en pleine croissance).
Mais avec DeepSeek, la Chine vient de faire de gros dégâts.
Le marché américain des nouvelles techs vient de vivre une journée noire.
Microsoft a perdu 2 %, Google 4 %, et Nvidia 17 %, soit 600 milliards de capitalisation rien pour cette dernière entreprise.
Les cartes sont rebattues. Et personne n’est épargné.
Mais pour autant, je ne crois pas du tout à la chute de Nvidia.
Avec DeepSeek, beaucoup semblent penser que c’est la fin des achats compulsifs de GPUs parce qu’une entreprise a fait mieux avec moins.
Je ne pense pas.
L’un n’empêche pas l’autre : en combinant les deux approches, on améliore juste les résultats.
Factuellement, plus de GPUs = Meilleure IA.
Qu’on utilise les meilleures données, les meilleures techniques d’entraînement ou les pires pratiques.
Alors en combinant l’ingéniosité chinoise et les GPUs américaines, on va pouvoir créer des modèles encore meilleurs qu’avant.
C’est pourquoi Nvidia a encore de beaux jours devant elle, surtout depuis qu’ils prennent le parti d’investir à fond sur la robotique.
Mais ça, c’est pour une prochaine édition !
Comment était la newsletter d'aujourd'hui ? |
PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.
Reply