• FreeA
  • Posts
  • Comparatif entre Midjourney, Dall-E, Leonardo, Firefly et Stable Diffusion

Comparatif entre Midjourney, Dall-E, Leonardo, Firefly et Stable Diffusion

Hello !

Au programme du jour :

- Bon. Il est temps de se remettre au boulot

- Comparatif entre Midjourney, Dall-E, Leonardo.ai et Stable Diffusion

- Les news dans le monde de l'IA

- Le sujet de la semaine prochaine

La meilleure manière de soutenir mon travail et la newsletter, c'est de la faire découvrir à plus de monde : 

Pour aller plus loin et vous former sur l'IA, recevoir des news journalières ou encore tester Midjourney gratuitement, rejoignez FreeA, la plus grande communauté francophone sur l'IA : https://discord.gg/freea

Bon. Il est temps de se remettre au boulot.

J'en ai parlé à la fin de la newsletter la semaine dernière, mais vu sa longueur... j'ai envie de vous parler un peu de ce dernier mois et du futur de la newsletter.

Il y a un mois, j'ai appuyé sur pause.

J'ai disparu d'internet pendant 30 jours, et ça m'a fait du bien.

C'était nécessaire, je crois.

Mais maintenant, je vais revenir encore plus fort.

En 2024, j'ai envie de faire évoluer cette newsletter.

De passer une étape.

Pour l'instant, c'est un format irrégulier dans lequel je partage tout ce que je sais sur des sujets variés dans l'IA.

Je veux arriver à quelque chose de plus stable, de plus maîtrisé, que vous puissiez choisir ce qui vous intéresse. Un peu comme snowball, pour ceux à qui ça parle.

Je vais pas vous mentir, ça ne viendra pas tout de suite.

Mais d'ici 2-3 mois... 😇

Pourquoi ?

Parce qu'actuellement, je bosse sur un gros projet IA.

Je vous l'annoncerai en avant-première ici lundi prochain.

Ah, et on recrute.

La semaine prochaine, je vous enverrai quelques liens vers des fiches de poste des profils qu'on cherche.

Alors restez à l'affut ;)

Comparatif entre Midjourney, Dall-E, Leonardo, Firefly et Stable Diffusion

Sommaire :

  • Méthodologie

  • Stable Diffusion

  • Leonardo

  • Firefly

  • Dall-E

  • Midjourney

  • Comparatif subjectif

  • Conclusion

Méthodologie

Mon objectif n'est pas de dire "tel modèle est le meilleur, n'utilisez que celui-là". Le comparatif est plus une excuse pour rentrer en détail sur chacun de ses modèles et leurs spécificités.

Chaque partie va être une sorte de mini deep dive.

Ensuite, le comparatif subjectif permettra de comparer les modèles sur différents domaines pour que vous puissiez choisir celui qui correspond le plus à vos besoins.

Le comparatif subjectif sera basé sur mon expériences et les témoignages que j'ai pu recevoir.

J'ai choisi ces 5 modèles car c'est ceux que je considère comme les plus connus et utiles, mais c'est également ceux que je maîtrise le mieux. Il en existe d'autres potentiellement très utiles, et si celui que vous utilisez n'apparaît pas dans la liste, cela ne veut pas dire qu'il est mauvais.

Petite liste complémentaires de modèles :

  • Google Imagine

  • Meta Imagine

  • Ideogram

  • Playground

  • Lexica

  • Craiyon

  • Krea

  • Magnific

Stable Diffusion

Commençons par celui qui est peut-être la base de tout.

Stable Diffusion, à l'origine, c'est une architecture permettant la génération d'images.

Et comme c'est opensource, c'est la base de construction de l'extrême majorité des modèles de génération d'images que vous voyez aujourd'hui.

Alors, quel est l'intérêt ?

Déjà, comme c'est opensource, c'est "gratuit". Le seul coût est celui de la machine qui génère les images.

Mais surtout, l'opensource permet des possibilités infinies.

N'importe qui peut développer des plugins pour ouvrir de nouvelles fonctionnalités ou des jeux de données d'entraînements spécialisées dans un domaine.

Deforum, le plugin permettant de créer les vidéos psychadéliques d'IA ayant fait le buzz il y a quelques mois, est un plugin de Stable Diffusion.

Alors comment se servir de Stable Diffusion ?

Plusieurs solutions.

1- https://stability.ai/

2- Rundiffusion, qui vous permet de louer une machine virtuelle sur laquelle se trouve Stable Diffusion, et donc sur laquelle vous pouvez mieux configurer le modèle

3- Installer Stable Diffusion sur votre ordinateur, s'il a la puissance de le faire tourner relativement rapidement

Ensuite, si vous avez la flemme de créer vos propres jeux de données d'entraînement, vous pouvez simplement aller sur civitai.com, une des plus grosses bases de données de datasets.

En bref : Stable Diffusion n'est pas le meilleur modèle, ni le plus simple à utiliser, mais c'est celui qui vous laisse le plus libre.

Leonardo

Leonardo, c'est une anomalie.

Il est arrivé après Dall-E et Midjourney, en même temps que de nombreux concurrents.

L'équipe ne fait pas partie d'un grand groupe, et ils n'avaient rien de spécial pour se démarquer, en tout cas au premier abord.

Pourtant, quelques mois plus tard, c'est l'un des modèles les plus connus, et ils ont su développer leur site pour proposer une expérience complète.

C'est fort.

Mais concrètement, qu'est ce qu'on peut faire avec et comment ?

Déjà, il suffit de créer un compte gratuitement sur leonardo.ai, et de commencer à générer. Parce que vous avez une certaine quantité de crédits gratuitement chaque jour.

Ensuite, une fois que vous avez votre compte, vous avez beaucoup de possibilités.

Mais imaginons : vous voulez commencer par créer votre image.

Alors vous cliquez sur "create an image", et vous arrivez sur une interface complète.

Là, plein de paramètres de partout.

Les extensions à utiliser, les dimensions, le poids du prompt, etc..

Mais ça, c'était que sur la forme.

Parce que maintenant, vous pouvez sélectionner quel modèle finetuné vous voulez utilisez, mais également les éléments (qui vous ajouter un style particulier à votre image).

Une fois que c'est fait, vous pouvez simplement taper votre prompt, ou alors utiliser une image, voire encore demander à Leonardo de vous générer des prompts plus complexes à partir d'une simple idée (comme voiture).

Bon.

C'est bien beau tout ça, mais est-ce que les images sont belles ?

Oui.

Mais je ne vais pas mentir : Vous trouverez mieux.

On en reparlera sur le comparatif, mais je trouve que c'est un mélange entre la V4, la V5 de Midjourney.

Par contre, Leonardo a d'autres avantages.

Parce que c'est pas assez de pouvoir choisir parmi des dizaines de modèles, vous pouvez aussi entraîner le votre (je n'ai pas testé, je ne sais pas à quel point c'est complexe et efficace).

Mais une fois que vos images sont générées, ce n'est pas terminé.

Déjà, vous pouvez les modifier en direct avec le Realtime Canvas.

(Ou vous pouvez les générer en direct avec le Realtime Generator)

Voire encore les transformer en asset 3D !

Enfin bref, beaucoup de fonctionnalités, et c'est ce qui a permis à Leonardo de se faire connaître.

Alors si vous voulez un outil couteau suisse capable d'à peu près tout faire, ce sera le plus adapté.

Firefly

Adobe, c'est les rois du marché graphique.

Ils contrôlent (presque) tout.

Alors ils ne pouvaient pas rester à la traine sur l'IA.

Et c'est réussi avec Firefly.

(Déjà, c'était les premiers à permettre de faire de l'inpainting)

Honnêtement, Firefly est le modèle avec lequel j'ai le moins joué.

Et pour cause...

Firefly est bon.

Vraiment.

Vous pouvez contrôler vos paramètres comme le style, le ton, des paramètres de caméra si vous êtes photographes et voulez simuler une photo, etc..

Mais...

Firefly n'a rien de vraiment différent.

Si des experts de Firefly me lisent, n'hésitez pas à répondre à ce mail si je suis passé à côté de quelque chose, mais j'en ai pas vraiment l'impression.

Firefly fait le job, mais n'est pas flamboyant.

Donc oui, ils ne sont pas à la traine, mais ils ne sont pas en avance non plus.

Dall-E

Bon, là on rentre dans du très lourd.

Forcément, un modèle backé par l'entreprise la plus hype du monde... ça ne peut être qu'une folie.

Au cas où vous vivez dans une grotte, Dall-E est le bébé d'OpenAI, l'entreprise derrière ChatGPT.

Et c'est aussi le premier modèle de génération d'images à avoir fait parler.

Dall-E 2 a été autant loué que moqué.

En 2022, il était seul et vu comme une révolution.

Puis Midjourney est arrivé, et... l'a écrasé.

Pendant 1 an, OpenAI n'a pas parlé une seule fois de Dall-E.

C'était devenu un canard boiteux.

Puis Dall-E 3 est arrivé.

Et a progressivement fait de plus en plus parler.

Jusqu'à ce qu'OpenAI sorte enfin le multimodal : la possibilité d'avoir du texte, des fichiers, des images, et ce dans la même conversation avec ChatGPT.

Et là, Dall-E 3 est réellement devenue une folie.

Car le contexte et la cohérence devenait quasiment parfaits.

On peut créer une image adaptée à un texte, à un projet, à un logo, garder un personnage consistant, etc.

Et surtout, la qualité de génération est devenue vraiment bonne.

Je le place juste derrière Midjourney, surtout depuis que la V6 est arrivée, mais ça reste excellent.

Midjourney

Le fameux.

Considéré par beaucoup comme le meilleur modèle, et de loin.

C'est surtout le plus connu et le plus utilisé.

Puisque j'ai déjà dédié une édition à Midjourney, je vais parler de sa V6.

Honnêtement, je n'ai pas encore passé suffisamment de temps dessus pour me faire un avis définitif.

Mais voici les changements majeurs :

  • La fenêtre de contexte passe de 80 à 350 mots

  • La capacité à comprendre le langage naturel et la grammaire (le système de mots clés est beaucoup moins important)

  • La capacité à positionner et décrire des personnages sur l’image, donc en avoir plusieurs qu’on contrôle (impossible avant)

  • La capacité de générer du texte (pour l’instant, ça reste moyen)

En bref : il va falloir réapprendre comment parler à Midjourney, et on va se diriger vers de longues descriptions très précises.

Et surtout, une qualité encore meilleure qu’avant.

Vous ne me croyez pas ? Faites un tour sur : https://www.midjourney.com/explore

Oui, Midjourney n’est pas l’outil le plus ergonomique ni celui avec le plus de gadgets, mais pour générer des images, il reste le meilleur.

PS : Une amie, l’une des artistes MJ les plus reconnus actuellement, a créé un serveur discord dans lequel elle veut partager toutes ses connaissances gratuitement, pour permettre à chacun de progresser et s’amuser avec l’outil.

Le serveur n’est pas fini, beaucoup de salons sont vides et d’autres en construction, mais il y a déjà pas mal d’infos, notamment en bas du serveur sur les différentes modifications dans la manière de prompter.

Si ça vous intéresse, que vous voulez apprendre ou simplement lui donner de la force, vous pouvez rejoindre le serveur ici :

Comparatif subjectif

  • La précision concerne à quel point est-ce que les images sont proches de ce qui est décrit.

  • Le contrôle est par rapport à tous les autres paramètres avec lesquels on peut jouer pour mieux maîtriser sa génération.

  • La créativité est liée à la faculté du modèle de sortir des images “waouh”.

  • Le réalisme est la capacité du modèle à t’induire en erreur sur un “IA ou réalité”.

  • Le texte dans l’image est mesurée en fonction de si le modèle est capable d’ajouter du texte dans ses images.

  • La liberté est par rapport à la censure et les délais d’attente.

  • Le prix est… le prix.

  • Les notes sont un classement : 1 = le meilleur, 5 = le pire. 5 ne veut pas dire mauvais et 1 ne veut pas dire bon, c’est une comparaison.

  • Si égalité, les modèles sont environ du même niveau.

Bien sûr, cette comparaison reste subjective. Vous pouvez avoir un ressenti différent, et c’est ok. Ce tableau, et cette newsletter en général, ont uniquement pour but de vous aider à choisir quel outil utiliser selon les situations.

Conclusion

Les news dans le monde de l'IA

Quelques news importantes cette semaine :

  • Forcément, la V6 de Midjourney

  • Microsoft Copilot permet désormais de faire de la musique en partenariat avec Suno, grâce à un simple plugin à activer

  • VideoPoet est l’outil sorti par Google pour générer des vidéos à partir de texte, d’image ou d’une autre vidéo. Ils rentrent dans la course :)

  • Après OpenAI, c’est Anthropic, la boite derrière Claude, qui offre une protection juridique en cas de problème de copyright

  • La cour Anglaise a tranché, l’IA ne peut pas être considérée comme un inventeur (et déposer un brevet ou quoi que ce soit de lié). Donc si l’IA invente quelque chose, est-ce que l’invention tombe directement dans le domaine public ? Ca risque de freiner l’accélération de la recherche

  • Leonardo a lancé son outil de génération de vidéo, directement utilisable sur leonardo.ai. Oui, eux aussi.

  • Vous l’avez forcément vu passer, OpenAI a lancé son GPT-Store, où n’importe qui peut vendre ses GPTs ! Je ne veux pas trop m’étendre dessus pour l’instant, j’attends d’avoir plus de recul, et on en fera peut-être une newsletter

  • Alibaba vient aussi dans la course aux modèles de génération de vidéo, mais le leur est open source ! Ca permettra probablement à quelques développeurs de s’amuser un peu. 

  • Dewave est un projet complètement fou : lire les pensées des gens avec une IA grâce à un électroencéphalogramme pour enregistrer l’activité cérébrale, sans devoir s’implanter une puce ou un implant. Et même si je ne suis pas capable de comprendre parfaitement la science qu’il y a derrière, les premiers résultats sont bluffants

  • Meta fait de nouvelles recherches sur la robotique en associant leurs robots avec des LLMs pour être capable de donner un semblant d’autonomie et de réflexion à ses machines. Je le répète souvent, mais on sous-estime souvent les avancées de la robotique en occident (car on ne manque pas de main d’oeuvre, et qu’on a une culture du “il faut donner du travail aux gens”). En Asie, les robots sont déjà présents dans le quotidien de la majorité des gens, et ils se comportent de plus en plus comme des “humains” n’ayant qu’une seule tâche à faire toute la journée.

  • Et Mobile ALOHA est un projet open-source de robot pour vous assister au quotidien dans vos tâches ménagères ! (Pour l’exemple, mais il peut faire de nombreuses tâches physiques). En plus d’être prometteur, le robot est “relativement” peu cher par rapport à ses capacités et ses matériaux : autour de $30k. Bien sûr, c’est pas le genre de choses qu’on achète sur un coup de tête, mais ce n’est pas si élevé que ça. Le tutoriel de construction est disponible sur leur site si vous voulez faire une activité manuelle avec vos enfants :)

Ensuite, on arrive au CES.Mais çà, je me le réserve pour la semaine prochaine.

Je n’ai pas pu y aller, mais mon frère y est, et je rattrape ce que je peux à distance.

Spoiler : les géants de ce monde ont décidé de faire une compétition d’annonces sur l’IA.

Pour la semaine prochaine :

Le monde ne sera plus jamais le même.Décortiquons le CES.

Dans 2 semaines : Deep Dive : comment se servir de l’IA dans l’éducation ? Gamification, personnalisation de l’enseignement, accessibilité, etc.

Dans 3 semaines : Deep Dive : comment se servir de l’IA dans la santé ? Où plutôt, comment l’IA va créer une vraie révolution dans nos durées de vie, et poser la question de la barrière de la mort.

Dans 4 semaines : Comment fonctionne le nouveau modèle de Mistral, et pourquoi est-ce qu’il peut complètement modifier la manière de construire des LLMs ?

Si cette édition t'as plu, et que tu connais quelqu'un à qui elle peut servir, tu peux la partager juste ici :

Et si ce n'est pas encore fait, tu peux t'abonner :

Reply

or to participate.