Temps de lecture : 2mn

Hello,

GPT-5 vient de sortir, et il serait le modèle le plus puissant jamais créé.
Sauf qu’on l’a vu, certains utilisateurs préféraient ses anciennes versions.

Comment expliquer cette dissonance ?
On plonge dans les scores de performance des IA pour trouver une réponse.

Théo

Focus : On nous ment sur l’IA ?

OpenAI affirmait que GPT‑4 décrochait un score dans le top 10 % des candidats à l’examen du barreau américain.

On voit passer tous les jours des chiffres impressionnants, des pourcentages de réussite qui dépassent ceux d’humains bien formés.

Mais ces scores signifient-ils qu’on a créé une IA « bonne en tout » ?
En fait, c’est plus compliqué que ça.

Bien mesurer les performances technologiques est plus crucial que jamais.

À suivre :

  • La longue histoire des benchmarks.

  • Comment sont-ils créés ?

  • Quelles sont leurs limites ?

Une vieille obsession

Chaque nouvelle technologie s’accompagne de chiffres pour évaluer sa puissance.

Au XIXe siècle, James Watt invente le cheval-vapeur pour vendre ses machines à vapeur en comparant leur force à celle de vrais chevaux.

Plus tard, on vantera la vitesse des voitures en km/h et la puissance des moteurs en chevaux.

Pour les ordinateurs, ce sera aux nombres de transistors, à la fréquence en gigahertz, aux milliards d’opérations par seconde.

Ces indicateurs servent de référence commune pour comparer les nouveautés.
Ce sont les équivalents technologiques des records sportifs.

Et dès le milieu du XXe siècle, on cherche aussi des tests pour évaluer les performances d’une IA.

L’un des premiers et des plus célèbres : le test de Turing (imaginé en 1950).

Si une machine peut dialoguer de façon indiscernable d’un humain, alors elle aura passé le test avec succès.

Pendant longtemps, ce défi est resté théorique.
Aucun programme n’y arrivait vraiment.

À la place, les chercheurs se sont mesurés sur des tâches précises.
Les échecs sont vite devenus un terrain d’expérimentation privilégié.

Dès les années 1950, on code des algorithmes pour jouer, et en 1997 l’ordinateur Deep Blue bat Garry Kasparov, champion de l discipline à l’époque.

Ce fut un tournant symbolique.
Mais d’autres défis emblématiques ont suivi.

En 2011, IBM Watson triomphe au jeu télévisé Jeopardy! face à des champions humains, et en 2016 AlphaGo bat le champion du monde de Go.

Chacun de ces exploits a marqué l’imaginaire collectif.

Sauf qu’aujourd’hui, on a l’impression que chaque jour voit naître un modèle qui bat tous les records.

L’ère des benchmarks 

La communauté scientifique avait besoin de mesures systématiques pour suivre le progrès des IA d’une année sur l’autre.

C’est ainsi que sont nés les benchmarks, des bancs d’essai standardisés pour l’IA.

Un benchmark d’IA, c’est un test ou un ensemble de tests conçus pour évaluer tous les modèles selon les mêmes critères.

Comme si elles passaient un examen national : même questions, même barème, afin de comparer les rendus des différentes IA.

On utilise un jeu de données commun et une consigne claire pour dire « le modèle A obtient tel score à la tâche X, comparé au modèle B »

Pourquoi fait-on tant confiance à ces benchmarks ?
Déjà, parce qu’ils marquent les jalons de la progression de l’IA.

Le concours ImageNet (créé en 2009) a par exemple mesuré la capacité des IA à reconnaître des images d’objets du quotidien.

En 2011, les meilleures avaient encore 25 % d’erreurs, mais en 2015 des réseaux neuronaux ont dépassé le niveau humain (5 % d’erreur top 5) sur ce test.

Aujourd’hui, on dépasse 90 % d’exactitude en top 1 sur ImageNet, signe que la tâche est presque accomplie tellement l’IA y excelle.

Ces scores en hausse signalent concrètement les avancées de la recherche.
Ensuite, on peut faire un classement objectif des modèles.

En traitement du langage, le benchmark GLUE réunissait 9 tâches variées (analyse de sentiments, questions-réponses, inférences logiques, etc.)

En à peine deux ans, des modèles ont fait exploser les scores, au point que les meilleurs modèles dépassaient le score moyen humain dès 2019.

Mais GLUE est devenu trop facile.

On a dû créer un successeur plus corsé, SuperGLUE, avec des exercices plus difficiles (pièges logiques, ambiguïtés, etc.).

Là encore, le niveau humain a été atteint et même dépassé dès 2023 par les modèles de Google et d’OpenAI.

Dès que l’IA atteint un certain niveau, on doit relever la barre des tests.
La compétition est stimulée de manière perpétuelle et exponentielle.

Et en plus, elle reste saine.
Un bon benchmark sert de référence neutre pour annoncer les capacités d’un modèle.

Plutôt que de promesses marketing, on peut dire « ce modèle a X% de réussite sur telle tâche de compréhension de texte ».

C’est plus concret et parlant pour le public et les experts.

Bien conçus, ils ciblent des compétences précises, évitent d’être trop faciles à « tricher » et représentent des problèmes concrets et variés.

C’est ainsi que sont nés des dizaines de benchmarks selon les domaines.

Pour la vision, le langage, le code informatique, les jeux vidéo, sans oublier des tests d’éthique et robustesse plus récents qui vérifient les biais ou la fiabilité des IA.

Mais tout ça reste de la théorie.

En pratique, fabriquer un bon système pour mesurer les performances objectives d’une IA est complexe.

La recette d’un bon benchmark

Les chercheurs s’appliquent à créer des épreuves à la fois représentatives, stimulantes et justes. Voilà comment ça se passe :

  1. On choisit une tâche concrète.

    Par exemple traduire un texte, répondre à des questions de culture générale, détecter des objets sur une photo...

    L’idéal est que cette tâche ait une importance réelle (pour pousser l’IA vers des usages utiles) et qu’on puisse la définir clairement.

  2. On constitue une base de données d’exemples.

    Pour les images, on compile des images avec les bonnes étiquettes (chat, chien, avion…). Souvent, on cache une partie des données pour les garder en tests surprises.

  3. On met en place un critère chiffré pour noter les modèles.

    Un pourcentage de réponses justes, un score d’erreur plus bas, etc.

    Pour la classification d’images, on utilise le taux de bonnes classifications (top 1 ou top 5.) Pour la traduction, des indices comme BLEU comparent la traduction de l’IA à celle d’un humain.

  4. On fait passer le test à des humains pour avoir une référence.

    Ensuite, on fait passer de la même façon les modèles d’IA en veillant à ce qu’ils n’aient pas triché (pas vu les réponses à l’avance).

    On obtient ainsi un classement : tel modèle a 85 % de réussite, un autre 80 %, un humain typique 88 %, etc.

  5. On affine, parce que les benchmarks vivent dans le temps. On publie les résultats, d’autres équipes essaient d’améliorer les scores, parfois en trouvant des astuces.

    Si on découvre que le test a une faille, on le corrige ou on en crée un nouveau plus robuste. Un bon benchmark « résiste » quelques années avant que les meilleurs modèles ne plafonnent à 100 %.

Sauf que tout ne se résume pas aux chiffres.
Certains aspects de l’intelligence sont durs à quantifier.

Par exemple, pour évaluer la créativité ou la cohérence d’un texte, on fait encore appel à des jugements humains en plus des scores automatiques.

Malgré tout, ces tests standardisés ont structuré la recherche en IA et accéléré les avancées, car ils donnent des buts clairs.

Mais peut-on vraiment nous fier à ces scores ?

Les limites

Il faut garder à l’esprit ce que ces échelles mesurent réellement, et leurs limites.

Si une IA affiche 90 % de réussite à un test, c’est qu’elle est très performante dans la tâche spécifique évaluée.

Par exemple, GPT‑4 atteint 86 % de bonnes réponses sur MMLU, un examen de 14 000 questions couvrant 57 matières.

Un niveau proche de celui d’experts humains (90 %)

Ces chiffres témoignent de la capacité de l’IA pour mémoriser et analyser à une échelle hors de portée pour un humain.

En revanche, ils ne garantissent pas que l’IA comprend vraiment ou saura réussir dans n’importe quelles conditions.

Un modèle peut briller sur un test standard et échouer dès qu’on sort un peu du cadre.

Les chercheurs constatent même que de légers changements dans l’énoncé d’un problème peuvent faire chuter le score d’un modèle de façon drastique.

Autrement dit, l’IA apprend parfois à « répondre aux questions du test » sans avoir saisi le fond du problème.

Si nous obtenons un système aussi intelligent qu’un chat ou qu’un rat, ce serait déjà une victoire.

En plus, la performance chiffrée peut être trompeuse.

En lisant qu’une IA a « 90 % de réussite » à un examen, on peut croire qu’elle est fiable à 90 %.

Sauf que le même modèle peut avoir des ratés monumentaux hors du contexte du benchmark.

Les modèles de langage atteignent des scores humains en grammaire ou en culture générale, mais ont du mal à compter des mots, ou à résoudre une simple équation.

Bref, un score élevé ne garantit pas l’absence d’erreurs.

Et c’est parce qu’il ne prend pas en compte le sens commun, l’adaptation à des situations nouvelles, ou des qualités plus subtiles comme l’empathie et l’humour.

Une IA peut avoir 100 % à un test de connaissances médicales tout en faisant des erreurs grossières si un cas ne correspond pas exactement à ce qu’elle a mémorisé.

Les développeurs le savent, et de nouvelles approches d’évaluation plus globales émergent.

L’idée est de peindre un portrait plus complet des forces et faiblesses d’une IA, pour ne pas se laisser aveugler par un seul chiffre.

Les évaluations standardisées simplifient la réalité pour pouvoir la quantifier, c’est leur force et leur faiblesse à la fois.

Alors la prochaine fois qu’une entreprise vante son IA, demandez-vous sur quelle épreuve précisément, et dans quelles conditions ?

Comment était la newsletter d'aujourd'hui ?

Login or Subscribe to participate

PS : Cette newsletter a été écrite à 100% par un humain. Ok, peut-être 80%.

Reply

or to participate

Keep Reading

No posts found