Bref Résumé
Cette vidéo explore l'évolution des modèles d'IA, en particulier les modèles de raisonnement, et comment ils sont évalués à l'aide de benchmarks comme GAA. Elle aborde les défis de la création de benchmarks pertinents et non contaminés, ainsi que les nouvelles approches d'entraînement des modèles, comme le reinforcement learning.
- L'importance des benchmarks pour évaluer et améliorer les modèles d'IA.
- L'évolution des modèles d'IA vers des agents plus autonomes et capables de raisonnement complexe.
- Les défis de la contamination des données et de la triche dans les benchmarks.
- Les nouvelles approches d'entraînement des modèles, comme le reinforcement learning.
Introduction
L'auteur exprime sa lassitude face aux annonces de nouveaux modèles d'IA, les trouvant peu révolutionnaires jusqu'à la découverte de Deep Research d'Open AI. Ce mode de Chat GPT permet des requêtes complexes et utilise des outils et internet pour y répondre, changeant radicalement sa façon de travailler. Il s'interroge sur les avancées techniques qui rendent ces modèles si performants et introduit le benchmark GAA, dont les créateurs vont expliquer les secrets des modèles de raisonnement et l'avantage de Deep Research.
Présentation de Mamou AI
Mamou AI est une plateforme qui regroupe les meilleurs modèles d'IA, y compris Claude Sonet 4, Gemini 2.5 Pro, DeepSeek, et des modèles d'image comme GPT imag, Flux contexte, et Mi-journée. Cette interface unique est proposée à un prix de 10 € par mois, ce qui est moins cher que l'abonnement à Chat GPT seul. Elle permet également d'utiliser le chat vocal de Chat GPT et d'accéder à Perplexity de Research.
Origine et Objectifs de GAA
GAA est né d'une discussion entre Thomas Wolf de Hugging Face, Thomas Sial de Meta, et les créateurs de GAA, autour de la question de l'évaluation des agents d'IA. L'objectif principal était de mesurer des capacités dont l'existence future n'était pas encore certaine. Ils souhaitaient créer des tâches difficiles pour les modèles, ancrées dans le réel et utiles aux utilisateurs, en se concentrant sur la lecture d'informations sur internet plutôt que sur la rédaction de rapports. La complexité était mesurée par le nombre d'étapes et d'outils nécessaires pour accomplir une tâche.
Structure et Difficulté des Questions GAA
Les questions de GAA sont divisées en trois niveaux de difficulté. Les questions de niveau 1 sont conçues pour être facilement résolues et nécessitent peu d'outils et d'étapes. Les questions de niveau 3, en revanche, impliquent entre 15 et 40 étapes. Au début, les modèles testés sur GAA, comme Chat GPT avec des outils sélectionnés manuellement, obtenaient des résultats très faibles, avec un taux de succès inférieur à 10 %.
Exemples de Questions GAA
Un exemple de question de niveau 2 consiste à calculer le pourcentage de matière grasse dans une glace à partir d'une image et à le comparer aux normes fédérales américaines. Cette tâche nécessite la lecture d'une image, l'extraction d'informations, la recherche des standards fédéraux et la comparaison des données. Une question de niveau 3 demande de trouver une image de la NASA, d'identifier des astronautes, et de déterminer lequel a passé le moins de temps dans l'espace, nécessitant une vingtaine d'étapes. Une autre question complexe consiste à trouver le bureau de Zofice sur Google Maps et à compter le nombre de plots de couleur jaune devant à une date donnée.
Défis et Objectifs des Benchmarks
La difficulté réside dans la création d'un benchmark qui mesure une donnée non ambiguë avec le bon niveau de difficulté. Le benchmark GAA contient environ 460 questions. Les premiers modèles testés étaient catastrophiques, ce qui était un bon signe pour la validité du benchmark. L'objectif est d'inciter les entreprises à améliorer leurs modèles pour obtenir de meilleurs résultats sur GAA. Le nombre de soumissions a considérablement augmenté au fil du temps, indiquant un intérêt croissant pour le benchmark.
Limites des Benchmarks Préexistants
Les benchmarks précédents, souvent utilisés par Google, Anthropic, Open AI et Meta, affichaient des taux de succès élevés (80-90 %), ce qui pouvait être trompeur. Ces benchmarks étaient principalement axés sur la connaissance et devenaient rapidement saturés, c'est-à-dire trop faciles à mesure que les capacités des modèles augmentaient. Un benchmark saturé ne sert plus à rien, car il ne permet pas de mesurer les progrès réels.
Utilité et Évolution des Benchmarks
Un benchmark sert à évaluer les capacités actuelles des modèles, à vérifier l'efficacité des méthodes d'entraînement, et à orienter la recherche dans le domaine de l'IA. Les benchmarks comme MMLU, Mat, et GAA sont devenus des références pour la communauté. Cependant, la criticité des benchmarks peut entraîner des problèmes de contamination, où les données d'évaluation se retrouvent dans le corpus d'entraînement, faussant les résultats.
Contamination et Solutions
La contamination se produit lorsque les données d'évaluation sont incluses dans le corpus d'entraînement, ce qui permet au modèle de donner des réponses apprises par cœur plutôt que de raisonner. Pour contrer cela, des benchmarks sont actualisés au fil du temps, comme Live Code Bench, ou utilisent des questions renouvelées annuellement, comme les olympiades américaines de mathématiques. GAA évite ce problème en gardant une partie des réponses privées, empêchant ainsi la triche.
Tentatives de Triche et Mesures
Certaines entreprises ont tenté de manipuler les scores en utilisant des méthodologies non conformes. Sur le OpenLM leaderboard, des startups ont essayé de tricher pour améliorer leurs chances de financement. GAA maintient un tiers des questions publiques et le reste privé pour limiter la triche. Des tentatives de spamming du leaderboard ont été détectées et corrigées en retirant les soumissions suspectes et en demandant aux participants légitimes de renvoyer leurs résultats.
Désillusion Face aux Benchmarks
Une période de désillusion envers les benchmarks a émergé, avec l'impression qu'ils ne mesuraient pas objectivement les modèles et que certains modèles performants en benchmark étaient décevants dans la pratique. Cette perte de confiance était due à la saturation des benchmarks et à la prolifération de leaderboard peu fiables. En 2025, l'évaluation des agents est devenue plus importante, rendant la triche plus difficile grâce à la génération de questions plus complexes.
Chronologie des Progrès sur GAA
Une analyse des meilleurs scores sur GAA au fil du temps montre une progression significative, passant de 10 % de succès en 2023 à 80 % aujourd'hui. Ce progrès n'a pas été constant, avec deux phases d'accélération distinctes. La première accélération a eu lieu lorsque les développeurs ont commencé à utiliser des orchestrations et des agents, permettant aux LLM d'utiliser des outils et de raisonner en plusieurs étapes.
Orchestrations et Agents
L'utilisation d'orchestrations et d'agents a permis de combler les lacunes des LLM en leur donnant accès à internet et à des outils de calcul. Cela a élargi le spectre des tâches qu'un LLM peut accomplir, transformant un simple modèle de chat en un agent capable de raisonnement complexe. Cependant, cette approche a atteint un plateau, car les LLM avaient besoin d'être entraînés spécifiquement sur ces nouvelles trajectoires.
Réentraînement et Modèles de Raisonnement
La deuxième explosion de progrès est due au réentraînement des LLM sur les trajectoires produites par les orchestrations. Parallèlement, les modèles de raisonnement ont émergé, permettant aux LLM de réfléchir avant de répondre et d'effectuer des calculs internes pour améliorer leurs chances de succès. Une technique simple consiste à appeler le modèle plusieurs fois et à retourner la réponse la plus fréquente.
Reinforcement Learning et Simplification
Les orchestrations manuelles, bien qu'utiles au début, peuvent devenir obsolètes avec l'amélioration des modèles. Le reinforcement learning permet aux modèles de trouver leurs propres solutions en testant plusieurs trajectoires et en retenant celles qui mènent à la bonne réponse. Cette approche simplifie le processus et réduit les risques d'erreurs. De plus, il est conseillé de simplifier les prompts pour les modèles plus récents, car ils ont progressé et peuvent mieux fonctionner avec moins de contraintes.
Reinforcement Learning et Annotation
Avec l'amélioration des modèles, ils deviennent meilleurs que les humains pour de nombreuses tâches. Au lieu de demander à des annotateurs d'écrire des trajectoires étape par étape, il est possible de laisser le modèle trouver sa propre solution et de retenir les trajectoires réussies comme données d'entraînement. Cette approche est particulièrement utile pour les tâches complexes d'agent, où il est difficile et coûteux d'obtenir des annotations humaines de qualité.
Saturation et Nouveaux Benchmarks
Le niveau 1 de GAA est clairement saturé, et le niveau 2 approche de la saturation. Le niveau 3, en revanche, est encore difficile, avec un taux de succès de 60 %. De nouveaux benchmarks sont nécessaires pour évaluer les modèles qui savent faire du GAA. Brow Comp d'Open AI est une version 2 de GAA, où les questions sont conçues pour être complexes dès le départ.
Brow Comp et Benchmarks d'Assistance Scientifique
Brow Comp se concentre sur la complexité des questions, mais n'a pas de garantie de solution unique. GAA, en revanche, garantit que toutes les questions sont faisables par des humains. D'autres benchmarks, comme Dapstep, évaluent les tâches d'assistance scientifique, comme l'analyse de données complexes. Ces benchmarks mesurent la productivité et l'utilité réelle des modèles.
Évolution des Benchmarks et Exemples
Les benchmarks ont évolué de la mesure de la connaissance pure à la mesure de la complexité du raisonnement sur des tâches réelles. Des exemples de benchmarks incluent GPQA, Humanities Last Exam (HLE), GA, Dapstep, Code, et Paper Bench. HLE contient des questions ultra pointues nécessitant une expertise approfondie.
Humanities Last Exam et Évaluation Synthétique
HLE mesure des connaissances impossibles à valider par un humain normal. L'évaluation synthétique sur les propres données d'une entreprise, comme Yourbench, permet de créer un benchmark personnalisé pour évaluer les modèles sur des cas d'usage spécifiques. Cela garantit que les données ne sont pas divulguées publiquement et que les résultats sont pertinents pour l'entreprise.
Futurs Benchmarks et Collaboration
Les créateurs de GAA travaillent sur de nouveaux benchmarks, mais ne peuvent pas en parler en détail. Ils collaborent depuis six mois sur un projet lié aux thèmes abordés dans la vidéo.
Conclusion
La vidéo se termine en recommandant une autre interview sur l'auto-empoisonnement des IA.