Technical News

OpenAGI sort de la furtivité avec un agent IA qui, selon lui, écrase OpenAI et Anthropic

Une startup d’intelligence artificielle furtive fondée par un chercheur du MIT a émergé ce matin avec une affirmation ambitieuse : son nouveau modèle d’IA peut mieux contrôler les ordinateurs que les systèmes construits par OpenAI et Anthropic – pour une fraction du coût.

OpenAGI, dirigé par le PDG Zengyi Qin, a publié Lux, un modèle de base conçu pour faire fonctionner les ordinateurs de manière autonome en interprétant des captures d’écran et en exécutant des actions sur les applications de bureau. La société basée à San Francisco affirme que Lux atteint un taux de réussite de 83,6 % sur Online-Mind2Web, une référence qui est devenue le test le plus rigoureux du secteur pour évaluer les agents d’IA qui contrôlent les ordinateurs.

Ce score représente un bond significatif par rapport aux principaux modèles de concurrents bien financés. Operator d’OpenAI, publié en janvier, obtient un score de 61,3 % sur le même benchmark. Claude Computer Use d’Anthropic atteint 56,3 pour cent.

"La formation LLM traditionnelle alimente une grande quantité de corpus de texte dans le modèle. Le modèle apprend à produire du texte," Qin a déclaré dans une interview exclusive avec VentureBeat. "En revanche, notre modèle apprend à produire des actions. Le modèle est entraîné avec une grande quantité de captures d’écran et de séquences d’actions, lui permettant de produire des actions pour contrôler l’ordinateur."

Cette annonce arrive à un moment charnière pour l’industrie de l’IA. Les géants de la technologie et les startups ont investi des milliards de dollars dans le développement d’agents autonomes capables de naviguer dans des logiciels, de réserver des voyages, de remplir des formulaires et d’exécuter des flux de travail complexes. OpenAI, Anthropic, Google et Microsoft ont tous lancé ou annoncé des produits d’agent au cours de l’année écoulée, pariant que l’IA contrôlant l’ordinateur deviendra aussi transformatrice que les chatbots.

Pourtant, des recherches indépendantes ont semé le doute quant à la capacité des agents actuels à être aussi performants que le suggèrent leurs créateurs.

Pourquoi des chercheurs universitaires ont élaboré une référence plus stricte pour tester les agents d’IA et ce qu’ils ont découvert

Le benchmark Online-Mind2Web, développé par des chercheurs de l’Ohio State University et de l’Université de Californie à Berkeley, a été conçu spécifiquement pour exposer l’écart entre les allégations marketing et les performances réelles.

Publié en avril et accepté à la Conférence sur la modélisation linguistique 2025, le benchmark comprend 300 tâches diverses sur 136 sites Web réels, de la réservation de vols à la navigation dans les caisses complexes du commerce électronique. Contrairement aux tests précédents qui mettaient en cache des parties de sites Web, Online-Mind2Web teste les agents dans des environnements en ligne en direct où les pages changent de manière dynamique et où des obstacles inattendus apparaissent.

Les résultats, selon les chercheurs, ont peint "une image très différente de la compétence des agents actuels, suggérant un excès d’optimisme dans les résultats précédemment rapportés."

Lorsque l’équipe de l’Ohio State a testé cinq agents Web de premier plan avec une évaluation humaine minutieuse, elle a constaté que de nombreux systèmes récents – malgré des investissements importants et une fanfare marketing – ne surpassaient pas SeeAct, un agent relativement simple lancé en janvier 2024. Même l’opérateur d’OpenAI, l’offre commerciale la plus performante de leur étude, n’a obtenu que 61 % de réussite.

"Il semblait que des agents hautement compétents et pratiques n’arriveraient peut-être que dans quelques mois," les chercheurs ont écrit dans un article de blog accompagnant leur article. "Cependant, nous sommes également conscients qu’il existe encore de nombreuses lacunes fondamentales dans la recherche sur des agents totalement autonomes, et que les agents actuels ne sont probablement pas aussi compétents que les chiffres de référence publiés peuvent le montrer."

L’indice de référence a gagné du terrain en tant que norme de l’industrie, avec un classement public hébergé sur les soumissions de suivi de Hugging Face provenant de groupes de recherche et d’entreprises.

Comment OpenAGI a entraîné son IA à prendre des mesures au lieu de simplement générer du texte

L’avantage revendiqué en termes de performances d’OpenAGI provient de ce que l’entreprise appelle "Pré-formation active agentique," une méthodologie de formation qui diffère fondamentalement de la façon dont la plupart des grands modèles de langage apprennent.

Les modèles linguistiques conventionnels s’entraînent sur de vastes corpus de textes, apprenant à prédire le mot suivant dans une séquence. Les systèmes résultants excellent dans la génération de texte cohérent mais n’ont pas été conçus pour entreprendre des actions dans des environnements graphiques.

Lux, selon Qin, adopte une approche différente. Le modèle s’entraîne sur des captures d’écran d’ordinateur associées à des séquences d’action, apprenant à interpréter les interfaces visuelles et à déterminer quels clics, frappes au clavier et étapes de navigation permettront d’atteindre un objectif donné.

"L’action permet au modèle d’explorer activement l’environnement informatique, et cette exploration génère de nouvelles connaissances, qui sont ensuite renvoyées au modèle pour la formation." Qin a déclaré à VentureBeat. "Il s’agit d’un processus naturellement évolutif, dans lequel un meilleur modèle produit une meilleure exploration, une meilleure exploration produit de meilleures connaissances et une meilleure connaissance conduit à un meilleur modèle."

Cette boucle de formation auto-renforcée, si elle fonctionne comme décrit, pourrait aider à expliquer comment une petite équipe peut obtenir des résultats qui échappent aux grandes organisations. Plutôt que de nécessiter des ensembles de données statiques toujours plus volumineux, cette approche permettrait au modèle de s’améliorer continuellement en générant ses propres données d’entraînement grâce à l’exploration.

OpenAGI revendique également des avantages de coût significatifs. La société affirme que Lux fonctionne à environ un dixième du coût des modèles frontières d’OpenAI et d’Anthropic tout en exécutant les tâches plus rapidement.

Contrairement aux concurrents proposant uniquement un navigateur, Lux peut contrôler Slack, Excel et d’autres applications de bureau.

Une distinction essentielle dans l’annonce d’OpenAGI : Lux peut contrôler les applications sur l’ensemble d’un système d’exploitation de bureau, et pas seulement sur les navigateurs Web.

La plupart des agents informatiques disponibles dans le commerce, y compris les premières versions de Claude Computer Use d’Anthropic, se concentrent principalement sur les tâches basées sur un navigateur. Cette limitation exclut de vastes catégories de travaux de productivité effectués dans les applications de bureau : feuilles de calcul dans Microsoft Excel, communications dans Slack, travail de conception dans les produits Adobe, édition de code dans les environnements de développement.

OpenAGI affirme que Lux peut naviguer dans ces applications natives, une capacité qui élargirait considérablement le marché adressable des agents informatiques. La société publie un kit de développement logiciel pour développeurs parallèlement au modèle, permettant à des tiers de créer des applications sur Lux.

La société travaille également avec Intel pour optimiser Lux pour les appareils de pointe, ce qui permettrait au modèle de s’exécuter localement sur des ordinateurs portables et des postes de travail plutôt que de nécessiter une infrastructure cloud. Ce partenariat pourrait répondre aux préoccupations des entreprises concernant l’envoi de données d’écran sensibles à des serveurs externes.

"Nous travaillons en partenariat avec Intel pour optimiser notre modèle sur les appareils de pointe, ce qui en fera le meilleur modèle d’utilisation informatique sur appareil," Qin a dit.

La société a confirmé qu’elle était en discussion exploratoire avec AMD et Microsoft concernant des partenariats supplémentaires.

Que se passe-t-il lorsque vous demandez à un agent AI de copier vos coordonnées bancaires

Les agents informatiques présentent de nouveaux défis en matière de sécurité qui ne se posent pas avec les chatbots conventionnels. Un système d’IA capable de cliquer sur des boutons, de saisir du texte et de naviguer dans des applications pourrait, s’il était mal orienté, causer des dommages importants : transfert d’argent, suppression de fichiers ou exfiltration d’informations sensibles.

OpenAGI affirme avoir intégré des mécanismes de sécurité directement dans Lux. Lorsque le modèle rencontre des demandes qui violent ses politiques de sécurité, il refuse de continuer et alerte l’utilisateur.

Dans un exemple fourni par l’entreprise, lorsqu’un utilisateur a demandé au modèle de "copier mes coordonnées bancaires et les coller dans un nouveau document Google," Lux a répondu par une étape de raisonnement interne : "L’utilisateur me demande de copier les coordonnées bancaires, qui sont des informations sensibles. En raison de la politique de sécurité, je ne suis pas en mesure d’effectuer cette action." Le modèle a ensuite émis un avertissement à l’utilisateur plutôt que d’exécuter la requête potentiellement dangereuse.

Ces garanties feront l’objet d’un examen minutieux à mesure que les agents informatiques prolifèrent. Les chercheurs en sécurité ont déjà démontré des attaques par injection rapide contre les premiers systèmes d’agents, où des instructions malveillantes intégrées dans des sites Web ou des documents peuvent détourner le comportement d’un agent. Des chercheurs indépendants doivent encore vérifier si les mécanismes de sécurité de Lux peuvent résister aux attaques adverses.

Le chercheur du MIT qui a construit deux des modèles d’IA les plus téléchargés de GitHub

Qin apporte à OpenAGI une combinaison inhabituelle de diplômes universitaires et d’expérience entrepreneuriale.

Il a terminé son doctorat au Massachusetts Institute of Technology en 2025, où ses recherches portaient sur la vision par ordinateur, la robotique et l’apprentissage automatique. Ses travaux universitaires ont été présentés dans des lieux de premier plan, notamment la Conférence sur la vision par ordinateur et la reconnaissance de formes, la Conférence internationale sur les représentations d’apprentissage et la Conférence internationale sur l’apprentissage automatique.

Avant de fonder OpenAGI, Qin a construit plusieurs systèmes d’IA largement adoptés. JetMoE, un grand modèle de langage dont il a dirigé le développement, a démontré qu’un modèle très performant pouvait être formé à partir de zéro pour moins de 100 000 $, soit une fraction des dizaines de millions généralement requis. Le modèle a surpassé le LLaMA2-7B de Meta sur les benchmarks standards, selon un rapport technique qui a attiré l’attention du laboratoire d’informatique et d’intelligence artificielle du MIT.

Ses précédents projets open source ont connu une adoption remarquable. OpenVoice, un modèle de clonage vocal, a accumulé environ 35 000 étoiles sur GitHub et s’est classé parmi les 0,03 % des projets open source en termes de popularité. MeloTTS, un système de synthèse vocale, a été téléchargé plus de 19 millions de fois, ce qui en fait l’un des modèles d’IA audio les plus utilisés depuis sa sortie en 2024.

Qin a également cofondé MyShell, une plateforme d’agents IA qui a attiré six millions d’utilisateurs qui ont collectivement créé plus de 200 000 agents IA. Les utilisateurs ont eu plus d’un milliard d’interactions avec des agents sur la plateforme, selon l’entreprise.

Dans la course au milliard de dollars pour créer une IA qui contrôle votre ordinateur

Le marché des agents informatiques a suscité un vif intérêt de la part des investisseurs et des géants de la technologie au cours de l’année écoulée.

OpenAI a publié Operator en janvier, permettant aux utilisateurs de demander à une IA d’effectuer des tâches sur le Web. Anthropic a continué à développer Claude Computer Use, en le positionnant comme une capacité essentielle de sa famille de modèles Claude. Google a intégré des fonctionnalités d’agent dans ses produits Gemini. Microsoft a intégré des capacités d’agent dans ses offres Copilot et Windows.

Pourtant, le marché reste naissant. L’adoption par les entreprises a été limitée par des préoccupations concernant la fiabilité, la sécurité et la capacité à gérer les cas extrêmes qui surviennent fréquemment dans les flux de travail du monde réel. Les écarts de performances révélés par des benchmarks comme Online-Mind2Web suggèrent que les systèmes actuels ne sont peut-être pas prêts pour les applications critiques.

OpenAGI entre dans ce paysage concurrentiel en tant qu’alternative indépendante, en positionnant des performances de référence supérieures et des coûts inférieurs par rapport aux ressources massives de ses rivaux bien financés. Le modèle Lux et le SDK de développement de la société sont disponibles à partir d’aujourd’hui.

La question centrale reste-t-elle de savoir si OpenAGI peut traduire la domination des benchmarks en fiabilité dans le monde réel ? L’industrie de l’IA a une longue histoire de démonstrations impressionnantes qui échouent en production, de résultats de laboratoire qui s’effondrent face au chaos de l’utilisation réelle. Les benchmarks mesurent ce qu’ils mesurent, et la distance entre un test contrôlé et une journée de travail de 8 heures pleine de cas extrêmes, d’exceptions et de surprises peut être vaste.

Mais si Lux fonctionne dans la nature comme il le fait en laboratoire, les implications s’étendent bien au-delà du succès d’une startup. Cela suggère que le chemin vers des agents d’IA performants ne passe pas par les plus gros chéquiers mais par les architectures les plus intelligentes – qu’une petite équipe avec les bonnes idées peut déjouer les géants.

L’industrie technologique a déjà vu cette histoire. Cela reste rarement vrai longtemps.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button