Nous Research vient de publier Nomos 1, une IA open source qui se classe deuxième à l’examen de mathématiques notoirement brutal de Putnam.

Nous Research, la startup d’intelligence artificielle basée à San Francisco, a publié mardi un système de raisonnement mathématique open source appelé Nomos 1 qui a atteint des performances humaines proches de l’élite lors du concours mathématique William Lowell Putnam de cette année, l’un des concours de mathématiques de premier cycle les plus prestigieux et notoirement difficiles au monde.
Le Putnam est connu pour sa difficulté : alors qu’un score parfait est de 120, le meilleur score de cette année était de 90 et la médiane n’était que de 2. Nomos 1, en revanche, a marqué 87 points – un résultat qui l’aurait classé deuxième sur 3 988 participants au concours de 2024, selon l’entreprise.
Cette version marque un point d’inflexion dans la course qui s’accélère rapidement pour construire des systèmes d’IA capables d’un raisonnement mathématique sophistiqué. Contrairement aux modèles massifs et gourmands en calcul déployés par les grandes entreprises technologiques, Nomos 1 obtient ses résultats avec une architecture relativement compacte : 30 milliards de paramètres dont environ 3 milliards actifs à tout moment, en utilisant une conception mixte d’experts basée sur le modèle Qwen3 d’Alibaba.
"Ce score se classerait n°2/3988 en 2024 et marque notre premier pas avec Hillclimb AI vers la création d’un mathématicien SOTA AI," Nous Research l’a annoncé mardi sur les réseaux sociaux.
Le même modèle de base a obtenu 24 points sans la formation spécialisée de Nous Research
Le plus frappant est peut-être l’écart entre Nomos 1 et son modèle de base. Lorsque Nous Research a exécuté le même modèle Qwen3-30B-A3B-Thinking-2507 via un harnais de test identique, il n’a obtenu que 24 sur 120, un résultat qui souligne l’importance cruciale de l’optimisation post-formation et des techniques de raisonnement spécialisées à l’échelle du modèle brut.
"Nomos 1 a obtenu un 87/120 avec 8 notes parfaites," a déclaré la société, notant que la différence de performance "est en grande partie dû à la post-formation et à la qualité des données plutôt qu’au harnais."
Les résultats ont été vérifiés par notation à l’aveugle par un expert humain qui avait déjà terminé dans le top 200 du Putnam. Nous Research a fourni les soumissions anonymisées à l’évaluateur, puis a publié l’ensemble complet des fichiers désanonymisés et les runbooks utilisés pour les générer sur GitHub.
Pourquoi le concours Putnam est considéré comme le test ultime du raisonnement mathématique
Le Concours mathématique William Lowell Putnam est un concours annuel de mathématiques destiné aux étudiants de premier cycle inscrits dans des établissements d’enseignement supérieur aux États-Unis et au Canada. Il est largement considéré comme le concours de mathématiques de niveau universitaire le plus prestigieux au monde.
Le concours mathématique notoirement brutal William Lowell Putnam est plus un événement sportif mathématique qu’un test académique. L’examen comprend deux séances de 3 heures séparées par une pause de 2 heures. Il y a un total de 12 questions à résoudre, 6 pour chaque session. Chaque question vaut 10 points, pour un total de 120 points.
Les questions Putnam ne sont pas du genre à apparaître dans les examens ou les manuels réguliers. Ils ressemblent plus à des énigmes qu’à des calculs, obligeant souvent les élèves à trouver différentes façons de représenter les choses avant qu’une solution puisse se révéler.
L’année dernière, près de 4 000 étudiants à travers le continent ont écrit le Putnam. Soixante et un pour cent ont obtenu trois points ou moins, selon la Mathematical Association of America, qui organise le concours. La meilleure note était de 90 sur 120.
De nombreux boursiers Putnam sont devenus d’éminents chercheurs en mathématiques et dans d’autres domaines, notamment trois médaillés Fields – John Milnor, David Mumford et Daniel Quillen – et deux lauréats du prix Nobel de physique – Richard Feynman et Kenneth Wilson.
À l’intérieur du système de raisonnement en deux phases qui alimente les avancées mathématiques de Nomos 1
Nomos 1 est une spécialisation du modèle Qwen3-30B-A3B-Thinking de Qwen, optimisé pour la résolution de problèmes mathématiques et la rédaction de preuves en langage naturel. Le système a été développé en collaboration avec Hillclimb AI.
Ce qui distingue Nomos 1 de la simple inférence de modèle est son faisceau de raisonnement sophistiqué : un cadre open source qui orchestre la manière dont le modèle aborde et résout les problèmes. Le harnais fonctionne en deux phases distinctes dans un délai de trois heures, reflétant la structure réelle de la compétition Putnam.
Lors de la phase de résolution, les travailleurs parallèles abordent simultanément les problèmes en utilisant un système basé sur les priorités. Chaque travailleur choisit un problème, génère une soumission, puis note son propre travail sur une échelle de 1 à 7. Les problèmes avec le moins de notes parfaites sont prioritaires, garantissant ainsi que le système concentre son calcul sur les défis les plus difficiles. Ce processus se poursuit jusqu’à ce que tous les problèmes aient atteint un nombre cible de scores parfaits autocritiques ou que le temps soit écoulé.
La phase de finalisation commence 15 minutes avant la limite de temps (ou à 50 % pour les séries plus courtes) et utilise un processus de sélection en deux étapes. Premièrement, une étape de consolidation regroupe les soumissions par conclusion et tente d’identifier le bon groupe – et surtout, pas nécessairement le groupe majoritaire. Ensuite, un tournoi par paires utilisant l’élimination simple détermine la soumission finale pour chaque problème.
"Notre système de raisonnement open source comprend une phase de résolution, au cours de laquelle les travailleurs tentent de résoudre le problème le moins résolu et s’auto-évaluent, suivie d’une phase de finalisation, qui consolide les soumissions pour choisir une soumission finale pour chaque problème." Nous Research a expliqué.
Comment Nomos 1 se compare aux systèmes d’IA mathématique de DeepSeek, Google et OpenAI
Les résultats de Nomos 1 arrivent au milieu d’une vague d’avancées en matière d’IA de raisonnement mathématique. Le modèle de DeepSeek, DeepSeekMath-V2, a obtenu 118 points sur 120 aux questions du concours mathématique William Lowell Putnam 2024, battant le meilleur score humain de 90. Le modèle a également atteint le niveau des médaillés d’or à l’Olympiade mathématique internationale.
Cette année, le modèle avancé Gemini de Google a fonctionné de bout en bout en langage naturel, produisant des preuves mathématiques rigoureuses directement à partir des descriptions officielles des problèmes, le tout dans le délai de compétition de 4,5 heures. Ils ont obtenu le résultat de cette année en utilisant une version avancée de Gemini Deep Think.
Ce qui rend la réussite de Nomos 1 remarquable, ce ne sont pas ses performances brutes (il est à la traîne par rapport aux 118/120 de DeepSeek) mais plutôt son accessibilité et son efficacité. Avec 30 milliards de paramètres dont seulement 3 milliards actifs, le modèle peut fonctionner sur du matériel grand public, un contraste frappant avec les clusters de calcul massifs requis par les modèles pionniers d’OpenAI et de Google.
Hermes 4.3 est arrivé six jours plus tôt, formé sur un réseau blockchain décentralisé
L’annonce de Nomos 1 suit de près la sortie le 3 décembre par Nous Research d’Hermes 4.3, un modèle de langage à usage général qui a marqué une autre étape importante pour l’entreprise.
Hermes 4.3, basé sur le modèle Seed-OSS-36B-Base de ByteDance, est le premier modèle de production que Nous Research a entièrement formé sur son réseau Psyche – une infrastructure de formation distribuée qui utilise un nouvel optimiseur appelé DisTrO pour coordonner la formation entre les nœuds répartis dans les centres de données sur Internet ouvert, sécurisé par consensus sur la blockchain Solana.
L’entreprise a formé Hermes 4.3 à la fois via des méthodes centralisées traditionnelles et sur le réseau Psyche, spécifiquement pour vérifier que la formation distribuée pouvait égaler ou dépasser les performances centralisées pour les charges de travail de production. La version formée par Psyche a surpassé la version centralisée dans une suite de tâches en aval, a rapporté la société.
"L’entraînement s’est avéré stable tout au long, avec une moyenne de 144 000 jetons/seconde répartis sur 24 nœuds Psyché," » a déclaré Nous Research. "Grâce à la stratégie collective superposée de DisTrO, l’intégralité des communications P2P a été masquée par le temps de formation, atteignant ainsi un débit équivalent à celui d’une formation traditionnelle et centralisée."
Hermes 4.3 a également obtenu des résultats de pointe sur RefusalBench, un nouveau benchmark qui mesure la volonté d’un modèle d’être utile dans une variété de scénarios généralement restreints par d’autres modèles. Le modèle a répondu à 74,60 % des questions de RefusalBench en mode non-raisonnement, surpassant son prédécesseur Hermes 4 70B (59,50 %) et surpassant les modèles fermés dont Grok 4 (51,30 %) et Gemini 2.5 Pro (24,23 %).
Les petits modèles dotés d’une formation intelligente comblent l’écart avec les géants dotés de milliers de milliards de paramètres
Ensemble, les deux versions en une seule semaine signalent le pari stratégique de Nous Research : des modèles plus petits et plus efficaces dotés de techniques de post-formation et d’outils de raisonnement sophistiqués peuvent rivaliser avec – et dans certains cas surpasser – les modèles massifs développés par des concurrents mieux financés.
Pour les décideurs d’entreprise, les implications sont importantes. Les capacités de raisonnement mathématique ont des applications bien au-delà des compétitions académiques : elles sont essentielles pour la vérification formelle, la preuve de théorèmes, la modélisation scientifique, l’analyse cryptographique et tout domaine nécessitant une déduction logique rigoureuse.
La nature open source des deux versions (Nomos 1 est disponible sous la licence Apache 2.0 sur Hugging Face, avec l’ensemble du raisonnement sur GitHub) signifie que les organisations peuvent déployer ces fonctionnalités sur leur propre infrastructure sans recourir aux appels d’API aux principaux fournisseurs de cloud.
"Pour la première fois, n’importe qui peut exécuter ou accéder à un mathématicien IA de pointe," a noté un observateur sur les réseaux sociaux. "Cela réduit les obstacles à la recherche sérieuse en mathématiques, à la vérification des preuves, à la modélisation de systèmes complexes et au travail de raisonnement avancé."
Les principaux contributeurs à Nomos 1 incluent Roger Jin, qui a dirigé la formation ; Jeffrey Quesnelle et Dakota Mahan, qui ont construit l’infrastructure ; Chen Guang, qui a conseillé ; et Ryan Teknium et Jeffrey Quesnelle, qui ont assuré le leadership. Le modèle a été développé avec les contributions de Hillclimb AI et d’une équipe d’experts en mathématiques, dont Samuel Kim, Miron Yurkevich et d’autres.
La course à la formation de mathématiciens en IA s’accélère plus vite que prévu
Le 86e concours Putnam a eu lieu le samedi 6 décembre 2025, trois jours seulement avant la publication de Nomos 1 par Nous Research. Le timing souligne à quelle vitesse le domaine évolue : les entreprises lancent désormais des systèmes d’IA mathématique capables d’atteindre des performances humaines proches de l’élite quelques jours après les compétitions qu’ils sont censés résoudre.
La concurrence dans le domaine de l’IA mathématique s’est considérablement intensifiée ces derniers mois. En juillet, une version avancée du modèle Gemini de Google DeepMind et un modèle de raisonnement expérimental d’OpenAI ont tous deux obtenu le statut or à l’OMI 2025. Le nouveau modèle de DeepSeek a égalé leurs performances, résolvant 5 problèmes sur 6.
Mais les besoins en ressources pour ces systèmes frontières restent prohibitifs pour la plupart des organisations. L’o1-pro d’OpenAI est estimé à plus de 1,8 billion de paramètres ; Le Gemini 2.5 Pro de Google dépasse probablement les 400 milliards. Nomos 1, en revanche, obtient des résultats compétitifs avec une fraction de cette empreinte.
L’écart entre les modèles pionniers massifs et les alternatives open source efficaces se réduit. Et pour les organisations qui ont besoin de capacités de raisonnement mathématique sans disposer du budget nécessaire au calcul à grande échelle, cet écart vient peut-être d’être suffisamment réduit pour avoir de l’importance.
Comme l’a dit un observateur sur les réseaux sociaux : "Cela marque un bond significatif pour les modèles mathématiques d’IA suffisamment petits pour fonctionner sur votre ordinateur portable."
Un ordinateur portable qui peut désormais surpasser près de 4 000 des meilleurs mathématiciens de premier cycle du continent.




