Technical News

Positron estime qu’il a trouvé que le secret affrontera Nvidia dans les puces d’inférence de l’IA – voici comment il pourrait profiter aux entreprises

Vous voulez des informations plus intelligentes dans votre boîte de réception? Inscrivez-vous à nos newsletters hebdomadaires pour obtenir uniquement ce qui compte pour les chefs d’IA en entreprise, les données et les chefs de sécurité. Abonnez-vous maintenant


Alors que la demande de déploiement d’IA à grande échelle monte en marche, le moins connu, La startup de puce privée Positron se positionne comme un challenger direct du leader du marché Nvidia En offrant des puces d’inférence dédiées, économes en énergie et optimisées par la mémoire visant à soulager les goulots d’étranglement de coût, de puissance et de disponibilité de l’industrie.

“Un différenciateur clé est notre capacité à exécuter des modèles d’IA frontaliers avec une meilleure efficacité – comptabiliser les performances de 2x à 5x par watt et un dollar par rapport à Nvidia”, a déclaré Thomas Sohmers, co-fondateur de Positron et CTO, Dans une récente interview d’appel vidéo avec VentureBeat.

De toute évidence, c’est une bonne nouvelle pour les grands fournisseurs de modèles d’IA, mais le leadership de Positron soutient qu’il est utile pour beaucoup plus d’entreprises au-delà, y compris celles qui utilisent des modèles d’IA dans leurs flux de travail, et non comme offres de services aux clients.

«Nous construisons des puces qui peuvent être déployées dans des centaines de centres de données existants car ils ne nécessitent pas de refroidissement liquide ou de densités d’énergie extrêmes», » a souligné Mitesh Agrawal, PDG de Positron et l’ancien chef de l’exploitation du fournisseur d’inférence sur les nuages AI Lambdaégalement dans la même interview d’appel vidéo avec VentureBeat.


La série IA Impact revient à San Francisco – 5 août

La prochaine phase de l’IA est ici – êtes-vous prêt? Rejoignez les dirigeants de Block, GSK et SAP pour un aperçu exclusif de la façon dont les agents autonomes remodèlent les workflows d’entreprise – de la prise de décision en temps réel à l’automatisation de bout en bout.

Sécurisez votre place maintenant – l’espace est limité: https://bit.ly/3guuplf


Les capital-risqueurs et les premiers utilisateurs semblent être d’accord.

Positron a annoncé hier une séries de 51,6 millions de dollars suresbamées Dirigée par Valor Equity Partners, Atreides Management et DFJ Growth, avec le soutien de Flume Ventures, Resilience Reserve, 1517 Fund et sauf si.

Quant à la première clientèle de Positron, qui comprend à la fois les entreprises et les entreprises de la marque des noms opérant dans des secteurs lourds de l’inférence. Les déploiements confirmés incluent le principal fournisseur de réseautage de sécurité et de contenu cloud Cloudflarequi utilise le matériel de l’atlas de Positron dans ses centres de données à l’électricité distribués à l’échelle mondiale, et Parasonvia sa plate-forme d’infrastructure de données AI-Native Snapsserve.

Au-delà de ceux-ci, le positron rapporte l’adoption dans plusieurs verticales clés où une inférence efficace est essentielle, comme Réseautage, jeux, modération de contenu, réseaux de livraison de contenu (CDN) et fournisseurs de jetons en tant que service.

Ces premiers utilisateurs auraient été attirés par la capacité d’Atlas à fournir un débit élevé et une consommation d’énergie inférieure sans nécessiter un refroidissement spécialisé ou une infrastructure retravaillée, ce qui en fait une option de référence attrayante pour les charges de travail IA dans les environnements d’entreprise.

Entrer un marché difficile qui diminue la taille du modèle d’IA et l’efficacité croissante

Mais le positron entre également dans un marché difficile. Les informations Je viens de signaler que rIval Buzzy Ai Inference Chip Startup Groqoù Sohmers travaillait auparavant comme directeur de la stratégie technologique – a réduit sa projection de revenus de 2025 de 2 milliards de dollars + à 500 millions de dollars, soulignant à quel point l’espace matériel de l’IA peut être volatile.

Même les entreprises bien financées sont confrontées à des vents contraires car ils se disputent la capacité du centre de données et l’esprit d’entreprise contre les fournisseurs de GPU enracinés comme NVIDIA, sans parler de l’éléphant dans la pièce: la montée de modèles plus efficaces, plus petits (LLMS) et de modèles linguistiques spécialisés (SLMS) qui peuvent même fonctionner sur des appareils aussi petits et faibles que les smartphones.

Pourtant, le leadership de Positron est pour l’instant d’embrasser la tendance et de hausser les impacts possibles sur sa trajectoire de croissance.

«Il y a toujours eu cette dualité – applications légères sur les appareils locaux et le traitement des poids lourds dans les infrastructures centralisées», a déclaré Agrawal. «Nous pensons que les deux continueront de croître.»

Sohmers a accepté, déclarant: «Nous voyons un avenir où chaque personne pourrait avoir un modèle capable sur son téléphone, mais ceux-ci s’appuieront toujours sur de grands modèles dans les centres de données pour générer des informations plus profondes.»

Atlas est une puce AI d’abord inférieure

Alors que NVIDIA GPUS a aidé à catalyser le boom d’apprentissage en profondeur en accélérant la formation des modèles, Positron soutient que l’inférence – l’étape où les modèles génèrent une production en production – est maintenant le véritable goulot d’étranglement.

Ses fondateurs l’appellent la partie la plus sous-optimisée de la «pile d’IA», en particulier pour les charges de travail généatives d’IA qui dépendent d’une portion de modèle rapide et efficace.

La solution de Positron est Atlas, son accélérateur d’inférence de première génération construit spécifiquement pour gérer les grands modèles de transformateurs.

Contrairement aux GPU à usage général, Atlas est optimisé pour les besoins uniques de mémoire et de débit des tâches d’inférence modernes.

La société affirme qu’Atlas offre 3,5x de meilleures performances par dollar et jusqu’à 66% de consommation d’énergie inférieure à celle du H100 de NVIDIA, tout en réalisant une utilisation de la bande passante de la mémoire de 93% – plus au-dessus de la fourchette typique de 10 à 30% observée dans les GPU.

De Atlas à Titan, prenant en charge les modèles de paramètres de plusieurs villions

Lancé seulement 15 mois après la fondation – et avec seulement 12,5 millions de dollars en Capital Seed – Atlas est déjà expédié et en production.

Le système prend en charge jusqu’à 0,5 billion de modèles de paramètre dans un seul serveur de 2 kW et est compatible avec les modèles de transformateur de face étreintes via un point de terminaison compatible API OpenAI.

Positron se prépare maintenant à lancer sa plate-forme de nouvelle génération, Titan, en 2026.

Construit sur le silicium «Asimov» conçu sur mesure, Titan présentera jusqu’à deux téraoctets de mémoire à grande vitesse par accélérateur et des modèles de support jusqu’à 16 billions de paramètres.

Les modèles frontaliers d’aujourd’hui se situent dans les cent milliards et les milliards de paramètres à un chiffre, mais les nouveaux modèles comme GPT-5 d’Openai sont supposés être dans les multipillions multiples, et les modèles plus importants sont actuellement nécessaires pour atteindre l’intelligence générale artificielle (AGI), l’IA qui dépasse la capacité pour les humains de la plus grande valeur et le contrôle, et la super-prolligence, l’IA qui dépasse la capacité pour les humains pour comprendre et contrôler.

Surtout, Titan est conçu pour fonctionner avec le refroidissement de l’air standard dans les environnements de centre de données conventionnels, évitant les configurations à haute densité refroidies par liquide dont les GPU de nouvelle génération ont besoin de plus en plus.

Ingénierie pour l’efficacité et la compatibilité

Dès le début, Positron a conçu son système à remplacer, permettant aux clients d’utiliser des binaires de modèle existants sans réécriture de code.

“Si un client devait changer son comportement ou ses actions d’une manière, d’une forme ou d’une forme, c’était une barrière”, a déclaré Sohmers.

Sohmers a expliqué qu’au lieu de construire une pile de compilateurs complexes ou des écosystèmes de logiciels de rediffusion, le positron s’est concentré de manière étroite sur l’inférence, concevant directement le matériel qui ingère des modèles formés à Nvidia.

“Le mode Cuda n’est pas quelque chose à combattre”, a déclaré Agrawal. «C’est un écosystème à laquelle participer.»

Cette approche pragmatique a aidé l’entreprise à expédier rapidement son premier produit, à valider les performances avec de vrais utilisateurs d’entreprise et à garantir un investissement de suivi important. De plus, son accent sur le refroidissement par air par rapport au refroidissement liquide fait de ses puces Atlas la seule option pour certains déploiements.

«Nous sommes entièrement concentrés sur les déploiements purement refroidis par air… toutes ces solutions Nvidia Hopper et Blackwell à l’avenir sont nécessaires au refroidissement du liquide… Le seul endroit où vous pouvez mettre ces racks se trouvent dans les centres de données qui sont nouvellement construits maintenant au milieu de nulle part », a déclaré Sohmers.

Tout compte fait, la capacité de Positron à s’exécuter rapidement et en capital a aidé à la distinguer sur un marché de matériel sur l’IA bondé.

La mémoire est ce dont vous avez besoin

Sohmers et Agrawal indiquent un changement fondamental dans les charges de travail de l’IA: des réseaux de neurones convolutionnels liés au calcul aux architectures de transformateur liées à la mémoire.

Alors que les modèles plus anciens exigeaient des flops élevés (opérations à virgule flottante), les transformateurs modernes nécessitent une capacité de mémoire massive et une bande passante pour fonctionner efficacement.

Alors que NVIDIA et d’autres continuent de se concentrer sur la mise à l’échelle du calcul, Positron parie sur la conception de la mémoire.

Sohmers a noté qu’avec l’inférence du transformateur, le rapport entre les opérations de calcul / de mémoire, se dirige vers 1: 1, ce qui signifie que l’augmentation de l’utilisation de la mémoire a un impact direct et spectaculaire sur les performances et l’efficacité énergétique.

ATLAS surperformant déjà des GPU contemporains sur les métriques clés de l’efficacité, Titan vise à aller plus loin en offrant la plus grande capacité de mémoire par puce de l’industrie.

Lors du lancement, Titan devrait offrir une augmentation de l’ordre de grandeur par rapport aux configurations de mémoire GPU typiques – sans exiger des configurations spécialisées de refroidissement ou de réseautage de boutique.

Puces construites américaines

Le pipeline de production de Positron est fièrement domestique. Les puces de première génération de la société ont été fabriquées aux États-Unis à l’aide d’installations Intel, avec un assemblage et une intégration du serveur final également basé au niveau national.

Pour la puce Asimov, la fabrication passera à TSMC, bien que l’équipe vise à conserver autant de chaîne de production aux États-Unis que possible, selon la capacité de la fonderie.

La résilience géopolitique et la stabilité de la chaîne d’approvisionnement deviennent des critères d’achat clés pour de nombreux clients – une autre raison pour laquelle Positron pense que son matériel fabriqué aux États-Unis offre une alternative convaincante.

Quelle est la prochaine étape?

Agrawal a noté que le silicium de Positron cible non seulement une large compatibilité mais une utilité maximale pour les laboratoires d’entreprise, de cloud et de recherche.

Bien que l’entreprise n’ait pas encore nommé des fournisseurs de modèles frontaliers comme clients, il a confirmé que la sensibilisation et les conversations étaient en cours.

Agrawal a souligné que la vente d’infrastructures physiques basées sur l’économie et les performances – ne pas la regrouper avec des API ou des modèles commerciaux propriétaires – fait partie de ce qui donne la crédibilité au positron dans un marché sceptique.

“Si vous ne pouvez pas convaincre un client de déployer votre matériel en fonction de son économie, vous ne serez pas rentable”, a-t-il déclaré.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button