Technical News

Bright Data Beat Elon Musk et Meta en cour – maintenant sa plate-forme AI de 100 millions de dollars affronte Big Tech

Vous voulez des informations plus intelligentes dans votre boîte de réception? Inscrivez-vous à nos newsletters hebdomadaires pour obtenir uniquement ce qui compte pour les chefs d’IA en entreprise, les données et les chefs de sécurité. Abonnez-vous maintenant


Bright Data, la société israélienne de grattage Web qui a battu à la fois Meta et Elon Musk dans le tribunal fédéral, a dévoilé une suite complète de l’infrastructure d’IA mercredi conçue pour donner aux systèmes d’intelligence artificielle un accès sans entrave aux données Web en temps réel – une capacité que la société soutient que les grandes plates-formes technologiques tentent de monopoliser.

L’annonce des protocoles de collecte de données approfondis, Browser.ai et améliorés représentent une expansion dramatique pour la société vieille de décennie, qui est passée d’un service de grattage Web spécialisé dans ce que le PDG ou Lenchner appelle «une couche d’infrastructure unique pour les sociétés d’IA». Cette décision intervient alors que les sociétés d’intelligence artificielle ont de plus en plus du mal à accéder aux informations Web actuelles nécessaires pour alimenter les chatbots, les agents autonomes et d’autres applications d’IA.

“L’intelligence des LLM d’aujourd’hui n’est plus son facteur limitant; l’accès est”, a déclaré Lenchner dans une interview exclusive avec VentureBeat. «Nous avons passé la dernière décennie à nous battre pour un accès ouvert aux données Web publiques, et ces nouvelles offres nous amènent au chapitre suivant de notre voyage, caractérisé par des données vraiment accessibles et la montée en puissance des agents contextuellement conscients.»

Le lancement fait suite à des victoires juridiques de Bright Data en 2024, lorsque les juges fédéraux ont rejeté les poursuites de Meta et X alléguant que la société a illégalement gratté leurs plateformes. Ces décisions ont établi un précédent juridique crucial définissant ce qui constitue des «données publiques» sur Internet – des informations qui peuvent être consultées sans se connecter et peuvent donc être légalement collectées et utilisées.

Les affaires judiciaires ont révélé que Meta et X avaient été des clients de données brillantes, même en poursuivant l’entreprise, soulignant la position contradictoire que de nombreux géants de la technologie ont pris vers le grattage Web. Les décisions ont des implications plus larges pour l’industrie de l’IA, qui s’appuie fortement sur les données Web pour former et exploiter des modèles de langage.

“Il a été révélé devant le tribunal que les deux étaient un client de données brillantes, car tout le monde avait besoin de données, tout le monde, en particulier ceux qui construisent des modèles”, a expliqué Lenchner. «Nous sommes la seule entreprise à disposer des ressources financières, et je dirais même le courage de le faire.»

Le juge William Alsup, qui a présidé l’affaire X, a écrit que donner aux sociétés de médias sociaux «gratuitement à décider, sur n’importe quelle base, qui peut collecter et utiliser des données» risque de créer des «monopoles d’information qui disserveraient l’intérêt public». La décision a établi que les données visibles sans identification de connexion constituent des informations publiques qui peuvent être légalement grattées.

Bright Data avait précédemment déposé une contre-combinaison contre X, alléguant que la plate-forme avait violé les lois antitrust en essayant de créer un monopole de données au profit de la société d’IA de Musk, XAI. Cependant, cette affaire a depuis été réglée. «Bien que les termes confidentiels, des données brillantes ne se soient jamais retirées de sa croyance fondamentale selon laquelle les données publiques devraient être disponibles pour le public. Conformément à cette croyance, nous sommes heureux d’annoncer que des données brillantes continueront de fournir les mêmes services de pointe que ce qu’il a toujours et que nos clients sont devenus s’attendre», a déclaré Lenchner.

Recherche profonde et navigateur.

Les nouveaux produits de l’entreprise abordent ce que Lenchner identifie comme les trois exigences de base pour les systèmes d’IA: algorithmes, alimentation de calcul et accès aux données. Bien que les données lumineuses ne développent pas d’algorithmes d’IA ou ne fournissent pas de ressources informatiques, il vise à devenir la solution définitive pour la troisième exigence.

La recherche profonde fonctionne comme un moteur de recherche en langage naturel conçu pour répondre aux questions commerciales complexes et multicouches en temps réel. Contrairement aux moteurs de recherche à usage général ou aux chatbots d’IA qui fournissent des résumés, Deep Lookup est spécialisé dans les résultats complets pour les requêtes commençant par «trouver tout». Par exemple, les utilisateurs peuvent demander «toutes les compagnies maritimes qui ont parcouru les canaux du Panama et de Suez en 2023 dont les revenus du troisième trimestre ont diminué de plus de 2%».

Le système s’inspire des archives Web massives de Bright Data, qui contient actuellement plus de 200 milliards de pages HTML et ajoute 15 milliards de mois. D’ici l’année prochaine, les archives devraient dépasser 500 milliards de pages. “Ce ne sont pas seulement des pages Web aléatoires, c’est en fait ce qui se soucie du monde, car nos 20 000 clients représentent des milliards d’interposeurs”, a noté Lenchner.

Browser.ai représente ce que l’entreprise appelle «le premier navigateur Ai-Native non bloquable de l’industrie». Conçu spécifiquement pour les agents d’IA autonomes, le service basé sur le cloud imite le comportement humain pour accéder aux sites Web sans déclencher de systèmes de détection de bot. Il prend en charge les commandes en langage naturel et peut effectuer des interactions Web complexes comme la réservation de vols ou la réservation de restaurants.

L’infrastructure du navigateur traite déjà plus de 150 millions d’actions Web par jour, selon la société. “Presque tous sont des clients”, a déclaré Lenchner à propos des sociétés d’agent d’IA qui ont collecté un financement important. “Parce que ce que nous avons compris, et ils ont compris, c’est que nous résolvons ce problème d’entrer sur un site Web sans être bloqué et exécuter des actions Web sur le site Web.”

Les serveurs MCP (Model Context Protocol) fournit une couche de contrôle de faible latence permettant aux agents d’IA de rechercher, d’explorer et d’extraire les données en direct en temps réel. Le protocole permet aux développeurs de construire des systèmes d’IA qui peuvent agir sur les informations actuelles plutôt que de s’appuyer uniquement sur les données de formation.

Portefeuille de brevets et réseau proxy créent des douves compétitives contre le blocage

L’avantage concurrentiel de Bright Data découle de ce que Lenchner décrit comme une «obsession» pour surmonter les mécanismes de blocage du site Web. La société détient plus de 5 500 réclamations de brevets sur sa technologie et exploite le plus grand réseau de proxy au monde avec plus de 150 millions d’adresses IP dans 195 pays.

“Nous avons un si bon aperçu d’Internet”, a expliqué Lenchner. “Depuis longtemps, nous cartographons Internet, et depuis longtemps, nous archivons également les gros morceaux d’Internet.”

L’approche de l’entreprise implique des techniques sophistiquées pour imiter le comportement humain, en utilisant de vrais appareils, des adresses IP et des empreintes digitales de navigateur plutôt que de simples scripts automatisés. Cela rend la détection et le blocage extrêmement difficiles pour les sites Web.

“La seule façon de nous bloquer, pratiquement, est de mettre les données derrière la connexion, alors nous n’essaierons même pas”, a déclaré Lenchner. “Parfois, il y a une nouvelle logique de blocage que nous ne résoudrons pas immédiatement. Il faudra à notre équipe de recherche 12 heures, trois jours, c’est le plus qu’il était, et nous le déverrouillerons.”

Les revenus dépassent 100 millions de dollars alors que la demande d’IA explose après le chatte

Alors que les données lumineuses restent privées par une société de capital-investissement, Lenchner a confirmé par VentureBeat Les revenus récurrents annuels de la société ont dépassé 100 millions de dollars il y a plusieurs années. L’entreprise a connu une croissance explosive depuis le lancement de Chatgpt fin 2022, alors que les entreprises d’IA se sont précipitées pour accéder aux données de formation et aux informations en temps réel.

“À partir de mars 2023, qui est à peu près lorsque GPT-3 a changé le monde, l’IA ou ce que nous appelons les données pour l’IA, le cas d’utilisation a tout simplement explosé pour nous en tant qu’entreprise”, a déclaré Lenchner. «Tout le reste se développe également, car tout le monde a besoin de plus de données, point final. Mais ce cas d’utilisation ne ressemble à rien de ce que nous avons vu auparavant.»

L’entreprise dessert plus de 20 000 entreprises, notamment les entreprises du Fortune 500 et les principaux laboratoires d’IA. Les clients traditionnels comprennent les plateformes de commerce électronique qui suivent les prix des concurrents, les sociétés de services financiers à la recherche de l’intelligence du marché et les entreprises menant des recherches commerciales.

La conformité du RGPD et les pratiques éthiques se différencient des concurrents

Bright Data a investi massivement dans l’infrastructure de conformité pour répondre aux problèmes de confidentialité concernant la collecte des données. L’entreprise suit les réglementations européennes du RGPD et de la CCPA en Californie, informant automatiquement les individus lorsque leurs informations personnelles sont collectées auprès de sources publiques et offrant des options de suppression.

“Le règlement et la législation sont clairs depuis que le RGPD européen et au moins les réglementations en Californie et CCPA sont venus jouer”, a expliqué Lenchner. “Si nous avons collecté votre adresse e-mail, par exemple, nous vous enverrons automatiquement un e-mail disant:” Hé, c’est qui nous sommes. Nous avons collecté vos informations personnelles dans le domaine public. Voici un bouton énorme que vous pouvez cliquer si vous souhaitez le revoir, et vous pouvez évidemment demander de le supprimer. “”

La société maintient une grande équipe de conformité et une documentation approfondie de ses pratiques, qui s’est avérée précieuse lors des procédures judiciaires. “Nous, les entreprises, nous aimons particulièrement parce que nous avons notre stand éthique qui a été examiné deux fois dans les courts américains”, a déclaré Lenchner.

Les guerres d’accès Web s’intensifient alors que les géants de la technologie recherchent des monopoles de données

La bataille sur l’accès aux données Web reflète des tensions plus larges dans l’industrie de l’IA sur le contrôle de l’information et un avantage concurrentiel. Au fur et à mesure que les systèmes IA deviennent plus sophistiqués, l’accès aux données Web actuelles et complets devient de plus en plus précieuses – et controversées.

Lenchner prédit que le Web deviendra «plus fermé» au fil du temps, similaire à la façon dont Google maintient l’accès exclusif à ses capacités de rampe Web tandis que d’autres doivent utiliser des services alternatifs. “Quelques géants de la technologie auront un accès gratuit à chaque site Web avec leurs agents”, a-t-il déclaré. «Le reste devra utiliser notre infrastructure ou l’infrastructure de quelqu’un d’autre.»

L’entreprise observe également de nouvelles tendances, notamment les entreprises grattant les chatbots d’IA à des fins de marketing et l’émergence de nouveaux protocoles comme MCP qui permettent aux agents d’IA d’interagir plus efficacement avec les services Web.

“Tous ces gars qui consomment des quantités massives de données, et nous les utilisons tous, tout va à la construction du cerveau des robots”, a déclaré Lenchner. “C’est normal que vous ayez un chatbot qui parle à un humain, car c’est finalement ce qu’un robot fera.”

Les cerveaux de robot et l’économie des agents stimulent la prochaine phase de croissance

La transformation de Bright Data du service de grattage Web en fournisseur d’infrastructures d’IA reflète les besoins en évolution rapide de l’industrie de l’intelligence artificielle. Alors que les entreprises se précipitent pour déployer des agents d’IA et des systèmes autonomes, l’accès aux données Web en temps réel devient aussi crucial que la puissance de calcul et la sophistication algorithmique.

Les précédents juridiques établis grâce aux victoires en justice de Bright Data peuvent s’avérer aussi importants que ses innovations techniques, façonnant potentiellement la façon dont l’ensemble de l’industrie de l’IA accède et utilise des informations Web. Avec les principales plateformes technologiques restreignant de plus en plus l’accès aux données tout en développant simultanément leurs propres systèmes d’IA, des fournisseurs d’infrastructures indépendants comme les données lumineuses peuvent devenir essentielles pour maintenir un équilibre concurrentiel dans l’écosystème d’IA.

«Nous sommes une entreprise d’infrastructure», a souligné Lenchner. «Nous sommes des ingénieurs très talentueux qui vont à peine n’importe où, nous asseyez simplement avec nos ordinateurs et écrivons du code. Nous le faisons bien. Nous n’avons aucune intention de faire autre chose.»

La bêta de recherche profonde lance mardi pour les clients commerciaux, avec un accès public public disponible via une liste d’attente. Les serveurs Browser.ai et MCP sont déjà disponibles pour les clients d’entreprise via la plate-forme existante de Bright Data.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button