Portrait-Robot de Brightdata.com, dataset for AI & media monitoring

Les précédents botservatoires

Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online & print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA …

Portrait-Robot de Brightdata (dataset for AI, media monitoring)

Brightdata propose de très nombreux services, notamment:

-les proxies tournants (qui permettent de multiplier les ips locales temporaires),

-le scraping de contenus

-les apis d’accès à des datasets…

Brightdata nous garantit un scraping « éthique » grâce à son Brightbot, qui respecte un fichier « collector.txt » , une sorte de robots.txt dédié à ce type de scraping ( ?). Brightbot monitore les sites scrapés pour adapter son activité à la charge supportable par les sites ciblés.

Dans la foulée, Brightdata.com détaille son scraping éthique, mais sans Brightbot cette fois, avec

-des user agents de navigateurs identifiés comme des internautes

des proxies rotatifs, de fausses pages de provenance, de résolutions de captchas… toutes solutions permettant de collecter les datas nécessaires aux usages B2B, dans un strict cadre de « data for good »

“Data is the fuel that drives AI innovation, and at The Bright Initiative, Bright Data’s data-for-good program, we are committed to harnessing AI’s potential for positive change. Through strategic partnerships, research support, and ethical data access, we empower our partners to create meaningful social impact.

The Bright Initiative provides pro-bono access to Bright Data’s industry-leading data collection technology and datasets to nonprofit organizations, academic institutions, researchers, and public bodies working in the AI for Good space.”

Le scrap peut se faire via IA :

Brightdata annonce plus de 20.000 clients, Chiffre d’affaires estimé : $220.1M per year, 1084 Employees (+30%)

  1. obéir à robots.txt : on ne voit pas Brightdata consulter robots.txt
  2. Stats sur Botscorner: Les stats Brightdata montrent une activité conséquente sur les sites (France) équipés de Botscorner : jusqu’à 50.000 pages sur une journée.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *