Le week-end dernier, le site e-commerce de Triplegangers a subi ce qui ressemblait initialement à une attaque DDoS classique. La réalité s’est avérée bien plus préoccupante : les robots d’OpenAI tentaient de aspirer massivement les données du site.
Oleksandr Tomchuk, PDG de Triplegangers, a sonné l’alarme samedi dernier lorsque son site, spécialisé dans la vente de modèles 3D humains, est tombé en panne. L’entreprise, qui possède plus de 65 000 produits minutieusement catalogués, s’est retrouvée face à un assaillant inattendu : les crawlers d’OpenAI.
« OpenAI a utilisé plus de 600 adresses IP différentes pour scraper nos données, et ce n’est que la partie émergée de l’iceberg », déclare Tomchuk, visiblement agacé.
Une entreprise prise au piège
Basée en Ukraine avec une licence américaine à Tampa, Triplegangers a passé plus de dix ans à construire sa base de données unique de « doubles numériques humains ». Ces fichiers 3D, scannés à partir de vrais modèles, sont utilisés par l’industrie du jeu vidéo et les artistes 3D.
Le véritable problème réside dans la méthode employée par OpenAI. Sans configuration spécifique du fichier robots.txt, les bots considèrent avoir carte blanche pour aspirer les données. « C’est comme un racket mafieux », ironise Tomchuk. « Soit vous vous protégez, soit ils prennent ce qu’ils veulent. »
Un phénomène en explosion
D’après les dernières données de DoubleVerify, le trafic invalide généré par les crawlers d’IA a augmenté de 86% en 2024. Les conséquences sont multiples :
- Surcharge des serveurs
- Factures AWS gonflées
- Risques liés aux droits d’auteur et au RGPD
- Impossibilité de contacter OpenAI pour faire retirer le contenu collecté
Les solutions mises en place
Triplegangers a finalement réussi à se protéger en :
- Configurant correctement son fichier robots.txt
- Déployant une protection Cloudflare
- Bloquant divers bots incluant GPTBot, Barkrowler et Bytespider
Cette situation soulève des questions éthiques majeures sur les pratiques des géants de l’IA, alors qu’OpenAI n’a toujours pas fourni l’outil de désengagement promis depuis longtemps. Pour Tomchuk, la solution est claire : « Ils devraient demander la permission avant de scraper les données, pas l’inverse. »