Aller au contenu principal
A robot aspiring the Internet
ClaudeBot d'Anthropic : Un Web Crawler Controversé

Anthropic est une entreprise américaine d'intelligence artificielle (IA) fondée en 2021 par d'anciens membres d'OpenAI, dont Dario Amodei (ex vice-président de la recherche d'OpenAI). La création d'Anthropic est le résultat de désaccords sur la vision stratégique d’OpenAI en son temps et de son partenariat avec Microsoft en 2019.

Anthropic a pris parti de se spécialiser dans le développement d'intelligences artificielles générales et de modèles de langage, avec une philosophie d'entreprise axée sur l'utilisation responsable de l'IA. Cette approche n’a pas manqué d'attirer l'attention et les investissements de géants de la tech tels qu'Amazon et Google, qui ont récemment injecté plusieurs milliards de dollars dans la société.

L'un des projets phares d'Anthropic est Claude, un chatbot semblable à ChatGPT. Claude utilise une interface de messagerie où les utilisateurs peuvent soumettre des questions ou des demandes et recevoir des réponses très détaillées et pertinentes.

 

Exploration

Un web crawler, également connu sous le nom d'araignée ou de robot d'indexation est un programme informatique qui parcourt le Web en suivant les liens hypertextes d'une page web à une autre. Son objectif principal est d'indexer le contenu de ces pages pour les moteurs de recherche, améliorant ainsi la qualité des résultats de recherche. C’est ce qu’utilise Google et Apple pour Safari par exemple avec leur propre model.(GoogleBot et AppleBot)

Dans le cas d'Anthropic, l’entreprise utilise un web crawler pour entraîner son modèle de langage (LLM, Large Language Models). Le crawler va donc collecter d'énormes quantités de données textuelles à partir de diverses sources en ligne. Ces données sont ensuite utilisées pour former le LLM, lui permettant de comprendre et de générer du langage humain de manière plus précise et naturelle.

Le web crawler d'Anthropic est conçu pour respecter les règles d'exploration définies dans le fichier robots.txt de chaque site web, garantissant ainsi une collecte de données éthique et respectueuse de la vie privée (ce fichier indique aux robots d'exploration d'un moteur de recherche les URL auxquelles il peut accéder sur le site). De plus, l'entreprise s'engage à filtrer et à nettoyer les données collectées pour éliminer tout contenu inapproprié ou préjudiciable, renforçant ainsi l'intégrité et la fiabilité de leur LLM. Cependant, certains administrateurs de site web se seraient récemment plaint du web crawler d’Antropic sur des réseaux.
 

Droits d'Auteur

De nombreux utilisateurs ont exprimé leur frustration face aux pratiques d'Anthropic et de son bot, ClaudeBot. Un utilisateur en particulier a souligné l'hypocrisie perçue des entreprises qui informent les utilisateurs de ne pas utiliser de textes sous copyright dans leurs entrées, tout en formant leurs modèles avec un mépris flagrant pour les droits d'auteur. Cette situation est vécue comme une injustice, où les règles ne s'appliqueraient qu'aux utilisateurs ordinaires et non aux entreprises.

Un autre utilisateur s’interroge sur le respect par ClaudeBot du fichier robots.txt, un standard utilisé par les sites web pour contrôler l'accès des robots d'exploration. Malgré les instructions spécifiques interdisant à ClaudeBot d'explorer certains sites, il continuerait à le faire, ce qui a poussé certains administrateurs à envisager sérieusement le blocage des adresses IP associées au bot.

Un utilisateur a partagé son expérience de recevoir un trafic massif de bot provenant d'Anthropic. Un autre a exprimé sa frustration envers ClaudeBot, allant jusqu'à demander son blocage. Ces témoignages mettent en lumière les préoccupations et les défis auxquels sont confrontés les propriétaires de sites web et les utilisateurs en raison du comportement agressif de ClaudeBot qui va jusqu’au crash des sites web.

D’un autre coté d’autres utilisateurs ont partagé une observation, notant que ClaudeBot était le principal crawler, dépassant même GoogleBot. tout en soulignant que la gestion du trafic des bots est essentielle dans l'ère de l'IA, expliquant le comportement de ClaudeBot.
 

Appels à la Régulation

Cette situation soulève des questions importantes sur les droits d’auteurs pour l’apprentissage des AI. Alors que les entreprises  insistent sur le respect des droits d'auteur par les utilisateurs de leurs modèles d'IA, il semble y avoir une disparité dans la façon dont elles abordent ce problème lors de l'entraînement de leurs propres modèles.

Les droits d'auteur sont cruciaux pour la protection de la propriété intellectuelle et de la promotion de la créativité. Cependant, à l'ère de l'IA, où les données sont le moteur de l'innovation, il peut être difficile de concilier ces deux impératifs.

D'un côté, il est compréhensible que les entreprises d'IA cherchent à collecter autant de données que possible pour améliorer leurs modèles. D'un autre côté, il est tout aussi légitime que les propriétaires de sites web et les créateurs de contenu protègent leurs œuvres et contrôlent la façon dont elles sont utilisées.

Il est donc nécessaire de trouver un équilibre entre ces deux nécessités. Cela pourrait impliquer des changements dans la façon dont nous pensons les droits d'auteur dans le contexte de l'IA, ainsi que des efforts accrus des entreprises d'IA pour respecter les souhaits et les droits des propriétaires de sites web et des créateurs de contenu. 

Face à l'exploration massive d'internet par les bots, il devient impératif pour l'Europe d'accélérer sur la règlementation de l’IA avant que les innovations techniques ne rendent la nouvelle loi (en préparation) dépassées dès sa sortie. 

Pour information, le cadre règlementaire a été posé en avril 2021, la proposition de feuille de route en mai 2022, la position de négociation sur la loi sur l’IA adoptée le 14 juin 2023.