De nombreuses sociétés d'intelligence artificielle contournent une norme web commune utilisée par les éditeurs pour bloquer la récupération de leur contenu à des fins d'utilisation dans des systèmes d'intelligence artificielle générative, a déclaré TollBit, une startup spécialisée dans les licences de contenu, aux éditeurs.

La lettre adressée aux éditeurs, dont Reuters a eu connaissance vendredi et qui ne cite ni les sociétés d'IA ni les éditeurs concernés, s'inscrit dans le cadre d'un conflit public entre la startup de recherche d'IA Perplexity et le média Forbes concernant la même norme web et d'un débat plus large entre les entreprises technologiques et médiatiques sur la valeur du contenu à l'ère de l'IA générative. L'éditeur de médias économiques a publiquement accusé Perplexity de plagier ses articles d'investigation dans des résumés générés par l'IA sans citer Forbes ni lui demander sa permission.

Une enquête de Wired publiée cette semaine a révélé que Perplexity avait probablement contourné les efforts visant à bloquer son robot d'exploration du web via le protocole d'exclusion des robots, ou "robots.txt", une norme largement acceptée destinée à déterminer quelles parties d'un site sont autorisées à être explorées.

Perplexity a refusé de répondre à une demande de commentaire de Reuters sur ce litige.

TollBit, une startup en phase de démarrage, se positionne comme un intermédiaire entre les entreprises d'IA avides de contenu et les éditeurs prêts à conclure des accords de licence avec elles.

L'entreprise suit le trafic de l'IA sur les sites web des éditeurs et utilise les analyses pour aider les deux parties à s'entendre sur les droits à payer pour l'utilisation de différents types de contenu.

Par exemple, les éditeurs peuvent choisir de fixer des tarifs plus élevés pour les "contenus de qualité supérieure, tels que les dernières nouvelles ou des informations exclusives", explique l'entreprise sur son site web.

En mai, 50 sites web étaient en activité, sans toutefois les nommer.

Selon la lettre de TollBit, Perplexity n'est pas le seul contrevenant qui semble ignorer le fichier robots.txt.

TollBit a déclaré que ses analyses indiquent que de "nombreux" agents d'intelligence artificielle contournent le protocole, un outil standard utilisé par les éditeurs pour indiquer quelles parties de leur site peuvent être explorées.

"Ce que cela signifie concrètement, c'est que des agents d'intelligence artificielle provenant de sources multiples (et non d'une seule entreprise) choisissent de contourner le protocole robots.txt pour récupérer le contenu des sites", a écrit TollBit. "Plus nous ingérons de journaux d'éditeurs, plus ce modèle émerge.

Le protocole robots.txt a été créé au milieu des années 1990 pour éviter de surcharger les sites web avec des robots d'indexation. Bien qu'il n'existe pas de mécanisme légal d'application, le respect de ce protocole a toujours été très répandu sur le web.

Plus récemment, le protocole robots.txt est devenu un outil essentiel utilisé par les éditeurs pour empêcher les entreprises technologiques d'ingérer gratuitement leur contenu en vue de l'utiliser dans des systèmes d'IA générative capables d'imiter la créativité humaine et de résumer instantanément des articles.

Les sociétés d'IA utilisent le contenu à la fois pour entraîner leurs algorithmes et pour générer des résumés d'informations en temps réel.

Certains éditeurs, dont le New York Times, ont poursuivi les sociétés d'IA pour violation des droits d'auteur en raison de ces utilisations. D'autres signent des accords de licence avec les entreprises d'IA qui sont disposées à payer pour le contenu, bien que les parties soient souvent en désaccord sur la valeur du matériel. De nombreux développeurs d'IA soutiennent qu'ils n'ont enfreint aucune loi en accédant gratuitement à ces contenus.

Thomson Reuters, propriétaire de Reuters News, fait partie de ceux qui ont conclu des accords de licence pour l'utilisation de contenus d'information par des modèles d'IA.

Les éditeurs ont tiré la sonnette d'alarme au sujet des résumés d'actualité, en particulier depuis que Google a lancé l'année dernière un produit qui utilise l'IA pour créer des résumés en réponse à certaines requêtes de recherche.

Si les éditeurs veulent empêcher que leur contenu soit utilisé par l'IA de Google pour générer ces résumés, ils doivent utiliser le même outil qui les empêcherait également d'apparaître dans les résultats de recherche de Google, ce qui les rendrait pratiquement invisibles sur le web. (Reportage de Katie Paul à New York ; Rédaction de Kenneth Li et Jamie Freed)