La plateforme de médias sociaux Reddit a déclaré mardi qu'elle mettrait à jour une norme web utilisée par la plateforme pour bloquer le raclage automatisé de données sur son site web, à la suite d'informations selon lesquelles des start-ups spécialisées dans l'IA contournaient la règle pour collecter du contenu pour leurs systèmes.

Cette décision intervient alors que des entreprises d'intelligence artificielle ont été accusées de plagier le contenu d'éditeurs pour créer des résumés générés par l'IA sans en donner le crédit ou en demander la permission.

Reddit a déclaré qu'il mettrait à jour le protocole d'exclusion des robots, ou "robots.txt", une norme largement acceptée destinée à déterminer quelles parties d'un site sont autorisées à être explorées.

L'entreprise a également indiqué qu'elle maintiendrait la limitation du taux, une technique utilisée pour contrôler le nombre de demandes provenant d'une entité particulière, et qu'elle empêcherait les robots inconnus et les robots d'indexation de faire du "data scraping" (collecte et sauvegarde d'informations brutes) sur son site web.

Plus récemment, le fichier robots.txt est devenu un outil clé utilisé par les éditeurs pour empêcher les entreprises technologiques d'utiliser gratuitement leur contenu pour former des algorithmes d'intelligence artificielle et créer des résumés en réponse à certaines requêtes de recherche.

La semaine dernière, une lettre adressée aux éditeurs par la startup TollBit, spécialisée dans l'octroi de licences de contenu, indiquait que plusieurs sociétés d'intelligence artificielle contournaient la norme web pour récupérer les sites des éditeurs.

Cette lettre fait suite à une enquête de Wired qui a révélé que la société de recherche en IA Perplexity avait probablement contourné les efforts déployés pour bloquer son robot d'exploration du web via robots.txt.

Au début du mois de juin, l'éditeur de médias économiques Forbes a accusé Perplexity d'avoir plagié ses articles d'investigation pour les utiliser dans des systèmes d'IA générative sans en donner la paternité.

Reddit a déclaré mardi que les chercheurs et les organisations telles que l'Internet Archive continueraient à avoir accès à son contenu pour un usage non commercial. (Reportage de Harshita Mary Varghese ; Rédaction d'Alan Barona)