Les vendeurs de licences de musique, d'images, de vidéos et d'autres ensembles de données destinés à l'apprentissage des systèmes d'intelligence artificielle ont formé le premier groupe commercial du secteur, ont-ils déclaré mercredi.

La Dataset Providers Alliance (DPA) plaidera en faveur d'un "approvisionnement éthique en données" pour l'entraînement des systèmes d'intelligence artificielle, y compris les droits des personnes représentées dans les ensembles de données et la protection des droits de propriété intellectuelle des propriétaires de contenu, ont déclaré les entreprises dans un communiqué.

Parmi les membres fondateurs figurent Rightsify, société américaine de données musicales, vAIsual, service de licences d'images, Pixta, fournisseur japonais de photos d'archives, et Datarade, place de marché de données basée en Allemagne.

L'émergence de technologies d'IA générative capables d'imiter la créativité humaine a déclenché ces dernières années un tollé de la part des créateurs de contenu et une série de poursuites en matière de droits d'auteur à l'encontre d'entreprises technologiques telles que Google, Meta et OpenAI, le fabricant de ChatGPT, soutenu par Microsoft.

Les développeurs ont formé des modèles en les alimentant avec de grandes quantités de contenu, dont une grande partie est extraite gratuitement de l'internet sans le consentement de ceux qui ont créé les œuvres ou qui en détiennent les droits.

Les entreprises technologiques, qui affirment que l'utilisation est légale, paient également discrètement l'accès à des collections privées de contenus, à la fois pour répondre à des besoins de types particuliers de données et pour se prémunir contre les risques juridiques et réglementaires.

La perspective d'une augmentation de la demande de données sous licence si les détenteurs de droits d'auteur gagnent leur bataille juridique a suscité l'émergence d'un secteur naissant d'entreprises qui regroupent des contenus et en vendent l'accès à des fins d'utilisation par des systèmes d'intelligence artificielle.

En conséquence, des groupes ont été formés pour établir des normes éthiques pour ce commerce, comme Fairly Trained, une organisation à but non lucratif fondée cette année qui certifie les modèles qui n'ont pas utilisé de matériel protégé par le droit d'auteur sans licence.

Le DPA cible le contenu de ces transactions, exigeant, par exemple, que ses membres acceptent de ne pas vendre des données textuelles obtenues en parcourant le web ou des données audio comportant la voix de personnes sans leur consentement explicite.

Alex Bestall, PDG de Rightsify et de sa filiale de licence GCX, qui a participé à la création du groupe, a déclaré que l'accent sera mis sur la promotion d'une législation telle que le NO FAKES Act, un projet de loi américain présenté l'année dernière et visant à sanctionner la création de répliques numériques non autorisées de voix ou d'images de personnes.

"Le plaidoyer jouera un rôle important, car tout le monde a pris position sur l'IA et le droit d'auteur, mais beaucoup de ces batailles n'ont pas encore été résolues et il faudra du temps pour qu'elles le soient", a déclaré M. Bestall.

La DPA fera également pression pour obtenir davantage d'exigences en matière de transparence des données de formation, comme celles prévues par la loi sur l'IA de l'Union européenne et par un projet de loi américain similaire présenté en avril, le Generative AI Copyright Disclosure Act, a-t-il ajouté.

Le groupe prévoit de publier un livre blanc exposant ses positions en juillet. (Reportage de Katie Paul ; Rédaction de Richard Chang)