Un créateur YouTube cherche à intenter un recours collectif contre OpenAI, alléguant que la société a formé ses modèles d'IA génératifs sur des millions de transcriptions de vidéos YouTube sans avertir ni indemniser les propriétaires des vidéos.
Dans une plainte déposée vendredi devant le tribunal de district américain du district nord de Californie, les avocats de David Millette, un utilisateur de YouTube basé dans le Massachusetts, affirment qu'OpenAI a secrètement retranscrit les vidéos de Millette et d'autres créateurs pour former les modèles qui alimentent la plateforme de chatbot basée sur l'IA de l'entreprise, ChatGPT, et d'autres outils et produits d'IA générative. En collectant ces données, OpenAI a « profité de manière significative » du travail des créateurs, allègue la plainte, tout en violant la loi sur le droit d'auteur et les conditions d'utilisation de YouTube qui interdisent l'utilisation de vidéos pour des applications indépendantes de son service.
“Comme [OpenAI’s] Les produits d'IA deviennent plus sophistiqués grâce à l'utilisation d'ensembles de données de formation, ils deviennent plus précieux pour les utilisateurs potentiels et actuels, qui achètent des abonnements pour y accéder [OpenAI’s] « Les produits d’IA », peut-on lire dans la plainte. « Cependant, une grande partie du matériel contenu dans les ensembles de données de formation d’OpenAI provient d’œuvres qui ont été copiées par OpenAI sans consentement, sans crédit et sans compensation. »
Millette, représenté par le cabinet d'avocats Bursor and Fisher, demande un procès devant jury et plus de 5 millions de dollars de dommages et intérêts pour tous les utilisateurs de YouTube dont les données auraient pu être récupérées lors de la formation d'OpenAI.
Les modèles d'IA génératifs comme ceux d'OpenAI n'ont pas de véritable intelligence. Alimentés par un nombre énorme d'exemples (par exemple des films, des enregistrements vocaux, des essais, etc.), les modèles « apprennent » la probabilité que les données se produisent en fonction de modèles, y compris le contexte des données environnantes.
La plupart des modèles sont formés à partir de données provenant de sites Web publics et d'ensembles de données sur le Web. Les entreprises affirment que l'utilisation équitable protège leurs efforts visant à extraire des données sans discernement et à les utiliser pour former des modèles commerciaux. De nombreux titulaires de droits d'auteur ne sont cependant pas d'accord et intentent des poursuites visant à mettre un terme à cette pratique.
Les transcriptions vidéo sont devenues un ingrédient clé des données de formation alors que d’autres puits de données s’assèchent, pour ainsi dire.
Selon les données d'Originality.AI, plus de 35 % des 1 000 principaux sites Web du monde bloquent désormais le robot d'exploration d'OpenAI. Et environ 25 % des données provenant de sources « de haute qualité » ont été exclues des principaux ensembles de données utilisés pour former les modèles d'IA, selon une étude de la Data Provenance Initiative du MIT. Si la tendance actuelle au blocage des accès se poursuit, le groupe de recherche Epoch AI prédit que les développeurs seront à court de données pour former des modèles d'IA génératifs entre 2026 et 2032.
En avril, le New York Times a rapporté qu'OpenAI avait créé son premier modèle de reconnaissance vocale, Whisper, dans le but de transcrire l'audio des vidéos pour collecter des données d'entraînement supplémentaires. Une équipe d'OpenAI, dont faisait partie le président de l'entreprise, Greg Brockman, a transcrit plus d'un million d'heures de vidéo de YouTube à l'aide de Whisper, selon le Times, et a utilisé les transcriptions pour former le modèle de génération et d'analyse de texte GPT-4 d'OpenAI.
Certains membres du personnel d'OpenAI ont discuté de la manière dont une telle démarche pourrait aller à l'encontre des règles de YouTube, selon le Times.
En juillet, Proof News a rapporté que des entreprises comme Anthropic, Apple, Salesforce et Nvidia ont utilisé un ensemble de données appelé The Pile, qui contient des sous-titres de centaines de milliers de vidéos YouTube, pour former des modèles d'IA génératifs. De nombreux créateurs YouTube dont les sous-titres ont été récupérés dans The Pile n'étaient pas au courant et n'ont pas consenti à cela ; Apple a ensuite publié une déclaration indiquant qu'elle n'avait pas l'intention d'utiliser ces modèles pour alimenter des fonctionnalités d'IA dans ses produits.
Google, la société mère de YouTube, a également cherché à utiliser des transcriptions pour former ses modèles.
L'année dernière, Google a élargi ses conditions d'utilisation (ToS) en partie pour permettre à l'entreprise d'exploiter davantage de données utilisateur pour la formation de modèles d'IA générative. Dans le cadre des anciennes conditions d'utilisation, il n'était pas clair si Google pouvait utiliser les données de YouTube pour créer des produits au-delà de la plate-forme vidéo. Ce n'est plus le cas dans les nouvelles conditions, qui assouplissent considérablement les règles.
Nous avons contacté OpenAI et Google pour obtenir leurs commentaires sur le recours collectif et nous mettrons à jour cet article s'ils répondent.
Le début du mois a été difficile pour OpenAI.
Le PDG de Tesla et de X, Elon Musk, a déposé lundi une nouvelle plainte contre OpenAI et son PDG Sam Altman, accusant l'entreprise d'avoir abandonné sa mission à but non lucratif initiale en réservant certaines de ses technologies les plus sophistiquées à des clients commerciaux. Elon Musk avait fait les mêmes déclarations dans un procès intenté en février contre OpenAI, mais la nouvelle plainte allègue qu'OpenAI se livre également à des activités de racket.