Apple a publié un document technique détaillant les modèles qu'il a développés pour alimenter Apple Intelligence, la gamme de fonctionnalités d'IA générative qui seront déployées sur iOS, macOS et iPadOS au cours des prochains mois.
Dans le document, Apple réfute les accusations selon lesquelles il aurait adopté une approche éthiquement douteuse pour former certains de ses modèles, réitérant qu'il n'a pas utilisé de données d'utilisateurs privés et s'est appuyé sur une combinaison de données accessibles au public et sous licence pour Apple Intelligence.
«[The] « L’ensemble de données de pré-formation se compose de… données que nous avons obtenues sous licence auprès d’éditeurs, d’ensembles de données accessibles au public ou en open source et d’informations accessibles au public explorées par notre robot d’exploration Web, Applebot », écrit Apple dans le document. « Étant donné notre souci de protéger la confidentialité des utilisateurs, nous notons qu’aucune donnée privée d’utilisateur Apple n’est incluse dans le mélange de données. »
En juillet, Proof News a rapporté qu'Apple avait utilisé un ensemble de données appelé The Pile, qui contient des sous-titres de centaines de milliers de vidéos YouTube, pour former une famille de modèles conçus pour le traitement sur appareil. De nombreux créateurs YouTube dont les sous-titres ont été balayés par The Pile n'étaient pas au courant et n'ont pas consenti à cela ; Apple a ensuite publié une déclaration indiquant qu'elle n'avait pas l'intention d'utiliser ces modèles pour alimenter des fonctionnalités d'IA dans ses produits.
Le document technique, qui lève le voile sur les modèles révélés pour la première fois par Apple à la WWDC 2024 en juin, appelés Apple Foundation Models (AFM), souligne que les données de formation des modèles AFM ont été obtenues de manière « responsable » — ou responsable selon la définition d'Apple, du moins.
Les données d'entraînement des modèles AFM comprennent des données Web accessibles au public ainsi que des données sous licence provenant d'éditeurs non divulgués. Selon le New York Times, Apple a contacté plusieurs éditeurs vers la fin de 2023, dont NBC, Condé Nast et IAC, au sujet d'accords pluriannuels d'une valeur d'au moins 50 millions de dollars pour entraîner les modèles sur les archives d'actualités des éditeurs. Les modèles AFM d'Apple ont également été entraînés sur du code open source hébergé sur GitHub, en particulier du code Swift, Python, C, Objective-C, C++, JavaScript, Java et Go.
L'entraînement de modèles sur du code sans autorisation, même ouvert, est un point de discorde parmi les développeurs. Certains développeurs affirment que certaines bases de code open source ne sont pas sous licence ou n'autorisent pas l'entraînement de l'IA dans leurs conditions d'utilisation. Mais Apple affirme avoir « filtré les licences » pour le code afin d'essayer d'inclure uniquement les référentiels avec des restrictions d'utilisation minimales, comme ceux sous licence MIT, ISC ou Apache.
Pour améliorer les compétences mathématiques des modèles AFM, Apple a spécifiquement inclus dans l'ensemble d'entraînement des questions et réponses mathématiques provenant de pages Web, de forums de mathématiques, de blogs, de tutoriels et de séminaires, selon l'article. L'entreprise a également exploité des ensembles de données « de haute qualité, accessibles au public » (que l'article ne nomme pas) avec des « licences qui permettent l'utilisation pour l'entraînement de… modèles », filtrées pour supprimer les informations sensibles.
Au total, l'ensemble des données d'entraînement des modèles AFM pèse environ 6,3 billions de jetons. (Les jetons sont des morceaux de données de la taille d'une bouchée qui sont généralement plus faciles à ingérer pour les modèles d'IA génératifs.) À titre de comparaison, cela représente moins de la moitié du nombre de jetons (15 billions) que Meta a utilisé pour entraîner son modèle phare de génération de texte, Llama 3.1 405B.
Apple a obtenu des données supplémentaires, notamment des données issues de commentaires humains et des données synthétiques, pour affiner les modèles AFM et tenter d'atténuer tout comportement indésirable, comme le fait de cracher de la toxicité.
« Nos modèles ont été créés dans le but d'aider les utilisateurs à réaliser des activités quotidiennes sur leurs produits Apple, en s'appuyant sur
« Cela fait partie des valeurs fondamentales d'Apple et s'appuie sur nos principes d'IA responsable à chaque étape », déclare l'entreprise.
Ce document ne contient aucune preuve irréfutable ni révélation choquante, et ce grâce à une conception minutieuse. Il est rare que des articles comme ceux-ci soient très révélateurs, en raison des pressions concurrentielles, mais aussi parce qu'ils révèlent aussi beaucoup de choses pourraient mettre les entreprises dans des problèmes juridiques.
Certaines entreprises qui forment des modèles en récupérant des données publiques sur le Web affirment que leur pratique est protégée par la doctrine de l'usage équitable. Mais c'est un sujet qui fait l'objet de nombreux débats et d'un nombre croissant de poursuites judiciaires.
Apple indique dans son document qu'elle permet aux webmasters d'empêcher son robot d'exploration de récupérer leurs données. Mais cela laisse les créateurs individuels dans l'embarras. Que peut faire un artiste si, par exemple, son portfolio est hébergé sur un site qui refuse de bloquer le scraping de données d'Apple ?
Les batailles judiciaires décideront du sort des modèles d'IA générative et de la manière dont ils sont formés. Pour l'instant, Apple tente de se positionner comme un acteur éthique tout en évitant les contrôles juridiques indésirables.