Comme toutes les grandes entreprises technologiques actuelles, Meta possède son propre modèle phare d'IA générative, appelé Llama. Llama est quelque peu unique parmi les principaux modèles dans le sens où il est « ouvert », ce qui signifie que les développeurs peuvent le télécharger et l'utiliser comme ils le souhaitent (avec certaines limitations). Cela contraste avec des modèles comme Claude d'Anthropic, GPT-4o d'OpenAI (qui alimente ChatGPT) et Gemini de Google, qui ne sont accessibles que via des API.
Afin de donner le choix aux développeurs, Meta a également conclu des partenariats avec des fournisseurs tels qu'AWS, Google Cloud et Microsoft Azure pour proposer des versions de Llama hébergées dans le cloud. En outre, la société a publié des outils conçus pour faciliter le réglage et la personnalisation du modèle.
Voici tout ce que vous devez savoir sur Llama, de ses fonctionnalités et éditions à l'endroit où vous pouvez l'utiliser. Nous tiendrons cet article à jour au fur et à mesure que Meta publiera des mises à niveau et introduira de nouveaux outils de développement pour prendre en charge l'utilisation du modèle.
Qu'est-ce que le lama ?
Llama est une famille de modèles — pas seulement un :
- Appelez le 8B
- Appelez le 70B
- Appelez le 405B
Les dernières versions sont Appel 3.1 8B, Appel 3.1 70B et Appelez le 3.1 405Bqui a été publié en juillet 2024. Ils sont formés sur des pages Web dans une variété de langues, du code public et des fichiers sur le Web, ainsi que des données synthétiques (c'est-à-dire des données générées par d'autres modèles d'IA).
Les Llama 3.1 8B et Llama 3.1 70B sont des modèles compacts et de petite taille, conçus pour fonctionner sur des appareils allant des ordinateurs portables aux serveurs. Le Llama 3.1 405B, en revanche, est un modèle à grande échelle nécessitant (sauf quelques modifications) du matériel de centre de données. Les Llama 3.1 8B et Llama 3.1 70B sont moins performants que le Llama 3.1 405B, mais plus rapides. Il s'agit en fait de versions « distillées » du 405B, optimisées pour une faible surcharge de stockage et une faible latence.
Tous les modèles Llama ont des fenêtres de contexte de 128 000 tokens. (En science des données, les tokens sont des éléments de données brutes subdivisés, comme les syllabes « fan », « tas » et « tic » dans le mot « fantastique »). Le contexte d'un modèle, ou fenêtre de contexte, fait référence aux données d'entrée (par exemple, du texte) que le modèle prend en compte avant de générer une sortie (par exemple, du texte supplémentaire). Un contexte long peut empêcher les modèles « d'oublier » le contenu des documents et données récents, et de s'écarter du sujet et d'extrapoler de manière erronée.
Ces 128 000 jetons correspondent à environ 100 000 mots ou 300 pages, ce qui, à titre de référence, correspond à peu près à la longueur de « Wuthering Heights », « Les Voyages de Gulliver » et « Harry Potter et le Prisonnier d'Azkaban ».
Que peut faire le lama ?
Comme d’autres modèles d’IA générative, Llama peut effectuer une série de tâches d’assistance différentes, comme coder et répondre à des questions mathématiques de base, ainsi que résumer des documents en huit langues (anglais, allemand, français, italien, portugais, hindi, espagnol et thaï). La plupart des charges de travail basées sur du texte (pensez à l’analyse de fichiers tels que des PDF et des feuilles de calcul) relèvent de sa compétence ; aucun des modèles Llama ne peut traiter ou générer des images, même si cela pourrait changer dans un avenir proche.
Tous les derniers modèles Llama peuvent être configurés pour exploiter des applications, des outils et des API tiers afin d'effectuer des tâches. Ils sont formés dès le départ pour utiliser Brave Search pour répondre à des questions sur des événements récents, l'API Wolfram Alpha pour les requêtes liées aux mathématiques et aux sciences et un interpréteur Python pour valider le code. En outre, Meta indique que les modèles Llama 3.1 peuvent utiliser certains outils qu'ils n'ont jamais vus auparavant (mais ils ne savent pas encore s'ils peuvent le faire). de manière fiable utiliser ces outils est une autre affaire).
Où puis-je utiliser Llama ?
Si vous cherchez simplement à discuter avec Llama, il alimente l'expérience du chatbot Meta AI sur Facebook Messenger, WhatsApp, Instagram, Oculus et Meta.ai.
Les développeurs qui construisent avec Llama peuvent télécharger, utiliser ou peaufiner le modèle sur la plupart des plateformes cloud les plus populaires. Meta affirme avoir plus de 25 partenaires hébergeant Llama, dont Nvidia, Databricks, Groq, Dell et Snowflake.
Certains de ces partenaires ont créé des outils et des services supplémentaires sur Llama, notamment des outils qui permettent aux modèles de référencer des données propriétaires et leur permettent de fonctionner à des latences plus faibles.
Meta suggère d'utiliser ses modèles plus petits, Llama 8B et Llama 70B, pour des applications à usage général, comme l'alimentation de chatbots et la génération de code. Selon la société, Llama 405B est mieux réservé à la distillation de modèles (le processus de transfert des connaissances d'un grand modèle vers un modèle plus petit et plus efficace) et à la génération de données synthétiques pour former (ou affiner) des modèles alternatifs.
Il est important de noter que la licence Llama limite la manière dont les développeurs peuvent déployer le modèle : les développeurs d'applications comptant plus de 700 millions d'utilisateurs mensuels doivent demander une licence spéciale à Meta, que l'entreprise accordera à sa discrétion.
En plus de Llama, Meta fournit des outils destinés à rendre le modèle « plus sûr » à utiliser :
- Garde de lama, un cadre de modération
- Garde rapide, un outil de protection contre les attaques par injection rapide
- CyberSecEval, une suite d'évaluation des risques de cybersécurité
Llama Guard tente de détecter les contenus potentiellement problématiques alimentés ou générés par un modèle Llama, notamment les contenus liés à des activités criminelles, à l'exploitation des enfants, aux violations du droit d'auteur, à la haine, à l'automutilation et aux abus sexuels. Les développeurs peuvent personnaliser les catégories de contenu bloqué et appliquer les blocages à toutes les langues prises en charge par Llama.
Comme Llama Guard, Prompt Guard peut bloquer le texte destiné à Llama, mais uniquement le texte destiné à « attaquer » le modèle et à l'amener à se comporter de manière indésirable. Meta affirme que Llama Guard peut se défendre contre les invites explicitement malveillantes (c'est-à-dire les jailbreaks qui tentent de contourner les filtres de sécurité intégrés de Llama) en plus des invites qui contiennent des « entrées injectées ».
CyberSecEval est moins un outil qu'un ensemble de critères de référence pour mesurer la sécurité des modèles. CyberSecEval peut évaluer le risque qu'un modèle Llama représente (du moins selon les critères de Meta) pour les développeurs d'applications et les utilisateurs finaux dans des domaines tels que « l'ingénierie sociale automatisée » et « la mise à l'échelle des opérations cybernétiques offensives ».
Les limites du lama
Llama comporte certains risques et limitations, comme tous les modèles d’IA génératifs.
Par exemple, il n'est pas certain que Meta ait entraîné Llama sur du contenu protégé par des droits d'auteur. Si tel était le cas, les utilisateurs pourraient être tenus responsables d'une infraction s'ils finissaient par utiliser sans le savoir un extrait protégé par des droits d'auteur que le modèle a régurgité.
Selon un récent rapport de Reuters, Meta a utilisé à un moment donné des livres électroniques protégés par le droit d'auteur pour la formation de l'IA, malgré les avertissements de ses propres avocats. L'entreprise entraîne son IA de manière controversée sur des publications, des photos et des légendes Instagram et Facebook, et rend difficile pour les utilisateurs de se retirer. De plus, Meta, ainsi qu'OpenAI, font l'objet d'un procès en cours intenté par des auteurs, dont la comédienne Sarah Silverman, au sujet de l'utilisation présumée non autorisée de données protégées par le droit d'auteur pour la formation des modèles.
La programmation est un autre domaine dans lequel il est conseillé de faire preuve de prudence lors de l'utilisation de Llama. En effet, Llama peut, comme ses homologues de l'IA générative, produire du code bogué ou peu sûr.
Comme toujours, il est préférable de faire examiner tout code généré par l’IA par un expert humain avant de l’intégrer dans un service ou un logiciel.