OpenAI a commencé à déployer le mode vocal avancé de ChatGPT mardi, offrant aux utilisateurs leur premier accès aux réponses audio hyperréalistes de GPT-4o. La version alpha sera disponible pour un petit groupe d'utilisateurs de ChatGPT Plus aujourd'hui, et OpenAI indique que la fonctionnalité sera progressivement déployée pour tous les utilisateurs de Plus à l'automne 2024.
En mai dernier, OpenAI a présenté pour la première fois la voix de GPT-4o. La fonctionnalité a choqué le public par sa rapidité de réaction et sa ressemblance troublante avec une voix humaine réelle, en particulier celle d'une voix, Sky. La voix ressemblait à celle de Scarlett Johansson, l'actrice derrière l'assistante artificielle du film « Her ». Peu après la démonstration d'OpenAI, Johansson a déclaré avoir refusé les multiples demandes du PDG Sam Altman d'utiliser sa voix et, après avoir vu la démonstration de GPT-4o, a engagé un avocat pour défendre son image. OpenAI a nié avoir utilisé la voix de Johansson, mais a ensuite supprimé la voix montrée dans sa démonstration. En juin, OpenAI a déclaré qu'elle retarderait la sortie du mode vocal avancé pour améliorer ses mesures de sécurité.
Un mois plus tard, l'attente est terminée (en quelque sorte). OpenAI indique que les fonctionnalités de vidéo et de partage d'écran présentées lors de sa mise à jour de printemps ne feront pas partie de cette version alpha, mais seront lancées à une « date ultérieure ». Pour l'instant, la démo GPT-4o qui a époustouflé tout le monde n'est encore qu'une démo, mais certains utilisateurs premium auront désormais accès à la fonction vocale de ChatGPT qui y est présentée.
ChatGPT peut désormais parler et écouter
Vous avez peut-être déjà essayé le mode vocal actuellement disponible dans ChatGPT, mais OpenAI affirme que le mode vocal avancé est différent. L'ancienne solution audio de ChatGPT utilisait trois modèles distincts : un pour convertir votre voix en texte, GPT-4 pour traiter votre invite, puis un troisième pour convertir le texte de ChatGPT en voix. Mais GPT-4o est multimodal, capable de traiter ces tâches sans l'aide de modèles auxiliaires, créant des conversations à latence nettement plus faible. OpenAI affirme également que GPT-4o peut détecter les intonations émotionnelles de votre voix, notamment la tristesse, l'excitation ou le chant.
Dans ce pilote, les utilisateurs de ChatGPT Plus pourront constater par eux-mêmes à quel point le mode vocal avancé d'OpenAI est hyperréaliste. TechCrunch n'a pas pu tester la fonctionnalité avant de publier cet article, mais nous l'examinerons dès que nous y aurons accès.
OpenAI a annoncé qu'elle publierait progressivement la nouvelle voix de ChatGPT afin de surveiller de près son utilisation. Les personnes du groupe alpha recevront une alerte dans l'application ChatGPT, suivie d'un e-mail contenant des instructions sur la façon de l'utiliser.
Au cours des mois qui ont suivi la démonstration d'OpenAI, la société affirme avoir testé les capacités vocales de GPT-4o avec plus de 100 membres externes de l'équipe rouge parlant 45 langues différentes. OpenAI indique qu'un rapport sur ces efforts de sécurité sera publié début août.
L'entreprise affirme que le mode vocal avancé sera limité aux quatre voix prédéfinies de ChatGPT – Juniper, Breeze, Cove et Ember – créées en collaboration avec des comédiens rémunérés. La voix de Sky présentée dans la démo d'OpenAI de mai n'est plus disponible dans ChatGPT. Lindsay McCallum, porte-parole d'OpenAI, déclare : « ChatGPT ne peut pas imiter la voix d'autres personnes, qu'il s'agisse d'individus ou de personnalités publiques, et bloquera les sorties qui diffèrent de l'une de ces voix prédéfinies. »
OpenAI tente d'éviter les controverses liées aux deepfakes. En janvier, la technologie de clonage de la voix de la startup d'intelligence artificielle ElevenLabs a été utilisée pour se faire passer pour le président Biden, trompant ainsi les électeurs des primaires du New Hampshire.
OpenAI a également annoncé avoir introduit de nouveaux filtres pour bloquer certaines demandes de création de musique ou d’autres fichiers audio protégés par des droits d’auteur. Au cours de l’année dernière, les entreprises d’IA se sont retrouvées dans des situations judiciaires pour violation de droits d’auteur, et des modèles audio comme GPT-4o ont ouvert la voie à une toute nouvelle catégorie d’entreprises qui peuvent déposer une plainte. En particulier, les maisons de disques, qui ont l’habitude d’être litigieuses et qui ont déjà poursuivi les générateurs de chansons par IA Suno et Udio.