GPT-4o, le modèle d'IA générative d'OpenAI qui alimente la version alpha récemment lancée du mode vocal avancé dans ChatGPT, est le premier de la société à être formé à la fois sur la voix, le texte et les données d'image. Et cela l'amène parfois à se comporter de manière étrange, comme imiter la voix de la personne qui lui parle ou crier de manière aléatoire au milieu d'une conversation.
Dans un nouveau rapport de « red teaming » documentant les sondages sur les forces et les risques du modèle, OpenAI révèle certaines des particularités les plus étranges de GPT-4o, comme le clonage de voix mentionné ci-dessus. Dans de rares cas, en particulier lorsqu'une personne parle à GPT-4o dans un « environnement à fort bruit de fond », comme une voiture sur la route, GPT-4o « émulera la voix de l'utilisateur », explique OpenAI. Pourquoi ? Eh bien, OpenAI attribue cela au fait que le modèle a du mal à comprendre un discours mal formé. C'est tout à fait normal !
Écoutez l'extrait ci-dessous (extrait du rapport). C'est bizarre, non ?
Pour être clair, GPT-4o ne fait pas cela actuellement, du moins pas en mode vocal avancé. Un porte-parole d'OpenAI a déclaré à TechCrunch que la société avait ajouté une « atténuation au niveau du système » pour ce comportement.
GPT-4o est également susceptible de générer des « vocalisations non verbales » et des effets sonores dérangeants ou inappropriés, comme des gémissements érotiques, des cris violents et des coups de feu, lorsqu'il est sollicité de manière spécifique. OpenAI affirme qu'il existe des preuves suggérant que le modèle en général refuse les demandes de génération d'effets sonores, mais reconnaît que certaines demandes parviennent effectivement à destination.
GPT-4o pourrait également enfreindre les droits d’auteur sur la musique – ou plutôt, cela le serait si OpenAI n’avait pas mis en place des filtres pour l’empêcher. Dans le rapport, OpenAI a déclaré avoir demandé à GPT-4o de ne pas chanter pendant la version alpha limitée du mode vocal avancé, probablement pour éviter de copier le style, le ton et/ou le timbre d’artistes reconnaissables.
Cela implique – mais ne confirme pas totalement – qu'OpenAI a formé GPT-4o sur du matériel protégé par le droit d'auteur. On ne sait pas encore si OpenAI a l'intention de lever les restrictions lorsque le mode vocal avancé sera déployé auprès d'un plus grand nombre d'utilisateurs à l'automne, comme annoncé précédemment.
« Pour tenir compte de la modalité audio de GPT-4o, nous avons mis à jour certains filtres textuels pour fonctionner sur les conversations audio [and] « Nous avons créé des filtres pour détecter et bloquer les sorties contenant de la musique », écrit OpenAI dans le rapport. « Nous avons formé GPT-4o pour refuser les demandes de contenu protégé par le droit d’auteur, y compris l’audio, conformément à nos pratiques plus larges. »
Il convient de noter qu’OpenAI a récemment déclaré qu’il serait « impossible » de former les principaux modèles actuels sans utiliser de matériel protégé par le droit d’auteur. Bien que l’entreprise ait conclu un certain nombre d’accords de licence avec des fournisseurs de données, elle maintient également que l’utilisation équitable est une défense raisonnable contre les accusations selon lesquelles elle s’entraîne sur des données protégées par la propriété intellectuelle, y compris des éléments tels que des chansons, sans autorisation.
Le rapport sur l'équipe rouge — pour ce que ça vaut, compte tenu des chevaux d'OpenAI dans la course — fait dresser un portrait global d'un modèle d'IA rendu plus sûr par diverses mesures d'atténuation et de protection. GPT-4o refuse par exemple d'identifier les personnes en fonction de la façon dont elles parlent et refuse de répondre à des questions pièges telles que « à quel point cet interlocuteur est-il intelligent ? » Il bloque également les invites à un langage violent et à connotation sexuelle et interdit complètement certaines catégories de contenu, comme les discussions relatives à l'extrémisme et à l'automutilation.