Google a lancé Gemini Live lors de son événement Made By Google à Mountain View, en Californie, mardi. Cette fonctionnalité vous permet d'avoir une conversation orale semi-naturelle, non tapée, avec un chatbot IA alimenté par le dernier modèle de langage étendu de Google. TechCrunch était là pour le tester en direct.
Gemini Live est la réponse de Google au mode vocal avancé d'OpenAI, une fonctionnalité presque identique à ChatGPT actuellement en phase de test alpha limitée. Alors qu'OpenAI a devancé Google en faisant la démonstration de la fonctionnalité en premier, Google est le premier à déployer la fonctionnalité finalisée.
D'après mon expérience, ces fonctionnalités verbales à faible latence semblent beaucoup plus naturelles que l'envoi de SMS avec ChatGPT, ou même que la conversation avec Siri ou Alexa. J'ai constaté que Gemini Live répondait aux questions en moins de deux secondes et était capable de pivoter assez rapidement lorsqu'il était interrompu. Gemini Live n'est pas parfait, mais c'est la meilleure façon d'utiliser votre téléphone en mains libres que j'ai vue jusqu'à présent.
Comment ça marche
Avant de parler avec Gemini Live, la fonctionnalité vous permet de choisir parmi 10 voix, contre seulement trois voix avec OpenAI. Google a travaillé avec des acteurs de la voix pour créer chacune d'elles. J'ai apprécié la variété de ces voix et j'ai trouvé que chacune d'elles avait un son très humain.
Dans un exemple, un chef de produit Google a demandé verbalement à Gemini Live de trouver des vignobles adaptés aux familles près de Mountain View avec des espaces extérieurs et des aires de jeux à proximité, afin que les enfants puissent éventuellement venir. C'est une tâche bien plus compliquée que ce que je demanderais à Siri (ou à Google Search, pour être honnête), mais Gemini a réussi à recommander un endroit qui répondait aux critères : Cooper-Garrod Vineyards à Saratoga.
Cela dit, Gemini Live laisse à désirer. Il semble avoir halluciné une aire de jeux voisine appelée Henry Elementary School Playground qui est censée être à « 10 minutes » de ce vignoble. Il existe d'autres aires de jeux à proximité à Saratoga, mais l'école primaire Henry la plus proche est à plus de deux heures de route de là. Il y a une école primaire Henry Ford à Redwood City, mais elle est à 30 minutes.
Google aimait montrer comment les utilisateurs pouvaient interrompre Gemini Live au milieu d'une phrase, et l'IA pouvait alors rapidement changer de cap. L'entreprise affirme que cela permet aux utilisateurs de contrôler la conversation. Dans la pratique, cette fonctionnalité ne fonctionne pas parfaitement. Parfois, les chefs de projet de Google et Gemini Live parlaient en même temps, et l'IA ne semblait pas comprendre ce qui était dit.
Google n'autorise pas Gemini Live à chanter ou à imiter des voix autres que les 10 proposées, selon le chef de produit Leland Rechis. L'entreprise fait probablement cela pour éviter les démêlés avec la loi sur le droit d'auteur. De plus, Rechis a déclaré que Google ne cherchait pas à faire en sorte que Gemini Live comprenne l'intonation émotionnelle de la voix d'un utilisateur – quelque chose qu'OpenAI a vanté lors de sa démonstration.
Dans l’ensemble, cette fonctionnalité semble être un excellent moyen de plonger plus profondément dans un sujet plus naturellement qu’avec une simple recherche Google. Google note que Gemini Live est une étape sur la voie du projet Astra, le modèle d’IA entièrement multimodal que la société a lancé lors de Google I/O. Pour l’instant, Gemini Live n’est capable que de conversations vocales, mais à l’avenir, Google souhaite ajouter la compréhension vidéo en temps réel.