Google lance Gemini Omni : création vidéo multimodale
Google a dévoilé Gemini Omni, une famille de modèles multimodaux capables de créer des vidéos à partir de divers formats d'entrée. Ce modèle, présenté lors de Google I/O, permet de produire des vidéos cohérentes en combinant images, audio et texte. Il inclut également des fonctionnalités comme l'édition de photos par commande texte et la création d'avatars numériques.
« It’s the next step towards the progression of combining the intelligence of Gemini with the rendering capabilities of our media models. » — TechCrunch AI
Que faut-il retenir ?
- Gemini Omni permet de créer des vidéos à partir d'images, audio et texte.
- Le modèle inclut une fonctionnalité d'édition de photos par commande texte.
- Les vidéos générées seront marquées avec SynthID pour vérifier leur origine.
- Gemini Omni Flash, le premier modèle, peut générer des vidéos de 10 secondes.
Pourquoi cette nouvelle compte-t-elle ?
Gemini Omni représente une avancée significative dans l'IA générative, permettant aux utilisateurs de créer des contenus multimédias complexes avec facilité. Cela ouvre de nouvelles possibilités pour les créateurs de contenu et les professionnels du marketing, tout en introduisant des mesures de sécurité comme SynthID pour prévenir les deepfakes.
10 secondes de vidéo générée par Gemini Omni Flash
💬 Nicole Brichtova, Directrice de la gestion de produit chez Google DeepMind
Public concerné : développeurs, entreprises
Quelles sont les fonctionnalités clés de Gemini Omni ?
Gemini Omni permet de créer des vidéos à partir d'images, audio et texte, d'éditer des photos par commande texte, et de générer des avatars numériques. Les vidéos sont marquées avec SynthID pour vérifier leur origine.
Commentaires (0)
💡 Aucun lien externe ni code HTML accepté. Soyez respectueux. Les commentaires sont modérés avant publication.
Aucun commentaire pour le moment. Soyez le premier !