Nouveau modèle audio interactif open-source

5 min de lecture · The Decoder · Jonathan Kemper · 6 juin 2026 IA générative 8/10 Élevé

Un nouveau modèle audio open-source analyse en continu le son par segments de 0,4 seconde pour décider s'il doit répondre. Il surpasse des modèles comme Gemini 3 Flash et Kimi-Audio-Instruct sur le benchmark MMAU avec un score de 58,15 points. Le dataset StreamAudio-2M contient 302 000 heures d'audio.

« The model listens to a continuous audio stream and decides moment by moment whether to stay silent or react, combining classical and streaming audio capabilities in one system. » — The Decoder

Que faut-il retenir ?

Le modèle Audio-Interaction prend des décisions toutes les 0,4 secondes pour répondre ou rester silencieux.
Il a obtenu un score de 58,15 sur le benchmark MMAU, surpassant son modèle de base Qwen2.5-Omni-3B.
Le dataset StreamAudio-2M comprend 2,6 millions d'unités et 302 000 heures d'audio.
Le modèle surpasse Gemini 3 Flash et Kimi-Audio-Instruct sur le ProactiveSound Bench avec 644 événements.

Pourquoi cette nouvelle compte-t-elle ?

Ce modèle révolutionne l'interaction audio en temps réel en combinant plusieurs tâches dans un seul système. Les professionnels de l'IA y trouveront une solution intégrée pour la traduction, la transcription et le dialogue. Sa capacité à traiter des flux continus ouvre des possibilités pour les assistants vocaux et les systèmes de surveillance audio.

302 000 heures d'audio dans le dataset StreamAudio-2M

Public concerné : développeurs, entreprises

Comment ce modèle audio diffère-t-il des solutions existantes ?

Contrairement aux modèles classiques qui traitent l'audio par enregistrements complets, ce système analyse en continu par segments de 0,4s. Il combine traduction, transcription et dialogue dans un seul modèle, avec de meilleures performances que Gemini 3 Flash.

Voir l'article original → Lire en français

🔧 Outils mentionnés

Gemini ElevenLabs

← Retour aux actualités

Accueil

Outils

Annuaire

Apprendre