Google gør sin seneste stemmemodel, Gemini 3.1 Flash Live, tilgængelig på tværs af virksomhedens produkter med fokus på mere flydende samtaler i realtid. Modellen beskrives som Googles hidtil mest højtkvalitets audio- og voice-model og skal især reducere latenstid og øge præcisionen, så stemmeinteraktioner bliver mere naturlige og stabile.
Udrulningen rammer flere bruger- og udviklerflader på én gang. Udviklere kan tilgå modellen via Gemini Live API i Google AI Studio, mens virksomheder kan bruge den i kundeoplevelsesløsninger. For almindelige brugere bliver teknologien oplevbar gennem Search Live og Gemini Live, som ifølge Google nu understøtter mere end 200 lande.
Google fremhæver samtidig, at modellen er bedre til at forstå tone og akustiske nuancer som pitch og tempo og til at tilpasse svar, når brugere eksempelvis lyder frustrerede eller forvirrede. I enterprise-sammenhæng nævnes Gemini Enterprise for Customer Experience som et område, hvor forbedringerne skal gøre stemmedialog mere robust i praksis.
På målingerne lægger Google vægt på fremskridt i opgaver med flere trin og komplekse instruktioner. På ComplexFuncBench Audio oplyser virksomheden en score på 90,8% sammenlignet med den forrige model, og på Scale AI’s Audio MultiChallenge angives en score på 36,1% med “thinking” slået til – en test, der skal afspejle afbrydelser og tøven i virkelige lydsamtaler.
Et centralt tiltag er, at al lyd genereret af 3.1 Flash Live vandmærkes for at modvirke spredning af misinformation. Det peger på et voksende redaktionelt og samfundsmæssigt problem: Når AI-lyd bliver mere naturtro og let at producere, stiger behovet for tydelig oprindelsesmærkning og ansvarlige distributionsmekanismer.
Google beskriver lanceringen og detaljerne i et indlæg på Google Models & Research.








