OpenAI har offentliggjort, hvordan selskabet forsøger at få stemme-AI til at føles mere som en rigtig samtale og mindre som en hakkende chatbot. I et nyt engineering-indlæg forklarer virksomheden, at målet er at sænke forsinkelserne i tale, så brugere oplever færre akavede pauser, hurtigere opstart og mere naturlige afbrydelser i samtalen. Ifølge OpenAI’s engineering-indlæg er det især vigtigt for ChatGPT Voice, Realtime API og andre AI-agenter, der skal reagere, mens brugeren stadig taler.
Den korte version er, at OpenAI har ændret den tekniske infrastruktur bag stemmefunktionerne. I stedet for at lade hver session kræve sin egen tunge netværksopsætning har selskabet bygget en model, hvor lyd først går gennem et let relay-lag og derefter sendes videre til den server, der styrer den konkrete samtale. Det giver et mindre og mere stabilt offentligt netværksaftryk og gør det lettere at skalere globalt uden at miste kontrollen over forbindelsen.
OpenAI beskriver også, at systemet er designet til mere end 900 millioner ugentlige brugere og til at fungere på tværs af mange geografier med lav ventetid. Det handler ikke kun om komfort. Hvis stemme-AI skal blive et reelt alternativ til tastatur og skærm i kundeservice, arbejdsværktøjer og agenter, er svartiden afgørende. Hvis teknologien føles langsom, mister den hurtigt sin værdi i praksis.
Indlægget viser samtidig, at AI-kapløbet ikke kun handler om selve modellerne, men også om den infrastruktur, der får dem til at virke i virkeligheden. For virksomheder, der vil bygge tale- og agentløsninger oven på moderne AI, er netværk, routing og svartider blevet en central del af produktoplevelsen, ikke bare et teknisk lag i baggrunden.








