OpenAI aposta na “voz inteligente” e lança modelos para tradução, transcrição e conversas em tempo real

A OpenAI anunciou uma nova geração de modelos de áudio voltados para aplicações de voz em tempo real, ampliando sua aposta em interfaces conversacionais que vão além do tradicional chatbot de texto. A novidade inclui três modelos principais — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper — desenvolvidos para permitir que softwares escutem, conversem, traduzam e executem tarefas instantaneamente durante uma interação por voz.

Segundo a empresa, os novos sistemas foram criados para transformar a forma como aplicativos lidam com áudio ao vivo. Em vez de apenas converter voz em texto ou responder com frases pré-programadas, os modelos conseguem compreender contexto, manter o fluxo natural da conversa e acionar ferramentas enquanto o usuário fala.

O principal lançamento é o GPT-Realtime-2, descrito pela OpenAI como seu primeiro modelo de voz com “capacidade de raciocínio em nível GPT-5”. A proposta é permitir diálogos mais complexos e naturais, reduzindo interrupções e melhorando a continuidade da conversa mesmo em sessões longas. O modelo também suporta chamadas de ferramentas (“tool calling”), recurso importante para assistentes capazes de executar ações em tempo real, como consultar bancos de dados, agendar compromissos ou operar sistemas empresariais.

Já o GPT-Realtime-Translate foi desenvolvido para tradução instantânea de voz. A OpenAI afirma que o sistema consegue operar em mais de 70 idiomas e traduzir conversas em tempo real para 13 línguas de saída inicialmente suportadas. A tecnologia mira principalmente setores como atendimento ao cliente, turismo, educação e comunicação corporativa global.

O terceiro modelo apresentado, GPT-Realtime-Whisper, é focado em transcrição contínua de fala para texto. Ele foi projetado para aplicações como legendagem ao vivo, documentação automática de reuniões e geração de registros em fluxos de trabalho corporativos.

A OpenAI também revelou detalhes técnicos sobre a infraestrutura por trás da novidade. Em um texto publicado recentemente, a companhia explicou como reconstruiu sua pilha de comunicação baseada em WebRTC para reduzir drasticamente a latência nas interações de voz. O objetivo é permitir diálogos mais fluidos, próximos do ritmo de uma conversa humana.

Essa corrida por menor latência virou um dos principais focos da indústria de IA generativa. Pesquisas recentes mostram que agentes de voz precisam responder em menos de um segundo para que a interação pareça natural aos usuários. Um estudo acadêmico publicado neste ano apontou que pipelines tradicionais de voz ainda sofrem com atrasos elevados, enquanto arquiteturas em streaming conseguem reduzir significativamente o tempo de resposta.

A movimentação da OpenAI também intensifica a disputa no mercado de interfaces de voz, hoje um dos segmentos mais estratégicos da inteligência artificial. Empresas como Google, Meta, Anthropic, ElevenLabs e startups especializadas vêm investindo fortemente em modelos multimodais capazes de ouvir, interpretar emoções, traduzir e responder oralmente em tempo real.

Na prática, os novos modelos podem acelerar o surgimento de uma nova geração de produtos baseados em IA conversacional. Entre os possíveis usos estão centrais de atendimento automatizadas, tradutores universais, assistentes corporativos, tutores educacionais, interfaces para carros e dispositivos inteligentes, além de aplicações médicas e financeiras.

A OpenAI informou que empresas como Zillow, Priceline e Deutsche Telekom já estão testando a nova tecnologia em suas plataformas.

Outro ponto importante é o custo. De acordo com informações divulgadas pela Reuters, o GPT-Realtime-2 começa em US$ 32 por milhão de tokens de áudio de entrada, enquanto os modelos de tradução e transcrição possuem preços calculados por minuto de uso.

O anúncio reforça uma tendência clara do setor: a transição da IA textual para sistemas multimodais capazes de enxergar, ouvir e falar em tempo real. Desde o lançamento do GPT-4o, em 2024, a OpenAI vem tratando voz como um dos pilares centrais de sua estratégia. Agora, a empresa tenta transformar essa tecnologia em infraestrutura para aplicações comerciais de larga escala.

Leia também:

OpenAI acelera desenvolvimento de “celular com agente de IA” e mira produção em massa já em 2027