OpenAI aposta na “voz inteligente” e lança modelos para tradução, transcrição e conversas em tempo real

Publicado por

Isabella Caminoto

8 de maio de 2026 14:33

A OpenAI anunciou uma nova geração de modelos de áudio voltados para aplicações de voz em tempo real, ampliando sua aposta em interfaces conversacionais que vão além do tradicional chatbot de texto. A novidade inclui três modelos principais — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper — desenvolvidos para permitir que softwares escutem, conversem, traduzam e executem tarefas instantaneamente durante uma interação por voz.

Segundo a empresa, os novos sistemas foram criados para transformar a forma como aplicativos lidam com áudio ao vivo. Em vez de apenas converter voz em texto ou responder com frases pré-programadas, os modelos conseguem compreender contexto, manter o fluxo natural da conversa e acionar ferramentas enquanto o usuário fala.

O principal lançamento é o GPT-Realtime-2, descrito pela OpenAI como seu primeiro modelo de voz com “capacidade de raciocínio em nível GPT-5”. A proposta é permitir diálogos mais complexos e naturais, reduzindo interrupções e melhorando a continuidade da conversa mesmo em sessões longas. O modelo também suporta chamadas de ferramentas (“tool calling”), recurso importante para assistentes capazes de executar ações em tempo real, como consultar bancos de dados, agendar compromissos ou operar sistemas empresariais.

Já o GPT-Realtime-Translate foi desenvolvido para tradução instantânea de voz. A OpenAI afirma que o sistema consegue operar em mais de 70 idiomas e traduzir conversas em tempo real para 13 línguas de saída inicialmente suportadas. A tecnologia mira principalmente setores como atendimento ao cliente, turismo, educação e comunicação corporativa global.

O terceiro modelo apresentado, GPT-Realtime-Whisper, é focado em transcrição contínua de fala para texto. Ele foi projetado para aplicações como legendagem ao vivo, documentação automática de reuniões e geração de registros em fluxos de trabalho corporativos.

A OpenAI também revelou detalhes técnicos sobre a infraestrutura por trás da novidade. Em um texto publicado recentemente, a companhia explicou como reconstruiu sua pilha de comunicação baseada em WebRTC para reduzir drasticamente a latência nas interações de voz. O objetivo é permitir diálogos mais fluidos, próximos do ritmo de uma conversa humana.

Essa corrida por menor latência virou um dos principais focos da indústria de IA generativa. Pesquisas recentes mostram que agentes de voz precisam responder em menos de um segundo para que a interação pareça natural aos usuários. Um estudo acadêmico publicado neste ano apontou que pipelines tradicionais de voz ainda sofrem com atrasos elevados, enquanto arquiteturas em streaming conseguem reduzir significativamente o tempo de resposta.

A movimentação da OpenAI também intensifica a disputa no mercado de interfaces de voz, hoje um dos segmentos mais estratégicos da inteligência artificial. Empresas como Google, Meta, Anthropic, ElevenLabs e startups especializadas vêm investindo fortemente em modelos multimodais capazes de ouvir, interpretar emoções, traduzir e responder oralmente em tempo real.

Na prática, os novos modelos podem acelerar o surgimento de uma nova geração de produtos baseados em IA conversacional. Entre os possíveis usos estão centrais de atendimento automatizadas, tradutores universais, assistentes corporativos, tutores educacionais, interfaces para carros e dispositivos inteligentes, além de aplicações médicas e financeiras.

A OpenAI informou que empresas como Zillow, Priceline e Deutsche Telekom já estão testando a nova tecnologia em suas plataformas.

Outro ponto importante é o custo. De acordo com informações divulgadas pela Reuters, o GPT-Realtime-2 começa em US$ 32 por milhão de tokens de áudio de entrada, enquanto os modelos de tradução e transcrição possuem preços calculados por minuto de uso.

O anúncio reforça uma tendência clara do setor: a transição da IA textual para sistemas multimodais capazes de enxergar, ouvir e falar em tempo real. Desde o lançamento do GPT-4o, em 2024, a OpenAI vem tratando voz como um dos pilares centrais de sua estratégia. Agora, a empresa tenta transformar essa tecnologia em infraestrutura para aplicações comerciais de larga escala.

Leia também:

OpenAI acelera desenvolvimento de “celular com agente de IA” e mira produção em massa já em 2027

Este post foi modificado pela última vez em 8 de maio de 2026 14:35

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Próximo IA descobre mais de 100 novos exoplanetas escondidos em dados da NASA »

Anterior « União Europeia simplifica regras de IA e proíbe apps de “nudificação”

Publicado por

Isabella Caminoto

Tags: áudioChatGPTGPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisperinteligência artificialOpenAItraduçãovoz

8 de maio de 2026 14:33

Posts recentes

Inteligência Artificial

Quando a IA afasta o médico do paciente: o novo desafio do diagnóstico à beira do leito

A inteligência artificial (IA) está transformando rapidamente a medicina. Sistemas capazes de analisar exames de…

24 de julho de 2026

Inteligência Artificial

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

A Organização Mundial da Saúde reuniu ministros, autoridades governamentais e especialistas de 37 países em…

15 de julho de 2026

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

OpenAI aposta na “voz inteligente” e lança modelos para tradução, transcrição e conversas em tempo real

Posts relacionados

Posts recentes

Quando a IA afasta o médico do paciente: o novo desafio do diagnóstico à beira do leito

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico