[gtranslate]

Inteligência Artificial

OpenAI aposta na “voz inteligente” e lança modelos para tradução, transcrição e conversas em tempo real

Publicado por
Isabella Caminoto

A OpenAI anunciou uma nova geração de modelos de áudio voltados para aplicações de voz em tempo real, ampliando sua aposta em interfaces conversacionais que vão além do tradicional chatbot de texto. A novidade inclui três modelos principais — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper — desenvolvidos para permitir que softwares escutem, conversem, traduzam e executem tarefas instantaneamente durante uma interação por voz.

Segundo a empresa, os novos sistemas foram criados para transformar a forma como aplicativos lidam com áudio ao vivo. Em vez de apenas converter voz em texto ou responder com frases pré-programadas, os modelos conseguem compreender contexto, manter o fluxo natural da conversa e acionar ferramentas enquanto o usuário fala.

O principal lançamento é o GPT-Realtime-2, descrito pela OpenAI como seu primeiro modelo de voz com “capacidade de raciocínio em nível GPT-5”. A proposta é permitir diálogos mais complexos e naturais, reduzindo interrupções e melhorando a continuidade da conversa mesmo em sessões longas. O modelo também suporta chamadas de ferramentas (“tool calling”), recurso importante para assistentes capazes de executar ações em tempo real, como consultar bancos de dados, agendar compromissos ou operar sistemas empresariais.

Já o GPT-Realtime-Translate foi desenvolvido para tradução instantânea de voz. A OpenAI afirma que o sistema consegue operar em mais de 70 idiomas e traduzir conversas em tempo real para 13 línguas de saída inicialmente suportadas. A tecnologia mira principalmente setores como atendimento ao cliente, turismo, educação e comunicação corporativa global.

O terceiro modelo apresentado, GPT-Realtime-Whisper, é focado em transcrição contínua de fala para texto. Ele foi projetado para aplicações como legendagem ao vivo, documentação automática de reuniões e geração de registros em fluxos de trabalho corporativos.

A OpenAI também revelou detalhes técnicos sobre a infraestrutura por trás da novidade. Em um texto publicado recentemente, a companhia explicou como reconstruiu sua pilha de comunicação baseada em WebRTC para reduzir drasticamente a latência nas interações de voz. O objetivo é permitir diálogos mais fluidos, próximos do ritmo de uma conversa humana.

Essa corrida por menor latência virou um dos principais focos da indústria de IA generativa. Pesquisas recentes mostram que agentes de voz precisam responder em menos de um segundo para que a interação pareça natural aos usuários. Um estudo acadêmico publicado neste ano apontou que pipelines tradicionais de voz ainda sofrem com atrasos elevados, enquanto arquiteturas em streaming conseguem reduzir significativamente o tempo de resposta.

A movimentação da OpenAI também intensifica a disputa no mercado de interfaces de voz, hoje um dos segmentos mais estratégicos da inteligência artificial. Empresas como Google, Meta, Anthropic, ElevenLabs e startups especializadas vêm investindo fortemente em modelos multimodais capazes de ouvir, interpretar emoções, traduzir e responder oralmente em tempo real.

Na prática, os novos modelos podem acelerar o surgimento de uma nova geração de produtos baseados em IA conversacional. Entre os possíveis usos estão centrais de atendimento automatizadas, tradutores universais, assistentes corporativos, tutores educacionais, interfaces para carros e dispositivos inteligentes, além de aplicações médicas e financeiras.

A OpenAI informou que empresas como Zillow, Priceline e Deutsche Telekom já estão testando a nova tecnologia em suas plataformas.

Outro ponto importante é o custo. De acordo com informações divulgadas pela Reuters, o GPT-Realtime-2 começa em US$ 32 por milhão de tokens de áudio de entrada, enquanto os modelos de tradução e transcrição possuem preços calculados por minuto de uso.

O anúncio reforça uma tendência clara do setor: a transição da IA textual para sistemas multimodais capazes de enxergar, ouvir e falar em tempo real. Desde o lançamento do GPT-4o, em 2024, a OpenAI vem tratando voz como um dos pilares centrais de sua estratégia. Agora, a empresa tenta transformar essa tecnologia em infraestrutura para aplicações comerciais de larga escala.

Leia também:

Este post foi modificado pela última vez em 8 de maio de 2026 14:35

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre

A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…

14 de junho de 2026

Metade dos norte-americanos teme perder o emprego para a IA — e a ansiedade só aumenta

A inteligência artificial (IA) já deixou de ser uma promessa tecnológica distante para se tornar…

13 de junho de 2026

IA supera professores de Direito em estudo de Stanford e acende debate sobre o futuro da educação jurídica; confira

A inteligência artificial (IA) acaba de alcançar mais um marco simbólico na educação superior. Um…

9 de junho de 2026

IA tem custo ambiental maior do que se imaginava, alerta relatório da ONU

A inteligência artificial (IA) está transformando setores inteiros da economia, impulsionando avanços em saúde, educação,…

9 de junho de 2026