GPT-Realtime: O futuro dos agentes de voz agora pode "ver" e conversar como humanos

A OpenAI tirou sua API Realtime da versão beta e lançou o novo modelo GPT-Realtime para conversas de voz, com novas ferramentas para desenvolvedores, como entrada de imagens e integrações com servidores do Protocolo de Contexto do Modelo (MCP).

Detalhes do GPT-Realtime

GPT-Realtime possui recursos aprimorados, como a capacidade de detectar sinais não verbais e alternar entre idiomas, mantendo o fluxo natural da conversa.
O modelo alcançou 82,8% de precisão em testes de raciocínio de áudio, um avanço significativo em relação aos 65,6% de seu antecessor.
A OpenAI também adicionou suporte ao MCP, permitindo que agentes de voz se conectem a fontes de dados e ferramentas externas sem a necessidade de integrações personalizadas.
O GPT-Realtime também pode processar entradas de imagens, como fotos ou capturas de tela, dando ao agente de voz a capacidade de analisar informações visuais durante a conversa.

Por que é importante

A adoção em massa de agentes de voz parece ser uma tendência inevitável, e as inovações da OpenAI — com aprimoramentos nas capacidades de conversação humana e integrações como MCP e análise de imagens — trazem ainda mais funcionalidades para empresas e desenvolvedores. Essas ferramentas podem ser usadas diretamente em canais de suporte ao cliente ou em aplicações de voz personalizadas.

Leia também:

Gigantes da IA se Unem para Testar a Segurança de Modelos

GPT-Realtime: O futuro dos agentes de voz agora pode “ver” e conversar como humanos

Detalhes do GPT-Realtime

Por que é importante

Sobre o autor

Isabella Caminoto

Detalhes do GPT-Realtime

Por que é importante

Sobre o autor

Isabella Caminoto

Mais lidas

Relacionados