A OpenAI tirou sua API Realtime da versão beta e lançou o novo modelo GPT-Realtime para conversas de voz, com novas ferramentas para desenvolvedores, como entrada de imagens e integrações com servidores do Protocolo de Contexto do Modelo (MCP).
PUBLICIDADE
Detalhes do GPT-Realtime
- GPT-Realtime possui recursos aprimorados, como a capacidade de detectar sinais não verbais e alternar entre idiomas, mantendo o fluxo natural da conversa.
- O modelo alcançou 82,8% de precisão em testes de raciocínio de áudio, um avanço significativo em relação aos 65,6% de seu antecessor.
- A OpenAI também adicionou suporte ao MCP, permitindo que agentes de voz se conectem a fontes de dados e ferramentas externas sem a necessidade de integrações personalizadas.
- O GPT-Realtime também pode processar entradas de imagens, como fotos ou capturas de tela, dando ao agente de voz a capacidade de analisar informações visuais durante a conversa.
Por que é importante
A adoção em massa de agentes de voz parece ser uma tendência inevitável, e as inovações da OpenAI — com aprimoramentos nas capacidades de conversação humana e integrações como MCP e análise de imagens — trazem ainda mais funcionalidades para empresas e desenvolvedores. Essas ferramentas podem ser usadas diretamente em canais de suporte ao cliente ou em aplicações de voz personalizadas.
Leia também:



