IA de voz da OpenAI ganha impulso de personalidade

A OpenAI lançou seus modelos de áudio de próxima geração baseados em API para conversão de texto em fala (text-to-speech) e fala em texto (speech-to-text), dando aos desenvolvedores a capacidade de personalizar estilos de fala de inteligência artificial (IA) por meio de texto e oferecendo reconhecimento de fala aprimorado em vários idiomas.

Detalhes do lançamento

O novo modelo gpt-4o-mini-tts adapta seu estilo de fala com base em prompts de texto simples – como “fale como um pirata” ou “use uma voz de história para dormir”.
Os modelos de conversão de fala em texto GPT-4o-transcribe atingem desempenho SOTA (state-of-the-art – estado da arte) em testes de precisão e confiabilidade, superando os modelos Whisper existentes.
A OpenAI também lançou o openai.fm, uma plataforma de demonstração pública que permite aos usuários testar diferentes estilos de voz e experimentar os novos modelos em primeira mão.
Os modelos estão disponíveis por meio da API da OpenAI, com suporte de integração por meio do Agents SDK para desenvolvedores que criam assistentes de IA habilitados para voz.

Por que isso é importante

Agentes de voz de IA estão prestes a ser integrados a todos os tipos de aplicativos e plataformas – e ser capaz de personalizar as saídas com comandos de texto é um grande avanço para interações de IA mais diversas e naturais. Mas essas demonstrações da OpenAI não parecem tão humanas quanto as rivais de voz como Sesame e ElevenLabs, pelo menos por enquanto.

Leia também:

Claude ganha busca na web em tempo real; veja

IA de voz da OpenAI ganha impulso de personalidade

Detalhes do lançamento

Por que isso é importante

Sobre o autor

Isabella Caminoto

Detalhes do lançamento

Por que isso é importante

Sobre o autor

Isabella Caminoto

Mais lidas

Relacionados