Parakeet V2: A IA de transcrição da Nvidia agora é open source e super-rápida

A Nvidia acaba de lançar o Parakeet V2, um novo e poderoso modelo de reconhecimento automático de fala (ASR) de código aberto que pode transcrever uma hora de áudio em um único segundo, alcançando níveis de precisão de nível comercial.

Detalhes do Parakeet V2

O Parakeet conquistou o primeiro lugar no placar do Open ASR com uma Taxa de Erro de Palavras (WER) de 6,05%, superando modelos de ponta como o Scribe da ElevenLabs e o Whisper da OpenAI.
Lançado sob uma licença CC-BY-4.0 comercialmente permissiva, o modelo de 600 milhões de parâmetros é totalmente de código aberto para desenvolvedores e pesquisadores.
O modelo também inclui recursos avançados como marcação de tempo precisa, tratamento de capitalização e pontuação, e capacidades de transcrição de músicas para letras.

Por que isso é importante

A Nvidia continua não apenas a dominar o mercado de chips, mas também a lançar modelos poderosos e amplamente de código aberto. Os dias de transcrições tediosas ficaram para trás, e este modelo ASR de ponta, embora aberto, reduz significativamente a barreira para a construção de aplicações de fala avançadas.

Leia também:

OpenAI reverte decisão e afirma que braço sem fins lucrativos manterá o controle da empresa

Parakeet V2: A IA de transcrição da Nvidia agora é open source e super-rápida

Detalhes do Parakeet V2

Por que isso é importante

Sobre o autor

Isabella Caminoto

Detalhes do Parakeet V2

Por que isso é importante

Sobre o autor

Isabella Caminoto

Mais lidas

Relacionados