logo da Nvidia
Créditos da imagem: Curto News/Bing Image Creator

Parakeet V2: A IA de transcrição da Nvidia agora é open source e super-rápida

A Nvidia acaba de lançar o Parakeet V2, um novo e poderoso modelo de reconhecimento automático de fala (ASR) de código aberto que pode transcrever uma hora de áudio em um único segundo, alcançando níveis de precisão de nível comercial.

PUBLICIDADE

Detalhes do Parakeet V2
  • O Parakeet conquistou o primeiro lugar no placar do Open ASR com uma Taxa de Erro de Palavras (WER) de 6,05%, superando modelos de ponta como o Scribe da ElevenLabs e o Whisper da OpenAI.
  • Lançado sob uma licença CC-BY-4.0 comercialmente permissiva, o modelo de 600 milhões de parâmetros é totalmente de código aberto para desenvolvedores e pesquisadores.
  • O modelo também inclui recursos avançados como marcação de tempo precisa, tratamento de capitalização e pontuação, e capacidades de transcrição de músicas para letras.
Por que isso é importante

A Nvidia continua não apenas a dominar o mercado de chips, mas também a lançar modelos poderosos e amplamente de código aberto. Os dias de transcrições tediosas ficaram para trás, e este modelo ASR de ponta, embora aberto, reduz significativamente a barreira para a construção de aplicações de fala avançadas.

Leia também:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima