O Parakeet da NVIDIA NeMo, desenvolvido com o Suno.ai, lança modelos ASR avançados, destacando-se em diversos ambientes e superando o Whisper da OpenAI.
NVIDIA NeMo lançou o Parakeet, sua mais recente série de modelos de reconhecimento automático de fala (ASR), marcando um marco significativo na IA conversacional. Esses modelos, criados em colaboração com Suno.ai, abrangem de 0,6 a 1,1 bilhão de parâmetros, apresentando uma capacidade impressionante de transcrever com precisão o inglês falado.
Disponível para utilização comercial sob a licença CC BY 4.0, o Parakeet se destaca por seu treinamento abrangente em vastas 64.000 horas de dados de áudio, abrangendo uma ampla gama de sotaques, alcances vocais e ambientes sonoros variados. Os modelos são projetados exclusivamente para serem resistentes a elementos de áudio não-verbais, como música e silêncio, um aprimoramento notável na tecnologia ASR.
Eles superaram o Whisper v3 da OpenAI em benchmarks comparativos, destacando seus recursos avançados. Além disso, esses modelos são projetados para integração perfeita em vários projetos, graças aos seus pontos de controle pré-treinados e fáceis de usar, tornando-os uma ferramenta versátil no campo em evolução do reconhecimento de fala.
Os modelos da NVIDIA estabeleceram um novo padrão na indústria, apresentando robustez de nível humano na conversão de fala em texto. A essência destes modelos reside na sua capacidade de lidar eficazmente com uma vasta gama de cenários linguísticos.
Eles exibem proficiência incomparável na identificação de idiomas, gerenciando habilmente diversos conjuntos de dados que levam a resultados de transcrição mais precisos. Os modelos são treinados para compreender diferentes sotaques e dialetos, aumentando ainda mais sua aplicabilidade em aplicações de negócios globais.
À medida que abraçamos estes desenvolvimentos, o panorama do reconhecimento automático de voz deverá evoluir, oferecendo soluções mais robustas, inclusivas e acessíveis para utilizadores em todo o mundo.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 16:34
A BlackForestLabs acaba de revelar o FLUX.1 Tools, quatro novos recursos de manipulação de imagens…
O mais recente modelo experimental Gemini da Google (1121) acabou de recuperar o primeiro lugar…
A OpenAI está considerando desenvolver um navegador web que se integraria ao ChatGPT e aos…
O Google DeepMind acaba de apresentar o AlphaQubit, um sistema de inteligência artificial (IA) que…
Um código recém-descoberto na última versão beta do ChatGPT sugere que a OpenAI pode estar…
A empresa chinesa de pesquisa em inteligência artificial (IA), DeepSeek, acaba de lançar o R1-Lite-Preview,…