O Parakeet da NVIDIA NeMo, desenvolvido com o Suno.ai, lança modelos ASR avançados, destacando-se em diversos ambientes e superando o Whisper da OpenAI.
NVIDIA NeMo lançou o Parakeet, sua mais recente série de modelos de reconhecimento automático de fala (ASR), marcando um marco significativo na IA conversacional. Esses modelos, criados em colaboração com Suno.ai, abrangem de 0,6 a 1,1 bilhão de parâmetros, apresentando uma capacidade impressionante de transcrever com precisão o inglês falado.
Disponível para utilização comercial sob a licença CC BY 4.0, o Parakeet se destaca por seu treinamento abrangente em vastas 64.000 horas de dados de áudio, abrangendo uma ampla gama de sotaques, alcances vocais e ambientes sonoros variados. Os modelos são projetados exclusivamente para serem resistentes a elementos de áudio não-verbais, como música e silêncio, um aprimoramento notável na tecnologia ASR.
Eles superaram o Whisper v3 da OpenAI em benchmarks comparativos, destacando seus recursos avançados. Além disso, esses modelos são projetados para integração perfeita em vários projetos, graças aos seus pontos de controle pré-treinados e fáceis de usar, tornando-os uma ferramenta versátil no campo em evolução do reconhecimento de fala.
Os modelos da NVIDIA estabeleceram um novo padrão na indústria, apresentando robustez de nível humano na conversão de fala em texto. A essência destes modelos reside na sua capacidade de lidar eficazmente com uma vasta gama de cenários linguísticos.
Eles exibem proficiência incomparável na identificação de idiomas, gerenciando habilmente diversos conjuntos de dados que levam a resultados de transcrição mais precisos. Os modelos são treinados para compreender diferentes sotaques e dialetos, aumentando ainda mais sua aplicabilidade em aplicações de negócios globais.
À medida que abraçamos estes desenvolvimentos, o panorama do reconhecimento automático de voz deverá evoluir, oferecendo soluções mais robustas, inclusivas e acessíveis para utilizadores em todo o mundo.
Leia também:
Este post foi modificado pela última vez em 9 de janeiro de 2024 16:34
A Amazon Prime Video está recebendo um novo recurso alimentado por IA generativa para ajudá-lo…
A empresa de busca com inteligência artificial (IA) Perplexity está testando a ideia de usar…
A gigante de energia dos Emirados Árabes Unidos, ADNOC, aplicará inteligência artificial (IA) altamente autônoma…
A Anthropic acabou de lançar o suporte a PDF para seu modelo Claude 3.5 Sonnet…
O Google está adicionando uma extensão do Google Home ao aplicativo Gemini, permitindo que você…
A Walt Disney está formando um novo grupo para coordenar o uso da empresa de…