NVIDIA
Créditos da imagem: Reprodução/NVIDIA

NVIDIA supera OpenAI com modelos avançados de reconhecimento de fala de código aberto

O Parakeet da NVIDIA NeMo, desenvolvido com o Suno.ai, lança modelos ASR avançados, destacando-se em diversos ambientes e superando o Whisper da OpenAI.

NVIDIA NeMo lançou o Parakeet, sua mais recente série de modelos de reconhecimento automático de fala (ASR), marcando um marco significativo na IA conversacional. Esses modelos, criados em colaboração com Suno.ai, abrangem de 0,6 a 1,1 bilhão de parâmetros, apresentando uma capacidade impressionante de transcrever com precisão o inglês falado.

PUBLICIDADE

Disponível para utilização comercial sob a licença CC BY 4.0, o Parakeet se destaca por seu treinamento abrangente em vastas 64.000 horas de dados de áudio, abrangendo uma ampla gama de sotaques, alcances vocais e ambientes sonoros variados. Os modelos são projetados exclusivamente para serem resistentes a elementos de áudio não-verbais, como música e silêncio, um aprimoramento notável na tecnologia ASR.

Eles superaram o Whisper v3 da OpenAI em benchmarks comparativos, destacando seus recursos avançados. Além disso, esses modelos são projetados para integração perfeita em vários projetos, graças aos seus pontos de controle pré-treinados e fáceis de usar, tornando-os uma ferramenta versátil no campo em evolução do reconhecimento de fala.

Vantagem dos modelos da NVIDIA em relação ao Whisper v3

Os modelos da NVIDIA estabeleceram um novo padrão na indústria, apresentando robustez de nível humano na conversão de fala em texto. A essência destes modelos reside na sua capacidade de lidar eficazmente com uma vasta gama de cenários linguísticos.

PUBLICIDADE

Eles exibem proficiência incomparável na identificação de idiomas, gerenciando habilmente diversos conjuntos de dados que levam a resultados de transcrição mais precisos. Os modelos são treinados para compreender diferentes sotaques e dialetos, aumentando ainda mais sua aplicabilidade em aplicações de negócios globais.

À medida que abraçamos estes desenvolvimentos, o panorama do reconhecimento automático de voz deverá evoluir, oferecendo soluções mais robustas, inclusivas e acessíveis para utilizadores em todo o mundo.

Leia também:

Rolar para cima