[gtranslate]

Inteligência Artificial

NVIDIA supera OpenAI com modelos avançados de reconhecimento de fala de código aberto

O Parakeet da NVIDIA NeMo, desenvolvido com o Suno.ai, lança modelos ASR avançados, destacando-se em diversos ambientes e superando o Whisper da OpenAI.

Publicado por
Juliana Caminoto

NVIDIA NeMo lançou o Parakeet, sua mais recente série de modelos de reconhecimento automático de fala (ASR), marcando um marco significativo na IA conversacional. Esses modelos, criados em colaboração com Suno.ai, abrangem de 0,6 a 1,1 bilhão de parâmetros, apresentando uma capacidade impressionante de transcrever com precisão o inglês falado.

Disponível para utilização comercial sob a licença CC BY 4.0, o Parakeet se destaca por seu treinamento abrangente em vastas 64.000 horas de dados de áudio, abrangendo uma ampla gama de sotaques, alcances vocais e ambientes sonoros variados. Os modelos são projetados exclusivamente para serem resistentes a elementos de áudio não-verbais, como música e silêncio, um aprimoramento notável na tecnologia ASR.

Eles superaram o Whisper v3 da OpenAI em benchmarks comparativos, destacando seus recursos avançados. Além disso, esses modelos são projetados para integração perfeita em vários projetos, graças aos seus pontos de controle pré-treinados e fáceis de usar, tornando-os uma ferramenta versátil no campo em evolução do reconhecimento de fala.

Vantagem dos modelos da NVIDIA em relação ao Whisper v3

Os modelos da NVIDIA estabeleceram um novo padrão na indústria, apresentando robustez de nível humano na conversão de fala em texto. A essência destes modelos reside na sua capacidade de lidar eficazmente com uma vasta gama de cenários linguísticos.

Eles exibem proficiência incomparável na identificação de idiomas, gerenciando habilmente diversos conjuntos de dados que levam a resultados de transcrição mais precisos. Os modelos são treinados para compreender diferentes sotaques e dialetos, aumentando ainda mais sua aplicabilidade em aplicações de negócios globais.

À medida que abraçamos estes desenvolvimentos, o panorama do reconhecimento automático de voz deverá evoluir, oferecendo soluções mais robustas, inclusivas e acessíveis para utilizadores em todo o mundo.

Leia também:

Este post foi modificado pela última vez em 9 de janeiro de 2024 16:34

Juliana Caminoto

Advogada com especialização em compliance e auditoria, estou sempre conectada às redes sociais e em busca de novos desafios. Sou mãe de pet e amo viajar.

Posts recentes

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre

A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…

14 de junho de 2026

Metade dos norte-americanos teme perder o emprego para a IA — e a ansiedade só aumenta

A inteligência artificial (IA) já deixou de ser uma promessa tecnológica distante para se tornar…

13 de junho de 2026

IA supera professores de Direito em estudo de Stanford e acende debate sobre o futuro da educação jurídica; confira

A inteligência artificial (IA) acaba de alcançar mais um marco simbólico na educação superior. Um…

9 de junho de 2026