Inteligência Artificial

NVIDIA supera OpenAI com modelos avançados de reconhecimento de fala de código aberto

O Parakeet da NVIDIA NeMo, desenvolvido com o Suno.ai, lança modelos ASR avançados, destacando-se em diversos ambientes e superando o Whisper da OpenAI.

Publicado por
Juliana Caminoto

NVIDIA NeMo lançou o Parakeet, sua mais recente série de modelos de reconhecimento automático de fala (ASR), marcando um marco significativo na IA conversacional. Esses modelos, criados em colaboração com Suno.ai, abrangem de 0,6 a 1,1 bilhão de parâmetros, apresentando uma capacidade impressionante de transcrever com precisão o inglês falado.

Disponível para utilização comercial sob a licença CC BY 4.0, o Parakeet se destaca por seu treinamento abrangente em vastas 64.000 horas de dados de áudio, abrangendo uma ampla gama de sotaques, alcances vocais e ambientes sonoros variados. Os modelos são projetados exclusivamente para serem resistentes a elementos de áudio não-verbais, como música e silêncio, um aprimoramento notável na tecnologia ASR.

Eles superaram o Whisper v3 da OpenAI em benchmarks comparativos, destacando seus recursos avançados. Além disso, esses modelos são projetados para integração perfeita em vários projetos, graças aos seus pontos de controle pré-treinados e fáceis de usar, tornando-os uma ferramenta versátil no campo em evolução do reconhecimento de fala.

Vantagem dos modelos da NVIDIA em relação ao Whisper v3

Os modelos da NVIDIA estabeleceram um novo padrão na indústria, apresentando robustez de nível humano na conversão de fala em texto. A essência destes modelos reside na sua capacidade de lidar eficazmente com uma vasta gama de cenários linguísticos.

Eles exibem proficiência incomparável na identificação de idiomas, gerenciando habilmente diversos conjuntos de dados que levam a resultados de transcrição mais precisos. Os modelos são treinados para compreender diferentes sotaques e dialetos, aumentando ainda mais sua aplicabilidade em aplicações de negócios globais.

À medida que abraçamos estes desenvolvimentos, o panorama do reconhecimento automático de voz deverá evoluir, oferecendo soluções mais robustas, inclusivas e acessíveis para utilizadores em todo o mundo.

Leia também:

Este post foi modificado pela última vez em 9 de janeiro de 2024 16:34

Juliana Caminoto

Advogada com especialização em compliance e auditoria, estou sempre conectada às redes sociais e em busca de novos desafios. Sou mãe de pet e amo viajar.

Posts recentes

AI Overview: Google inclui anúncios nos resultados de pesquisa com IA

O Google acaba de anunciar a introdução de anúncios em seus resumos de pesquisa do…

4 de outubro de 2024

Nova interface ‘Canvas’ do ChatGPT torna mais fácil escrever e codificar; confira

A OpenAI acaba de lançar o Canvas, um novo lançamento de interface do ChatGPT que…

4 de outubro de 2024

IA e os Relatórios Policiais: Acelerando o processo ou comprometendo a justiça?

O uso de inteligência artificial (IA) em áreas como segurança pública está cada vez mais…

3 de outubro de 2024

OpenAI garante crédito bilionário após grande rodada de financiamento

A OpenAI garantiu uma nova linha de crédito rotativa de US$ 4 bilhões, anunciou a…

3 de outubro de 2024

‘Future You’: IA do MIT que permite conversar com versão mais velha de si mesmo

Pesquisadores do MIT desenvolveram um sistema de inteligência artificial (IA) chamado "Future You" que permite…

3 de outubro de 2024

Google desenvolve IA de raciocínio para rivalizar com a OpenAI

O Google está supostamente avançando no desenvolvimento de modelos de inteligência artificial (IA) com capacidades…

3 de outubro de 2024