Às margens das big techs e com recursos limitados, projeto de IA desenvolvido por brasileiro alcança 60 milhões de downloads

Depois do hype das ferramentas de inteligência artificial, muito tem se falado sobre o futuro da humanidade e as grandes empresas de tecnologia que brigam para desenvolver ferramentas líderes de mercado. Mas você sabia que tem um pesquisador independente brasileiro que desenvolveu um projeto de IA com mais de 60 milhões de downloads?

Publicado por
Uesley Durães

Jonatas Grosman é doutor em Ciência da Computação e desenvolveu um modelo de inteligência artificial que converte fala em texto quando ainda era aluno do Departamento de Informática do Centro Técnico Científico da PUC-Rio. O programa é fruto de uma tese de doutorado, mas, por trás disso, o que ninguém sabe é que o projeto nasceu em um momento delicado para o pesquisador. 

O ‘Speech to text’ de Grosman, lançado no final de 2021, hoje já conta com mais de 60 milhões de downloads numa plataforma de desenvolvedores. A solução de Jonatas, que transcreve áudios de diversos idiomas, já conquistou até premiações internacionais. 

Em uma competição da HugginFace, plataforma mundial de desenvolvedores, ele venceu na categoria de soluções para os idiomas espanhol, português, russo, inglês, alemão, francês, polonês e italiano. Tudo isso de forma independente, desenvolvendo seu projeto ainda na universidade.

Projeto nasceu em um momento delicado

Mas para entender a importância do projeto para o pesquisador é preciso voltar um pouco no tempo. Ainda quando estava no doutorado, o cientista descobriu um câncer e teve que se afastar da rotina acadêmica para o tratamento. Nesse momento, Grosman comentou que, como um bom nerd, a única distração que tinha era ler e mergulhar em conteúdos sobre inteligência artificial. A partir daí, observando modelos já existentes, ele decidiu projetar seu próprio trabalho na área.

“Eu lembro que eu estava querendo praticamente desistir do doutorado, para focar na minha família, cuidar da minha saúde e tal.  E o que eu fazia no tempo livre para dar uma espairecida na mente, de novo, eu sou nerd, era programar e ficar pesquisando”, narrou o cientista.

Às margens das ‘big techs’ e com recursos limitados, projeto de IA desenvolvido por brasileiro alcança 60 milhões de downloads. Jonatas Grosman (arquivo pessoal)

Com auxílio de programas de código aberto da Meta e da Mozilla, o pesquisador usou bancos de dados de áudios livres para alimentar seu modelo. Com áudios diversos, Grosman montou seu modelo de conversão e apresentou para a comunidade de desenvolvedores. A partir daí, com a ideia aceita pela comunidade internacional, o cientista conseguiu ajuda da plataforma HuggingFace para aprimorar seu projeto. 

Perguntado sobre as principais dificuldades em seu projeto, Grosman disse:

“Cada vez mais você precisa de poder computacional muito grande e que a maioria das universidades não tem.  Poder computacional para treinar esse tipo de modelo, sabe?  Boa parte desse treinamento desses modelos gigantes não estão mais na mão de universidades, estão em mãos de empresas privadas (OpenAI, Meta, Google). É necessário às vezes gastar milhões para treinar o modelo que não cabe lá no orçamento da universidade”.

O grande diferencial do projeto, de acordo com ele, é justamente essa independência e facilidade de uso. “O diferencial do meu modelo, basicamente, é o fato dele ser de graça e fácil de usar. Você pode pegar ali baixar e executar na máquina. Não é muito pesado, sabe? E outros desenvolvedores podem usar como base também”. 

O que é uma IA Speech to text?

Hoje, com milhões de pessoas usando e sem o apoio de nenhuma big tech, o pesquisador diz que pretende continuar atualizando seu modelo “Speech to text” para corrigir falhas e aumentar a base de idiomas identificados. Ele fala ainda que, no curto prazo, quer reduzir os problemas em relação à identificação de sotaques e gírias pela plataforma.

Para quem se interessou pela ferramenta e quer usar, basta clicar aqui. Por ser um projeto open source, ele é gratuito de usar. Na plataforma do HuggingFace também é possível entender como se deu todo o desenvolvimento do programa e acompanhar comentários da comunidade.

Veja também:

Este post foi modificado pela última vez em %s = human-readable time difference 10:40

Uesley Durães

Posts recentes

DeepMind dá um salto gigante na computação quântica com o AlphaQubit

O Google DeepMind acaba de apresentar o AlphaQubit, um sistema de inteligência artificial (IA) que…

21 de novembro de 2024

ChatGPT está mais perto de lançar sua IA visual

Um código recém-descoberto na última versão beta do ChatGPT sugere que a OpenAI pode estar…

21 de novembro de 2024

DeepSeek revela poderosa IA de raciocínio; veja

A empresa chinesa de pesquisa em inteligência artificial (IA), DeepSeek, acaba de lançar o R1-Lite-Preview,…

21 de novembro de 2024

OpenAI lança curso gratuito de IA para professores

A OpenAI e a parceira sem fins lucrativos Common Sense Media lançaram um curso de…

20 de novembro de 2024

Robôs da Figure transformam produção da BMW; saiba como

Brett Adcock, CEO da Figure, postou uma atualização sobre os robôs humanoides da empresa trabalhando…

20 de novembro de 2024

Microsoft revela agentes de IA especializados e ferramentas de automação

A Microsoft acaba de apresentar uma suíte de novos agentes de inteligência artificial (IA) especializados…

20 de novembro de 2024