Depois do hype das ferramentas de inteligência artificial, muito tem se falado sobre o futuro da humanidade e as grandes empresas de tecnologia que brigam para desenvolver ferramentas líderes de mercado. Mas você sabia que tem um pesquisador independente brasileiro que desenvolveu um projeto de IA com mais de 60 milhões de downloads?
Jonatas Grosman é doutor em Ciência da Computação e desenvolveu um modelo de inteligência artificial que converte fala em texto quando ainda era aluno do Departamento de Informática do Centro Técnico Científico da PUC-Rio. O programa é fruto de uma tese de doutorado, mas, por trás disso, o que ninguém sabe é que o projeto nasceu em um momento delicado para o pesquisador.
O ‘Speech to text’ de Grosman, lançado no final de 2021, hoje já conta com mais de 60 milhões de downloads numa plataforma de desenvolvedores. A solução de Jonatas, que transcreve áudios de diversos idiomas, já conquistou até premiações internacionais.
Em uma competição da HugginFace, plataforma mundial de desenvolvedores, ele venceu na categoria de soluções para os idiomas espanhol, português, russo, inglês, alemão, francês, polonês e italiano. Tudo isso de forma independente, desenvolvendo seu projeto ainda na universidade.
Mas para entender a importância do projeto para o pesquisador é preciso voltar um pouco no tempo. Ainda quando estava no doutorado, o cientista descobriu um câncer e teve que se afastar da rotina acadêmica para o tratamento. Nesse momento, Grosman comentou que, como um bom nerd, a única distração que tinha era ler e mergulhar em conteúdos sobre inteligência artificial. A partir daí, observando modelos já existentes, ele decidiu projetar seu próprio trabalho na área.
“Eu lembro que eu estava querendo praticamente desistir do doutorado, para focar na minha família, cuidar da minha saúde e tal. E o que eu fazia no tempo livre para dar uma espairecida na mente, de novo, eu sou nerd, era programar e ficar pesquisando”, narrou o cientista.
Com auxílio de programas de código aberto da Meta e da Mozilla, o pesquisador usou bancos de dados de áudios livres para alimentar seu modelo. Com áudios diversos, Grosman montou seu modelo de conversão e apresentou para a comunidade de desenvolvedores. A partir daí, com a ideia aceita pela comunidade internacional, o cientista conseguiu ajuda da plataforma HuggingFace para aprimorar seu projeto.
“Cada vez mais você precisa de poder computacional muito grande e que a maioria das universidades não tem. Poder computacional para treinar esse tipo de modelo, sabe? Boa parte desse treinamento desses modelos gigantes não estão mais na mão de universidades, estão em mãos de empresas privadas (OpenAI, Meta, Google). É necessário às vezes gastar milhões para treinar o modelo que não cabe lá no orçamento da universidade”.
O grande diferencial do projeto, de acordo com ele, é justamente essa independência e facilidade de uso. “O diferencial do meu modelo, basicamente, é o fato dele ser de graça e fácil de usar. Você pode pegar ali baixar e executar na máquina. Não é muito pesado, sabe? E outros desenvolvedores podem usar como base também”.
Hoje, com milhões de pessoas usando e sem o apoio de nenhuma big tech, o pesquisador diz que pretende continuar atualizando seu modelo “Speech to text” para corrigir falhas e aumentar a base de idiomas identificados. Ele fala ainda que, no curto prazo, quer reduzir os problemas em relação à identificação de sotaques e gírias pela plataforma.
Para quem se interessou pela ferramenta e quer usar, basta clicar aqui. Por ser um projeto open source, ele é gratuito de usar. Na plataforma do HuggingFace também é possível entender como se deu todo o desenvolvimento do programa e acompanhar comentários da comunidade.
Veja também:
Este post foi modificado pela última vez em 23 de junho de 2023 10:40
A Walt Disney está formando um novo grupo para coordenar o uso da empresa de…
A Nvidia acaba de publicar uma nova pesquisa apresentando o HOVER, uma pequena rede neural…
O ChatGPT agora é oficialmente um mecanismo de busca com inteligência artificial (IA). A empresa…
A Ucrânia está usando dezenas de sistemas de inteligência artificial (IA) fabricados localmente para seus…
A Alphabet, dona do Google, anunciou na quinta-feira (31) um conjunto de recursos que incorporam…
A startup de design Recraft acaba de anunciar seu novo modelo de inteligência artificial (IA)…