Depois do hype das ferramentas de inteligência artificial, muito tem se falado sobre o futuro da humanidade e as grandes empresas de tecnologia que brigam para desenvolver ferramentas líderes de mercado. Mas você sabia que tem um pesquisador independente brasileiro que desenvolveu um projeto de IA com mais de 60 milhões de downloads?
Jonatas Grosman é doutor em Ciência da Computação e desenvolveu um modelo de inteligência artificial que converte fala em texto quando ainda era aluno do Departamento de Informática do Centro Técnico Científico da PUC-Rio. O programa é fruto de uma tese de doutorado, mas, por trás disso, o que ninguém sabe é que o projeto nasceu em um momento delicado para o pesquisador.
O ‘Speech to text’ de Grosman, lançado no final de 2021, hoje já conta com mais de 60 milhões de downloads numa plataforma de desenvolvedores. A solução de Jonatas, que transcreve áudios de diversos idiomas, já conquistou até premiações internacionais.
Em uma competição da HugginFace, plataforma mundial de desenvolvedores, ele venceu na categoria de soluções para os idiomas espanhol, português, russo, inglês, alemão, francês, polonês e italiano. Tudo isso de forma independente, desenvolvendo seu projeto ainda na universidade.
Mas para entender a importância do projeto para o pesquisador é preciso voltar um pouco no tempo. Ainda quando estava no doutorado, o cientista descobriu um câncer e teve que se afastar da rotina acadêmica para o tratamento. Nesse momento, Grosman comentou que, como um bom nerd, a única distração que tinha era ler e mergulhar em conteúdos sobre inteligência artificial. A partir daí, observando modelos já existentes, ele decidiu projetar seu próprio trabalho na área.
“Eu lembro que eu estava querendo praticamente desistir do doutorado, para focar na minha família, cuidar da minha saúde e tal. E o que eu fazia no tempo livre para dar uma espairecida na mente, de novo, eu sou nerd, era programar e ficar pesquisando”, narrou o cientista.
Com auxílio de programas de código aberto da Meta e da Mozilla, o pesquisador usou bancos de dados de áudios livres para alimentar seu modelo. Com áudios diversos, Grosman montou seu modelo de conversão e apresentou para a comunidade de desenvolvedores. A partir daí, com a ideia aceita pela comunidade internacional, o cientista conseguiu ajuda da plataforma HuggingFace para aprimorar seu projeto.
“Cada vez mais você precisa de poder computacional muito grande e que a maioria das universidades não tem. Poder computacional para treinar esse tipo de modelo, sabe? Boa parte desse treinamento desses modelos gigantes não estão mais na mão de universidades, estão em mãos de empresas privadas (OpenAI, Meta, Google). É necessário às vezes gastar milhões para treinar o modelo que não cabe lá no orçamento da universidade”.
O grande diferencial do projeto, de acordo com ele, é justamente essa independência e facilidade de uso. “O diferencial do meu modelo, basicamente, é o fato dele ser de graça e fácil de usar. Você pode pegar ali baixar e executar na máquina. Não é muito pesado, sabe? E outros desenvolvedores podem usar como base também”.
Hoje, com milhões de pessoas usando e sem o apoio de nenhuma big tech, o pesquisador diz que pretende continuar atualizando seu modelo “Speech to text” para corrigir falhas e aumentar a base de idiomas identificados. Ele fala ainda que, no curto prazo, quer reduzir os problemas em relação à identificação de sotaques e gírias pela plataforma.
Para quem se interessou pela ferramenta e quer usar, basta clicar aqui. Por ser um projeto open source, ele é gratuito de usar. Na plataforma do HuggingFace também é possível entender como se deu todo o desenvolvimento do programa e acompanhar comentários da comunidade.
Veja também:
Este post foi modificado pela última vez em %s = human-readable time difference 10:40
O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…
Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…