Créditos da imagem: Reprodução: Canva

IA aprende com bebê: Estudo usa câmera para desvendar aquisição linguística

Uma rede neural treinada com base nas experiências de uma única criança conseguiu aprender um dos principais componentes da linguagem: como combinar palavras com os objetos que elas representam.

Crianças aprendem muito mais rápido do que até mesmo os melhores modelos de linguagem de grande porte. Para poder escrever em um inglês aceitável, o ChatGPT teve que ser treinado em enormes conjuntos de dados que contêm milhões ou até um trilhão de palavras. 

PUBLICIDADE

As crianças, por outro lado, têm acesso a apenas uma pequena fração desses dados, mas aos três anos já se comunicam de maneiras bastante sofisticadas.

Uma equipe de pesquisadores da Universidade de Nova York questionou se a inteligência artificial (IA) poderia aprender como um bebê. O que um modelo de inteligência artificial poderia fazer quando recebesse um conjunto de dados muito menor – as imagens e os sons experimentados por uma única criança aprendendo a falar?

E a reposta foi: muita coisa. O modelo de IA conseguiu combinar as palavras com os objetos que elas representam. 

PUBLICIDADE

“Mesmo neste breve momento da experiência da criança, existem dados suficientes para que ela possa realizar uma verdadeira aprendizagem de palavras”, diz Brenden Lake, cientista computacional cognitivo da Universidade de Nova York e autor do estudo. Este trabalho, publicado na Science, não só fornece informações sobre como os bebês aprendem, mas também pode levar a melhores modelos de IA.

Para este experimento, os pesquisadores se basearam em 61 horas de vídeo de uma câmera de capacete usada por uma criança que mora perto de Adelaide, na Austrália. Aquela criança, usou a câmera intermitentemente por um ano e meio, desde os seis meses de idade até pouco depois de seu segundo aniversário. A câmera capturou as coisas que bebê olhou e prestou atenção durante cerca de 1% de suas horas de vigília.

Para treinar o modelo, Lake e seus colegas usaram 600.000 quadros de vídeo emparelhados com frases ditas pelos pais ou outras pessoas na sala quando a imagem foi capturada – 37.500 “enunciados” no total. Às vezes, as palavras e os objetos combinavam. Às vezes eles não faziam isso. 

PUBLICIDADE

A equipe deu ao modelo duas dicas. Quando objetos e palavras ocorrem juntos, é um sinal de que podem estar ligados. Mas quando um objeto e uma palavra não ocorrem juntos, é um sinal de que provavelmente não correspondem.

Combinar palavras com os objetos que elas representam pode parecer uma tarefa simples, mas não é. Para se ter uma ideia da extensão do problema, imagine a sala de estar de uma família com filhos pequenos. Tem todos os móveis normais de sala de estar, mas também bagunça infantil. O chão está cheio de brinquedos. Se uma criança ouvir a palavra “bola”, ela pode se referir a uma bola. Mas também pode se referir a qualquer outro brinquedo, ou ao sofá, ou a uma calça, ou ao formato de um objeto, ou à sua cor, ou à hora do dia. 

“Há um número infinito de significados possíveis para qualquer palavra”, diz Lake.

PUBLICIDADE

O problema é tão intratável que alguns psicólogos argumentam que as crianças devem nascer com uma compreensão inata de como a linguagem funciona para poderem aprendê-la tão rapidamente. Mas o estudo sugere que algumas partes da linguagem podem ser aprendidas a partir de um conjunto muito pequeno de experiências, mesmo sem essa habilidade inata, diz Jess Sullivan, psicóloga do desenvolvimento na Universidade Skidmore.

O próximo passo para Lake e seus colegas é tentar descobrir o que eles precisam para fazer com que a aprendizagem do modelo reproduza mais de perto a aprendizagem precoce de línguas nas crianças. 

“Há mais trabalho a ser feito para tentar conseguir um modelo com habilidades totalmente semelhantes às de uma criança de dois anos”, diz ele. Isso pode significar fornecer mais dados.

PUBLICIDADE

Leia também:

Rolar para cima