AI Bootcamp: Saiba como são construídos os bancos de dados das IAs

Publicado por

Vinicius Siqueira

24 de junho de 2024 20:18

AI Bootcamp: Saiba como são construídos os bancos de dados das IAs

A inteligência artificial (IA) tem revolucionado diversos setores – desde a saúde até o entretenimento – mas o processo de treinamento dessas tecnologias envolve complexidades e questões éticas significativas. Treinar uma IA eficaz depende de vastos bancos de dados que fornecem as informações necessárias para que os algoritmos aprendam e evoluam. No entanto, a seleção e o uso desses dados levantam uma série de desafios.

O treinamento de uma IA requer grandes quantidades de dados, que podem ser textos, imagens, áudios ou vídeos, dependendo da finalidade do algoritmo. Esses dados são usados para alimentar os modelos de IA, permitindo que eles identifiquem padrões, façam previsões e tomem decisões.

Dados de Treinamento: Os dados são divididos em conjuntos de treinamento, validação e teste. O conjunto de treinamento é usado para ensinar o modelo, o conjunto de validação ajusta o modelo e o conjunto de teste avalia seu desempenho final.
Fontes de Dados: As fontes podem variar de bancos de dados públicos, como conjuntos de dados de pesquisa acadêmica, até informações coletadas de usuários de plataformas digitais. Dados de redes sociais, bibliotecas digitais e registros de saúde são exemplos comuns.

Dados que podem ou não ser utilizados

A seleção dos dados para treinar uma IA envolve cuidados éticos e legais rigorosos:

Dados Pessoais: Devem ser coletados e usados em conformidade com leis de proteção de dados, como o GDPR na Europa. A coleta de dados pessoais sem consentimento explícito pode resultar em graves penalidades legais.
Dados Públicos: Informações disponíveis publicamente podem ser usadas para treinamento, mas mesmo aqui é preciso cautela para evitar violações de privacidade ou direitos autorais.
Dados Sensíveis: Informações que revelam raça, religião, orientação sexual ou saúde devem ser tratadas com extremo cuidado. O uso inadequado desses dados pode levar a discriminação e prejuízos significativos.

Nesse contexto em que as empresas buscam a maior quantidade de informações possíveis para o desenvolvimento de suas ferramentas, as mesmas recorrem a diversas alternativas para enriquecer suas bases. Por exemplo, na mais nova Política de Privacidade da Meta, a empresa passou a utilizar dados públicos compartilhados por brasileiros no Instagram e no Facebook. Isso significa que vídeos, fotos e até legendas estão se tornando insumos para alimentar e treinar suas IAs generativas.

De acordo com a empresa, o conteúdo de mensagens privadas não é utilizado. Quando a “IA da Meta” for lançada no Brasil, as mensagens enviadas para o robô também serão usadas para o treinamento da inteligência artificial, que é alimentada pelo Llama 3 – o modelo mais recente da companhia.

Na União Europeia (UE), diferente do que aconteceu no Brasil, os usuários foram notificados da alteração na política de privacidade, o que gerou reação por parte das autoridades de dados do bloco. Na última sexta-feira, após um pedido da Comissão de Proteção de Dados (DPC, na sigla em inglês) da Irlanda, a empresa informou que iria adiar o início dos treinamentos de IA com informações dos usuários europeus.

Meta pausa lançamento de modelos de IA na Europa devido a pedido irlandês; entenda

Problemáticas envolvidas

O treinamento de IAs enfrenta várias problemáticas, tanto técnicas quanto éticas:

Violações de Direitos Autorais: Empresas de IA, como Suno e Udio, foram recentemente processadas por grandes gravadoras por usar músicas protegidas por direitos autorais para treinar seus sistemas de geração de música. Isso destaca a importância de utilizar dados legalmente adquiridos.
Viés Algorítmico: Dados de treinamento enviesados podem levar a resultados discriminatórios. Por exemplo, sistemas de reconhecimento facial têm apresentado taxas de erro mais altas para minorias étnicas devido a conjuntos de dados desbalanceados.
Transparência e Responsabilidade: Muitas vezes, as empresas são evasivas sobre as fontes de seus dados, dificultando a avaliação de violações de direitos e a responsabilização. A falta de transparência pode minar a confiança do público e dos órgãos reguladores.

Outra problemática envolvida no treinamento de IAs, é o uso de conteúdos inapropriados no treinamento de ferramentas geradoras de imagens. Uma análise realizada pelo Stanford Internet Observatory encontrou imagens de abuso sexual infantil escondidas na base de geradores de imagens de inteligência artificial. De acordo com o relatório, mais de 3.200 imagens suspeitas foram identificadas no banco de dados de IA LAION, que tem sido usado para treinar vários geradores de imagens de IA, incluindo o Stable Diffusion.

Além disso, diversas polêmicas envolvendo o uso indevido de dados de veículos de mídia por grandes empresas, como foi o embate entre o The New York Times contra a OpenAI. O jornal entrou com um processo federal por violação de direitos autorais contra a OpenAI, criadora do ChatGPT, e seu principal apoiador, a Microsoft, em dezembro de 2023. Registrado no tribunal do distrito de Manhattan, o processo alega que a OpenAI e a Microsoft usaram “milhões” de artigos protegidos por direitos autorais para criar produtos de inteligência artificial que competem com e ameaçam a capacidade do The Times de oferecer esse serviço.

Por um outro lado, existem casos como o acordo realizado entre o Financial Times e a OpenAI para o treinamento de modelos de IA usando informações do jornal. Sob os termos do acordo, o FT licenciará seu material para a OpenAI, permitindo que a ChatGPT, sua plataforma de IA, responda a perguntas com resumos breves de artigos do FT, com links de volta para o FT.com.

Leia também:

Indústria de IA corre para adaptar chatbots aos vários idiomas da Índia

Este post foi modificado pela última vez em %s = human-readable time difference 20:20

Vinicius Siqueira