A crescente adoção de soluções de inteligência artificial (IA) na dermatologia — para detecção de lesões cutâneas, classificação de câncer de pele e apoio à teledermatologia — vem acompanhada de desafios importantes. Um dos mais críticos refere-se à qualidade, documentação e representatividade dos conjuntos de dados usados para treinar esses modelos. Um recente estudo parte desse contexto para propor um mecanismo de transparência estruturada nos dados: o chamado Dataset Nutrition Label (DNL), inspirado em rótulos nutricionais de alimentos, adaptado ao uso de bases de dados médicas.
PUBLICIDADE
O problema dos dados pouco documentados
Os autores observam que muitos datasets de dermatologia reutilizados por pesquisadores e empresas têm documentação frágil: poucos metadados, critérios de aquisição ou seleção pouco claros, pouca indicação de perfis étnicos, diversidade de tons de pele ou condições de imagem. Essa opacidade favorece a propagação de viéses — por exemplo, modelos de detecção de lesões que funcionam bem em peles mais claras, mas pioram significativamente quando aplicados a peles mais escuras. Um estudo citado constatou que modelos de classificação de lesões tiveram desempenho menor em peles de tons mais escuros, provavelmente pela subrepresentação desses casos nos dados de treinamento.
Dados mal representados e pouco transparentes reduzem a generalização dos modelos, criando risco direto à saúde: em um cenário clínico diverso, a confiança no resultado da IA pode ser comprometida. Os autores defendem que a “explicabilidade” da IA começa no nível dos dados — não apenas no modelo em si, mas em entender o que está por trás dele.
O rótulo nutricional de dados (DNL)
Para lidar com esse desafio, o estudo propõe o DNL, um quadro de relatório padronizado que resume atributos essenciais de um dataset: origem dos dados, composição demográfica, qualidade da imagem, variabilidade, critérios de exclusão, limitações conhecidas e orientações de uso.
PUBLICIDADE
Na prática, os autores aplicaram o DNL a múltiplos datasets dermatológicos, incluindo o conjunto SLICE‑3D, derivado de fotografias corporais em 3D, com mais de 400 mil recortes de lesões extraídas dessas imagens. Esse dataset envolvia imagens provenientes de sete centros de dermatologia internacionais e tinha como objetivo replicar qualidade de smartphone — em vez de dermatoscopia de alta resolução — para tornar os modelos aplicáveis em teledermatologia e atendimento primário.
Principais achados e implicações
Ao aplicar o DNL aos datasets, os autores constataram que muitos dados continham lacunas significativas: por exemplo, ausência de informações sobre tons de pele dos participantes, sobre condições de imagem (iluminação, ângulo), sobre exclusão de casos fora de padrão, e pouca clareza sobre a representatividade geográfica ou etária. Essas limitações, se não declaradas, reduzem a “fitness for use” do conjunto de dados — isto é, se o dataset é apropriado para a aplicação clínica ou pesquisa pretendida.
O DNL facilita que pesquisadores, desenvolvedores e reguladores visualizem rapidamente os pontos fortes e fracos de um dataset antes de utilizá-lo em treinamento de modelo. Isso pode levar a escolhas mais responsáveis — por exemplo, alertando quando o dataset apresenta viés de alcance ou quando o desempenho do modelo pode não se sustentar em outra população ou equipamento de imagem.
PUBLICIDADE
Relevância para o Brasil e contextos latino-americanos
No contexto brasileiro e latino-americano, onde a diversidade de tons de pele, equipamentos de imagem e condições clínicas é grande, a relevância desse tipo de transparência é ainda mais acentuada. Quando um modelo de IA é treinado predominantemente com dados de tons de pele claros ou de determinados centros de imagem, há risco de redução de eficácia ou segurança quando aplicado em populações localizadas com maior diversidade. A adoção de rótulos como o DNL pode ajudar grupos de pesquisa e empresas a documentar e mitigar essas falhas de representatividade.
Caminho para próxima geração de IA responsável
O estudo conclui que modelos de IA dermatológica de próxima geração devem ser acompanhados por práticas robustas de documentação de dados, bem como por transparência que vá além do código-fonte ou da arquitetura do modelo. A iniciativa DNL representa um passo prático nessa direção — oferecendo um formato simples, acessível e adaptável para relatar atributos-chave dos dados. Isso cria um ambiente mais confiável para desenvolvimento, regulação e adoção clínica de IA em saúde.
Além disso, os autores sugerem que repositórios públicos, revistas científicas e órgãos regulatórios passem a exigir esse tipo de relatório como parte da submissão de datasets ou modelos. Isso reforça a cultura de dados transparentes, representativos e auditáveis — essencial quando a IA atua em áreas sensíveis como a saúde da pele.
PUBLICIDADE
Conclusão
Em uma era onde IA em dermatologia avança rápido, este estudo destaca que o primeiro salto de qualidade não está no modelo, e sim no dado. Sem entendimento claro de quem, como e em que condições os dados foram coletados, o risco é alto: modelos muito bons em laboratório, mas fracos ou inseguros no mundo real. O DNL surge como uma ferramenta tangível para tornar os datasets mais claros, responsáveis e confiáveis — e isso importa não apenas nos centros de excelência, mas especialmente em realidades diversas como a latino-americana.
Leia também:



