Viés em Modelos Vision-Language: O Risco Silencioso da IA em Radiologia
Modelos que combinam visão computacional e linguagem natural prometem revolucionar a radiologia. Mas quando os dados de treinamento não representam a diversidade do mundo real, o viés é codificado. E pacientes de populações sub-representadas pagam o preço.
Por Natan, Fundador
Em janeiro de 2026, Avakian e Barfoot publicaram na BMC Artificial Intelligence uma análise abrangente sobre viés em modelos vision-language aplicados à radiologia. O estudo expõe uma falha sistêmica que a maioria dos desenvolvedores de IA prefere não discutir: quando os datasets de treinamento carecem de diversidade demográfica, os modelos resultantes reproduzem e, em muitos casos, amplificam disparidades diagnósticas existentes.
Para um país como o Brasil — com uma das populações mais etnicamente diversas do mundo — essa discussão não é acadêmica. É uma questão de segurança do paciente. Algoritmos treinados predominantemente em dados de populações europeias e norte-americanas podem apresentar performance inferior quando aplicados a pacientes brasileiros, especialmente em comunidades com maior representação de populações negra, indígena e parda.
O que são modelos vision-language?
Modelos vision-language (VLMs) combinam processamento de imagem com compreensão de linguagem natural. Em radiologia, isso significa modelos que podem “ver” uma imagem médica e gerar descrições textuais, laudos ou diagnósticos — integrando análise visual e raciocínio linguístico em uma única arquitetura.
A Origem do Viés: Dados Que Não Representam o Mundo
O viés em modelos de IA para radiologia não nasce de intenção maliciosa. Nasce de conveniência. Os maiores datasets de imagem médica disponíveis publicamente — CheXpert, MIMIC-CXR, NIH ChestX-ray14 — foram coletados predominantemente em hospitais acadêmicos dos Estados Unidos. A composição demográfica desses datasets reflete a população atendida por essas instituições, não a diversidade global de pacientes.
Composição demográfica dos principais datasets
O problema é composto quando consideramos que diferenças anatômicas, fisiológicas e epidemiológicas entre populações podem afetar a aparência de achados em imagem. Densidade mamária, padrões de calcificação, distribuição de gordura visceral, prevalência de patologias específicas — tudo isso varia entre populações. Um modelo treinado sem representar essa variabilidade terá, inevitavelmente, performance desigual.
Como o Viés Se Manifesta na Prática
A análise de Avakian e Barfoot identifica múltiplas vias pelas quais o viés se manifesta em modelos vision-language para radiologia. Algumas são óbvias; outras, insidiosas.
Viés de performance
O modelo apresenta acurácia sistematicamente menor para imagens de pacientes de grupos sub-representados nos dados de treinamento. Isso pode se manifestar como maior taxa de falsos negativos (achados não detectados) ou falsos positivos (achados inexistentes sinalizados como anormais) em populações específicas.
Viés de linguagem
Em modelos que geram texto a partir de imagens, o viés pode se manifestar na linguagem utilizada. Estudos demonstraram que modelos treinados em laudos em inglês podem utilizar terminologia que reflete práticas e guidelines norte-americanas, inadequadas para outros contextos clínicos.
Viés de atalho (shortcut learning)
Modelos podem aprender correlações espúrias entre características demográficas e diagnósticos. Por exemplo, se um dataset associa desproporcionalmente pacientes de determinada etnia a um diagnóstico específico, o modelo pode aprender a usar a etnia como preditor, em vez de achados radiológicos reais.
Viés de equipamento
Imagens de populações sub-representadas frequentemente provêm de equipamentos mais antigos ou com parâmetros diferentes. O modelo pode aprender a associar qualidade de imagem a diagnóstico, penalizando pacientes atendidos em centros com infraestrutura menos avançada.
O Desafio da Interpretabilidade
Um problema que agrava a questão do viés é a opacidade dos modelos vision-language. Estas arquiteturas são, tipicamente, redes neurais profundas com bilhões de parâmetros. Entender por que o modelo chegou a uma determinada conclusão — e se essa conclusão foi influenciada por viés — é extraordinariamente difícil.
"Você não pode corrigir o viés que não consegue ver. E em modelos com bilhões de parâmetros, a maioria dos vieses são invisíveis até que causem dano."
Técnicas de interpretabilidade como Grad-CAM, SHAP e attention maps oferecem visões parciais do raciocínio do modelo, mas estão longe de fornecer explicações causais completas. Para o radiologista, isso significa que, ao receber um output de um modelo vision-language, é frequentemente impossível determinar se o resultado foi influenciado por viés demográfico.
Por Que Isso é Urgente Para o Brasil
O Brasil ocupa uma posição singular nessa discussão. Com uma população de mais de 210 milhões de pessoas e uma das maiores diversidades étnicas e genéticas do planeta, o país é simultaneamente um dos maiores mercados potenciais para IA em radiologia e um dos mais vulneráveis ao viés algorítmico.
O paradoxo brasileiro
O Brasil adota ferramentas de IA desenvolvidas e validadas predominantemente com dados de populações europeias e norte-americanas. Ao mesmo tempo, 56% da população brasileira se autodeclara preta ou parda (IBGE, 2022). A performance desses algoritmos na população brasileira raramente é avaliada antes da implantação clínica.
Estudos específicos sobre performance de algoritmos de IA em populações brasileiras são escassos. E os poucos existentes sugerem diferenças significativas de performance quando comparadas aos resultados reportados em validações originais realizadas em populações predominantemente caucasianas.
Caminhos Para Mitigar o Viés
Avakian e Barfoot propõem uma série de estratégias para mitigação de viés em modelos vision-language para radiologia. Nenhuma é perfeita isoladamente, mas a combinação pode reduzir significativamente o risco de disparidades diagnósticas mediadas por IA.
Diversificação de datasets
Inclusão ativa de dados de populações diversas no treinamento. Parcerias internacionais entre centros de pesquisa para compartilhamento de dados multi-étnicos.
Auditoria de equidade
Avaliação obrigatória de performance do modelo estratificada por subgrupos demográficos antes e após a implantação. Métricas de equidade como parte do processo de validação.
Transparência de dados
Documentação detalhada da composição demográfica dos datasets de treinamento. O EU AI Act já exige isso para sistemas de alto risco.
Validação local
Cada instituição deve validar o algoritmo na sua própria população antes de integrar ao workflow. Performance reportada em papers internacionais pode não se replicar localmente.
"IA sem equidade não é inovação. É automação de discriminação. E em medicina, discriminação automatizada tem consequências mensuráveis em vidas humanas."
Referências
- 1. Koçak B, et al. Bias in artificial intelligence for medical imaging: fundamentals, detection, avoidance, mitigation, challenges, ethics, and prospects. Diagn Interv Radiol. 2025;31(2):75-88. DOI: 10.4274/dir.2024.242854
- 2. Seyyed-Kalantari L, et al. Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med. 2021;27:2176-2182. DOI: 10.1038/s41591-021-01595-0
- 3. Gichoya JW, et al. AI recognition of patient race in medical imaging: a modelling study. Lancet Digital Health. 2022;4(6):e406-e414. DOI: 10.1016/S2589-7500(22)00063-2
- 4. IBGE. Pesquisa Nacional por Amostra de Domicílios Contínua (PNAD) — Características Gerais dos Moradores. 2022.
IA desenvolvida para a realidade brasileira
O LAUDOS.Ai foi projetado e treinado considerando a diversidade linguística e clínica do Brasil. Sem vieses importados de datasets estrangeiros — uma plataforma que entende o contexto do radiologista brasileiro.
Conheça o LAUDOS.Ai