LLMs em Laudos Radiológicos: O Que 67 Estudos Revelam Sobre GPT-4 e Alucinações
A maior revisão sistemática sobre Large Language Models em radiologia revela potencial real para tarefas estruturadas, mas expõe limitações críticas em diagnóstico. Alucinações afetam todos os modelos. Entenda os dados.
Por Natan, Fundador
Em dezembro de 2025, o JMIR Medical Informatics publicou uma revisão sistemática que pode ser considerada o mapeamento mais abrangente até o momento sobre o uso de Large Language Models (LLMs) em radiologia. Os pesquisadores identificaram e analisaram 67 estudos que avaliaram diferentes aplicações de modelos como GPT-4, GPT-3.5, LLaMA, PaLM e Claude em tarefas radiológicas.
Os resultados são simultaneamente promissores e preocupantes. LLMs demonstram capacidade notável em tarefas estruturadas — especialmente na simplificação de laudos para leigos, com acurácia superior a 94%. Porém, quando aplicados a tarefas diagnósticas, a performance oscila dramaticamente: de 16% a 86%, dependendo da complexidade do caso e da modalidade avaliada.
Revisão sistemática — LLMs em radiologia (JMIR 2025)
O Mapa dos LLMs na Radiologia
A revisão categorizou as aplicações de LLMs em radiologia em cinco domínios principais. Compreender essa taxonomia é essencial para distinguir entre o que já funciona, o que é promissor e o que ainda é arriscado.
Simplificação de laudos para pacientes
Este é o domínio com melhor performance documentada. LLMs conseguem traduzir laudos radiológicos técnicos em linguagem acessível ao leigo com acurácia superior a 94%. GPT-4 lidera nessa tarefa, demonstrando capacidade de preservar informações clínicas essenciais enquanto elimina jargão técnico desnecessário.
Estruturação de laudos
Conversão de laudos em texto livre para formatos estruturados (ex: ACR BI-RADS, Lung-RADS). Performance variável, com acurácia entre 70% e 92% dependendo da complexidade do sistema de classificação utilizado.
Auxílio diagnóstico baseado em texto
Quando alimentados com achados radiológicos em formato textual, LLMs tentam gerar diagnósticos diferenciais. A performance é extremamente variável: de 16% em casos complexos de neurorradiologia a 86% em cenários simples de radiografia de tórax.
Educação e questões de prova
LLMs foram testados em exames de certificação em radiologia. GPT-4 alcançou performance próxima ao limiar de aprovação em alguns boards, mas com inconsistências significativas entre diferentes tópicos.
Geração e sumarização de laudos
Geração automática de impressões diagnósticas a partir dos achados. Resultados promissores, mas com taxa preocupante de omissões de informações clinicamente relevantes e introdução de achados inexistentes (alucinações).
O Problema das Alucinações
Se existe um tema que deveria preocupar todo radiologista avaliando o uso de LLMs na prática clínica, é o fenômeno das alucinações. Uma revisão complementar publicada na ScienceDirect em agosto de 2025 documentou que todos os LLMs avaliados — sem exceção — apresentaram alucinações em tarefas radiológicas.
"Uma alucinação em um laudo de radiologia não é um erro gramatical. É um achado inventado, um diagnóstico fabricado ou uma recomendação sem fundamento. Em medicina, ficção vestida de fato é negligência."
Os tipos de alucinações documentados na revisão incluem:
Taxonomia de alucinações em LLMs radiológicos
O aspecto mais insidioso das alucinações em LLMs é que são linguisticamente perfeitas. O texto gerado é fluente, coerente e utiliza terminologia técnica adequada. Isso torna a detecção de erros consideravelmente mais difícil para o leitor, que pode ser levado por uma falsa sensação de confiança na qualidade do output.
GPT-4: O Mais Estudado, Não Necessariamente o Melhor
A predominância do GPT-4 nos estudos (42% da amostra) reflete mais a acessibilidade e o reconhecimento de marca da OpenAI do que uma superioridade demonstrada sobre alternativas. Na verdade, a revisão encontrou que modelos especializados e fine-tuned para tarefas radiológicas específicas frequentemente superaram o GPT-4 generalista.
Distribuição de modelos nos 67 estudos
Um achado particularmente relevante: modelos fine-tuned em corpora radiológicos — especialmente aqueles treinados em laudos estruturados e vocabulário RADLEX — demonstraram melhor performance em tarefas de estruturação e menor taxa de alucinações específicas do domínio. Isso sugere que o futuro dos LLMs em radiologia não está nos modelos generalistas, mas em arquiteturas especializadas.
O Que Funciona Hoje (E O Que Não Funciona)
A síntese dos 67 estudos permite uma classificação pragmática de aplicações por nível de maturidade:
Pronto para uso assistido
- Simplificação de laudos para pacientes
- Tradução de laudos entre idiomas
- Sugestão de vocabulário padronizado
Promissor, requer supervisão
- Estruturação de laudos livres
- Geração de impressões diagnósticas
- Suporte educacional
Risco elevado, não recomendado
- Diagnóstico autônomo baseado em texto
- Recomendações terapêuticas
- Triagem sem supervisão
Implicações Para a Prática Radiológica
A evidência acumulada nos 67 estudos aponta para uma conclusão inequívoca: LLMs são ferramentas poderosas quando utilizadas em tarefas bem definidas, com supervisão humana e com consciência de suas limitações. São perigosos quando tratados como oráculos.
Para o radiologista na prática diária, três princípios emergem desta revisão:
LLMs para produtividade, não para diagnóstico
Utilize LLMs para automatizar tarefas repetitivas e estruturadas — simplificação, formatação, vocabulário padronizado. Não delegue o julgamento diagnóstico a um modelo que não entende o que está dizendo.
Sempre revise o output
Todo texto gerado por LLM deve ser tratado como rascunho, não como produto final. A fluência linguística não é indicador de acurácia factual. Revise cada achado, cada medida, cada recomendação.
Prefira modelos especializados
LLMs treinados ou fine-tuned especificamente para radiologia demonstram melhor performance e menor taxa de alucinações domínio-específicas do que modelos generalistas. Priorize ferramentas desenvolvidas para o contexto radiológico.
"A melhor IA para radiologia não é a que gera o laudo mais bonito. É a que potencializa a capacidade do radiologista sem nunca deixá-lo esquecer que a responsabilidade final é dele."
Referências
- 1. Al Zaabi A, et al. Trends and Trajectories in the Rise of Large Language Models in Radiology: Scoping Review. JMIR Med Inform. 2025;13:e78041. DOI: 10.2196/78041
- 2. Park J, et al. Patient-centered radiology reports with generative artificial intelligence: adding value to radiology reporting. Sci Rep. 2024;14:13218. DOI: 10.1038/s41598-024-63824-z
- 3. Bhayana R. Chatbots and Large Language Models in Radiology: A Practical Primer for Clinical and Research Applications. Radiology. 2024;310(1):e232756. DOI: 10.1148/radiol.232756
- 4. Adams LC, et al. Leveraging GPT-4 for Post Hoc Transformation of Free-text Radiology Reports into Structured Reporting: A Multilingual Feasibility Study. Radiology. 2023;307(4):e230725. DOI: 10.1148/radiol.230725
IA contextual para laudos radiológicos
O LAUDOS.Ai utiliza modelos especializados em radiologia, treinados com vocabulário RADLEX e otimizados para a realidade brasileira. Sem alucinações genéricas — apenas assistência contextual sob controle total do radiologista.
Conheça o LAUDOS.Ai