IA Generativa e Diagnóstico Psiquiátrico: Avanço ou Ameaça à Subjetividade?

neuronapis
2 de mai.
6 min de leitura

By Paulo H. A. Oliveira | NEURONAPIS Research Center

A incorporação de sistemas de inteligência artificial generativa (IAG) à prática clínica em saúde mental é um dos fenômenos mais acelerados e, paradoxalmente, menos avaliados da medicina contemporânea. Entre 2023 e 2025, o número de publicações científicas sobre grandes modelos de linguagem (LLMs, do inglês large language models) aplicados à psiquiatria cresceu de forma expressiva — mas a velocidade da produção técnica não tem sido acompanhada pela profundidade da reflexão ética e epistemológica que o campo exige.

Este artigo não se propõe a recusar o potencial tecnológico. Propõe, antes, examiná-lo com o rigor que a complexidade do sofrimento psíquico humano exige.

1. O Cenário Atual: Capacidades Documentadas

A literatura revisada por pares documenta aplicações promissoras dos LLMs em psiquiatria. Uma revisão sistemática publicada em Frontiers in Psychiatry (Omar et al., 2024), baseada em 771 estudos recuperados e 16 incluídos segundo critérios PRISMA, identificou três domínios principais de uso: raciocínio clínico, análise de mídias sociais e suporte educacional. Os modelos GPT-3.5 e GPT-4 demonstraram capacidade de gerar formulações psicodinâmicas com significância estatística (Kendall's W = 0,728; p = 0,012) e alinhamento superior às recomendações de clínicos gerais para casos de depressão leve.

Mais recentemente, em agosto de 2025, estudo publicado em Frontiers in Psychiatry (seção Digital Mental Health) avaliou 15 LLMs de última geração — incluindo DeepSeek-R1, GPT-4.1 e Llama4 — em tarefas de triagem diagnóstica. Os resultados indicaram que modelos como DeepSeek-R1, QwQ e GPT-4.1 apresentaram desempenho superior em avaliação de conhecimento clínico e apoio diagnóstico, com limitações ainda expressivas na generalização para contextos não ocidentais (Frontiers in Psychiatry, DOI: 10.3389/fpsyt.2025.1646974).

Revisão sistemática publicada no Journal of Medical Internet Research – Mental Health (Wang et al., 2025), conduzida segundo diretrizes PRISMA 2020 em seis bases de dados (PubMed, ACM, Scopus, Embase, PsycInfo e Google Scholar), analisou 79 estudos (de 783 identificados) sobre IAG em saúde mental entre 2019 e 2024. Os autores reconhecem avanços na precisão diagnóstica e na redução de barreiras de acesso, mas identificam preocupações éticas transversais a todos os domínios — privacidade, viés algorítmico e ausência de marcos regulatórios consolidados (PMC12254713).

2. O Problema do Viés Estrutural: Dados Empíricos

Um dos achados mais significativos — e perturbadores — do campo emergiu em estudo publicado em npj Digital Medicine (Nature) em junho de 2025. Bouguettaya, Stuart e Aboujaoude avaliaram quatro LLMs líderes (Claude, ChatGPT, Gemini e NewMes-15) utilizando dez casos psiquiátricos representando cinco diagnósticos distintos, apresentados sob três condições experimentais: raça neutra, raça implícita e raça explicitamente declarada.

Os avaliadores — um psicólogo clínico e um psicólogo social — pontuaram 120 outputs para identificação de viés. Os resultados revelaram que, quando a raça do paciente era indicada (implícita ou explicitamente), os modelos frequentemente propunham planos de tratamento inferiores — ainda que as decisões diagnósticas permanecessem relativamente estáveis. O NewMes-15 exibiu o maior grau de viés racial, enquanto o Gemini apresentou o menor. O estudo concluiu que os LLMs têm potencial de perpetuar disparidades raciais no cuidado psiquiátrico (Bouguettaya et al., npj Digital Medicine, 8:332, 2025. DOI: 10.1038/s41746-025-01746-4).

Esse achado não é acidental — é estrutural. Os LLMs são treinados em corpora de literatura biomédica e registros clínicos que refletem décadas de desigualdades sistêmicas: sub-representação de populações não brancas, patologização de comportamentos culturalmente específicos e assimetrias de acesso ao cuidado. Uma revisão de escopo publicada em Frontiers in Psychology (jun./2025) reforça essa dimensão ao documentar que modelos treinados predominantemente em princípios ocidentais — como a Terapia Cognitivo-Comportamental (TCC) — apresentam limitada ressonância cultural em contextos africanos e não ocidentais, comprometendo engajamento e eficácia terapêutica (Frontiers in Psychology, DOI: 10.3389/fpsyg.2025.1715306).

3. Limitações Metodológicas e o Problema da Validade Clínica

A revisão sistemática mais abrangente publicada até o momento sobre o tema — analisando 205 estudos em psiquiatria, psicologia e psicoterapia, conduzida entre março e julho de 2025 e publicada na Electronics (MDPI) em janeiro de 2026 — aponta uma fragilidade metodológica crítica: a grande maioria das avaliações de desempenho dos LLMs baseia-se em conjuntos de dados pequenos, não longitudinais e oriundos de sessões únicas. Isso compromete severamente a generalização clínica dos resultados (Electronics, MDPI, DOI: 10.3390/electronics15030524).

Revisão sistemática publicada em JMIR Mental Health com análise de 40 artigos (Guo et al., 2024), identificou inconsistências na geração de texto, produção de alucinações factuais (hallucinations) e ausência de um marco ético padronizado e benchmarkado — riscos que, no contexto psiquiátrico, podem ter consequências clínicas diretas. Nesse mesmo trabalho, os autores concluem que, no estado atual, os riscos do uso clínico dos LLMs podem superar os benefícios para aplicações que ultrapassem o suporte inicial ou a psicoeducação (Guo et al., 2024. DOI: 10.2196/57400).

4. A Dimensão Epistemológica: Subjetividade como Objeto Irredutível

A psiquiatria ocupa uma posição singular na medicina: seu objeto clínico central é a experiência subjetiva do paciente — fenômeno que resiste, por natureza, à plena operacionalização algorítmica. A avaliação psiquiátrica formal, estruturada em instrumentos como o DSM-5-TR ou a CID-11, pressupõe não apenas o reconhecimento de critérios diagnósticos, mas a interpretação contextualizada de narrativas, afetos e comportamentos no interior de uma relação clínica.

Os LLMs operam por modelagem estatística de padrões linguísticos — uma operação fundamentalmente distinta da compreensão clínica. Conforme apontado por revisão sistemática em JMIR Mental Health (Wang et al., 2025), a IAG apresenta limitações substanciais no manejo de casos complexos, na avaliação de risco de suicídio e na integração de variáveis contextuais que escapam ao texto digitado. A revisão aponta ainda o risco da chamada "caixa-preta" (black box): a opacidade dos processos internos dos modelos torna impossível auditar o raciocínio que gerou uma recomendação clínica.

Essa opacidade não é um problema apenas técnico — é um problema ético. Em contextos de alto risco, como manejo de crise suicida, a impossibilidade de compreender e responsabilizar o processo decisório de um sistema automatizado representa uma ruptura com princípios fundamentais da ética médica.

5. O Marco Regulatório Emergente

Em junho de 2025, a American Psychological Association (APA) publicou o documento Ethical Guidance for AI in the Professional Practice of Health Service Psychology — o primeiro de sua espécie elaborado pela associação. O documento, atualizado em julho de 2025, estabelece que a decisão clínica final e a responsabilidade ética devem recair exclusivamente sobre o profissional humano. A IA pode sugerir e apoiar; não pode diagnosticar nem substituir o julgamento clínico. O documento enfatiza ainda a necessidade de consentimento informado explícito para o uso de ferramentas de IA no contexto terapêutico (APA, 2025. Disponível em: apa.org/topics/artificial-intelligence-machine-learning/ethical-guidance-ai-professional-practice).

No campo acadêmico, Pillay (2025), em artigo publicado na revista Healthcare (MDPI), propõe uma estrutura ética integrada a partir dos códigos da APA, ACA, AMA e NASW, organizada em cinco pilares: autonomia e consentimento informado; beneficência e não-maleficência; confidencialidade, privacidade e transparência; justiça e equidade; e integridade profissional e responsabilização. Esse modelo representa o estado da arte da discussão normativa no campo.

6. Posicionamento do NEURONAPIS

O NEURONAPIS reconhece que a IAG tem potencial genuíno para ampliar o acesso ao cuidado em saúde mental em sistemas de saúde sobrecarregados — um problema estrutural especialmente relevante no contexto brasileiro. Esse potencial, contudo, deve ser avaliado com rigor científico, e não celebrado de forma acrítica.

Os dados disponíveis sustentam uma conclusão clara: os LLMs, em seu estado atual, não reúnem evidências suficientes de validade, equidade e segurança para serem utilizados como ferramentas de diagnóstico psiquiátrico autônomo. Sua aplicação clínica, quando justificada, deve ser restrita a funções de suporte, triagem inicial e psicoeducação, sob supervisão profissional contínua e com estruturas de consentimento e auditoria claramente estabelecidas.

A questão que permanece aberta — e que o NEURONAPIS propõe como agenda de pesquisa — é epistemológica: em que medida sistemas baseados em correlação estatística de linguagem podem contribuir para a compreensão de um objeto tão singular quanto o sofrimento psíquico? A resposta a essa pergunta não está no laboratório técnico. Está na fronteira entre neurociência, filosofia da mente e ética clínica — exatamente o território que esta instituição se propõe a habitar.

Referências

Bouguettaya, A., Stuart, E. M., & Aboujaoude, E. (2025). Racial bias in AI-mediated psychiatric diagnosis and treatment: a qualitative comparison of four large language models. npj Digital Medicine, 8, 332. https://doi.org/10.1038/s41746-025-01746-4
Wang, X., Zhou, Y., & Zhou, G. (2025). The Application and Ethical Implication of Generative AI in Mental Health: Systematic Review. JMIR Mental Health, 12, e70610. https://doi.org/10.2196/70610 (PMC12254713)
Omar, M. et al. (2024). Applications of large language models in psychiatry: a systematic review. Frontiers in Psychiatry. https://doi.org/10.3389/fpsyt.2024.1422807 (PMC11228775)
Frontiers in Psychiatry – Digital Mental Health. (2025). Evaluation of large language models on mental health: from knowledge test to illness diagnosis. https://doi.org/10.3389/fpsyt.2025.1646974
Frontiers in Psychology. (2025). Exploring the application boundaries of LLMs in mental health: a systematic scoping review. https://doi.org/10.3389/fpsyg.2025.1715306
Guo, Z., Lai, A., Thygesen, J., Farrington, J., Keen, T., & Li, K. (2024). Large language models for mental health applications: Systematic review. JMIR Mental Health, 11, e57400. https://doi.org/10.2196/57400
Pillay, Y. (2025). Ethical decision-making guidelines for mental health clinicians in the artificial intelligence (AI) era. Healthcare, 13(23), 3057. https://doi.org/10.3390/healthcare13233057
American Psychological Association. (2025). Ethical Guidance for AI in the Professional Practice of Health Service Psychology (atualizado jul. 2025). https://www.apa.org/topics/artificial-intelligence-machine-learning/ethical-guidance-ai-professional-practice
Electronics – MDPI. (2026). A Systematic Review of Large Language Models in Mental Health: Opportunities, Challenges, and Future Directions. https://doi.org/10.3390/electronics15030524

IA Generativa e Diagnóstico Psiquiátrico: Avanço ou Ameaça à Subjetividade?

Posts recentes

Comentários