Um estudo publicado em 12 de junho de 2026 na revista científica Nature Medicine concluiu que modelos de linguagem de uso geral tiveram desempenho consistentemente melhor do que produtos de inteligência artificial desenvolvidos especificamente para a área da saúde, em uma série de tarefas médicas padronizadas. Em alguns casos, os modelos genéricos também foram os preferidos pelos próprios clínicos que os utilizaram.
O experimento colocou frente a frente, de um lado, três grandes modelos de uso geral — o GPT-5.2, da OpenAI; o Gemini 3.1 Pro Preview, do Google; e o Claude Opus 4.6, da Anthropic. Do outro, ferramentas clínicas dedicadas e comercializadas para profissionais de saúde, como o OpenEvidence e o UpToDate Expert AI. Entre os terrenos de avaliação estava o MedQA, conjunto de questões derivadas de exames de licenciamento médico já consolidado como referência para medir conhecimento clínico.
Por que a comparação importa
Boa parte do mercado de saúde digital se sustenta sobre a promessa de que ferramentas ajustadas para medicina entregam mais segurança do que modelos genéricos. O estudo questiona essa premissa em testes controlados: se um modelo de uso geral, sem customização clínica específica, alcança ou supera o produto especializado, fica mais difícil justificar contratos caros pela suposta superioridade técnica. Ainda assim, os pesquisadores foram explícitos sobre os limites do achado — pontuar bem no MedQA não equivale a ser seguro no atendimento real.
Conformidade regulatória, integração com o prontuário eletrônico e estruturas de responsabilidade não aparecem em uma pontuação do MedQA.
Autores do estudo, via Nature Medicine
Para o Brasil, onde o SUS e redes privadas avaliam adotar assistentes de IA com orçamentos apertados, a lição prática é dupla: ferramentas genéricas já são competitivas em conhecimento, mas a decisão de compra não deveria se resumir a benchmarks. Regulação, integração com sistemas locais e quem responde por um erro continuam sendo as perguntas que definem se a tecnologia ajuda ou cria risco no atendimento.