Pesquisadores do Biohub, instituto biomédico ligado à Chan Zuckerberg Initiative, divulgaram em 27 de maio de 2026 o ESM Atlas, um banco de dados com mais de 1 bilhão de estruturas de proteínas previstas por inteligência artificial, além de bilhões de sequências. O conjunto supera em mais de 800 milhões de entradas o banco do AlphaFold, atualmente o mais usado pela comunidade científica.
As previsões foram feitas pelo ESMFold2, modelo que, segundo o Biohub, supera o desempenho do AlphaFold3, a versão mais recente do sistema do Google DeepMind. O lançamento reúne três peças: o ESMC, modelo de linguagem que representa proteínas treinado em cerca de 2,8 bilhões de sequências de toda a árvore da vida; o ESMFold2, que converte essas representações em estruturas 3D em resolução atômica; e o próprio ESM Atlas, que torna 6,8 bilhões de sequências navegáveis.
Aberto, inclusive para uso comercial
O ponto que mais distingue o projeto é a abertura total: o ESMFold2 é de código aberto e sem restrições para uso comercial. Na prática, qualquer laboratório, startup ou empresa pode usá-lo sem pagar licença, o que tende a ampliar a adoção muito além dos grandes centros já equipados. A recepção foi positiva, mas com ressalvas técnicas: para alguns pesquisadores, o ESM Atlas funciona como complemento, e não substituto, do banco do AlphaFold, que reúne mais de 200 milhões de estruturas, e há dúvidas sobre como o modelo lida com estruturas muito incomuns.
Essas previsões poderiam ajudar a revelar dobramentos e funções de proteínas inteiramente novos.
Christine Orengo, bióloga computacional, University College London
No artigo que acompanha o lançamento, a equipe usou o ESMFold2 para desenhar novos anticorpos e proteínas que se ligam a alvos associados a cânceres e doenças imunológicas; quando sintetizadas e testadas, boa parte funcionou como o modelo previa. Para a ciência brasileira, o recado é concreto: a barreira de entrada para pesquisa de ponta em biologia estrutural caiu, e o que define quem aproveita não é mais o acesso ao modelo, e sim a capacidade de validar resultados em laboratório.