Claroboscuros del Nobel de química: un triunfo de la IA pero sin un llamamiento a la transparencia
Los premios Nobel de Química 2023 han reconocido el avance revolucionario en la predicción de la estructura de proteínas y su aplicación al diseño de nuevas proteínas, un hito que marca un antes y un después en la biotecnología y la biomedicina.
El primer premiado ha sido David Baker, de la Universidad de Washington, por su trabajo en diseño y construcción experimental de nuevas proteínas con métodos que están abriendo horizontes a la biotecnología.
La segunda parte del premio está compartida por Demis Hassabis y John Jumper, de DeepMind una compañía de Google, por el desarrollo de AlphaFold2, un método de IA – redes neuronales profundas- capaz de predecir con precisión la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos. Esta metodología ha dado un impulso enorme a la exploración del "espacio de proteínas", contribuyendo directamente a la obtención experimental de la estructura de grandes complejos de proteínas, la predicción de la consecuencia de mutaciones asociada al diagnóstico de enfermedades, o la generación de nuevos fármacos como, por ejemplo, nuevos antimicrobianos, entre otros.
Estos avances han sido posibles gracias a los nuevos métodos de IA, pero también e igualmente importante están basados en ingentes capacidades computacionales y la disponibilidad de las grandes cantidades de datos sobre estructuras de proteínas. Durante décadas, se han dedicado enormes recursos a determinar experimentalmente las estructuras de miles de proteínas, mediante técnicas como la cristalografía de rayos X. Estos datos, cuidadosamente recopilados y validados, se han depositado abiertamente en bases de datos públicas, constituyendo el conjunto de entrenamiento esencial para los sistemas de IA como AlphaFold. Sin este acceso libre y abierto a información crucial, el desarrollo de estas tecnologías predictivas no hubiese sido posible.
Estos premios representan un triunfo de la aplicación de la inteligencia artificial a las ciencias de la vida. El contraste surge cuando se considera la distinta actitud de los premiados respecto el acceso a los métodos que han desarrollado. Por una parte, David Baker, ha destacado siempre por su compromiso con la publicación abierta del software y el uso responsable de estas tecnologías. Por el contrario, la historia de AlphaFold presenta un contraste preocupante. Si bien la versión objeto del premio (AlphaFold 2) fue de código abierto, compartiendo datos y software, y además los premiados contribuyeron al gran esfuerzo de popular las bases de datos públicas con el mejor modelo para cada proteína. Por el contrario, la versión tres de AlphaFold y los desarrollos posteriores se ha mantenido cerrados, generando un gran malestar en la comunidad científica sobre cuyos datos y métodos -abiertamente accesible – se han desarrollado. Este cambio de rumbo plantea un serio dilema ético y científico.
La apertura de los modelos de IA, como se ha demostrado con AlphaFold 2, presenta ventajas innegables:
Verificación y reproducibilidad: La transparencia del código permite a otros investigadores verificar los resultados, asegurando la rigurosidad científica.
Colaboración e innovación: El acceso abierto fomenta la colaboración internacional, acelerando el progreso científico. Investigadores de todo el mundo pueden contribuir al desarrollo y la mejora del modelo.
Acceso equitativo: La apertura democratiza el acceso a estas potentes herramientas, beneficiando a investigadores de instituciones con menos recursos.
En cambio, mantener los sistemas cerrados limita la verificación, frena la innovación colaborativa y crea una brecha de acceso para investigadores con menos recursos. La excusa de la seguridad, a menudo invocada para justificar la falta de transparencia, resulta débil, especialmente considerando que en unos meses la comunidad científica acabará replicando estos algoritmos.
La decisión de mantener AlphaFold 3 cerrado, posiblemente motivada por intereses comerciales, representa un retroceso en el avance científico. Más preocupante aún, esta acción —en colaboración, en algunos casos, con importantes editoriales científicas— sienta un peligroso precedente: el de grandes corporaciones, como Google, que publicitan sus avances con el formato de artículos científicos, sin el rigor de la verificación y validación propias del método científico, subvirtiendo el sistema gracias al cual han sido posibles estos desarrollos.
El debate en torno a la apertura versus el cierre de los modelos de IA, ejemplificado por AlphaFold, trasciende el ámbito de la biología estructural. La misma tensión, con idénticos argumentos, se observa en el desarrollo de los grandes modelos de lenguaje (LLM). Algunos LLM son de código abierto, favoreciendo la colaboración y la verificación independiente; otros, como los de OpenAI (ej. ChatGPT), permanecen cerrados y accesibles solo en forma de servidores, limitando el desarrollo y escrutinio. Las consecuencias de esta situación para el progreso científico, la validación de los sistemas y el impacto económico —considerando la enorme escala de este sector— son profundas. La necesidad de modelos abiertos, que promuevan la transparencia, la reproducibilidad y la colaboración, es crucial para el bien de la sociedad y para asegurar un desarrollo responsable y equitativo de la IA.
Los premios Nobel de este año deberían haber servido para resaltar la importancia de la transparencia y la colaboración en la investigación, valores que son esenciales para maximizar el impacto de estos avances revolucionarios en beneficio de toda la humanidad. La comunidad científica, y el Barcelona Supercomputing Center en particular- pensamos que el futuro de la investigación en IA, y particularmente en la biomedicina, depende de un compromiso firme con la publicación abierta y la equidad en el acceso a las herramientas que están transformando el mundo.