Un proyecto de IA para comprender el genoma humano
Idibell forma parte del consorcio internacional que busca desarrollar nuevos tratamientos para enfermedades que hoy no cuidan
GinebraUn equipo en el que participa el Instituto de Investigación Biomédica de Bellvitge (Idibell) ha puesto en marcha un proyecto revolucionario para explotar los datos del genoma humano con inteligencia artificial. El proyecto se enmarca en el Structural Genomics Consortium (SGC), un consorcio público-privado mundial formado por siete universidades y nueve empresas farmacéuticas. El objetivo es facilitar el descubrimiento de la función de muchas de las proteínas del genoma y acelerar así el descubrimiento de nuevos fármacos para enfermedades que todavía no cuidan.
Aunque hace más de 25 años que se secuenció el genoma humano, los científicos todavía conocen muy poco de las funciones de cada uno de los genes que contiene. Entender su función es esencial para comprender muchos de los procesos que suceden en nuestro cuerpo y pueden desencadenar la aparición de enfermedades.
"Un 30% de los genes no sabemos lo que hacen porque nadie los estudia", afirma Albert Antolín, jefe del grupo de investigación en química médica y diseño de fármacos del Idibell y uno de los coordinadores de la iniciativa.
Del mismo modo, también se desconocen los compuestos químicos que interaccionan con cada uno de estos genes y que permiten activarlos o inhibirlos. "Este consorcio incentiva la investigación en proteínas poco estudiadas", añade Antolín.
Un cribado de miles de proteínas
Para tener una mejor comprensión de los procesos que tienen lugar en el interior de las células es necesario explotar la gran cantidad de datos contenidos en el genoma. La inteligencia artificial se perfila como herramienta fundamental para llevar a cabo esta tarea. Sin embargo, para poder entrenar los modelos de IA es necesario recoger un gran número de datos experimentales.
"La limitación es que no hay datos suficientes para entrenar bien los modelos y se entrenan con conjuntos de datos muy pequeños y fragmentados", declara Antolín, quien añade que "el objetivo durante los próximos cinco años es generar una cantidad enorme de datos para crear modelos de IA más precisos". El proyecto se enmarca dentro de una yiniciativa global llamada Target 2035, que ambiciona descubrir un compuesto químico para cada proteína humana de aquí al año 2035.
El artículo con los detalles del proyecto se publicará próximamente en la revista Nature Reviews en Chemistry. Mediante técnicas avanzadas de cribado, el proyecto cruzará experimentalmente más de mil proteínas presentes en el genoma humano con miles de millones de compuestos químicos en los próximos cinco años.
"No es suficiente que un compuesto químico se una a la proteína, también es necesario que este compuesto sea selectivo". El objetivo a largo plazo es realizar ese mismo proceso con las aproximadamente 20.000 proteínas que forman el genoma. El estudio de las funciones de una gran variedad de proteínas en condiciones fisiológicas o patológicas permitiría conocer cómo inhibirlas, por ejemplo. Esto podría tener importantes consecuencias en el tratamiento y prevención de muchos tipos de cáncer así como de enfermedades neurodegenerativas como el Alzheimer.
Un proyecto de ciencia abierta
El proyecto Target 2035 se engloba en una iniciativa de ciencia abierta con el objetivo de facilitar el descubrimiento de nuevos fármacos con especial énfasis en el estudio de proteínas poco estudiadas. Los datos extraídos por el consorcio podrán ser utilizados por cualquier centro de investigación o empresa farmacéutica para entrenar sus propios modelos de IA. "Es muy importante que la ciencia fundamental sea abierta y que todo el mundo pueda acceder a esta información", comenta Antolín.
Este proyecto es una colaboración entre instituciones públicas de renombre y grandes entidades privadas del mundo farmacéutico. "La investigación en muchas enfermedades requiere ensayos clínicos que son muy costosos. La colaboración público-privada acelera este proceso sobre todo en las primeras etapas del desarrollo de un nuevo fármaco", explica Antolín.
Una red mundial de expertos que lo apoyan
Para avanzar en la creación de modelos potentes y precisos, la colaboración tiene en su punto de mira la realización de competiciones abiertas, donde diferentes centros de investigación e instituciones pongan a prueba sus sistemas de inteligencia artificial. Estas competiciones permiten comparar el rendimiento de los distintos modelos de forma directa y también el intercambio de ideas e información de forma colaborativa. El primer reto competitivo, llamado Dream Challenge, está abierto y los equipos que deseen pueden inscribirse y tener acceso a los datos. "Los equipos participantes disponen de conjuntos de datos muy grandes provenientes de los repositorios de interacción de datos genómicos para entrenar sus modelos. El reto es predecir con precisión el resultado de otro conjunto de datos diferente", explica Antolín.
De entre los participantes en esta competición hay una red mundial de científicos expertos en IA y química computacional llamada MAINFRAME, liderada por el propio Antolín y que ya tiene más de 180 miembros procedentes de 43 países. La idea detrás de estas competiciones es también participar en los debates que se generen en torno a la forma de mejorar los modelos de aprendizaje automático y de IA. "Debemos conseguir que en estas competiciones participe mucha gente. Es la mejor manera de aprender y progresar", concluye Antolín.