Fecha
Autor
Alfonso Valencia (Centro Nacional de Biotecnología, CNB-CSIC)

La Bioinformática en la revolución Genómica

El proceso de secuenciación del genoma humano conlleva un aumento cada vez mayor de información al que los investigadores tienen que enfrentarse. La bioinformática ayuda en este proceso, ya que proporciona las herramientas que permiten almacenar, recuperar y analizar grandes cantidades de información, así como generar predicciones sobre las funciones bioquímicas de los genes.
La Biología y en particular la Biomedicina se presentan como el gran reto de la ciencia en este siglo. Un papel central que se ha hecho posible por la profunda transformación conceptual y técnica introducida por las técnicas de genómica y proteómica.

Todas las áreas de la Biología, desde la Bioquímica a la Antropología pasando por la Ecología, están inevitablemente ligadas a las técnicas de genómica, puesto que prácticamente cualquier tipo de experimento se plantea en el contexto de los genomas. Un ejemplo reciente puede ser la caracterización de la composición genómica completa de muestras del mar de los Zargazos[1], que ha descubierto por primera vez el catalogo completo de las especies que componen un ecosistema, y ha situado la investigación en ecología molecular en una nueva dimensión (una aproximación conocida como metagenómica). La influencia de la Genómica se extiende más allá de la Biología hacia la Biomedicina. Francis Collins, director del centro del "National Human Genome Research Institute (NIH) de los Estados Unidos" y figura principal del esfuerzo de secuenciación del genoma humano, ha descrito precisamente la importancia capital de esta transición por sus repercusiones científicas y sociales, y constituye la base de la que se comienza a denominar como "medicina basada en la evidencia"[2]. Ejemplos evidentes de la penetración de las técnicas genómicas en Biomedicina son la utilización de datos de metabolismo (obtenidos por técnicas de NMR) para el diagnostico de tumores cerebrales, la utilización de datos de Proteómica para el diagnóstico de cáncer de mama, la aplicación clínica de DNA arrays para el diagnóstico, y prescripción de tratamiento, para varios tipos de cáncer.

La creciente cantidad de información, junto a su variedad y complejidad, que esta siendo producida por todas estas aproximaciones, junto con la necesidad de analizarlas en el contexto del resto de la información disponible, que está organizada en una gran variedad de bases de datos de formato y estructura muy heterogéneos, son la base del desarrollo de la Bioinformática.

Esta coyuntura sitúa a la Bioinformática en una posición central, cuyo papel será aún más ostensiblemente crítico en cuanto sea posible la integración de los datos genómicos y moleculares con los datos clínicos sobre enfermedades, tratamientos y diagnósticos. Las posibilidades futuras de ese encuentro entre Informática Médica y Bioinformática, son enormes, puesto que de la adecuada intersección de las correspondientes bases de datos depende nuestra capacidad para detectar relaciones entre enfermedades y sus bases moleculares, entre tratamientos y respuestas, o para usar marcadores moleculares y genéticos en la clasificación de patologías, por ejemplo en la asociación de factores de riesgos mediante el estudio de la composición genómica y su variabilidad en individuos.

¿QUÉ ES GENÓMICA Y PROTEÓMICA?

Genómica puede definirse como el estudio del material genético de un organismo, incluyendo la determinación de la secuencia de nucleótidos que componen su DNA, la localización de los genes y las regiones reguladoras de la expresión de los mismos, y de su función. Simétricamente la Proteómica es el estudio del conjunto de proteínas específicas de un organismo, tejido o célula, incluyendo su clasificación, análisis de su organización, modificaciones, organización, interacciones y funcionamiento.

¿QUÉ ES BIOINFORMÁTICA?

La Bioinformática viene definiéndose como la organización, manipulación y análisis de resultados en Biología Molecular y Biomedicina utilizando métodos computacionales. Una definición que la sitúa en el centro de cualquier actividad en genómica y proteómica, que son sus mayores proveedores de información molecular.

La Bioinformática se ha desarrollado al hilo de las necesidades de análisis generadas por la rápida evolución de las técnicas experimentales, particularmente en el caso de las técnicas Moleculares donde la información sobre la secuencia de genes y proteínas ha requerido desde el principio la organización, almacenamiento y análisis de la masiva y muy diversa información generada experimentalmente. Un paralelismo igualmente estrecho se puede establecer con el desarrollo de nuevos algoritmos en Ciencias de la Computación, de los que la Bioinformática se nutre continuamente buscando aplicaciones específicas a los problemas de Biológicos y Biomédicos.

Bioinformática en las principales áreas de la Genómica

Análisis de genomas. Disponemos de más de 130 genomas secuenciados y disponibles en bases de datos públicas. Incluyendo el genoma humano, de ratón, rata, levaduras, Drosophila, C. elegans, Arabidopsis, arroz, Fugus y otros. Además se han secuenciado más de 120 genomas bacterianos, que corresponden a 31 millones de entradas en las bases de datos y 45.000 millones de bases, y un millón de entradas de secuencias de proteínas con 310 millones de aminoácidos. El análisis bioinformático es imprescindible para la propia obtención de los genomas a partir de los datos de secuenciación, y posteriormente para la detección de los genes. Un problema complejo, que hace que sigamos sin conocer el número preciso de genes que componen el genoma humano.

El siguiente proceso de análisis bioinformático consiste en comparar las secuencias de cada una de las proteínas con la información disponible en las bases de datos para asignar una posible estructura y función a las correspondientes proteínas. En la actualidad somos capaces de deducir la función primordial de aproximadamente el 60% de las proteínas conocidas.

Genómica Estructural. La sistematización y robotización de los procesos experimentales ha permitido establecer sistemas completos de resolución masiva de estructura de proteínas. Por dar un ejemplo, un consorcio de agencias y compañías Británicas y Canadienses han financiado con aproximadamente 120M$ un proyecto para resolver la estructura tridimensional de 300 proteínas de interés farmacológico. Los métodos computacionales están asociados tanto a la obtención experimental de las estructuras, como al modelado de las proteínas a partir de las estructuras conocidas (un proceso imprescindible dado que el número de secuencias de proteínas es ordenes de magnitud superior al de estructuras conocidas) y al desarrollo de sistemas para predecir la interacción entre fármacos y proteínas, dentro de la estrategia conocida como rastreo (screening) virtual de fármacos. Las compañías farmacéuticas realizan considerables esfuerzos en esta dirección, puesto que el conocimiento de la estructura de proteínas potenciales dianas de la acción de fármacos puede acelerar el proceso de modificación y mejora de los mismos.

Control génico. El seguimiento sistemático de los niveles de expresión de cada gen individual en células y tejidos, se ha hecho posible con la introducción de la tecnología de matrices de ADN (Expression arrays). Esta tecnología está ahora ampliamente extendida y es fácilmente accesible para los más variados genomas, pero conlleva la aplicación de toda una serie de nuevos métodos computacionales, que incluyen desde la organización y almacenamiento de la compleja información experimental generada, al diseño de las correspondientes bases de datos, la estimación de la significación estadística de los resultados, y la comparación con colecciones de datos previamente generados. Finalmente es extremadamente laboriosa la última etapa del análisis de los resultados, que incluye el análisis bioinformático de la relación entre los patrones de expresión, las funciones conocidas y las enfermedades estudiadas, como, por ejemplo, en el caso de la comparación del nivel de expresión de múltiples genes entre células normales y células tumorales.

Varios sistemas bioinformáticos públicos y privados contienen métodos para el análisis de los resultados. Sin embargo, la novedad y rápida evolución de esta tecnología hacen imposible una única solución técnicas y el análisis bioinformático esta evolucionando tanto como el propio proceso experimental.

Composición proteica. En paralelo con los estudios de genómica funcional se han desarrollado también un muy interesante número de aproximaciones masivas, basadas en espectrometría de masas, para el estudio de las proteínas que componen las células y el consiguiente estudio comparativo de la composición entre células en distintos estados o enfermedades. Otro tipo de aplicaciones, basadas también en espectrometría de masas o en la sistematización del sistema de dos híbridos, han servido últimamente para revelar por primera vez los complejos macromoleculares que componen las células. Esta información está en la base del desarrollo de fármacos dirigidos a interrumpir procesos de señalización específicos, relacionados con la interacción entre proteínas concretas, y no la función individual de ciertas proteínas. Como en el caso del análisis de los "DNA arrays" la utilización de esta masiva capacidad experimental solo tiene sentido en el marco de un sistema de análisis bioinformático suficientemente estructurado y capaz de facilitar el análisis de toda esta nueva información en el contexto del resto de las aproximaciones experimentales.

Variabilidad génica. Las nuevas tecnologías genómicas hacen posible, por primera vez, la determinación de las bases moleculares de la diferencia entre individuos. A su vez, los pequeños cambios entre individuos (SNPs) sirven de marcadores genéticos para la determinación de los genes responsables de enfermedades complejas. Varios proyectos han desarrollado este tipo de aproximaciones masivas, incluyendo el consorcio público de HapMap.

Este tipo de aproximación está en la base de la llamada "medicina a la carta" en la que las compañías farmacéuticas pretenden desarrollar fármacos específicos para sectores de la población con determinadas características genómicas. En este caso se trataría de abaratar el coste de los ensayos clínicos delimitando de antemano las características de las poblaciones objetivo. El enorme potencial de estos estudios de asociación entre marcadores génicos y enfermedades corre en paralelo con la enorme complejidad del análisis bioinformático de los complejos datos disponibles.

La Bioinformática en la Comunidad de Madrid

En este panorama, la Genómica y Proteómica, junto al inseparable componente bioinformático, son imprescindibles para el desarrollo de las industrias biotecnológicas y farmacéuticas, para el análisis de los problemas biológicos con técnicas de procesamiento masivo (High Throughput), y para el diagnóstico médico basado en datos genéticos y moleculares. Para estas compañías y proyectos, es clave tanto poder gestionar y analizar sus propios datos, como poder acceder fácilmente a la ingente cantidad de información disponible en bases de datos públicas y privadas. La actividad de gestión e interpretación de la información, es sin duda parte del núcleo de innovación de estas actividades.

Para hacer posible estas actividades en Bioinformática es imprescindible contar con científicos competentes. Formar a estos científicos resulta extremadamente complejo en Bioinformática, dado su carácter híbrido entre biología y computación, contratar bioinformáticos con experiencia sigue siendo una de las batallas abiertas en cualquier universidad de prestigio (para un caso concreto ver el espacio dedicado a una sola de estas posiciones en USA un reciente artículo de la prestigiosa revista Science).[3]

En la Comunidad de Madrid trabaja un pequeño pero significativo número de Bioinformáticos, cuya producción científica es competitiva con los mejores grupos europeos (medida en términos de publicaciones de nivel internacional). Esta interesante comunidad incluye grupos en centros como el Centro Nacional de Biotecnología (CNB-CSIC), Centro Nacional de Investigaciones Oncológicas (CNIO), Centro de Biología Molecular (CBM-CSIC-UAM), Centro de Astrobiología (CAB-CSIC-INTA), varias compañías especializadas, y al menos un programa de formación activo en Bioinformática (master y cursos propios de la U. Complutense). Prueba de la competitividad de estos grupos es su participación en la coordinación de la red Europea de Bioinformática (Biosapiens, www.biosapiens.info), embrión del Instituto Virtual Europeo de Anotación de Genomas y la Escuela Europea Permanente de Bioinformática y la organización de la Reunión de la Conferencia Europea de Biología Computacional (ECCB) en 2005. Además ahora comienza su funcionamiento un nuevo centro virtual, el Instituto Nacional de Bioinformática (INB, www.Inab.org), del que tres de los ocho nodos, y la dirección del mismo, están también en nuestra comunidad.

En nuestra comunidad partimos por tanto de una situación razonablemente competitiva a nivel Europeo, tanto académica como comercial. En esta situación cabe preguntarse si las estructuras de nuestra comunidad favorecen el funcionamiento de éste área estratégica para el futuro de la Biomedicina. Quizás una forma relevante de analizar este programa es comparar la situación con la de Cataluña, que intenta establecerse entre las regiones Europeas activas en la investigación, innovación y desarrollo en Genómica y Biomedicina. En Cataluña existe una red especifica en Bioinformática que organiza reuniones y actividades de coordinación, la Bioinformática está favorecida en la asignación de recursos del programa ICREA tanto en cuanto a plazas especificas, como en nominaciones de equipos de excelencia, finalmente, la actividad en bioinformática esta claramente considerada como prioritaria en la organización de los nuevos parques científicos y tecnológicos. Sería muy deseable que la comunidad de Madrid decidiera también considerar las nuevas tecnologías en Biología y Biomedicina como prioritarias, con un decidido apoyo a la Genómica y Proteómica, y por supuesto a la Bioinformática.



[1] Venter et al., Environmental genome shotgun sequencing of the Sargasso Sea. Science. 2004 304:66-74

[2] Collins et al., A vision for the future of genomics research. Nature. 2003 422:835-847

[3] Science 2004 304: 821

Añadir nuevo comentario

El contenido de este campo se mantiene privado y no se mostrará públicamente.
Para el envío de comentarios, Ud. deberá rellenar todos los campos solicitados. Así mismo, le informamos que su nombre aparecerá publicado junto con su comentario, por lo que en caso que no quiera que se publique, le sugerimos introduzca un alias.

Normas de uso:

  • Las opiniones vertidas serán responsabilidad de su autor y en ningún caso de www.madrimasd.org,
  • No se admitirán comentarios contrarios a las leyes españolas o buen uso.
  • El administrador podrá eliminar comentarios no apropiados, intentando respetar siempre el derecho a la libertad de expresión.
CAPTCHA
Enter the characters shown in the image.
Esta pregunta es para probar si usted es un visitante humano o no y para evitar envíos automáticos de spam.