Buena parte de los datos relevantes para el cáncer sólo está disponible de forma no estructurada. Construir grandes bases de datos que integren información química y datos biológicos y clínicos es crucial para acelerar el descubrimiento de nuevos fármacos. Existe una necesidad urgente de garantizar un acceso eficiente a esta información para los investigadores y los especialistas en patentes.
En un artículo publicado en Chemical Reviews, la Unidad de Minería de Textos en Biología del Centro Nacional de Investigaciones Oncológicas (CNIO), junto con investigadores del Centro de Investigación Médica Aplicada (CIMA) de la Universidad de Navarra y el Barcelona Supercomputing Centre (BSC-CNS), ha publicado la primera revisión exhaustiva sobre las metodologías de vanguardia que impulsan los motores de búsqueda de compuestos químicos, denominados sistemas de reconocimiento de entidades y minería de textos.
El creciente campo de las aplicaciones de Big Data en la investigación biomédica, junto con el uso del aprendizaje automático y las tecnologías de inteligencia artificial para la minería de textos, ha dado lugar a numerosas herramientas prometedoras. "Esta revisión –señalan los autores– pretende ser una guía práctica para que los investigadores se adentren en el mundo de los datos científicos y también para ayudarles a prever los próximos pasos en este emergente campo".
"A través del lanzamiento de los Gold Standard datasets y de la organización de varios eventos de desafío comunitario, la Unidad de Minería de Textos en Biología ha desempeñado un papel crítico en el desarrollo y evaluación de los sistemas actuales de minería de textos en química", explica Martin Krallinger, jefe de la Unidad y co-primer autor de la revisión.
UNA GRAN CANTIDAD DE DATOS NO ESTRUCTURADOS
Martin Krallinger, jefe de la Unidad de Minería de Textos en Biología del CNIO. / CNIO
Buena parte de los datos biomédicos relevantes para el cáncer sólo está disponible de forma no estructurada. Este tipo de datos incluye la literatura científica, las patentes de compuestos de uso médico, registros electrónicos sanitarios o documentos de ensayos clínicos. De hecho, cada año, más de 20.000 nuevos compuestos aparecen en las revistas científicas.
Transformar esta información no estructurada en bases de datos que puedan ser procesadas de forma más eficiente por los ordenadores o consultadas por la gente es crucial para cosas como la identificación de nuevas dianas farmacológicas y de efectos secundarios o encontrar nuevos usos para fármacos ya aprobados.
Los compuestos químicos y los fármacos son elementos centrales para la investigación biomédica. De hecho, "la construcción de grandes bases de datos que integren información química y datos biológicos y clínicos es crucial para la identificación y validación de nuevas dianas terapéuticas así como para acelerar el descubrimiento de nuevos fármacos", señala Julen Oyarzabal, director de Ciencia Traslacional del CIMA y co-líder de este informe.
El trabajo ha sido financiación por el Programa Horizonte 2020 (referencia: 654021 – OpenMinted), la Encomienda MINETAD-CNIO, para el Plan de Impulso de las Tecnologías del Lenguaje, la Fundación para la Investigación Médica Aplicada (FIMA), la Universidad de Navarra, la Consellerìa de Cultura, Educación e Ordenación Universitaria (Xunta de Galicia), FEDER y la Fundación Portuguesa para la Ciencia y la Tecnología (FCT) (UID/BIO/04469/2013) y COMPETE 2020 (POCI-01-0145-FEDER- 006684).