Investigadores de la UE aprovechan el potencial de los datos masivos

El principal objetivo del proyecto EUDAT2020 es ofrecer a los investigadores europeos un acceso más sencillo a soluciones de gestión de datos y grandes sistemas de almacenamiento próximos a los superordenadores más potentes de Europa, al tiempo que se les permite trasladar grandes cantidades de datos a través de fronteras.

Para permanecer a la vanguardia, los investigadores europeos de diversas disciplinas deben poder conservar y acceder a cantidades ingentes de datos, y se deben fomentar las colaboraciones transfronterizas. EUDAT2020 tiene por fin facilitar justamente eso.

Basándose en proyectos anteriores financiados con fondos europeos, esta iniciativa ha reunido a una red de organismos de investigación y centros de computación y de datos europeos de catorce países para crear una infraestructura de datos colaborativa (CDI, por sus siglas en inglés) paneuropea. En abril de 2018, la CDI contaba formalmente con veintitrés socios.

El coordinador del proyecto, Damien Lecarpentier de CSC en Finlandia, comenta los logros del proyecto, así como su aportación para lograr la futura excelencia de la investigación europea.

Hemos oído decir que los datos masivos generan nuevas oportunidades para los investigadores. Pero, ¿cuáles fueron algunos de los retos con los que se toparon?

La Unión Europea y sus Estados miembros han realizado importantes inversiones en los últimos años para que investigadores de diversos ámbitos dispongan de acceso a instalaciones informáticas de alto rendimiento (HPC, por sus siglas en inglés) y redes distribuidas. El desafío es que el rápido aumento de los datos, gracias a nuevos instrumentos científicos, simulaciones y la digitalización de los recursos existentes, requiere nuevos métodos de organización y procesamiento de la cantidad de información disponible hoy en día. Debemos desarrollar un enfoque más coherente de la gestión de datos, y en eso precisamente se centra el proyecto. Queríamos conectar centros de procesamiento de datos para ofrecer un mejor soporte a diferentes comunidades investigadoras.

¿PUEDE DARNOS ALGÚN EJEMPLO ESPECÍFICO DE ESOS DESAFÍOS?

En ciencias de la Tierra sólida, los datos recopilados abarcan datos en tiempo real y datos fuera de línea (como imágenes, vídeos y estructuras de datos organizadas en bases de datos). Estos tipos diferentes de datos presentan distintos requisitos técnicos en cuanto a acceso y conservación. En la comunidad biomédica, un desafío clave es garantizar que se pueda acceder a los datos a la vez que se respetan los requisitos legales de confidencialidad y anonimidad de los pacientes. Todos los ámbitos de investigación, incluyendo las ciencias sociales y las humanidades, se enfrentan a retos relacionados con la gestión de réplicas de datos y el acceso a estos datos en un entorno con múltiples usuarios.

¿QUÉ PAPEL HAN DESEMPEÑADO LOS INVESTIGADORES EN ESTE PROYECTO?

Desde el inicio, las comunidades investigadoras han estado al mando de la selección de los servicios de datos. Además, han participado directamente mediante equipos multidisciplinarios en el diseño y desarrollo de estos servicios. El proyecto reunió a más de cincuenta comunidades investigadoras de diversas disciplinas, cada una de las cuales aportó conocimientos y requisitos específicos. Estos requisitos variaban desde la necesidad de replicar los datos para una mayor disponibilidad y garantizar la seguridad de los datos delicados hasta la posibilidad de intercambiar datos con partes no pertenecientes a la comunidad inicial.

Las comunidades investigadoras más recientes a menudo todavía están diseñando sus principales procesos de flujo de trabajo con datos y muestran interés en probar diversas soluciones antes de comprometerse. Las comunidades más maduras normalmente ya disponen de una infraestructura en funcionamiento.

Cuando fue posible, consideramos los servicios existentes como oportunidades e intentamos dar soporte ofreciendo a las comunidades la posibilidad de ampliar el alcance de su entorno de almacenamiento e informático mediante la infraestructura CDI. Esto supuso tener en cuenta a las comunidades investigadoras en su función de proveedores de servicios y no solo de clientes.

¿CÓMO BENEFICIARÁ EL PROYECTO A LOS INVESTIGADORES?

Las comunidades investigadoras participantes en el proyecto pudieron planificar, poner en práctica y utilizar los servicios de gestión de datos a escala europea. Los ámbitos científicos abarcados incluyen las ciencias sociales y humanidades, las ciencias de la atmósfera y la Tierra, la climatología, el estudio de la biodiversidad, las ciencias de la vida y la física.

Antiguamente, si yo necesitaba acceso a un sistema de almacenamiento donde también pudiese analizar mis datos, podía hablar con mi centro informático y de datos local. Pero este cubría solo usuarios locales, del mismo país. El traslado de datos a través de fronteras o el intercambio de datos y herramientas con compañeros del extranjero a menudo requiere, en cada ocasión, una solución a medida, lo cual no es modulable. Esta asociación sostenible, en que todos los socios comparten una visión común, ha abierto el acceso a herramientas de datos a escala europea y permite activar colaboraciones europeas mucho más rápido.

El proyecto también ha logrado que los proveedores de servicios de gestión y almacenamiento de datos sean mucho más conscientes de las necesidades de las comunidades investigadoras. Esto incluye sus requisitos de gestión de datos, así como el modo en que organizan sus infraestructuras de investigación específicas; por ejemplo, si deciden operar sus propios servicios de gestión de datos o utilizar servicios preexistentes que requieren adaptaciones especiales.

¿CUÁLES HAN SIDO LOS FACTORES CLAVE DEL ÉXITO DEL PROYECTO?

Hemos podido alcanzar estos logros gracias a un proyecto con una generosa financiación de la UE y a un grupo de socios de proyecto muy implicados. Al aprovechar las experiencias de proyectos anteriores y trabajar juntos, logramos crear una cultura única de colaboración e intercambio de conocimientos abiertos. Creamos la CDI de EUDAT como un modo de conservar este legado y de impulsarlo.

¿CÓMO SE PROTEGERÁ ESTE LEGADO?

Durante el último año del proyecto nos centramos en pasar de un proyecto a una organización sostenible. Los socios de EUDAT se han comprometido a mantener la CDI y sus servicios durante un período inicial de diez años. Además, hemos creado una secretaría para coordinar el desarrollo y funcionamiento de la infraestructura CDI y en febrero de 2018 se fundó formalmente una sociedad limitada. Esta funcionará sin ánimo de lucro y actuará como la voz de las organizaciones europeas que trabajan juntas como parte de la CDI de EUDAT, suministrando servicios relacionados con la gestión del ciclo de vida y el almacenamiento de datos científicos y de investigación.

En lo relativo al futuro, la CDI de EUDAT es una organización en crecimiento basada en un acuerdo contractual entre sus miembros. Es uno de los pilares clave de la Nube Europea de la Ciencia Abierta, una nube para datos de investigaciones en Europa. La CDI es una empresa abierta y acoge a proveedores de servicios que quieran unirse a la red con diversos niveles de participación e integración.

Investigadores de la UE aprovechan el potencial de los datos masivos

Add new comment