Fecha
Autor
Asunción Gómez Pérez (Ontology Engineering Group. Universidad Politécnica de Madrid)

Apúntate al reto de los Datos Enlazados en la Web

La Web de Datos enlazados, del inglés <em><strong>Web of Linked Data<small><a name="ref1" id="ref1"></a><sup><a href="#nota1">[1]</a></sup></small></strong></em> , supone un nuevo paradigma que pretende explotar la Web como un espacio global de información en el que la navegación se realiza a través de datos estructurados enlazados (<em>linked data</em>) en vez de realizarse a través de documentos. Se pasa así de una Web basada en documentos HTML, en la que el usuario es el destinatario de la información publicada, a una Web de Datos Enlazados que están expresados en RDF<small><a name="ref2" id="ref2"></a><sup><a href="#nota2">[2]</a></sup></small> , en la que sistemas y agentes software pueden explotar estos datos de forma automática (recopilándolos, agregándolos, interpretándolos, publicándolos, etc.) utilizando vocabularios consensuados y ontologías. <p></p>
LOS PRINCIPIOS DE LA WEB DE DATOS ENLAZADOS

El valor y la utilidad de los datos enlazados es mayor tanto en cuanto éstos estén más interconectados con otros datos en la Web de Datos

El término Linked Data fue propuesto por Tim Berners-Lee, el creador de la World Wide Web. Dicho término se refiere a una forma de publicar y enlazar datos estructurados en la Web utilizando RDF, un lenguaje para representar información sobre recursos propuesto por el Consorcio de la World Wide Web en el área de la Web Semántica. El valor y la utilidad de los datos enlazados es mayor tanto en cuanto éstos estén más interconectados con otros datos en la Web de Datos.

Los cuatro principios de diseño en los que se basa la Web de Datos Enlazados son:

    1. Utilizar URIs (Uniform Resource Identifier) como nombres únicos para los recursos

    2. Utilizar el protocolo HTTP para nombrar y resolver la ubicación de los datos identificados mediante esas URIs

    3. Representar los datos en RDF y utilizar SPARQL[3] como lenguaje de consulta de dichos datos

    4. Incluir enlaces a otras URIs para permitir la localización de más datos enlazados

    Los datos en la Web de Datos se describen mediante el uso de términos que aparecen en vocabularios consensuados u ontologías. Ejemplos de vocabularios son DC[4] para describir propiedades genéricas de recursos, FOAF[5] para describir personas, SIOC[6] para describir comunidades on-line o, VoID[7] para describir conjuntos de datos enlazados, entre otros.

    GENERACIÓN DE NUEVOS DATOS ENLAZADOS EN LA WEB DE DATOS

    La primera fase para cualquier institución u organismo consiste en identificar estratégicamente qué información van publicar de forma abierta como datos enlazados. De la misma manera que, en un momento dado, para lograr una mayor visibilidad o un mejor acceso a los datos de la institución o a los servicios, se requería crear una página Web, los avances logrados en la actualidad en la Web de Datos prevén el carácter estratégico que supone transformar, enlazar y publicar los datos con otros ya presentes en la Web de Datos utilizando vocabularios ya consensuados con el fin de que éstos puedan ser explotados automáticamente por sistemas software.

    En la segunda fase, los datos seleccionados se abren y publican en un formato reutilizable por todos, migrando la información almacenada en bases de datos, ficheros, hojas de cálculo, etc. al lenguaje RDF.

    Actualmente existe un amplio elenco de tecnologías que se pueden utilizar para transformar fuentes de datos, editarlas, validarlas, visualizarlas y publicarlas. En este momento se deberá decidir bajo qué licencia se publican los datos, siendo normalmente bajo licencias abiertas que permiten la redistribución, reutilización y aprovechamiento de los datos con fines comerciales.

    En la tercera fase, los datos transformados se enlazan con otros datos ya disponibles en la Web de Datos. Esta actividad es fundamental para incrementar la conectividad de los datos generados, permitiendo la recuperación y la agregación de información relacionada.


    USO DE LOS DATOS ENLAZADOS

    La cantidad de datos enlazados publicados en la Web de Datos ha experimentado un enorme crecimiento en los últimos años. La lista de recursos ya disponibles en Linked Data crece día a día[8]. El mayor auge hasta ahora se ha producido en el contexto de la publicación de datos del sector público. Sin embargo, el fenómeno de Linked Data se está extendiendo a otros sectores, entre los que destacan los medios de comunicación, infraestructuras y logística, el ámbito universitario y científico y el de los datos geográficos.

    ... en el sector público. El uso de los datos enlazados en el Sector Público tiene un doble fin. El primero es proporcionar datos públicos más accesibles a la ciudadanía en un formato reutilizable y, el segundo, proporcionar un punto de acceso único a la información gubernamental en el que los datos están conectados y en el que es posible utilizarlos de forma automatizada por sistemas software. La apertura y disponibilidad de estos datos creará nuevas oportunidades de negocio al permitir a terceros crear nuevos servicios de valor añadido utilizando los datos públicos de forma integrada.

    La cantidad de datos enlazados publicados en la Web de Datos ha experimentado un enorme crecimiento en los últimos años

    Los primeros pasos en esta dirección se dieron en el año 2003, con una directiva de la Unión Europea sobre la reutilización de información del Sector Público. Esta directiva introduce un marco legislativo que regula cómo debe el Sector Público proporcionar los datos públicos producidos y recogidos por instituciones u organismos oficiales. El portal temático Europeo sobre el Sector Público[9] tiene como finalidad monitorizar estos aspectos.

    Los primeros gobiernos que han abierto sus datos y los han enlazado con otros han sido el Reino Unido[10] y los Estados Unidos de América[11]. El gobierno británico ha apostado por la investigación e innovación en esta temática al financiar con 30 millones de libras un nuevo Instituto de Investigación[12] liderado por Sir Tim Berners Lee con el fin de posicionar al Reino Unido en primera línea en esta nueva Web de Datos. En la actualidad, esta iniciativa ya ha publicado numerosos catálogos de datos gubernamentales abiertos[13].

    Nuestro país no es ajeno a este fenómeno. El Ministerio de Industria, Turismo y Comercio, a través del proyecto APORTA[14], impulsa la reutilización de la información del Sector Público[15] en España, y la asociación Pro Bono público (mediante la iniciativa AbreDatos[16]) promociona la difusión de estándares, datos y plataformas tecnológicas abiertas entre las instituciones públicas.

    También ha habido otras iniciativas dentro del sector público que han comenzado a publicar sus datos: el portal de acceso Open Data Euskadi[17] publica en RDF los datos públicos del Gobierno Vasco, la plataforma RISP[18] publica los datos públicos del Principado de Asturias, el Ayuntamiento de Zaragoza[19] publica datos sobre la ciudad, trámites, gestiones, ofertas de empleo y servicios, así como sobre el funcionamiento y organigrama del propio Ayuntamiento, e igualmente se han transformado los horarios de los servicios de trenes en Cataluña[20].

    ... en el sector geográfico. GeoLinked Data.es[21] es una iniciativa abierta destinada al enriquecimiento de la Web de Datos con datos geoespaciales del territorio nacional español. Esta iniciativa se ha puesto en marcha con la publicación de diversas fuentes de información procedentes del Instituto Geográfico Nacional (IGN) y el Centro Nacional de Información Geográfica (CNIG). Además, estos datos se interrelacionan con otras bases de conocimiento existentes en la Web de Datos Enlazados. El IGN y el CNIG se suman así a las iniciativas de Ordnance Survey[22] en el Reino Unido o de GeoLinkedData en Alemania.

    ... en el sector de los medios de comunicación. El mundo de los medios de comunicación ha reaccionado también con gran rapidez, y compañías como la BBC en el Reino Unido o el New York Times en Estados Unidos están trabajando para hacer que su información esté disponible en la Web de Datos.

    ... en el sector de la I+D+i. Servicios de Información Comunitarios sobre Investigación y Desarrollo, como CORDIS (en Europa) o la National Science Foundation (de los Estados Unidos de América) han transformado a este nuevo formato sus bases de datos. Entre las Univesidades Públicas españolas, la Universidad Politécnica de Madrid se ha sumado a este reto y publicará en breve datos procedentes del observatorio de I+D+i.

    ... en el sector de las bibliotecas digitales. Los museos, archivos y bibliotecas también se suman a este esfuerzo. Como ejemplos más significativos está la iniciativa Europeana[23], que ha transformado catálogos multimedia de museos y librerías europeas, así como la biblioteca nacional alemana que recientemente ha comenzado a migrar sus datos.

    ... en el ámbito científico. En este ámbito, los datos enlazados actualmente publicados son casi la mitad, en volumen, de los disponibles globalmente, con especial atención a dominios como la Biología computacional. Todos estos datos han sido producidos en el contexto de las iniciativas de e-Ciencia que han sido lideradas por el Reino Unido en la última década.

    AELID, la Asociación Española de Linked Data[24], es una asociación sin ánimo de lucro que tiene como finalidad avanzar en el conocimiento en la investigación e innovación sobre Linked Data en España y Europa, contribuir en la creación de un ecosistema de investigadores y emprendedores que favorezca el intercambio de conocimiento y experiencias, funcionar como una plataforma de información y formación, y promover la presencia del idioma español en la Web de Datos.

    No cabe duda de que la generación y utilización de tal cantidad de datos enlazados procedentes de fuentes heterogéneas creará nuevas oportunidades de investigación y de negocio. El hecho de que países de habla inglesa sean los que han tomado la iniciativa en la investigación y en la transformación de los datos incide, como ha sido habitual, en que la gran mayoría de los datos disponibles en Linked Data estén en inglés. España se encuentra ante el reto de comenzar a transformar, enlazar y publicar de forma masiva datos del Sector Público y privados al mismo tiempo que otros países de nuestro entorno. Asimismo es necesario reforzar en el Plan Nacional de I+D+i aquellas actuaciones que incrementen no sólo la presencia de resultados de investigadores y empresas españolas, sino también el volumen datos enlazados en español y del resto de lenguas oficiales del Estado.



    [1] http://linkeddata.org
    [2] https://www.w3.org/2001/sw/wiki/RDF
    [3] https://www.w3.org/TR/rdf-sparql-query/
    [4] https://dublincore.org/
    [5] http://xmlns.com/foaf/spec/
    [6] http://sioc-project.org/
    [7] http://semanticweb.org/wiki/VoiD
    [8] http://linkeddata.org/data-sets
    [9] https://ec.europa.eu/digital-single-market/
    [10] https://www.data.gov.uk/
    [11] https://www.data.gov/
    [12] https://redcatco.com/technology/gordon-brown-announces-second-generation-government/
    [13] http://linkeddata.deri.ie/node/72
    [14] http://www.proyectoaporta.es/web/guest/index
    [15] http://blog.probp.org
    [16] http://blog.probp.org
    [17] https://www.opendata.euskadi.eus/hasiera/
    [18] http://www.asturias.es/portal/site/Asturias/menuitem.77b6558ac8616446e44f5310bb30a0a0/?vgnextoid=05badd42ece45210VgnVCM10000097030a0aRCRD&vgnextchannel=05badd42ece45210VgnVCM10000097030a0aRCRD&i18n.http.lang=es
    [19] http://www.asturias.es/portal/site/Asturias/menuitem.77b6558ac8616446e44f5310bb30a0a0/?vgnextoid=05badd42ece45210VgnVCM10000097030a0aRCRD&vgnextchannel=05badd42ece45210VgnVCM10000097030a0aRCRD&i18n.http.lang=es
    [20] http://r.odali.es/ 
    [21] http://geo.linkeddata.es/
    [22] https://data.ordnancesurvey.co.uk:443/
    [23] http://www.europeana.eu/portal/
    [24] http://www.aelid.es/

    Añadir nuevo comentario

    El contenido de este campo se mantiene privado y no se mostrará públicamente.
    Para el envío de comentarios, Ud. deberá rellenar todos los campos solicitados. Así mismo, le informamos que su nombre aparecerá publicado junto con su comentario, por lo que en caso que no quiera que se publique, le sugerimos introduzca un alias.

    Normas de uso:

    • Las opiniones vertidas serán responsabilidad de su autor y en ningún caso de www.madrimasd.org,
    • No se admitirán comentarios contrarios a las leyes españolas o buen uso.
    • El administrador podrá eliminar comentarios no apropiados, intentando respetar siempre el derecho a la libertad de expresión.
    CAPTCHA
    Enter the characters shown in the image.
    Esta pregunta es para probar si usted es un visitante humano o no y para evitar envíos automáticos de spam.