Interoperabilidad semántica y re-uso de datos en la Web (HackEc15)

59
Interoperabilidad semántica y re-uso de datos en la Web Webinar Hack Ecuador Challenge 2015 Marzo 2015 Nelson Piedra | @nopiedra #HackEC15

Transcript of Interoperabilidad semántica y re-uso de datos en la Web (HackEc15)

Interoperabilidad semántica y re-uso de datos en la Web

Webinar Hack Ecuador Challenge 2015 Marzo 2015

Nelson Piedra | @nopiedra

#HackEC15

ResumenDesde el punto de vista de la información pública, la interoperabilidad implica que los sistemas deben poseer un modelo de información interoperable a nivel sintáctico, esto es que se pueda intercambiar y transferir todo tipo de datos entre sistemas diferentes; estructural, que proporcionen los medios para especificar esquemas comunes de metadatos; y semántico, o de significados, encargada de asegurar que el intercambio de datos sea entendida de la misma manera por sistemas diferentes.

Contexto: Gran cantidad de datos claves están distribuidos en la Web

Open Data no es un hobby, es un movimiento

• El punto es re-uso, democratización, reproducibilidad, y potenciar las posibilidades de innovación, colaboración, transparencia y rendición de cuentas.

• Contexto:

• Explosión de información digital

• Mejoras en las tecnologías de la Información.

Motivación: ¿Open Data para qué?

algunas ideas• Proveer información personalizada sobre servicios

públicos a ciudadanos.

• Apoyar a emprendedores en el desarrollo de aplicaciones basadas en datos abiertos públicos, ejemplo nuevas aplicaciones enfocadas en accesibilidad.

• Mejorar la gestión de los servicios desde un enfoque colaborativo.

• Incrementar la transparencia y participación ciudadana.

¿Qué datos públicos están disponibles?

¿son abiertos? ¿fácilmente reusables?

from: http://lab.linkeddata.deri.ie/2010/star-scheme-by File:Student using the card catalogue in the library, 1981.jpghttp://commons.wikimedia.org/wiki/File:Student_using_the_card_catalogue_in_the_library,_1981.jpg

Evaluar Datos Públicos a través de las Cinco Estrellas de los Datos AbiertosClasificación respecto a qué tan abiertos y usables son los datos que puede ofrecer una institución

Una estrella: ofrecer los datos en la Web en cualquier formato, aunque sean difíciles de manipular, como un pdf o una imagen escaneada, con licencias abiertas.

Dos estrellas: entregar los datos de manera estructurada, como en un archivo excel con extension xls.

Tres estrellas: entregar los datos en un formato que no sea propietario, Ej. csv en vez de excel

Cuatro estrellas: usar URIs (que es una dirección web de un dato que sirve para enlazarlo con otros datos) para identificar cosas y propiedades, de manera que se pueda apuntar a los datos. Requiere usar un estándar de Web Semántico RDF

Cinco estrellas: vincular sus datos con los de otras organizaciones/personas, dotándolos de contexto. En la práctica, a que la información entregada también apunte a otras fuentes de datos.

1. Datos en tablones de anuncios. Útiles para quienes tiene tiempo y están en el lugar/momento correctos.

2. Datos en páginas web y aplicaciones móviles. Útiles para los ciudadanos. Las personas buscan la información que requieren.

3. Datos compartidos como archivos Web. Generalmente en formatos XML, HTML, CSV, XLS. ¿Los formatos son abiertos?

image source: http://wiki.lib.sun.ac.za/images/thumb/8/8e/Open-formats.png/640px-Open-

formats.png

Formatos Cerrados, Software idéntico.

Formatos Cerrados, Software diferente.

Formatos Abiertos, Software diferente.

Estandarización ¿suficiente para interoperar e integrar?

Implementación e Integración

¿Qué estándares usamos?

Estándares de factor

Estándares por ley

Los estándares no son suficientes para asegurar Interoperabilidad.

Implementar adaptadores

Usar transformadores

4. Intercambio de datos entre aplicaciones vía Servicios Web. Aporta flexibilidad a la tendencia de crear aplicaciones a partir del reuso de componentes distribuidos. Dan gran independencia entre la aplicación que usa el servicio Web y el propio servicio. De esta forma, los cambios a lo largo del tiempo en uno no deben afectar al otro.

image source: http://www.unf.edu/~k.umapathy/images/Publications-Wordle.png

Los estándares abiertos son esenciales para crear un

entorno de gobierno abierto

Preservación Metadata interoperabilidad

En noviembre de 2014 la Secretaría Nacional de la Administración Pública de Ecuador (SNAP) publicó la Guía de Política Pública de Datos Abiertos (GPP-DA-v01-2014), la cual junto con el Plan Nacional de Gobierno Electrónico 2014-2017 constituyen los primeros antecedentes oficiales que el Gobierno Ecuatoriano presenta sobre la adopción de datos abiertos en las entidades de la Administración Pública Central, Institucional y Dependiente de la Función Ejecutiva (APCID).

la guía promueve la liberación de datos en un formato unificado y común y compromete el nivel de 3 estrellas, del esquema de desarrollo de 5 Estrellas de Datos Abiertos propuesto por Tim Berners-Lee en 2009, como un primer paso de liberación de datos de Ecuador, esto es, datos publicados en la web, bajo una licencia abierta, estructurados en un formato que pueda ser interpretado o procesado por máquinas y en formatos no propietarios.

La Guía completa puede consultarse en el siguiente enlace: GPP-DA-v01-20141128-SNAP-SGE así como el Plan Nacional de Gobierno Electrónico: Plan Gobierno Electronico V1

via OKFN-EC

http://ec.okfn.org/files/2014/12/GPP-DA-v01-20141128-SNAP-SGE.pdf

http://ec.okfn.org/files/2014/12/PlanGobiernoElectronicoV1.pdf

https://public.resource.org/open_government_meeting.html

Sin embargo, el reuso de datos aún no es tarea fácil.

Estado actual: Un mundo de Silos

A New Silo: A New ObstacleImage Source: http://www.planetdevops.net/?cat=181

open government data

Silos de DatosMuestran un entorno

fracturado de contenido y oportunidades; con

limitaciones obvias para que un usuario o aplicación

pueda acceder, descubrir, visualizar e interactuar con

el contenidos.

Elena Berriolo, Drawing for The Silo, 2010; courtesy Raphael Rubinstein

Silos: ¿Qué se puede hacer?

• Acceder, buscar y explorar datos desde cada repositorio.

• Usar solamente las herramientas que soporta el repositorios

• Mirar la información en las vías establecidas por el diseñador del repositorio

• El curado de la información está centralizado

Silos: ¿Qué no se puede hacer?

• Acceder, buscar y explorar datos relacionados que esté otros repositorios.

• Mirar la información en otras vías (Usar herramientas diferentes a las disponibles en cada repositorio, hacer búsquedas cruzadas)

• Usar los datasets existentes para otros propósitos (repurposing)

• Visibilizar los gaps que existen en las colecciones de datos.

• Contribuir o corregir descripciones e informaciones adicionales

• Soportar anotación, manipulación, citación y e interacción personalizada de datos en diferentes repositorios.

• Mejorar la conexión entre ciudadanos.

• Disponer de apps creados por emprendedores a partir de datos almacenados en diferentes repositorios.

Removiendo el estigma de los “Silos”

Conectar un entorno heterogéneo y distribuido

Los datos públicos debe ser Abiertos, Interoperable y Automáticamente Procesable

por Máquinas

La semántica da sentido a los datos

Interoperabilidad

• Romper Silos de Datos

• Separar datos de aplicaciones

• Compartir modelos de datos e interfaces de programación

• Habilitar posibilidades de integración a nivel de herramientas y repositorios

Interoperabilidad

Estándares abiertos =

“El Internet está fundamentalmente basado en la existencia de estándares abiertos y no-propietarios.”

Vint Cert, Padre del Internet.

Semántica +

Un entorno interoperable soporta:

• Descubrimiento de recursos a través de repositorios

• Posibilidad de mirar los recursos de cualquier repositorio en un entorno común

• Acceso a datos y semántica disponible para manipulación desde terceros

• Anotación y persistencia en una vía de datos enlazados.

• Casos de uso técnicos: (a) Repositorio a Repositorio. (b) Aplicación a Repositorio: permite que el contenido fluya a través de su ciclo de vida natural. (c) Repositorios Federados: habilidad para usar y consumir contenido a través de múltiples repositorios, usando una simple UI.

la Web para Seres Humanos

The Tower of Babel by Pieter Bruegel the Elder (1563) https://en.wikipedia.org/wiki/Tower_of_Babel

la Web para Máquinas

Extraer(Extract)

Transformar(Transform)

Cargar(Load)

A World of Silos (individual datasets and

specialized research tools)

A graph-data model enables users to fin hidden connection that span across many repositories, revealing new insights into biology, enabling users to ask complex questions. Users can look for

relationships in the data.

A World of Linked Data (Integration way standard taxonomies,

ontologies, vocabularies, and structured data repositories)

Workflow in which existing datasets are transformed,

integrated and aggregated into a normalize data

collection to interoperate, and integrate pieces of

data from existing datasets

Apps

Linked-Data Principles, back to TBL note from ’98

Like the web of hypertext, the web of data is constructed with documents on the web. http://www.w3.org/DesignIssues/LinkedData

1.Use URIs to name things on the Web (for naming everything real or abstract you could think of)

2.Use HTTP URIs so that people can look up those names. 3.When someone looks up a URI, provide useful information, using the

standards (RDF*, SPARQL) 4.Include links to other URIs. so that they can discover more things.

Tecnologías para Mejorar la Interoperabilidad Web de Datos

Linked Data core stack

HTTP URI

RDF

SPARQL

Linked Data Core Stack, Specifications

• RFC 2616 Hypertext Transfer Protocol -- HTTP/1.1: Defines HTTP, a generic and stateless application-level protocol for distributed, collaborative, hypermedia information systems.

• RFC 3986 Uniform Resource Identifier (URI): Generic Syntax: Defines a generic URI syntax and a process for resolving URI references that might be in relative form, along with guidelines and security considerations for the use of URIs on the Internet.

• RDF Concepts and Abstract Syntax: Defines the RDF graph data model and key concepts.

• SPARQL Query Language for RDF: Defines defines the syntax and semantics of the SPARQL query language for RDF.

la Web Semántica es una extensión para agregar a la Web algunos metadatos para que las máquinas procesen automáticamente la información.

Un modelo basado en grafos que permite enlazar descripciones de recursos en la web.

Resource: páginas, imágenes, videos, …cualquier cosa que tenga una URI Description: atributos, características, y relaciones de los recursos Framework: modelo, lenguaje y sintaxis para estas descripciones

Resource Description Framework

The RDF Data Model

RDF Triples Resource Description Framework"

subject <uri>

traits or aspects of the resource

predicate typed-link

traits or aspects of the resource

object <uri> or “literal”

traits or aspects of the resource

El Marco de Descripción de Recursos (del inglés Resource Description Framework, RDF) es una familia de especificaciones de la World Wide Web Consortium (W3C) originalmente diseñado como un modelo de datos para metadatos. Ha llegado a ser usado como un método general para la descripción conceptual o modelado de la información que se implementa en los recursos web,1 utilizando una variedad de notaciones de sintaxis y formatos de serialización de datos.

Sujeto Predicado Objeto

http://telecincostatic-a.akamaihd.net/informativos/sociedad/Trillizos-reciben-quimioterapia-lucha-

cancer_MDSIMA20140315_0098_21.jpg

foaf:Personrdf:type (a)

Ecuador:Guayasamin

http://xmlns.com/foaf/0.1/Person

prefix foaf <http://xmlns.com/foaf/0.1/>

prefix Ecuador <http://data.ecuador.gob.ec/schema#>

<http://data.ecuador.gob.ec/schema#Guayasamin>

Open Government Data reuse!

SPARQL endpoint: http://es-la.dbpedia.org/sparqlgraph: http://es-la.dbpedia.org/sparql

Un ejemplo de dataset abierto e interoperable

semánticamente

DBpedia Data Stack

http://es-la.dbpedia.org

Extractor de Datos

SPARQL endpoint

DBpedia APPs

Sparql Clients

RDF Browsers

PubbyLD-Frontend for SPARQL Endpoints

HTML Browsers

Explotación

Vista Macro DBpedia-LatAm

Webpage: Cordillera de Los Andes

http://es.wikipedia.org/wiki/Cordillera_de_los_Andes

Resource: Cordillera de Los Andes

http://es-la.dbpedia.org/page/resource/Cordillera_de_los_Andes

Image Credit: Lightspring / Shutterstock

¿Y el futuro?

Preparing  the  Way  :  Crea0ng  Future  Compa0ble  to  Connec0ng  Data  in  a    

Open  Government  environment.

Linked  Data  es  Interoperabiliad  de  Data  La necesidad de comunicación e interoperación entre sistemas de información distribuidos y autónomos se ha incrementado con el uso de la Web.  

e.g. Interoperabilidad entre Repositorios heterogéneos y distribuidos

TED2009 Tim Berners-Lee on the next Web

hBp://taylormarshall.com/wp-­‐content/uploads/2013/08/head-­‐of-­‐john-­‐bap0st.jpg  

El futuro eres tú…

ConclusiónDesde el punto de vista de la información pública, la interoperabilidad implica que los sistemas deben poseer un modelo de información interoperable a nivel sintáctico, esto es que se pueda intercambiar y transferir todo tipo de datos entre sistemas diferentes; estructural, que proporcionen los medios para especificar esquemas comunes de metadatos; y semántico, o de significados, encargada de asegurar que el intercambio de datos sea entendida de la misma manera por sistemas diferentes.

gracias!@nopiedra  

[email protected]

Interoperabilidad semántica y re-uso de datos en la Web

#HackEC15