formatos de datos para el desarrollo Fuentes...

54
Fuentes y formatos de datos para el desarrollo Pablo Martín | PR3SSH Creative Commons (Attribution - Share Alike)

Transcript of formatos de datos para el desarrollo Fuentes...

Page 1: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Fuentes y formatos de datos para el desarrollo

Pablo Martín | PR3SSHCreative Commons (Attribution - Share Alike)

Page 2: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Índice

● Open Data● Portales de datos● Formatos principales de distribución de datos● Legislación y licenciamiento● Conceptos avanzados de Open Data● Principales fuentes de datos abiertos para el desarrollo

Page 3: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Data

Page 4: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

La era del dato

Fuente desconocida

Page 5: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

La era del dato

http://johnkapeleris.com/blog

Page 6: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

La era del dato

Page 7: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

La era del dato

Page 8: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Data

Los datos abiertos son datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona.

Hay diversas variaciones de la definición en relación con el concepto de libertad, dependiendo de quién sea el encargado de recopilar, de almacenar y de publicar los datos.

Page 9: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Data

https://www.ted.com/talks/tim_berners_lee_on_the_next_web

Page 10: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Data

http://5stardata.info

Page 11: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Gov Data

Las administraciones públicas disponen de gran cantidad de datos públicos con un valor incalculable.

Es por ello que para el beneficio de todas y todos (administraciones, ciudadanía, empresas, academia, movimientos sociales) éstos deberían ser liberados. Además deberían serlo por una cuestión tan básica como reconocer quién es el dueño o con qué fondos se han producido.

Page 12: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Gov Data

http://index.okfn.org

Page 13: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Gov Data

Claves al abrir datos:

● Publicacion clara● Formatos accesibles● Periodicidad corta● Mecanismo de suscripción● Licenciamiento libre● Anonimato● Seguridad nacional

Page 14: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Gov Data

Beneficios de abrir datos:

● Implementación del Gobierno Abierto (transparencia y participación)

● Mayor eficiencia de las administraciones públicas● Investigación e innovación● Generación de una nueva economía● Nuevo conocimiento mezclando datos● y muchos otros que ni conocemos

Page 15: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Portales de datos

Page 16: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Definición

Un portal de datos abiertos es un espacio web donde una organización publicará todos sus datos para ser consultados y reutilizados por otros entes (ya sean personas o programas informáticos).

Los portales de datos, al contrario que otros portales web, están enfocados en el dato como unidad semántica básica y fundacional del mismo.

Page 17: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Independencia tecnológica

Los portales de datos pueden ser construidos de diversa forma y por ello son independientes de una herramienta concreta/

Diferentes son los estándares de datos que se usen para la publicación del contenido, los mecanismos de publicación y cierta homogeneización de buenas prácticas detectadas y ya asumidas por la comunidad.

Page 18: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Interacciones básicas

Buscar

El sistema de búsqueda debe ser potente y permitir opciones avanzadas de la misma así como mecanismos de búsqueda facetadas.

Publicar

La publicación debe ser simple, bien estructurada y que aporte toda la información necesaria.

Page 19: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Elementos fundamentales

● Catálogo de datos● Gestión de datos● Exploración de datos● Previsualización● Metadatos● Federación● Exposición de datos

Page 20: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Elementos generales

● Gestión de usuarios● Apariencia● Sindicación● Feedback● Analíticas● Seguridad● Alojamiento● Integración● etc

Page 21: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Herramientas más populares

● CKAN (ckan.org)● Socrata (socrata.com)

Page 22: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Buenos ejemplos de portales de datos

● Gobierno Reino Unido: data.gov.uk● Gobierno Estados Unidos: data.gov● Unión europea: data.europa.eu● Gobierno de Australia: data.gov.au● Gobierno de España: datos.gob.es● Banco Mundial: data.worldbank.org● FAO Stats: fao.org/faostat

Page 23: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos principales de distribución de datos

Page 24: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Qué son los formatos de datos

● Los formatos de datos son un conjunto de reglas que definen la forma en la que se almacenan y definen los datos.

● Al hacer públicas dichas reglas se posibilita que todas las personas puedan conocerlas y con ello usarlas. Si se da un proceso global, puede que dicho formato de datos se estandarice al expandirse y afianzarse su uso.

● Los formatos de datos hacen referencia a los tipos de ficheros de datos en el que se almacenan. No se está haciendo referencia en ningún caso a las bases de datos.

● Son normalmente formatos de tipo texto, legibles por cualquier software de edición de texto pero a veces mejor procesado con software específico para facilitar su comprensión.

Page 25: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos más populares

● PDF● XLS● CSV● XML● JSON● GeoJSON● RDF● ...

Page 26: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: PDF

Page 27: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: XLS

● También conocido como XLSX en los últimos años● Desarrollado por Microsoft para su software de hojas de cálculo

Excel● Distribución en formato tabla bidimensional● Permite guardar código y estilos además de datos● La popularidad de las hojas de cálculo han hecho

tremendamente popular este formato● No es recomendable su uso por ser privativo

Page 28: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: CSV

● Fichero de texto de valores separados por comas (o tabuladores en formato TSV)

● Distribución en formato tabla bidimensional● Alternativa abierta al formato XLS● Solo permite almacenar datos● Amplio uso en el almacenamiento de datos● Suele llevar una primera fila de definición de campos (cabecera)

Page 29: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: CSV

Ej.:

nombre, color, talla

manzana, rojo, media

pera, verde, media

melón, verde, grande

ciruela, morado, pequeña

Page 30: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: XML

● Extensive Markup Language● Formato de marcado ampliamente usado● Permite jerarquías o niveles de profundidad (estructura arbórea)● xHTML está basado en XML● Se considera tanto human-readable como machine-readable● Se basa en etiquetas (apertura y cierre) completamente

configurables● Puede contener o estar basado en una gramática en formato

DTD● Estándar abierto de la W3C (Consorcio de la World Wide Web)

Page 31: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: XML

Ej.:

<frutas>

<fruta><nombre>manzana</nombre><color>rojo</color><talla>media</talla></fruta>

<fruta><nombre>pera</nombre><color>verde</color><talla>media</talla></fruta>

<fruta><nombre>melón</nombre><color>verde</color><talla>grande</talla></fruta>

<fruta><nombre>ciruela</nombre><color>morado</color><talla>pequeña</talla></fruta>

</frutas>

Page 32: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: JSON

● Javascript Object Notation● Javascript es el lenguaje de la web● El uso masivo de Javascript ha popularizado este formato● Se basa en {clave: valor}● Permite jerarquías o niveles de profundidad (estructura arbórea)● Bajo coste de almacenamiento (en comparación con XML)● Estándar abierto

Page 33: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: JSON

Ej.:

{ “frutas”: [

{“nombre”: “manzana”, “color”: “rojo”. “Talla”, “media”},

{“nombre”: “pera”, “color”: “verde”. “Talla”, “media”},

{“nombre”: “melón”, “color”: “verde”. “Talla”, “grande”},

{“nombre”: “ciruela”, “color”: “morado”. “Talla”, “pequeña”}

] }

Page 34: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: GeoJSON

● Geographic Javascript Object Notation● Basado en JSON● Permite definir una serie de características geográficas● Además permite almacenar elementos no geográficos como

puntos y polígonos● Estándar abierto

Page 35: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formatos de datos: RDF

● Resource Description Framework● Es un modelo de intercambio de datos en la Web● Extiende el sistema relacional de la Web, usando URIs para

nombrar las relaciones entre elementos (y sus elementos en sí)● Modelo de tripletas● Diferentes serializaciones: Turtle, RDF/XML, JSON-LD, RDFa● Estándar abierto

Page 36: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Legislación y licenciamiento

Page 37: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Legislación

● Directiva Europea de Reutilización de la Información del Sector Público (2003/98/EC).

● Ley 19/2013, de 9 de diciembre, de Transparencia, Acceso a la Información Pública y Buen Gobierno. Gobierno de España.

● Leyes autonómicas de transparencia y reutilización de información.○ Andalucía (1/2014 de 24 de junio))

○ Comunitat Valenciana (2/2015 de 2 de abril)

○ y otras

● Ordenanzas municipales de transparencia.

Page 38: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Licenciamiento

● OGL - Open Government License● ODbL - Open Database License● Otras licencias específicas pero de la misma naturaleza

Page 39: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Conceptos avanzados de Open Data

Page 40: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Una breve aproximación

● REST API● Formato RDF● Formato RDFa● DCAT● Pinceladas de ontologías y web semántica

Page 41: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Qué es una API

● API = Application Programming Interface● Conjunto de funciones y definiciones sobre un protocolo● Permite de forma relativamente sencilla integrar datos de unas

aplicaciones en otras permitiendo así obtener unos niveles bastante altos de interoperabilidad entre sistemas

● Puede tener mecanismos de autenticación y versionado

Page 42: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

REST API

● REST = Representational State Transfer● Las REST API son las más populares dentro de los diversos tipos

de API que existen, o al menos las más comunes en servicios digitales existentes por su facilidad de uso

● Se basan en el protocolo HTTP usado en la Web para ofrecer documentos con hipertexto (HTML)

● Consta de una serie de puntos de acceso para los diferentes métodos

● Ej.: curl https://api.github.com/search/repositories?q=ckan

Page 43: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Formato RDFa

● RDFa = RDF in attributes● Se refiere a la inclusión de etiquetas RDF en atributos de los

elementos HTML● Muy usado para introducir metadatos semánticos en la Web● Otra alternativa: Microdata

Page 44: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

DCAT

● DCAT es un vocabulario RDF diseñado para facilitar la interoperabilidad entre catálogos de datos publicados en la Web

● Básicamente su misión es describir conjunto de datos● Esto promueve el descubrimiento y facilita que las aplicaciones

consuman metadatos de diversos catálogos de datos de forma automatizada

● Basado en XML● Respaldado por el W3C● Está ampliamente extendido en los portales de datos● Ejemplos de uso en

www.w3.org/TR/vocab-dcat/#basic-example

Page 45: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Linked Open Data Cloud Diagram

Page 46: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

La Wikipedia semántica

http://wikidata.org

Page 47: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Principales fuentes de datos abiertos para el desarrollo

Page 48: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

The World Bank

https://data.worldbank.org

Page 49: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

FAO

http://www.fao.org/statistics/databases

Page 50: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Open Data for Development

http://od4d.net

Page 51: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Global Partnership for Sustainable Development Data

http://data4sdgs.org

Page 52: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Data for Development Festival

http://www.data4sdgs.org/index.php/news/data-development-festival

Page 53: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

Resource Watch

http://resourcewatch.org

Page 54: formatos de datos para el desarrollo Fuentes yblog.uclm.es/miguelalvarez/files/2019/03/Fuentes_y_for...proceso global, puede que dicho formato de datos se estandarice al expandirse

API Highways

http://apihighways.org