Maria esteva

Post on 24-May-2015

318 views 0 download

Tags:

Transcript of Maria esteva

Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin

PANEL

Cyberinfrastructura para la administración de datos de

investigación

Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin

2EieMayo 2013, Cali, Colombia

Datos & investigación

• Ciencia intensiva de datos – Teoría, experimentos, y

simulaciones en el contexto de datos masivos

• Datos sustentables– Documentados, estables,

auténticos

• Datos para diseminar conocimientos, citar, y reutilizar

Formación de colecciones• Proyectos de investigación complejos y en evolución

constante • Tecnología y conocimientos cambian continuamente• Fondos para investigación inestables• Las colecciones son mas vulnerables durante el

proceso de investigación• Arquitectura y funcionalidades de una colección

pueden involucrar a varias tecnologías

Perspectivas• La curación de datos tiene como tema central

el problema que trata la investigación• Enfoque desde las ciencias de la información• Enfoque desde la infraestructura

– Considerar la infraestructura y servicios desde la planificación del proyecto de investigación y a través del ciclo de vida del proyecto

Infraestructura de datos @ TACC

• Equipo multidisciplinario• Corral• 6 Petabits de disco en línea • Sistema de archivo paralelo

Lustre • Transferencia de datos 1 -

10 GB/seg• Acceso Web• Flexibilidad de

configuración• Librerías de código abierto• 24/7 seguridad y

mantenimiento de los sistemas

Bases de datos

• Bases de datos relacionales: MySQL, PostgreSQL, SQL Server – Pecan Street Project

• ARK y Specify• GIS (Sistema de

información geográfica)– FASTI– Instituto de Arqueología

Clásica

Flexibilidad

• Centro para la Investigación del Espacio (CSR)– Almacenamiento de datos provenientes de satélites,

radares y sensores– Terremoto de Haití – 2010– El repositorio de datos de CSR fue transformado en un

repositorio web para compartir datos con los rescatistas.

Multiples posibilidades• Gestión de datos durante el proyecto de investigación • Almacenamiento temporario de datos para procesos

computacionales • Acceso a colecciones de investigación • Archivo oscuro• El investigador es el curador• El equipo de TACC ofrece e implementa soluciones técnicas al

proceso de curación y colabora en la organización, estandarización y acceso de datos

Implementación de colecciones

• TACC administra el acceso a los sistemas, instala los servidores/bases de datos/librerías y dependencias.

• Los usuarios tienen acceso a su código

• Triage de colecciones– ICA, 5 petabytes de

datos desorganizados

• Usuarios de distintos dominios

• Usuarios con distintos niveles de conocimientos técnicos

Flujos de trabajo

– Diferentes flujos de datos

– Transición sin fisuras entre sistemas de almacenamiento y de análisis.

Metadatos e integración

Acceso

• Acceso web abierto al publico

• Acceso cerrado durante el periodo de embargo

• WebDav• Protegido por

contraseña• Acceso restringido al

equipo de investigación• Desde los sistemas de

visualización de TACC

Preservación

• iRODS: bróker de archivos distribuidos

• Replica de archivos en Ranch, un archivo de cinta y replicación geográfica

• Seguridad y mantenimiento

• Chequeo de autenticidad de los datos

• Captura automática de metadatos técnicos

• Perspectiva sobre lo que

Modelo administrativo

• 5 TB de almacenamiento gratuito a investigadores de la Universidad de Texas

• Estructura de costos anual, basada en honorarios del staff– Consultoría, curación de datos, bases de

datos y aplicaciones web

• Funciona como archivo oscuro para costear hardware

• Participamos en subsidios de investigación

Data@TACC

• Weijia Xu• Christopher Jordan• David Walling• Tomislav Urban• Siva Kulaskerian