Maria esteva

16
Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin PANEL

Transcript of Maria esteva

Page 1: Maria esteva

Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin

PANEL

Page 2: Maria esteva

Cyberinfrastructura para la administración de datos de

investigación

Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin

2EieMayo 2013, Cali, Colombia

Page 3: Maria esteva

Datos & investigación

• Ciencia intensiva de datos – Teoría, experimentos, y

simulaciones en el contexto de datos masivos

• Datos sustentables– Documentados, estables,

auténticos

• Datos para diseminar conocimientos, citar, y reutilizar

Page 4: Maria esteva

Formación de colecciones• Proyectos de investigación complejos y en evolución

constante • Tecnología y conocimientos cambian continuamente• Fondos para investigación inestables• Las colecciones son mas vulnerables durante el

proceso de investigación• Arquitectura y funcionalidades de una colección

pueden involucrar a varias tecnologías

Page 5: Maria esteva

Perspectivas• La curación de datos tiene como tema central

el problema que trata la investigación• Enfoque desde las ciencias de la información• Enfoque desde la infraestructura

– Considerar la infraestructura y servicios desde la planificación del proyecto de investigación y a través del ciclo de vida del proyecto

Page 6: Maria esteva

Infraestructura de datos @ TACC

• Equipo multidisciplinario• Corral• 6 Petabits de disco en línea • Sistema de archivo paralelo

Lustre • Transferencia de datos 1 -

10 GB/seg• Acceso Web• Flexibilidad de

configuración• Librerías de código abierto• 24/7 seguridad y

mantenimiento de los sistemas

Page 7: Maria esteva

Bases de datos

• Bases de datos relacionales: MySQL, PostgreSQL, SQL Server – Pecan Street Project

• ARK y Specify• GIS (Sistema de

información geográfica)– FASTI– Instituto de Arqueología

Clásica

Page 8: Maria esteva

Flexibilidad

• Centro para la Investigación del Espacio (CSR)– Almacenamiento de datos provenientes de satélites,

radares y sensores– Terremoto de Haití – 2010– El repositorio de datos de CSR fue transformado en un

repositorio web para compartir datos con los rescatistas.

Page 9: Maria esteva

Multiples posibilidades• Gestión de datos durante el proyecto de investigación • Almacenamiento temporario de datos para procesos

computacionales • Acceso a colecciones de investigación • Archivo oscuro• El investigador es el curador• El equipo de TACC ofrece e implementa soluciones técnicas al

proceso de curación y colabora en la organización, estandarización y acceso de datos

Page 10: Maria esteva

Implementación de colecciones

• TACC administra el acceso a los sistemas, instala los servidores/bases de datos/librerías y dependencias.

• Los usuarios tienen acceso a su código

• Triage de colecciones– ICA, 5 petabytes de

datos desorganizados

• Usuarios de distintos dominios

• Usuarios con distintos niveles de conocimientos técnicos

Page 11: Maria esteva

Flujos de trabajo

– Diferentes flujos de datos

– Transición sin fisuras entre sistemas de almacenamiento y de análisis.

Page 12: Maria esteva

Metadatos e integración

Page 13: Maria esteva

Acceso

• Acceso web abierto al publico

• Acceso cerrado durante el periodo de embargo

• WebDav• Protegido por

contraseña• Acceso restringido al

equipo de investigación• Desde los sistemas de

visualización de TACC

Page 14: Maria esteva

Preservación

• iRODS: bróker de archivos distribuidos

• Replica de archivos en Ranch, un archivo de cinta y replicación geográfica

• Seguridad y mantenimiento

• Chequeo de autenticidad de los datos

• Captura automática de metadatos técnicos

• Perspectiva sobre lo que

Page 15: Maria esteva

Modelo administrativo

• 5 TB de almacenamiento gratuito a investigadores de la Universidad de Texas

• Estructura de costos anual, basada en honorarios del staff– Consultoría, curación de datos, bases de

datos y aplicaciones web

• Funciona como archivo oscuro para costear hardware

• Participamos en subsidios de investigación

Page 16: Maria esteva

Data@TACC

• Weijia Xu• Christopher Jordan• David Walling• Tomislav Urban• Siva Kulaskerian