The 10K Big Data in Brain Imaging of Valencia Region
Transcript of The 10K Big Data in Brain Imaging of Valencia Region
Caracterización de Estructuras Cerebrales de la Población de la Comunidad Valenciana
10K - BDBI 4 CV
Jorge Isnardo Altamirano, MSc.María de la Iglesia Vayá, PhD.Ángel Fernández-Cañada Vilata, MSc.
The 10K Big Data in Brain Imaging of Valencia Region
● Caso de uso dentro del Banco digital de Imagen Médica de la Comunidad Valenciana (BIMCV).
● BIMCV: repositorio orientado a favorecer avances tecnológicos en imagen médica que proporciona servicios de cobertura tecnológica para proyectos I+D.
El proyecto 10K y BIMCV
basado en cbrain
Objetivos del Banco digital de Imagen Médica de la Comunidad Valenciana
● Desarrollar e implementar estrategias para prevenir y/o tratar efectivamente las enfermedades mediante una infraestructura de investigación en imagen asociada a grandes estudios poblacionales (Big Data).
● Proporcionar recursos, datos, y herramientas para realizar estudios epidemiológicos avanzados en imagen.
Big Data en imagen cerebral poblacional
● Big Data: conjuntos de datos muy grandes y complejos, los cuales son inviables de procesar con las herramientas TIC habituales.
● Cada estudio de investigación publicado genera en término medio 20 GB de información sin incluir los datos generados durante el procesamiento y el análisis estadístico.
Arquitectura de BIMCV
● Se trata de una instancia de XNAT.
¿Qué es XNAT?
● XNAT es una plataforma software de código abierto cuya finalidad es la de ayudar a llevar a cabo la investigación basada en imágenes.
● Permite importar, archivar, procesar y distribuir de forma segura las imágenes y los datos de sus estudios y/o proyectos de investigación.
¿Por qué XNAT?
● Plataforma software de código abierto.
● Funcionalidades básicas esenciales implementadas.
● Comunidad involucrada.
Ventajas de XNAT
● Al publicarse en abierto su código es posible introducir modificaciones particulares.
● Ofrece las herramientas básicas que cualquier proyecto de investigación basado en análisis de imagen puede necesitar inicialmente.
● Cuenta con documentación actualizada.
● Su curva de aprendizaje es media-baja.
● La comunidad que lo sustenta es activa.
Desventajas de XNAT
● Para su correcto uso y/o funcionamiento precisa de un equipo mixto (informático / investigador).
● Parte de la documentación orientada al desarrollo de nuevas funcionalidades no es muy precisa.
The 10K Big Data in Brain Imaging of Valencia Region
● Caso de uso basado en las imágenes neurológicas del Biobanco del Sistema de Salud Pública de Valencia.
● Objetivos:
o Mejorar la infraestructura, datos, metodologías y algoritmos para analizar y controlar la evolución de diferentes enfermedades neurológicas.
o Realizar avances en el procesamiento posterior de las imágenes neurológicas.
The 10K Big Data in Brain Imaging of Valencia Region
● Comparación del grosor cortical y estructura del volumen con sus valores de referencia.
The 10K Big Data in Brain Imaging of Valencia Region
● Fase 1: Recepción de las imágenes en bruto.
● Fase 2: Almacenamiento de las imágenes.
● Fase 3: Parcelación y segmentación de estructuras cerebrales.
● Fase 4: Modelado poblacional (Obtención de parámetros de normalidad)
● Fase 5: Visualización y cuantificación referencial (Brain Imaging Geographic Information System of Valencia Region)
Fase 1: Recepción de las imágenes en bruto
● Departamentos de Salud de la Comunitat Valenciana:
o Dpto. 17: H. Universitario San Juan de Alicante.
Fase 1: Recepción de las imágenes en bruto
Query/Retrieve, or Q/R for short, is the DICOM service for searching images on the PACS and getting a copy of them to the workstation where they can be displayed.
Fase 1: Recepción de las imágenes en bruto
22419 imágenes | abril_201430532 imágenes | agosto_201476496 imágenes | diciembre_2014_enero_201545852 imágenes | julio_201436980 imágenes | junio_201417385 imágenes | marzo_201419692 imágenes | mayo_201415558 imágenes | noviembre_2014_parte_131469 imágenes | noviembre_2014_parte_241470 imágenes | octubre_201432570 imágenes | septiembre_2014
Total: 370423 imágenes (127 GB)
Fase 2: Almacenamiento de las imágenes
● Lectura de las cabeceras DICOM de las imágenes recibidas (scripts python, librería pydicom)
o Descartar imágenes:
▪ corruptas (no se pueden leer)▪ no deseadas (modality != MR)▪ patient_id no accesible y no numérico.▪ patient_name no accesible.▪ study_description no accesible.
o De-identificación de las imágenes válidas.
o Eliminación de cualquier símbolo no deseado de las etiquetas protocol_name y/o series_description (Evita problemas posteriores en XNAT)
* Los scripts permiten la incorporación de nuevos sujetos aun después de haber procesado la primera tanda de imágenes sin empezar desde cero.
Fase 2: Almacenamiento de las imágenes
● Creación de un índice de sujetos (Para saber qué información se tiene realmente)
o 509 Subjects.
o 525 MR Sessions.
o 16 Subjects with 2 MR Sessions.
Fase 2: Almacenamiento de las imágenes
Fase 2: Almacenamiento de las imágenes
● Organización de las imágenes en directorios por patient_id.
Fase 2: Almacenamiento de las imágenes
● Envío de las imágenes a XNAT.
o Anonimización de las tags del estándar DICOM del nivel de aplicación básica del perfil de confidencialidad:
▪ DICOM PS3.6 2015a - Data Dictionary.
▪ DICOM PS3.15 2015a - Security and System Management Profiles.
● E Attribute Confidentiality Profiles (which attributes should be anonymized)
http://dicom.nema.org/medical/dicom/current/output/
Fase 2: Almacenamiento de las imágenes
Anonimizaciónde metadatos.
Fase 2: Almacenamiento de las imágenes
Defacing.
Fase 2: Almacenamiento de las imágenes
● Generación de las sentencias para el envío automatizado (DicomRemap, scripts das, DicomEdit language)
Fase 3: Parcelación y segmentación de estructuras cerebrales
● recon-all: Performs all, or any part of, the FreeSurfer cortical reconstruction process.
Fase 3: Parcelación y segmentación de estructuras cerebrales
La importancia de cómputo
Operaciones matemáticas muy complejas que requieren de hardware específico.
The faster, the better!
Pero obviamente más caro y con más inconvenientes (calor)
chinese bitcoin mining farm
Fase 4: Modelado poblacional (Obtención de parámetros de normalidad)
● Empleando lenguajes de programación tales como ‘R’.
- Por ejemplo para hallar diferencias significativas entre grupos entre una o varias variables de interés.
● En esta etapa se vuelve a justificar la existencia de un equipo mixto (investigador / estadístico / informático).
Fase 5: Visualización y cuantificación referencial● Brain Imaging Geographic Information System of Valencia Region.
Gracias por su atención