Une base de données de mammographies
description
Transcript of Une base de données de mammographies
Une base de données de mammographiesOmar Boussaïd Riadh Ben Messaoud
Laboratoire ERIC – Université de Lyon 25, avenue Pierre Mendès–France69676, Bron Cedex – Francehttp://eric.univ-lyon2.fr
Présentation DDSM : Digital Database for Screening
Mammography
Un projet supporté par «the Breast Cancer Research Program of the U.S. Army Medical Research and Materiel Command»
Partenaires : Massachusetts General Hospital University of South Florida Sandia National Laboratories Washington University School of Medicine Wake Forest University School of Medicine
Objectifs Mettre des données de mammographies à la
disposition de la communauté scientifique.
Contribuer au développement d’algorithmes d’aide à la décision et d’apprentissage dans le domaine médical.
diagnostique et détection automatique de cas cancéreux
La base est disponible à l’adresse :http://marathon.csee.usf.edu/Mammography/Database.html
Description La base contient 2 604 dossiers de patients.
Un dossier est composé de : 1 fichier .ics décrivant en format ASCII, les informations
générales d’un dossier de patient. 4 fichiers images .LJPEG (LOSSLESS JPEG) des radios
numérisées. Chaque radio présente une angle de vue du sein : Left_CC,
Left_MLO, Right_CC, Right_MLO (CC: Cranio-Caudal ; MLO: Medio-Latral Oblique).
Pour chaque radio présentant une ou des zones anormales, est associé un fichier .OVERLAY en format ASCII, décrivant une anomalie du sein.
1 fichier image .16_PGM regroupant les 4 radios et présentant un aperçu rapide pour la visualisation d’un dossier de patient.
Description Le fichier .ics (Exemple : B-3024-1.ics)
ics_version 1.0filename B-3024-1 DATE_OF_STUDY 2 7 1995PATIENT_AGE 42 FILM FILM_TYPE REGULAR DENSITY 4 DATE_DIGITIZED 7 22 1997 DIGITIZER LUMISYS SELECTED LEFT_CC LINES 4696 PIXELS_PER_LINE 3024 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY LEFT_MLO LINES 4688 PIXELS_PER_LINE 3048 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY RIGHT_CC LINES 4624 PIXELS_PER_LINE 3056 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY RIGHT_MLO LINES 4664 PIXELS_PER_LINE 3120 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY
Anomalie détectée dans la radio B_3024_1.RIGHT_MLO.LJPEG B_3024_1.RIGHT_MLO.OVERLAY
DescriptionLe fichier B_3024_1.RIGHT_MLO.LJPEG
DescriptionLe fichier B_3024_1.RIGHT_MLO.OVERLAY
Chain code value 0 1 2 3 4 5 6 7
X Coordinate 0 1 1 1 0 -1 -1 -1
Y coordinate -1 -1 0 1 1 1 0 -1
TOTAL_ABNORMALITIES 1ABNORMALITY 1 LESION_TYPE MASS SHAPE OVAL MARGINS ILL_DEFINEDASSESSMENT 4 SUBTLETY 3 PATHOLOGY MALIGNANTTOTAL_OUTLINES 1 BOUNDARY 1284 4076 0 0 0 0 0 0 0 0 . . . 6 6 6 6 0 0 #
X
Y77 00 11
66 XX 22
55 44 33
Description Les dossiers sont disponibles sur un compte FTP
Les dossiers de patients sont classés selon 4 volumes Normal Cancer Benign Benign without callback
Bilan quantitatif et volumétrie : 43 volumes 2 604 fichiers .ics 2 604 fichiers .16_PGM 10 416 fichiers images .LJPEG 4 636 fichiers .OVERLAY
Volume total des données : 230,9 Go 230,9 Go
Extraction des données Applicatif de mise à disposition des données
de la base DDSM
Récupération des données sous forme :
Structurée : Base relationnelle (MySql)Base relationnelle (MySql)Semi-structurée : Documents XMLDocuments XMLScript : SQLSQL
http://eric.univ-lyon2.fr/~gt-fdc/mammo/
Parseur PHP Entrées :
Volumes des dossiers à extraire Format des données de sortie (MySQL, XML, SQL)
Parseur PHP Étape 1 :
Connexion au compte FTP ftp://figment.csee.usf.edu/pub/DDSM/cases/
Ouverture des fichiers .ics et .OVERLAY dans les volumes sélectionnés
ics_version 1.0filename B-3024-1 DATE_OF_STUDY 2 7 1995PATIENT_AGE 42 FILM FILM_TYPE REGULAR DENSITY 4 DATE_DIGITIZED 7 22 1997 DIGITIZER LUMISYS SELECTED LEFT_CC LINES 4696 PIXELS_PER_LINE 3024 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY LEFT_MLO LINES 4688 PIXELS_PER_LINE 3048 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY RIGHT_CC LINES 4624 PIXELS_PER_LINE 3056 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY RIGHT_MLO LINES 4664 PIXELS_PER_LINE 3120 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY
Parseur PHP Étape 2 :
Lecture des fichier .ics et .OVERLAY Extraction des données selon des fonctions de
reconnaissance de caractères
Parseur PHP Étape 3 :
Écriture des données extraites dans le format de données sélectionné (MySQL, XML, SQL)
FTP
MySQL
XML
SQL
Parseur PHP
Structure de la base MySQL
•2604 enregistrements•490 Ko
•10416 enregistrements•1,67 Mo
•4636 enregistrements•972 Ko
•4647 enregistrements•14 Mo
Taille totale de la base : 17,2 Mo
Extraction des données
FTP
MySQL
XML
SQL
Parseur PHP
Structure du fichier XML<?xml version="1.0" encoding="ISO-8859-1" ?> <cases> <case> <case_id> 1 </case_id> <case_type> benign </case_type> <ics_version> 1.0 </ics_version> <ics_file_name> A-1123-1.ics </ics_file_name> … <sequence> sequence </sequence> <left_cc> … </left_cc> <left_mlo> … </left_mlo> <right_cc> … </right_cc> <right_mlo> … </right_mlo> </case></cases>
Extraction des données
FTP
MySQL
XML
SQL
Parseur PHP
Structure du fichier SQL Création d’une table :
CREATE TABLE IF NOT EXISTS table_mammo ( case_id int(10) NOT NULL AUTO_INCREMENT, case_type varchar(25), ics_version char(3), ics_file_name varchar(50), . . . PRIMARY KEY (case_id));
Insertion des données dans la table :
INSERT INTO table_mammo VALUES ('', 'benign', '1.0', 'C-0029-1.ics', . . . );INSERT INTO table_mammo VALUES ('', 'benign', '1.0', 'C-0029-2.ics', . . . );
Conclusion DDSM : une base de données complexes
2 604 dossiers de patientsUn volume total de 230,9 Go
Applicatif de mise à disposition des données sur les mammographies :
Sélectionner les données à récupérer pour des analyses ciblées
Nouvelle adresse du site du GT FDC
http://eric.univ-lyon2.fr/~gt-fdc/