BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1....
Transcript of BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1....
![Page 1: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/1.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 1
BONJOURGRID : VERSION ORIENTÉE DONNÉE &
MAPREDUCE SÉCURISÉ
Laboratoire LaTICE Univ. de Tunis
Heithem Abbes
INRIA LYON Avalon Team
Laboratoire d’Informatique de Paris Nord (LIPN)
![Page 2: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/2.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 2
PLAN
• BonjourGrid : version orientée calcul
• BonjourGrid : version orientée données • Data Management as a Service
• MapReduce sécurisé
![Page 3: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/3.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 3
BONJOURGRID : VERSION ORIENTÉE CALCUL
![Page 4: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/4.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 4
BONJOURGRID : BASIC DESIGN (1/3)
Coordinateur
Workers
Elément de Calcul (CE) = 1 Cordinateur + N Workers
![Page 5: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/5.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 5
BONJOURGRID : BASIC DESIGN (2/3)
Contrôler et orchestrer de multiple instances via un système de Publish/Subscribe
![Page 6: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/6.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 6
BONJOUGRID : BASIC DESIGN (3/3)
Coordinator Worker Idle
User A
User B
User C
User D
![Page 7: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/7.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 7
ARCHITECTURE EN COUCHES
Protocole Bonjour (Pub/Sub)
Sélection des workers (RAM, CPU, Charge, Prix)
XW CONDOR BOINC
APPLICATIONS
![Page 8: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/8.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 8
BONJOURGRID : VERSION ORIENTÉE DONNÉES
![Page 9: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/9.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 9
BONJOURGRID : VERSION DONNÉES
• Un environnement auto-configurable qui supporte différents
systèmes de gestion des données
• Extension de BonjourGrid: Une méta-grille pour orchestrer plusieurs
instances simultanées de gestionnaires de données et d’intergiciels
de calcul
![Page 10: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/10.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 10
BONJOURGRID : VERSION DONNÉES
![Page 11: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/11.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 11
Coordinator Worker Idle
Applica2on Specifica2on+ Configura2on File
BonjourGrid Interface (For each user)
Local Cache (Bitdew, GatorShare)
3. Computing Element
External Data Servers
(SRM,SRb, GridFTP,etc)
Remote Cache(Stork)
Job Scheduler (Condor, Boinc, XW)
2. Get Input data(URL)
1. Create Coordinator(Job Scheduler, Data Cache, data URL, etc…)
4. Distribute Data
5. Schedule Job
6. Put Output data(URL)
![Page 12: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/12.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 12
EXPÉRIMENTATIONS
![Page 13: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/13.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 13
EXPÉRIMENTATIONS
![Page 14: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/14.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 14
DATA MANAGEMENT AS A SERVICE
![Page 15: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/15.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 15
• Pourquoi ?
• Transférer les données depuis le site utilisateur vers le site d’expérimentation
• Transférer les données résultats depuis le site d’expérimentation vers le site
utilisateur
• L’utilisateur doit installer et configurer sur sa machine un service client pour
transférer les données
ü Solution
ü Déployer un service client de gestion de données d’une manière totalement
transparente
DATA MANAGEMENT AS A SERVICE
![Page 16: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/16.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 16
• Pourquoi ?
• L’utilisateur a besoin de partager ses données sur l’ensemble de machines
disponibles pour effectuer un éventuel traitement
• Pour cela, l’utilisateur doit installer et configurer un environnement
comportant:
• Un serveur de stockage partagé (un serveur NFS ou un serveur GridFTP)
• Un client sur chaque machine (client tools) pour télécharger les données
ü Solution
ü Déployer un environnement de gestion de données d’une manière
totalement transparente
DATA MANAGEMENT AS A SERVICE
![Page 17: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/17.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 17
• Solution SaaS basée sur des serveurs GridFTP
(Laboratoires de recherche, centre de
calcul);
• Accès simple via une interface web UI / CLI;
• May 2014: > 3 Millions utilisateurs, >49
petabytes, >150 Millions fichiers transférés
DATA MANAGEMENT AS A SERVICE
![Page 18: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/18.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 18
ü Proposer un SaaS (Software As A Service) à base du Stork et Bitdew
pour la création dynamique et à la demande d’un service de
gestion de données dans les cloud
i. Gestion de données :
• Authentification, transfert, optimisation et Interopérabilité (Stork)
• Partage et stockage de données (Bitdew)
ii. Déploiement de la plateforme
iii. Accès, sécurité et monitoring
DATA MANAGEMENT AS A SERVICE
![Page 19: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/19.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 19
End User: I need to manage data as a Service!!
Data Grid Storage
SlapOS Desktop Cloud
Master Node
Desktop Node
1
2 3
SaaS Request
Transfer Share
DÉPLOIEMENT DE DMaaS SUR LE CLOUD
![Page 20: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/20.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 20
STORK AVEC SLAPOS
![Page 21: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/21.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 21
STORK AVEC SLAPOS
![Page 22: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/22.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 22
BITDEW AVEC SLAPOS
![Page 23: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/23.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 23
23
https://slapos.cloud.univ-paris13.fr/
CLOUD DE PARIS 13
![Page 24: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/24.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 24
EXPÉRIMENTATIONS
![Page 25: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/25.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 25
EXPÉRIMENTATIONS
![Page 26: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/26.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 26
EXPÉRIMENTATIONS
![Page 27: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/27.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 27
MAPREDUCE SÉCURISÉ
![Page 28: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/28.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 28
MAPREDUCE SÉCURISÉ
• Assurer la sécurité de la distribution des données sur les clouds en vue de les traiter dans des applications Map-Reduce
• Des alternatives proposent:
• des techniques de cryptographie (Infrastructures PKI)
• de contrôle d’accès (MAC: Mandatory Access Control) ou de contrôle de résultats (DP: Differential Privacy) (Airavat)
• Solutions très couteuses: Cryptage/Décryptage/Gestion de droits..
§ Notre proposition: utiliser l’algorithme de dispersion IDA pour sécuriser les données à traiter par les mappers.
![Page 29: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/29.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 29
IDA (1/3)
1. Principe
§ Étant donné un fichier de données, IDA en génère n morceaux dont m sont seulement suffisant pour reconstruire le fichier. (m<n)
§ Exemple: 10 morceaux de F, 8 sont suffisants pour restituer F.
2. Objectifs
§ Remédier aux problèmes liés à la transmission et au stockage.
3. Fonctionnement
§ Split
§ Combine
![Page 30: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/30.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 30
a11 a12 a13 … am
a2
an
…
* = S1 S2 SN/m …
M1
M2
Mn
…
A myFile
Chunks
Phase de Split
M1 a1 a11 a12 a13 … am
S1
C1 = A * S1
a2
Sk = A⁻¹ * Ck
À envoyer Fi :
IDA (2/3)
![Page 31: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/31.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 31
Phase de Combine
M1 a1
M2 a2
M3 a3
… …
Mm am
A⁻¹ C1 S1
F₁
F₃ F₄ Fm
F₂
IDA (3/3)
![Page 32: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/32.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 32
NOTRE APPROCHE (1/5)
• Distribuer les données sur les mappers • Chaque mapper reçoit une partie des données non valables • Un mapper doit contacter d’autres mappers (amis) pour
pouvoir reconstruire des données valides • Si un mapper ne peut avoir accès à une des données, il
échoue dans la reconstruction des données valides • Comment appliquer IDA dans MapReduce pour bénéficier de
l’aspect de dispersion de données ?
• Comment peut-on pouvoir se bénéficier des caractéristiques du cloud hybride ?
![Page 33: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/33.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 33
NOTRE APPROCHE (2/5)
Appliquer la routine Split générer les
morceaux
1
Phase Split
Envoyer les morceaux aux mappers
2
Phase Scatter
contacter m-1amis
3
Phase Collect
data
![Page 34: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/34.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 34
NOTRE APPROCHE (3/5)
a1
F2 a2
F3 a3
Fm am
Mapper-1
Mapper-2
Mapper-3
Mapper-m
F₁ …
a2
a3
am
Phase Collect
![Page 35: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/35.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 35
NOTRE APPROCHE (4/5)
Appliquer la routine Split générer les
morceaux
1
Phase Split
Envoyer les morceaux aux mappers
2
Phase Distibution
contacter m-1amis
3
Phase Collect
Appliquer la routine Combine sur les
éléments collectés
4
Phase Combine map
![Page 36: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/36.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 36
NOTRE APPROCHE (5/5)
a1
Mapper-1 a2
a3
am
A⁻¹ C1 S1
![Page 37: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/37.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 37
DÉPLOIEMENT
• Un mapper malicieux a accès à ses données. • 1 morceau est en clair (déchiffré)
• Un 2ème mapper malicieux peut exposer ses données. • 2 morceaux déchiffrés
• …. • Et si tous les mappers sont malicieux ?
• m morceaux peuvent restituer la totalité des données
• Solution: Utiliser le cloud privé pour cacher un
nombre nécessaire de morceaux.
![Page 38: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/38.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 38
DÉPLOIEMENT
Privé
Public Public
Public
m-1
![Page 39: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/39.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 39
RÉALISATION
• CRYPT-IDA : bibliothèque des routines de IDA en Perl
• La séquence de IDA restituée est de taille très petite
• Nous avons modifié CRYPT-IDA pour manipuler une entité de données plus considérable: paquet • Un paquet = un ensemble de séquences
• Durant la phase Collect, un mapper demande plusieurs éléments
• La phase combine recompose un paquet
![Page 40: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/40.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 40
EXPÉRIMENTATIONS
• Paramètres: • data_size, Taille des données (variant de 100 Mo à 1,3 Go • n, nombre de morceaux • m, nombre de morceaux nécessaires pour restituer une information
valide • pack_size, taille de packet
• Plateforme: Grid’5000
• 180 Machines : Nancy(Griffon:8, Graphene:4), Lyon(Sagittaire:12)
• Cycle de vie:
![Page 41: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/41.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 41
ÉVALUATION: SPLIT & SCATTER (2S)
• Impact de data_size sur :
1. la durée de la phase Split
2. La quantité de données
• Nœud: Griffon(8 cœurs)
• Data-size: de 100Mo à 1,3Go • n=25, m=10 Overhead=150%
Objectif Paramètres
![Page 42: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/42.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 42
• Impact de n sur :
1. la durée de la phase Split 2. La durée de la phase Scatter
• Nœud: Griffon(8 cœurs)
• data-size = 1,3GB
Objectif Paramètres
ÉVALUATION: SPLIT & SCATTER (2S)
![Page 43: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/43.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 43
• Impact de m sur :
1. la durée de la phase Split
2. La quantité des données
• Nœud: Griffon(8 cœurs)
• data-size = 1,3GB
• n = 25
Objectif Paramètres
ÉVALUATION: SPLIT & SCATTER (2S)
![Page 44: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/44.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 44
ÉVALUATION : COMBINE & COLLECT (2C)
• Un mapper : 1. m amis 2. paquet de taille pack_size
• Data-size = 1,3GB • n = 180, m = 68
• Optimum pack_size=16MB.
La durée de l’étape 2C en fonction de la taille du paquet
![Page 45: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/45.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 45
• Impact de m sur les 2 phases Collect et Combine.
• data-size = 1,3GB • pack_size = 16MB • n = 82
• Optimum durant l’étape 2C, m=35: le minimum est l’optimum. • Durant un cycle complet, l’optimum est m=40=n/2.
ÉVALUATION : COMBINE & COLLECT (2C)
![Page 46: BONJOURGRID : VERSION ORIENTÉE DONNÉE MAPREDUCE …cerin/VICHY2014/HEITHEM_ABBES_9sqh… · 1. Principe " Étant donné un fichier de données, IDA en génère n morceaux dont m](https://reader034.fdocuments.in/reader034/viewer/2022050515/5f9f633057aa2d7442078fe3/html5/thumbnails/46.jpg)
Heithem Abbes Rencontres Vichy – Juin 2014 46
MERCI DE VOTRE ATTENTION