Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1...

160
Tecnologie e Metodologie di Big Data Analytics Giambattista Amati*, Simone Angelini*, Giorgio Gambosi , Daniele Pasquini *Fondazione Ugo Bordoni Università Tor Vergata Roma, Seminario ISCOM, 2 luglio 2019 Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1

Transcript of Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1...

Page 1: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Tecnologie e Metodologie di Big Data Analytics

Giambattista Amati*, Simone Angelini*, Giorgio Gambosi•, DanielePasquini•

*Fondazione Ugo Bordoni• Università Tor Vergata

Roma, Seminario ISCOM, 2 luglio 2019

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1 / 73

Page 2: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Sommario

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search

4 VisualizzazioneSpam Farm

5 Machine Learning e Data Mining (Giorgio Gambosi)

6 Hadoop e Spark (Simone Angelini)

7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 2 / 73

Page 3: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics

Section 1

Big Data Analytics

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 3 / 73

Page 4: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73

Page 5: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73

Page 6: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73

Page 7: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 5 / 73

Page 8: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 5 / 73

Page 9: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics

Gartner (Febbraio 2016)

By 2018, smart, governed, Hadoop-based, search-based

and visual-based data discovery will converge in a single

form of next-generation data discovery that will include self-

service data preparation and natural-language generation.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 6 / 73

Page 10: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics

Internet of Things (IoT)Da Terabytes a Yottabytes

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 7 / 73

Page 11: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Subsection 1

Progetti ISCOM-FUB

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 8 / 73

Page 12: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73

Page 13: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73

Page 14: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73

Page 15: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Page 16: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Page 17: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Page 18: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Page 19: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Page 20: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Page 21: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Page 22: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Page 23: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDataDOCS

Analisi del malware sia attraverso l’analisi del malware siaacquisendo informazioni real-time in rete (Twitter)

Collection Nr Docs #Tokens Nr Occurrences Index Di-mensions

Nrindexes

CybSecISCOM-FUB 53.643.416 82.937.329 1.095.045.889 83GB 111MW-TaggedText 655.361 153.587.253 4.222.109.462 21GB 1

Table: The MW-TaggedText collection contains text of a subset of theVirusShare.com collection and occupies 30GB of malware data. TheCybSec-ISCOM-FUB collection is data collected from Twitter, withapproximately one index per day from the first day of detection on the10th November 2017.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 11 / 73

Page 24: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Il Laboratorio ISCOM

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 12 / 73

Page 25: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Page 26: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Page 27: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Page 28: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Page 29: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Page 30: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Page 31: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Page 32: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Page 33: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Page 34: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Page 35: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Page 36: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Page 37: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Page 38: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Page 39: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Page 40: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Page 41: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Page 42: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Page 43: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Page 44: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Page 45: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Page 46: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Page 47: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Page 48: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Page 49: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Page 50: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Page 51: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Page 52: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Page 53: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Page 54: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Architettura di un ecosistema Big Data: Spark & R ...

SparklyR SparkPy SparkSQL MLibSpark

StreamingGraphX

Spark Core API

R Python SQL Scala Java

YARN (Hadoop-Gestione Risorse, scheduling, monitoraggio)

HDFS (Gestione File Distribuito, repliche ...)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 17 / 73

Page 55: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73

Page 56: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73

Page 57: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73

Page 58: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemGoogle GFS, Hadoop HDFS

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 19 / 73

Page 59: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Page 60: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Page 61: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Page 62: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Page 63: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Page 64: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemGoogle GFS, Hadoop HDFS

Le operazioni tipiche che vengono effettuate sono due: lettura e

concatenazione (read e append)

Gli update sulle singole macchine sono rari.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 21 / 73

Page 65: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Page 66: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Page 67: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Page 68: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Page 69: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Page 70: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Subsection 2

MapReduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 23 / 73

Page 71: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73

Page 72: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73

Page 73: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73

Page 74: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Page 75: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Page 76: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Page 77: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Page 78: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Page 79: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Page 80: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Page 81: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Page 82: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Map ReduceDichiarare il numero dei Map e di Reduce, una chiave per un solo Reduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 26 / 73

Page 83: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Map Reduce

map(key, value)://key: document id; value: il testo del documento

for each word w in value:emit(w, 1)

reduce(key, values):// key:una parola w; value: un intero come contatore

result = 0for each count v in values:

result += vemit(w, result)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 27 / 73

Page 84: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Map ReduceIn breve

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 28 / 73

Page 85: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Page 86: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Page 87: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Page 88: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Page 89: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Page 90: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Page 91: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73

Page 92: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73

Page 93: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73

Page 94: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73

Page 95: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Section 2

Trasformazioni dei Dati

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 31 / 73

Page 96: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Page 97: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Page 98: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Page 99: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Page 100: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Page 101: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Page 102: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Page 103: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Page 104: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Page 105: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Page 106: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Page 107: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Page 108: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Page 109: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Page 110: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

R e sparklyrTidy data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 34 / 73

Page 111: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 35 / 73

Page 112: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 35 / 73

Page 113: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati Visualizzazione

Subsection 1

Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 36 / 73

Page 114: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati Visualizzazione

VisualizzazioneCome risulta il database prima delle trasformazioni di pulizia e di completamento

dei dati

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 37 / 73

Page 115: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati Visualizzazione

VisualizzazioneDopo la pulizia e il completamento dei dati

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 38 / 73

Page 116: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati Visualizzazione

Joining data & VisualizzazioneSource http://datiopen.istat.it/datasetCOM.php

https://dait.interno.gov.it/elezioni/open-data/dati-elezioni-politiche-4-marzo-2018

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 39 / 73

Page 117: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 40 / 73

Page 118: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 41 / 73

Page 119: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 42 / 73

Page 120: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Section 3

Streaming & Search

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 43 / 73

Page 121: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Architettura

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 44 / 73

Page 122: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Storm processing

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 45 / 73

Page 123: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Tweet Processing

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 46 / 73

Page 124: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Counting & Estimating

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 47 / 73

Page 125: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

MashupRedis

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 48 / 73

Page 126: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Efficient Retrieval by Key-valuesMongoDB

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 49 / 73

Page 127: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Trends

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 50 / 73

Page 128: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Real TimeMost active accounts

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 51 / 73

Page 129: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Topic Search

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 52 / 73

Page 130: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Authority Entity Search

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 53 / 73

Page 131: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Author Search

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 54 / 73

Page 132: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Trends

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 55 / 73

Page 133: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Section 4

Visualizzazione

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 56 / 73

Page 134: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 135: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 136: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 137: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 138: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 139: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 140: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 141: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 142: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Page 143: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

We scale by Visualising all the sub-graphs of acommunity!First perform the clustering

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 58 / 73

Page 144: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 59 / 73

Page 145: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

A community

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 60 / 73

Page 146: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

A communityInternal communication

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 61 / 73

Page 147: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

A hub node

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 62 / 73

Page 148: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Central NodesThey connect two different comunities

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 63 / 73

Page 149: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Subsection 1

Spam Farm

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 64 / 73

Page 150: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A (real) community? (Trump community)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 65 / 73

Page 151: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A hub/authoritative account, but it is a bot!

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 66 / 73

Page 152: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A bot community (sparm farm)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 67 / 73

Page 153: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A bot community (sparm farm)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 68 / 73

Page 154: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Spam farmSpamming, Counterfeit, fake news and cybersecurity

Posts do not link to the news but to a different content!

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 69 / 73

Page 155: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Il Prossimo futuroPrevisione di Gartner (febbraio 2017)

Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.

Entro il 2021, il numero di utenti di BI & Analytics con ricerca e

visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.

≤ 2020, il 50% delle ricerche analitiche mediante ricerca,

elaborazione del linguaggio naturale o voce, o generate

automaticamente.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73

Page 156: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Il Prossimo futuroPrevisione di Gartner (febbraio 2017)

Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.

Entro il 2021, il numero di utenti di BI & Analytics con ricerca e

visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.

≤ 2020, il 50% delle ricerche analitiche mediante ricerca,

elaborazione del linguaggio naturale o voce, o generate

automaticamente.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73

Page 157: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione Spam Farm

Il Prossimo futuroPrevisione di Gartner (febbraio 2017)

Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.

Entro il 2021, il numero di utenti di BI & Analytics con ricerca e

visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.

≤ 2020, il 50% delle ricerche analitiche mediante ricerca,

elaborazione del linguaggio naturale o voce, o generate

automaticamente.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73

Page 158: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Machine Learning e Data Mining (Giorgio Gambosi)

Section 5

Machine Learning e Data Mining (Giorgio

Gambosi)

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 71 / 73

Page 159: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Hadoop e Spark (Simone Angelini)

Section 6

Hadoop e Spark (Simone Angelini)

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 72 / 73

Page 160: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Analisi di Grandi Grafi (Daniele Pasquini)

Section 7

Analisi di Grandi Grafi (Daniele Pasquini)

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 73 / 73