Tecnologie e Metodologie di Big Data Analytics

Giambattista Amati*, Simone Angelini*, Giorgio Gambosi•, DanielePasquini•

*Fondazione Ugo Bordoni• Università Tor Vergata

Roma, Seminario ISCOM, 2 luglio 2019

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1 / 73

Sommario

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search

4 VisualizzazioneSpam Farm

5 Machine Learning e Data Mining (Giorgio Gambosi)

6 Hadoop e Spark (Simone Angelini)

7 Analisi di Grandi Grafi (Daniele Pasquini)

Big Data Analytics

Section 1

Big Data Analytics

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.

Big Data Analytics

VARIETÀ

VELOCITÀ

Big Data Analytics

VARIETÀ

VELOCITÀ

Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.

Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.

Big Data Analytics

Gartner (Febbraio 2016)

By 2018, smart, governed, Hadoop-based, search-based

and visual-based data discovery will converge in a single

form of next-generation data discovery that will include self-

service data preparation and natural-language generation.

Big Data Analytics

Internet of Things (IoT)Da Terabytes a Yottabytes

Big Data Analytics Progetti ISCOM-FUB

Subsection 1

Progetti ISCOM-FUB

Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Il Progetto BigDOT

Il Progetto BigDataDOCS

Analisi del malware sia attraverso l’analisi del malware siaacquisendo informazioni real-time in rete (Twitter)

Collection Nr Docs #Tokens Nr Occurrences Index Di-mensions

Nrindexes

CybSecISCOM-FUB 53.643.416 82.937.329 1.095.045.889 83GB 111MW-TaggedText 655.361 153.587.253 4.222.109.462 21GB 1

Table: The MW-TaggedText collection contains text of a subset of theVirusShare.com collection and occupies 30GB of malware data. TheCybSec-ISCOM-FUB collection is data collected from Twitter, withapproximately one index per day from the first day of detection on the10th November 2017.

Il Laboratorio ISCOM

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Gli iniziIl Web

Google (1997)

Gli iniziIl Web

Google (1997)

Gli iniziIl Web

Google (1997)

Gli iniziIl Web

Google (1997)

Gli iniziIl Web

Google (1997)

Gli iniziIl Web

Google (1997)

Gli iniziIl Web

Google (1997)

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

1998 - Google

2006 - Google DFS

1998 - Google

2006 - Google DFS

1998 - Google

2006 - Google DFS

1998 - Google

2006 - Google DFS

1998 - Google

2006 - Google DFS

1998 - Google

2006 - Google DFS

1998 - Google

2006 - Google DFS

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Volume

Architettura di un ecosistema Big Data: Spark & R ...

SparklyR SparkPy SparkSQL MLibSpark

StreamingGraphX

Spark Core API

R Python SQL Scala Java

YARN (Hadoop-Gestione Risorse, scheduling, monitoraggio)

HDFS (Gestione File Distribuito, repliche ...)

Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce

Distributed File SystemGoogle GFS, Hadoop HDFS

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Distributed File SystemGoogle GFS, Hadoop HDFS

Le operazioni tipiche che vengono effettuate sono due: lettura e

concatenazione (read e append)

Gli update sulle singole macchine sono rari.

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Big Data Analytics MapReduce

Subsection 2

MapReduce

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

Conteggio Parole

words(doc.txt)| sort| uniq -c

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Conteggio Parole

Ridurre

Conteggio Parole

Ridurre

Conteggio Parole

Ridurre

Conteggio Parole

Ridurre

Conteggio Parole

Ridurre

Conteggio Parole

Ridurre

Conteggio Parole

Ridurre

Map ReduceDichiarare il numero dei Map e di Reduce, una chiave per un solo Reduce

Map Reduce

map(key, value)://key: document id; value: il testo del documento

for each word w in value:emit(w, 1)

reduce(key, values):// key:una parola w; value: un intero come contatore

result = 0for each count v in values:

result += vemit(w, result)

Map ReduceIn breve

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Partizione dei dati

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Trasformazioni dei Dati

Section 2

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Why R?

open source

IDE Rstudio

Rmarkdown

Why R?

open source

IDE Rstudio

Rmarkdown

Why R?

open source

IDE Rstudio

Rmarkdown

Why R?

open source

IDE Rstudio

Rmarkdown

Why R?

open source

IDE Rstudio

Rmarkdown

R e sparklyrTidy data

Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)

Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)

Trasformazioni dei Dati Visualizzazione

Subsection 1

Visualizzazione

VisualizzazioneCome risulta il database prima delle trasformazioni di pulizia e di completamento

dei dati

VisualizzazioneDopo la pulizia e il completamento dei dati

Joining data & VisualizzazioneSource http://datiopen.istat.it/datasetCOM.php

https://dait.interno.gov.it/elezioni/open-data/dati-elezioni-politiche-4-marzo-2018

Streaming & Search

Section 3

Streaming & Search

Architettura

Streaming & Search

Storm processing

Streaming & Search

Tweet Processing

Streaming & Search

Counting & Estimating

Streaming & Search

MashupRedis

Streaming & Search

Efficient Retrieval by Key-valuesMongoDB

Streaming & Search

Trends

Streaming & Search

Real TimeMost active accounts

Streaming & Search

Topic Search

Streaming & Search

Authority Entity Search

Streaming & Search

Author Search

Streaming & Search

Trends

Visualizzazione

Section 4

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Visualizzazione

We scale by Visualising all the sub-graphs of acommunity!First perform the clustering

Visualizzazione

A community

Visualizzazione

A communityInternal communication

Visualizzazione

A hub node

Visualizzazione

Central NodesThey connect two different comunities

Visualizzazione Spam Farm

Subsection 1

Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A (real) community? (Trump community)

A hub/authoritative account, but it is a bot!

A bot community (sparm farm)

Spam farmSpamming, Counterfeit, fake news and cybersecurity

Posts do not link to the news but to a different content!

Il Prossimo futuroPrevisione di Gartner (febbraio 2017)

Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.

Entro il 2021, il numero di utenti di BI & Analytics con ricerca e

visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.

≤ 2020, il 50% delle ricerche analitiche mediante ricerca,

elaborazione del linguaggio naturale o voce, o generate

automaticamente.

Machine Learning e Data Mining (Giorgio Gambosi)

Section 5

Machine Learning e Data Mining (Giorgio

Gambosi)

Hadoop e Spark (Simone Angelini)

Section 6

Hadoop e Spark (Simone Angelini)

Analisi di Grandi Grafi (Daniele Pasquini)

Section 7

Analisi di Grandi Grafi (Daniele Pasquini)

Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1...

Documents

Transcript of Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1...