Big Data e la forza degli eventi - Intervento di Melen

16
Big data ed eventi: quasi un tutorial Prof. Riccardo Melen [email protected]

description

Speech di Melen per l'evento "Big Data e la forza degli eventi" http://www.comunicareonline.it

Transcript of Big Data e la forza degli eventi - Intervento di Melen

Page 1: Big Data e la forza degli eventi - Intervento di Melen

Big data ed eventi:quasi un tutorial

Prof. Riccardo [email protected]

Page 2: Big Data e la forza degli eventi - Intervento di Melen
Page 3: Big Data e la forza degli eventi - Intervento di Melen
Page 4: Big Data e la forza degli eventi - Intervento di Melen

Big Data

� Monitoraggio di reti e infrastrutture IT• performance: data center, SOA/ESB, infrastrutture virtuali,…• configurazione dei client• sicurezza: firewall, IDS, ACL, log,…

� Comportamento degli utenti• accesso ai servizi• clickstreams• chiamate telefoniche: accounting, marketing, fraud detection

� Localizzazione e sensori• smartphones• smart cities infrastructures• personal/assisted living

Page 5: Big Data e la forza degli eventi - Intervento di Melen

Il percorso dei dati

strumentazione

raccolta

normalizzazione/

filtraggiomemorizzazione

analisi

Page 6: Big Data e la forza degli eventi - Intervento di Melen

High performance DBMS

� High performance SQL DBMS• Solid state disks• Column-oriented databases

� Ma i dati sono spesso• non strutturati• non utilizzati come in un DBMS classico (write/update transactions +

analytics)

NoSQL Databases

Page 7: Big Data e la forza degli eventi - Intervento di Melen

MapReduce

� Un recente (2004) modello di programmazione• scalabile su architetture parallele (shared-nothing)• estremamente flessibile e di enorme successo• implementazioni open source: Hadoop• offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop)

worker

MAP

merge/sort

worker

MAP

worker

REDUCE

worker

REDUCE

calcola una chiave ed emette la coppia (chiave, dato)

lavora su liste di dati con la stessa chiave

Page 8: Big Data e la forza degli eventi - Intervento di Melen

Vantaggi e limiti di MR

� Una implementazione di MapReduce come Hadoop è facile da utilizzare ed estremamente flessibile• il framework gestisce i problemi di parallelizzazione, partizionamento

e bilanciamento del carico, fault tolerance• lo storage è implementato con un file system distribuito (HDFS)• il modello di programmazione è molto generale (ad esempio è

semplice mappare gli operatori relazionali)• vi sono svilupppi continui (ad esempio Hive/HiveQL)

� Non risolve tutti i problemi in maniera ottimale• ad esempio non è un modello efficiente per effettuare analisi in

maniera ripetitiva sui dati mantenuti in un DB relazionale• e comunque non abbiamo affrontato il problema della

strumentazione, della raccolta e del filtraggio preliminare dei dati

Page 9: Big Data e la forza degli eventi - Intervento di Melen

Cosa è un evento

� La connotazione temporale è alla base del significato di un evento

TééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDE

Un lieto evento Una fotografia

Page 10: Big Data e la forza degli eventi - Intervento di Melen

Elaborazione di eventi

� Quando parliamo elaborazione di eventi:• l’ordinamento temporale ha un significato fondamentale• in molti casi la risposta in tempo reale è un requisito essenziale

� Scenari applicativi presenti e futuri• Network fault e performance management• Security management• Financial transactions• Marketing (A/B testing)• «Smart city» applications• Assisted living

Page 11: Big Data e la forza degli eventi - Intervento di Melen

Il percorso degli eventi

strumentazione

raccolta

normalizzazione/

filtraggiomemorizzazione

analisi real time (sliding window)decisioni/azioni automatiche

Page 12: Big Data e la forza degli eventi - Intervento di Melen

Correlazione di eventi

� Elaborare eventi significa (anche) effettuarne la correlazione temporale

� Correlazione di eventi omogenei su un singolo dominio (ordinamento, distanza temporale fra due eventi)• sequenza di eventi osservata da un IDS• sequenza di accessi a pagine di un sito

� Correlazione di eventi eterogenei (o correlazione fra eventi e informazioni di stato/configurazione)• accesso fisico ad un edificio, eventi di motion detection provenienti da

videocamere, accesso al sistema informativo

Page 13: Big Data e la forza degli eventi - Intervento di Melen

Un esempio: Splunk

Splunk è un esempio di piattaforma commerciale per la raccolta, la correlazione e l’analisi dei dati

È dotata di agenti in grado di interfacciarsi efficacemente con varie sorgenti di dati (ad esempio WMI)

Effettua la indicizzazione dei dati in parallelo, in modo da scalare fino a workload giornalieri molto grandi (terabyte)

Fornisce un linguaggio per la ricerca e la correlazione degli eventi (Search Processing Language)

Page 14: Big Data e la forza degli eventi - Intervento di Melen

Le soluzioni disponibili

� Splunk non è ovviamente l’unica soluzione disponibile: esistono varie alternative, anche open source• piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios)• soluzioni di gestione dei log (Logstash, Sumologic ecc.)

� In generale le piattaforme disponibili sono progettate per il supporto delle decisioni umane

� Molto più sfidante è il problema della comprensione e reazione automatica ai flussi di eventi con le loro correlazioni

Page 15: Big Data e la forza degli eventi - Intervento di Melen

Open Event «Tapping» ?

� Un concetto di Smart City avanzato: accesso aperto ad una infrastruttura di gestione di flussi di eventi in tempo reale

Page 16: Big Data e la forza degli eventi - Intervento di Melen

Un modello generale di event processing

videopresence/location

sensori di movimento

analisitraffico IP

analisi video

security alerts

interfaccia utente

behavior analysis

device e sensori

routing e analisi

del traffico

esperti di

dominio

integrazione e

presentazione

controllo accessi

anomaly detection

Routing, distribuzione e filtraggio dei dati

coordinamento e integrazione