Big Data e la forza degli eventi - Intervento di Melen
-
Upload
comunicareonline -
Category
Technology
-
view
596 -
download
1
description
Transcript of Big Data e la forza degli eventi - Intervento di Melen
Big data ed eventi:quasi un tutorial
Prof. Riccardo [email protected]
Big Data
� Monitoraggio di reti e infrastrutture IT• performance: data center, SOA/ESB, infrastrutture virtuali,…• configurazione dei client• sicurezza: firewall, IDS, ACL, log,…
� Comportamento degli utenti• accesso ai servizi• clickstreams• chiamate telefoniche: accounting, marketing, fraud detection
� Localizzazione e sensori• smartphones• smart cities infrastructures• personal/assisted living
Il percorso dei dati
strumentazione
raccolta
normalizzazione/
filtraggiomemorizzazione
analisi
High performance DBMS
� High performance SQL DBMS• Solid state disks• Column-oriented databases
� Ma i dati sono spesso• non strutturati• non utilizzati come in un DBMS classico (write/update transactions +
analytics)
NoSQL Databases
MapReduce
� Un recente (2004) modello di programmazione• scalabile su architetture parallele (shared-nothing)• estremamente flessibile e di enorme successo• implementazioni open source: Hadoop• offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop)
worker
MAP
merge/sort
worker
MAP
worker
REDUCE
worker
REDUCE
calcola una chiave ed emette la coppia (chiave, dato)
lavora su liste di dati con la stessa chiave
Vantaggi e limiti di MR
� Una implementazione di MapReduce come Hadoop è facile da utilizzare ed estremamente flessibile• il framework gestisce i problemi di parallelizzazione, partizionamento
e bilanciamento del carico, fault tolerance• lo storage è implementato con un file system distribuito (HDFS)• il modello di programmazione è molto generale (ad esempio è
semplice mappare gli operatori relazionali)• vi sono svilupppi continui (ad esempio Hive/HiveQL)
� Non risolve tutti i problemi in maniera ottimale• ad esempio non è un modello efficiente per effettuare analisi in
maniera ripetitiva sui dati mantenuti in un DB relazionale• e comunque non abbiamo affrontato il problema della
strumentazione, della raccolta e del filtraggio preliminare dei dati
Cosa è un evento
� La connotazione temporale è alla base del significato di un evento
TééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDE
Un lieto evento Una fotografia
Elaborazione di eventi
� Quando parliamo elaborazione di eventi:• l’ordinamento temporale ha un significato fondamentale• in molti casi la risposta in tempo reale è un requisito essenziale
� Scenari applicativi presenti e futuri• Network fault e performance management• Security management• Financial transactions• Marketing (A/B testing)• «Smart city» applications• Assisted living
Il percorso degli eventi
strumentazione
raccolta
normalizzazione/
filtraggiomemorizzazione
analisi real time (sliding window)decisioni/azioni automatiche
Correlazione di eventi
� Elaborare eventi significa (anche) effettuarne la correlazione temporale
� Correlazione di eventi omogenei su un singolo dominio (ordinamento, distanza temporale fra due eventi)• sequenza di eventi osservata da un IDS• sequenza di accessi a pagine di un sito
� Correlazione di eventi eterogenei (o correlazione fra eventi e informazioni di stato/configurazione)• accesso fisico ad un edificio, eventi di motion detection provenienti da
videocamere, accesso al sistema informativo
Un esempio: Splunk
Splunk è un esempio di piattaforma commerciale per la raccolta, la correlazione e l’analisi dei dati
È dotata di agenti in grado di interfacciarsi efficacemente con varie sorgenti di dati (ad esempio WMI)
Effettua la indicizzazione dei dati in parallelo, in modo da scalare fino a workload giornalieri molto grandi (terabyte)
Fornisce un linguaggio per la ricerca e la correlazione degli eventi (Search Processing Language)
Le soluzioni disponibili
� Splunk non è ovviamente l’unica soluzione disponibile: esistono varie alternative, anche open source• piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios)• soluzioni di gestione dei log (Logstash, Sumologic ecc.)
� In generale le piattaforme disponibili sono progettate per il supporto delle decisioni umane
� Molto più sfidante è il problema della comprensione e reazione automatica ai flussi di eventi con le loro correlazioni
Open Event «Tapping» ?
� Un concetto di Smart City avanzato: accesso aperto ad una infrastruttura di gestione di flussi di eventi in tempo reale
Un modello generale di event processing
videopresence/location
sensori di movimento
analisitraffico IP
analisi video
security alerts
interfaccia utente
behavior analysis
device e sensori
routing e analisi
del traffico
esperti di
dominio
integrazione e
presentazione
controllo accessi
anomaly detection
Routing, distribuzione e filtraggio dei dati
coordinamento e integrazione