_ABIlab-BigData-Finale
-
Upload
claudio-bergamini -
Category
Documents
-
view
245 -
download
2
Transcript of _ABIlab-BigData-Finale
Agenda
› La storia in breve
› Le definizioni › Big Data Landscape (u<lizzi) › Stack Tecnologico › Skill set › Conclusione
2
La storia in breve
Big Data 3
Big Data
John Mashey 1998
Francis Diebold 2000
Weiss & Indurkhya 1998
Big Data Dynamic Factor Models for Macroeconomic Measurement and ForecasCng
Three V’s of Big Data (Volume, Variety and Velocity)
Douglas Laney 2001
La storia in breve
§ hKp://www.forbes.com/sites/gilpress/2013/05/09/a-‐very-‐short-‐history-‐of-‐big-‐data/ § hKp://economics.sas.upenn.edu/sites/economics.sas.upenn.edu/files/12-‐037.pdf § hKp://staCc.usenix.org/event/usenix99/invited_talks/mashey.pdf § hKp://www.amazon.com/PredicCve-‐Data-‐Mining-‐PracCcal-‐Management/dp/1558604030/
ref=sr_1_4?s=books&ie=UTF8&qid=1422883436&sr=1-‐4 § Diebold, F.X. (2000), Big Data Dynamic Factor Models for Macroeconomic Measurement and
ForecasCng," Discussion Read to the Eighth World Congress of the Econometric Society, SeaKle, August.
§ hKp://blogs.gartner.com/doug-‐laney/files/2012/01/ad949-‐3D-‐Data-‐Management-‐Controlling-‐Data-‐Volume-‐Velocity-‐and-‐Variety.pdf
Big Data 4
Big Data
Agenda
› La storia in breve
› Le definizioni › Big Data Landscape (u<lizzi) › Stack Tecnologico › Skill set › Conclusione
5
Le definizioni
Big Data 6
Big Data
The basic idea behind the phrase 'Big Data' is that everything we do is increasingly leaving a digital trace (or data), which we (and others) can use and analyse. Big Data therefore refers to our ability to make use of the ever-increasing volumes of data.
Big data è il termine per descrivere una raccolta di dataset così grande e complessa da richiedere strumenC differenC da quelli tradizionali, in tuKe le fasi del processo: dall'acquisizione, alla curaCon, passando per condivisione, analisi e visualizzazione.
Big data is high-‐volume, high-‐velocity and high-‐variety informaCon assets that demand cost-‐effecCve, innovaCve forms of informaCon processing for enhanced insight and decision making.
Le definizioni
Big Data 7
Big Data
Oxford English Dic<onary (OED) (#1) “data of a very large size, typically to the extent that its manipulaCon and management present significant logisCcal challenges.” Wikipedia (#2) “an all-‐encompassing term for any collecCon of data sets so large and complex that it becomes difficult to process using on-‐hand data management tools or tradiConal data processing applicaCons.” McKinsey (#3) “datasets whose size is beyond the ability of typical database sooware tools to capture, store, manage, and analyze,”
(#8) The shio (for enterprises) from processing internal data to mining external data.
………..
#(11) The belief that the more data you have the more insights and answers will rise automaCcally from the pool of ones and zeros. #(12) A new artude by businesses, non-‐profits, government agencies, and individuals that combining data from mulCple sources could lead to beKer decisions.
………..
Fonte hKp://www.forbes.com/sites/gilpress/2014/09/03/12-‐big-‐data-‐definiCons-‐whats-‐yours
I pilastri conceNuali: le V
Big Data 8
Big Data
Volume La quanCtà di daC è alta Variety DifferenC Cpi di daC :
struKuraC semi-‐struKuraC non struKuraC
Velocity Il faKore velocità da considerare : Quanto veloci sono I daC disponibili per l’analisi? Quanto velocemente li dobbiamo traKare e analizzare? Le altre V: Veracity, Variability, Validity, Value,...
I da<
Big Data 9
Big Data
StruKuraC ca. 20%
• Schema predefinito imposto dai daC • StruKura complessa (Data Model) • Spesso memeorizzari in un RDBMS
Numeri 123.4, 200 Date 26-‐5-‐1989, 15 marzo 2000 Stringhe “abc”, “Claudio”
Semi struKuraC ca. 20%
• StruKura inconsistente • Non si possono memorizzare in righe-‐colonne di un DB Cpico • Le informazioni spesso sono autodescrirve (eCcheKa/valore)
XML, json, log, feeds, BibTex, sensori, ….
I da<
Big Data 10
Big Data
Non StruKuraC ca. 80%
• Mancano di struKura • Parte dei daC manca di struKura
MulCmedia: video, foto, file audio Messaggi email Testo a schema libero DocumenC da WP Presentazioni Report ……..
Agenda
› La storia in breve
› Le definizioni › Big Data Landscape (u<lizzi aNuali) › Stack Tecnologico › Skill set › Conclusione
11
Big Data Landscape: i da< u<lizzabili
Big Data 12
Big Data
Activity Data
Attività semplici come ascoltare musica o leggere un libro ora stanno generando dati (o possono farlo). I player per musica digitali e gli eBook collezionano dati sulle nostre attività. Gli smart phone collezionano dati sul loro utilizzo e I web browser collezionano dati su cosa cercate e guardate. Le aziende di Carte di Credito collezionano dati su dove comprate e I negozi su cosa comprate. Oggi è difficile immaginare attività che non generano o possono generare dati.
Conversation Data
Le nostre conversazioni oggi vengono registrate in file digitali. TuKo è iniziato con le email ma oggi gran parte delle nostre conversazioni lasciano una traccia digitale. Basta pensare alle conversazioni che abbiamo sui siC Social Media come Facebook o TwiKer o ai siC di messaggisCca instant. Anche molte delle nostre conversazioni telefoniche vengono registrate. Photo and Video Image Data
Pensate solo alle immagini che fissiamo con gli smart phone e le fotocamere digitali. Vengono far upload e share di cenCnaia di migliaia di foto e filmaC al secondo solo sui siC Social Media . Il numero crescete di telecamere CCTV caKurano cenCnaia di ore di immagini video di cui viene faKo l’upload su YouTube, Vimeo, etc. ogni minuto.
Big Data Landscape: i da< u<lizzabili
Big Data 13
Big Data
Sensor Data
Siamo sempre più circondaC da sensori che collezionano e condividono daC. Gli smart phone, ad esempio contengono il Global PosiConing Sensor che traccia esaKamente la vostra posizione ad ogni secondo della giornata, e includono un Accelermetro che traccia velocità e direzione in cui vi state muovendoL’inclusione di sensoriè in aumento all’interno di disposiCvi e prodor di ogni genere.
The Internet of Things Data
Oggi abbiamo Smart TV che hanno la capacità di collezionare e processare daC, abbiamo Smart watch, Smart meteo, e Smart alarms. L’Internet of Things, o Internet of Everything conneKe quesC disposiCvi e permeKe di elaborare i daC così che, ad esempio i sensori del traffico sarebbero in grado di mandare al vostro orologio una sveglia anCcipata perchè c’è la srtada che fate di solito con un incidente, e fareste tardi al vostro appuntamento delle 9.00.
Big Data Landscape: gli u<lizzi aNuali
Big Data 14
Big Data
Capire meglio clien< e prospect:
Aggiungendo ai tradizionali dataset quelli di social media, browser, text analyCcs e sensor data per avere un profilo più completo. L’obiervo in molC casi è di creare modelli “predicCve”. UClizzando i Big Data, le Telecom cercano di prevedere il “customer churn”; i commercianC che prodor venderanno, le Assicurazioni la richiosità dello sCle di guida dei clienC.
Big Data Landscape: gli u<lizzi aNuali
Big Data 15
Big Data
Capire meglio e oRmizzare i Processi Business:
I Big Data vengono sempre più usaC per ormizzare i processi. I Retailers possono ormizzare i loro stock sulla base di modelli predirvi alimentaC con daC dai social media, trend di web search e previsioni del tempo. Ormizzazioni della supply chain e ormizzazioni del delivery route sfruKano daC GPS, del traffico, e di sensori a radio frequenza.
Big Data Landscape: gli u<lizzi aNuali
Big Data 16
Big Data
Migliorare Sicurezza e Law Enforcement:
I Servizi di Sicurezza uClizzano i Big Data -‐analyCcs e non-‐ per cercare di comprendere i piani terrorisCci e inteceKare i “cyber aKacks”. Le Forze di Polizia uClizzano i tools Big Data nella caccia ai criminali e per mappare e prevenire le arvità criminali. I Big Data analyCcs sono una delle parC fondamentali nella idenCficazione delle transazioni fraudolente.
Big Data Landscape: gli u<lizzi aNuali
Big Data 17
Big Data
Migliorare la salute:
DaC da smart watches e “wearable devices” per controllare lo stato di salute. Big data analyCcs per monitorare e predire epidemie. DaC dai Social Media per fornire comunicazione tempesCva.
Sport Performance: Video analyCcs per analizzare tecnica individuale e di squadra, sensor technology inclusa negli aKrezzi sporCvi, smart e wearable technology per nutrizione, sonno e altri parametri fisici, conversazioni sui Social Media per il benessere emozionale. Telemetria etc. nell’AutomoCve.
Big Data Landscape: gli u<lizzi aNuali
Big Data 18
Big Data
Ges<one di CiNà e Nazioni:
Ormizzazione del traffico sulla base di informazioni real Cme, daC da Social Media e daC Meteo. Proger Smart CiCes, in cui infrastruKure di trasporto e Processi sono visC insieme. Autobus che aKendono treni in ritardo e semafori che minimizzano le code.
Finance e Big Data
Big Data 19
Big Data
Fonte: insideBIGDATA Guide to Big Data for Finance - http://insidebigdata.com/2014/09/22/insidebigdata-guide-big-data-finance/
Agenda
› La storia in breve
› Le definizioni › Big Data Landscape (u<lizzi) › Stack Tecnologico › Skill set › Conclusione
20
Il modo più semplice di descrivere una Architettura Big Data
1. Data Source Layer
3. Data Processing / Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato a parCre da Bernard Marr, “Big Data”
Data sources layer E’ il Layer in cui arrivano i dati dentro una Organizzazione. Può contenere dati di vendita, dei clienti, i feedback, i canali Social Media, i dati del marketing, le email e tutto ciò che serve a monitorare e misurare le operations. Occorre capire che dati sono disponibili o possono esserlo e misurare l’utilità dei dati rispetto alle domande a cui si vogliono cercare risposte. Può esserci già tutto ciò che serve, o può essere necessario creare o trovare nuove sorgenti dati. In questa fase Metadata Extraction, Entity Extraction, etc. fanno la differenza dispetto agli Analytics tradizionali.
1. Data Source Layer
3. Data Processing / Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato a parCre da Bernard Marr, “Big Data”
Data storage layer
Qui vivono i Big Data, una volta acquisiti dal Layer 1. Data l’esplosione dei dati generati e da gestire, sono stati sviluppati tool per permettere o agevolare questa attività. Sono sistemi di memorizzazione, organizzazione e categorizzazione/classificazione. In questo Layer troviamo quindi File Systems come Hadoop Dystributed File System e database come HBase, DynamoDB, MongoDB, Cassandra ed altri, tutti di tipo NoSQL.
1. Data Source Layer
3. Data Processing / Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato a parCre da Bernard Marr, “Big Data”
Data processing/ analysis layer
Per trovare qualcosa di utile nei dati memorizzati, vanno processati e analizzati. I processi possono essere batch, query, a bassa latenza o Real Time. I dati possono venire selezionati con tool come MapReduce per poi elaborarli con tool di Data Analytics. Oppure si useranno tool come PIG o HIVE per fare query sui dati, o strumenti per l’Automated Pattern Recognition. Oppure Text Analytics, Sentiment Analysis, …..
1. Data Source Layer
3. Data Processing / Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato a parCre da Bernard Marr, “Big Data”
Data output layer Qui le informazioni create aKraverso le analisi passano a chi le deve uClizzare. La comunicazione chiara e concisa è essenziale sopraKuKo se i decision-‐maker non hanno un background in staCsCca. Gli output possono essere reports, grafici, immagini o racommandazioni.
1. Data Source Layer
3. Data Processing / Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato a parCre da Bernard Marr, “Big Data”
Big Data: Hadoop in estrema sintesi
Big Data 30
Big Data
Hadoop è un framework per il calcolo parallelo di dataset molto grandi (petabyte) su un alto numero di nodi composti da server “standard”. Serve a realizzare un sistema distribuito in larga scala, senza preoccuparsi dei problemi legati alla sua gestione: partizionamento dei dati, scheduling dei thread, controllo dei fallimenti dei nodi, gestione della comunicazione tra i nodi. E’ pensato per l’elaborazione batch, e adotta il modello computazionale Map Reduce derivato dalle funzioni map() e reduce() del LISP. Usato da oltre 200 Major di Internet e Enterprise.
Big Data: Hadoop
Big Data 31
Big Data
Hadoop Map Reduce HDFS: Hadoop Distributed File System YARN: gestione delle risorse per il calcolo distribuito Common: funzioni di supporto
YAR
N
hadoop
MapReduce (Distributed Processing)
HDFS (Distributed Storage)
Common
Big Data: Hadoop
Big Data 32
Big Data
All’ecosistema Hadoop appartengono anche, ma non solo: Zookeper: coordinamento HCatalog: gestione Tabelle e Schemi PIG: flusso dati HIVE: SQL Hbase: database NoSQL colonnare Flume, Sqoop, Tika: integrazione ed estrazione dati e metadati Ambari: management cluster di Hadoop Storm: elaborazioni Real Time Mahout: libreria per il Machine Learning
Agenda
› La storia in breve
› Le definizioni › Big Data Landscape (u<lizzi) › Stack Tecnologico › Skill set › Conclusione
33
Le discipline coinvolte
Big Data 34
Big Data
Sui Big Data convergono diverse discipline, tra le altre:
Visualizzazione
Database
StaCsCca
Sviluppo algoritmico
PaKern RecogniCon
Intelligenza ArCficiale
SemanCca
Skill profile
Big Data 35
Big Data
Sorgen< Da< Files, DBMS, Text, Info Providers, OLTP
Data Warehouses – Data Marts OLAP, MDA
Business Intelligence Analisi staCsCca, Query e ReporCng
Data Mining Business Discovery
Presentazione Da< Tecniche di visualizzazione
Decision Making
UtenC finali
Business Analysts
Data Analysts
DB Administrator
Il mi<co Data Scien<st
Big Data 36
Big Data
hKp://www.skillprofiles.eu/stable/g3/v2/profiles/WSP-‐G3-‐024.pdf
Figura profess
ionale a cui fanno capo le
arvità di raccolta, analisi, elabo
razione,
interpretazione, diffusione e
visualizzazione
dei daC quanCtaCvi o quanCfi
cabili
dell’organizzazione a fini anal
iCci, predirvi o
strategici.
Responsabile (Accountable) • Scelta e acquisizione dei daC. • Analisi di daC in forma tabellare o grafica. • Interpretazione delle analisi in forma testuale e grafica. • Report contenenC analisi e indicazioni che si possono trarre.
• Arvità di elicitazione e raccolta delle esigenze. • ProgeKare e approntare analisi di daC adeguate al soddisfacimento delle esigenze. • IdenCficazione i daC significaCvi e le loro fonC aziendali o esterne. • Arvità di collezione dei daC. • Validare (data quality) i daC. • Analizzare i daC. • Costruire modelli quanCtaCvi e qualitaCvi. • Costruire modelli predirvi. • Interpretare analisi e modelli. • Comunicare in forma opportuna (grafica e/o testuale) le indicazioni emerse dalle analisi e dai modelli. • Collaborare con il business e indirizzare le loro esigenze. • Collaborare con l’IT per definire le modalità di raccolta e gesCone dei daC. • Collaborare con il controller per sviluppare analisi e report a supporto dei processi decisionali.
Lo skill set
Big Data 37
Big Data
Skill Anali<ci Determinare che daC raccogliere Come analizzarli (paKern e link)
Crea<vità Trovare nuovi modi di raccogliere, analizzare, interpretare i daC
Matema<ca e sta<s<ca Padronanza dei numeri e del loro traKamento
Computer science Padronanza algoritmica Padronanza tool: Hadoop, Python, Pig, etc.
Business skill Capire gli obiervi business e i bisogni di informazioni
Capacità di comunicare Saper presentare i daC sia in forma scriKa che verbale, per assicurarsi che non vengano fraintesi o trascuraC
Elaborato a parCre da Bernard Marr, “Big Data”
Agenda
› La storia in breve
› Le definizioni › Big Data Landscape (u<lizzi) › Stack Tecnologico › Skill set › Conclusione
38