_ABIlab-BigData-Finale

39
BIG DATA Laboratorio ICT Imola Informatica Claudio Bergamini

Transcript of _ABIlab-BigData-Finale

BIG  DATA  Laboratorio  ICT  

î  Imola Informatica î  Claudio Bergamini

Agenda  

›  La  storia  in  breve  

›  Le  definizioni    ›   Big  Data  Landscape  (u<lizzi)  ›  Stack  Tecnologico    ›  Skill  set    ›  Conclusione    

2

La  storia  in  breve  

Big  Data   3

Big  Data  

John  Mashey  1998  

Francis  Diebold  2000  

Weiss  &  Indurkhya  1998  

Big  Data  Dynamic    Factor  Models  for    Macroeconomic    Measurement  and    ForecasCng  

Three  V’s  of  Big  Data    (Volume,  Variety  and  Velocity)  

Douglas  Laney  2001  

La  storia  in  breve  

§  hKp://www.forbes.com/sites/gilpress/2013/05/09/a-­‐very-­‐short-­‐history-­‐of-­‐big-­‐data/  §  hKp://economics.sas.upenn.edu/sites/economics.sas.upenn.edu/files/12-­‐037.pdf  §  hKp://staCc.usenix.org/event/usenix99/invited_talks/mashey.pdf  §  hKp://www.amazon.com/PredicCve-­‐Data-­‐Mining-­‐PracCcal-­‐Management/dp/1558604030/

ref=sr_1_4?s=books&ie=UTF8&qid=1422883436&sr=1-­‐4  §  Diebold,  F.X.  (2000),  Big  Data  Dynamic  Factor  Models  for  Macroeconomic  Measurement  and  

ForecasCng,"  Discussion  Read  to  the  Eighth  World  Congress  of  the  Econometric  Society,  SeaKle,  August.  

§  hKp://blogs.gartner.com/doug-­‐laney/files/2012/01/ad949-­‐3D-­‐Data-­‐Management-­‐Controlling-­‐Data-­‐Volume-­‐Velocity-­‐and-­‐Variety.pdf  

Big  Data   4

Big  Data  

Agenda  

›  La  storia  in  breve  

›  Le  definizioni    ›   Big  Data  Landscape  (u<lizzi)  ›  Stack  Tecnologico    ›  Skill  set    ›  Conclusione    

5

Le  definizioni  

Big  Data   6

Big  Data  

The basic idea behind the phrase 'Big Data' is that everything we do is increasingly leaving a digital trace (or data), which we (and others) can use and analyse. Big Data therefore refers to our ability to make use of the ever-increasing volumes of data.

Big  data  è  il  termine  per  descrivere  una  raccolta  di  dataset  così  grande  e  complessa  da  richiedere  strumenC  differenC  da  quelli  tradizionali,  in  tuKe  le  fasi  del  processo:    dall'acquisizione,  alla  curaCon,  passando  per  condivisione,  analisi  e  visualizzazione.  

Big  data  is  high-­‐volume,  high-­‐velocity  and  high-­‐variety  informaCon  assets  that  demand  cost-­‐effecCve,  innovaCve  forms  of  informaCon  processing  for  enhanced  insight  and  decision  making.  

Le  definizioni  

Big  Data   7

Big  Data  

Oxford  English  Dic<onary  (OED)  (#1)    “data  of  a  very  large  size,  typically  to  the  extent  that  its  manipulaCon  and  management  present  significant  logisCcal  challenges.”  Wikipedia  (#2)    “an  all-­‐encompassing  term  for  any  collecCon  of  data  sets  so  large  and  complex  that  it  becomes  difficult  to  process  using  on-­‐hand  data  management  tools  or  tradiConal  data  processing  applicaCons.”  McKinsey  (#3)    “datasets  whose  size  is  beyond  the  ability  of  typical  database  sooware  tools  to  capture,  store,  manage,  and  analyze,”    

(#8)  The  shio  (for  enterprises)  from  processing  internal  data  to  mining  external  data.  

………..  

#(11)  The  belief  that  the  more  data  you  have  the  more  insights  and  answers  will  rise  automaCcally  from  the  pool  of  ones  and  zeros.  #(12)  A  new  artude  by  businesses,  non-­‐profits,  government  agencies,  and  individuals  that  combining  data  from  mulCple  sources  could  lead  to  beKer  decisions.  

………..  

Fonte    hKp://www.forbes.com/sites/gilpress/2014/09/03/12-­‐big-­‐data-­‐definiCons-­‐whats-­‐yours  

I  pilastri  conceNuali:  le  V  

Big  Data   8

Big  Data  

Volume      La  quanCtà  di  daC  è  alta    Variety        DifferenC  Cpi  di  daC  :  

                     struKuraC            semi-­‐struKuraC            non  struKuraC  

 Velocity    Il  faKore  velocità  da  considerare  :                Quanto  veloci  sono  I  daC  disponibili  per  l’analisi?                  Quanto  velocemente  li  dobbiamo  traKare  e  analizzare?    Le  altre  V:    Veracity,  Variability,  Validity,  Value,...  

I  da<  

Big  Data   9

Big  Data  

StruKuraC      ca.  20%  

•  Schema  predefinito  imposto  dai  daC  •  StruKura  complessa  (Data  Model)  •  Spesso  memeorizzari  in  un  RDBMS  

Numeri  123.4,  200    Date  26-­‐5-­‐1989,  15  marzo  2000  Stringhe    “abc”,  “Claudio”  

Semi  struKuraC      ca.  20%  

•  StruKura  inconsistente  •  Non  si  possono  memorizzare  in  righe-­‐colonne  di  un  DB  Cpico  •  Le  informazioni  spesso  sono  autodescrirve    (eCcheKa/valore)  

XML,  json,  log,  feeds,  BibTex,  sensori,  ….  

I  da<  

Big  Data   10

Big  Data  

Non  StruKuraC      ca.  80%  

•  Mancano  di  struKura  •  Parte  dei  daC  manca  di  struKura  

MulCmedia:    video,  foto,  file  audio    Messaggi  email  Testo  a  schema  libero      DocumenC  da  WP  Presentazioni        Report  ……..  

Agenda  

›  La  storia  in  breve  

›  Le  definizioni    ›   Big  Data  Landscape  (u<lizzi  aNuali)  ›  Stack  Tecnologico    ›  Skill  set    ›  Conclusione    

11

Big  Data  Landscape:  i  da<  u<lizzabili  

Big  Data   12

Big  Data  

Activity Data

Attività semplici come ascoltare musica o leggere un libro ora stanno generando dati (o possono farlo). I player per musica digitali e gli eBook collezionano dati sulle nostre attività. Gli smart phone collezionano dati sul loro utilizzo e I web browser collezionano dati su cosa cercate e guardate. Le aziende di Carte di Credito collezionano dati su dove comprate e I negozi su cosa comprate. Oggi è difficile immaginare attività che non generano o possono generare dati.

Conversation Data

Le  nostre  conversazioni  oggi  vengono  registrate  in  file  digitali.  TuKo  è  iniziato  con  le  email  ma  oggi  gran  parte  delle  nostre  conversazioni  lasciano  una  traccia  digitale.  Basta  pensare  alle  conversazioni  che  abbiamo  sui  siC  Social  Media  come  Facebook  o  TwiKer  o  ai  siC  di  messaggisCca  instant.  Anche  molte  delle  nostre  conversazioni  telefoniche  vengono  registrate.     Photo and Video Image Data

Pensate  solo  alle  immagini  che  fissiamo  con  gli  smart  phone  e  le  fotocamere  digitali.  Vengono  far  upload  e  share  di  cenCnaia  di  migliaia  di  foto  e  filmaC  al  secondo  solo  sui  siC  Social  Media  .  Il  numero  crescete  di  telecamere  CCTV  caKurano  cenCnaia  di  ore  di  immagini  video  di  cui  viene  faKo  l’upload  su  YouTube,  Vimeo,  etc.  ogni  minuto.    

Big  Data  Landscape:  i  da<  u<lizzabili  

Big  Data   13

Big  Data  

Sensor Data

Siamo  sempre  più  circondaC  da  sensori  che  collezionano  e  condividono  daC.  Gli  smart  phone,  ad  esempio  contengono  il  Global  PosiConing  Sensor  che  traccia  esaKamente  la  vostra  posizione  ad  ogni  secondo  della  giornata,  e  includono  un  Accelermetro  che  traccia  velocità  e  direzione  in  cui  vi  state  muovendoL’inclusione  di  sensoriè    in  aumento  all’interno  di  disposiCvi  e  prodor  di  ogni  genere.      

The Internet of Things Data

Oggi  abbiamo  Smart  TV  che  hanno  la  capacità  di  collezionare  e  processare  daC,  abbiamo  Smart  watch,  Smart  meteo,  e  Smart  alarms.  L’Internet  of  Things,  o  Internet  of  Everything  conneKe  quesC  disposiCvi  e  permeKe  di  elaborare  i  daC  così  che,  ad  esempio  i  sensori  del  traffico  sarebbero  in  grado  di  mandare  al  vostro  orologio  una  sveglia  anCcipata  perchè  c’è  la  srtada  che  fate  di  solito  con  un  incidente,  e  fareste  tardi  al  vostro  appuntamento  delle  9.00.  

Big  Data  Landscape:  gli  u<lizzi  aNuali  

Big  Data   14

Big  Data  

Capire  meglio  clien<  e  prospect:      

Aggiungendo  ai  tradizionali  dataset  quelli  di  social  media,  browser,  text  analyCcs  e  sensor  data  per  avere  un  profilo  più  completo.    L’obiervo  in  molC  casi  è  di  creare  modelli  “predicCve”.      UClizzando  i  Big  Data,  le  Telecom  cercano  di  prevedere  il  “customer  churn”;  i  commercianC  che  prodor  venderanno,  le  Assicurazioni  la  richiosità  dello  sCle  di  guida  dei  clienC.

Big  Data  Landscape:  gli  u<lizzi  aNuali  

Big  Data   15

Big  Data  

Capire  meglio  e  oRmizzare  i  Processi  Business:      

I  Big  Data  vengono  sempre  più  usaC  per  ormizzare  i  processi.  I  Retailers  possono  ormizzare  i  loro  stock  sulla  base  di  modelli  predirvi  alimentaC  con  daC  dai  social  media,  trend  di  web  search  e  previsioni  del  tempo.  Ormizzazioni  della  supply  chain  e  ormizzazioni  del  delivery  route  sfruKano  daC  GPS,  del  traffico,  e  di  sensori  a  radio  frequenza.  

Big  Data  Landscape:  gli  u<lizzi  aNuali  

Big  Data   16

Big  Data  

Migliorare  Sicurezza  e  Law  Enforcement:      

I  Servizi  di  Sicurezza  uClizzano  i  Big  Data  -­‐analyCcs  e  non-­‐  per  cercare  di  comprendere  i  piani  terrorisCci  e  inteceKare  i  “cyber  aKacks”.  Le  Forze  di  Polizia  uClizzano  i  tools  Big  Data  nella  caccia  ai  criminali  e  per  mappare  e  prevenire  le  arvità  criminali.  I  Big  Data  analyCcs  sono  una  delle  parC  fondamentali  nella  idenCficazione  delle  transazioni  fraudolente.  

Big  Data  Landscape:  gli  u<lizzi  aNuali  

Big  Data   17

Big  Data  

Migliorare  la  salute:      

DaC  da  smart  watches  e  “wearable  devices”  per  controllare  lo  stato  di  salute.  Big  data  analyCcs  per  monitorare  e  predire  epidemie.  DaC  dai  Social  Media  per  fornire  comunicazione  tempesCva.

Sport  Performance:  Video  analyCcs  per  analizzare  tecnica  individuale  e  di  squadra,  sensor  technology  inclusa  negli  aKrezzi  sporCvi,  smart  e  wearable  technology  per  nutrizione,  sonno    e  altri  parametri  fisici,  conversazioni  sui  Social  Media  per  il  benessere  emozionale.  Telemetria  etc.  nell’AutomoCve.  

Big  Data  Landscape:  gli  u<lizzi  aNuali  

Big  Data   18

Big  Data  

Ges<one  di  CiNà  e  Nazioni:      

Ormizzazione  del  traffico  sulla  base  di  informazioni  real  Cme,  daC  da  Social  Media  e  daC  Meteo.  Proger  Smart  CiCes,  in  cui  infrastruKure  di  trasporto  e  Processi  sono  visC  insieme.  Autobus  che  aKendono  treni  in  ritardo  e  semafori  che  minimizzano  le  code.  

Finance  e  Big  Data  

Big  Data   19

Big  Data  

Fonte: insideBIGDATA Guide to Big Data for Finance - http://insidebigdata.com/2014/09/22/insidebigdata-guide-big-data-finance/

Agenda  

›  La  storia  in  breve  

›  Le  definizioni    ›   Big  Data  Landscape  (u<lizzi)  ›  Stack  Tecnologico    ›  Skill  set    ›  Conclusione    

20

Big  Data  vs  Datawarehouse  Analy<cs  

Big  Data   21

Big  Data  

Source:  Wikibon  2011  

Il modo più semplice di descrivere una Architettura Big Data

1. Data Source Layer

3. Data Processing / Analysis Layer

2. Data Storage Layer

4. Data Output Layer

Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  

Data sources layer E’ il Layer in cui arrivano i dati dentro una Organizzazione. Può contenere dati di vendita, dei clienti, i feedback, i canali Social Media, i dati del marketing, le email e tutto ciò che serve a monitorare e misurare le operations. Occorre capire che dati sono disponibili o possono esserlo e misurare l’utilità dei dati rispetto alle domande a cui si vogliono cercare risposte. Può esserci già tutto ciò che serve, o può essere necessario creare o trovare nuove sorgenti dati. In questa fase Metadata Extraction, Entity Extraction, etc. fanno la differenza dispetto agli Analytics tradizionali.

1. Data Source Layer

3. Data Processing / Analysis Layer

2. Data Storage Layer

4. Data Output Layer

Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  

Data storage layer

Qui vivono i Big Data, una volta acquisiti dal Layer 1. Data l’esplosione dei dati generati e da gestire, sono stati sviluppati tool per permettere o agevolare questa attività. Sono sistemi di memorizzazione, organizzazione e categorizzazione/classificazione. In questo Layer troviamo quindi File Systems come Hadoop Dystributed File System e database come HBase, DynamoDB, MongoDB, Cassandra ed altri, tutti di tipo NoSQL.

1. Data Source Layer

3. Data Processing / Analysis Layer

2. Data Storage Layer

4. Data Output Layer

Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  

Data processing/ analysis layer

Per trovare qualcosa di utile nei dati memorizzati, vanno processati e analizzati. I processi possono essere batch, query, a bassa latenza o Real Time. I dati possono venire selezionati con tool come MapReduce per poi elaborarli con tool di Data Analytics. Oppure si useranno tool come PIG o HIVE per fare query sui dati, o strumenti per l’Automated Pattern Recognition. Oppure Text Analytics, Sentiment Analysis, …..

1. Data Source Layer

3. Data Processing / Analysis Layer

2. Data Storage Layer

4. Data Output Layer

Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  

Data  output  layer    Qui  le  informazioni  create  aKraverso  le  analisi  passano  a  chi  le  deve  uClizzare.  La  comunicazione  chiara  e  concisa  è  essenziale  sopraKuKo  se  i  decision-­‐maker  non  hanno  un  background  in  staCsCca.  Gli  output  possono  essere  reports,  grafici,  immagini  o  racommandazioni.    

1. Data Source Layer

3. Data Processing / Analysis Layer

2. Data Storage Layer

4. Data Output Layer

Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  

Big  Data:  Stack  Tecnologico  in  estrema  sintesi  

Big  Data   27

Big  Data  

Big  Data:  Stack  Tecnologico  esempio  

Big  Data   28

Big  Data  

Big  Data:  Stack  Tecnologico  esempio  

Big  Data   29

Big  Data  

Big  Data:  Hadoop  in  estrema  sintesi  

Big  Data   30

Big  Data  

Hadoop è un framework per il calcolo parallelo di dataset molto grandi (petabyte) su un alto numero di nodi composti da server “standard”. Serve a realizzare un sistema distribuito in larga scala, senza preoccuparsi dei problemi legati alla sua gestione: partizionamento dei dati, scheduling dei thread, controllo dei fallimenti dei nodi, gestione della comunicazione tra i nodi. E’ pensato per l’elaborazione batch, e adotta il modello computazionale Map Reduce derivato dalle funzioni map() e reduce() del LISP. Usato da oltre 200 Major di Internet e Enterprise.

Big  Data:  Hadoop  

Big  Data   31

Big  Data  

Hadoop Map Reduce HDFS: Hadoop Distributed File System YARN: gestione delle risorse per il calcolo distribuito Common: funzioni di supporto

YAR

N

hadoop

MapReduce (Distributed Processing)

HDFS (Distributed Storage)

Common

Big  Data:  Hadoop  

Big  Data   32

Big  Data  

All’ecosistema Hadoop appartengono anche, ma non solo: Zookeper: coordinamento HCatalog: gestione Tabelle e Schemi PIG: flusso dati HIVE: SQL Hbase: database NoSQL colonnare Flume, Sqoop, Tika: integrazione ed estrazione dati e metadati Ambari: management cluster di Hadoop Storm: elaborazioni Real Time Mahout: libreria per il Machine Learning

Agenda  

›  La  storia  in  breve  

›  Le  definizioni    ›   Big  Data  Landscape  (u<lizzi)  ›  Stack  Tecnologico    ›  Skill  set    ›  Conclusione    

33

Le  discipline  coinvolte  

Big  Data   34

Big  Data  

Sui Big Data convergono diverse discipline, tra le altre:

Visualizzazione  

Database  

StaCsCca  

Sviluppo  algoritmico  

PaKern  RecogniCon  

Intelligenza  ArCficiale  

SemanCca  

Skill  profile  

Big  Data   35

Big  Data  

Sorgen<  Da<  Files,  DBMS,  Text,  Info  Providers,  OLTP  

Data  Warehouses  –  Data  Marts  OLAP,  MDA  

Business  Intelligence  Analisi  staCsCca,  Query  e  ReporCng  

Data  Mining  Business  Discovery  

Presentazione  Da<  Tecniche  di  visualizzazione  

Decision  Making  

UtenC  finali  

Business  Analysts  

Data  Analysts  

DB  Administrator  

Il  mi<co  Data  Scien<st  

Big  Data   36

Big  Data  

hKp://www.skillprofiles.eu/stable/g3/v2/profiles/WSP-­‐G3-­‐024.pdf  

 Figura  profess

ionale  a  cui  fanno  capo  le  

arvità  di  raccolta,  analisi,  elabo

razione,  

interpretazione,  diffusione  e

 visualizzazione  

dei  daC  quanCtaCvi  o  quanCfi

cabili  

dell’organizzazione  a  fini  anal

iCci,  predirvi  o  

strategici.      

 

Responsabile  (Accountable)    •  Scelta  e  acquisizione  dei  daC.    •  Analisi  di  daC  in  forma  tabellare  o  grafica.    •  Interpretazione  delle  analisi  in  forma  testuale  e  grafica.    •  Report  contenenC  analisi  e  indicazioni  che  si  possono  trarre.    

•  Arvità  di  elicitazione  e  raccolta  delle  esigenze.    •  ProgeKare  e  approntare  analisi  di  daC  adeguate  al  soddisfacimento  delle  esigenze.    •  IdenCficazione  i  daC  significaCvi  e  le  loro  fonC  aziendali  o  esterne.    •  Arvità  di  collezione  dei  daC.    •  Validare  (data  quality)  i  daC.    •  Analizzare  i  daC.    •  Costruire  modelli  quanCtaCvi  e  qualitaCvi.    •  Costruire  modelli  predirvi.    •  Interpretare  analisi  e  modelli.    •  Comunicare  in  forma  opportuna  (grafica  e/o  testuale)  le  indicazioni  emerse  dalle  analisi  e  dai  modelli.    •  Collaborare  con  il  business  e  indirizzare  le  loro  esigenze.    •  Collaborare  con  l’IT  per  definire  le  modalità  di  raccolta  e  gesCone  dei  daC.    •  Collaborare  con  il  controller  per  sviluppare  analisi  e  report  a  supporto  dei  processi  decisionali.    

Lo  skill  set  

Big  Data   37

Big  Data  

Skill  Anali<ci  Determinare  che  daC  raccogliere  Come  analizzarli  (paKern  e  link)  

Crea<vità  Trovare  nuovi  modi  di  raccogliere,  analizzare,  interpretare  i  daC  

Matema<ca  e  sta<s<ca  Padronanza  dei  numeri  e  del  loro  traKamento  

Computer  science  Padronanza  algoritmica  Padronanza  tool:  Hadoop,  Python,  Pig,  etc.  

Business  skill  Capire  gli  obiervi  business  e  i  bisogni  di  informazioni  

Capacità  di  comunicare  Saper  presentare  i  daC  sia  in  forma  scriKa  che  verbale,  per  assicurarsi  che  non  vengano  fraintesi  o  trascuraC  

Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  

Agenda  

›  La  storia  in  breve  

›  Le  definizioni    ›   Big  Data  Landscape  (u<lizzi)  ›  Stack  Tecnologico    ›  Skill  set    ›  Conclusione    

38

Conclusione  

Big  Data   39

Big  Data  

Domande ? Dubbi ? Curiosità ?

[email protected]