Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA...

25
Big Data Data Process Management

Transcript of Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA...

Page 1: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

BigData

•  Data•  Process•  Management

Page 2: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

BigDataataGlance”BigData” termusually refers to large amounts ofdifferent types of data producedwith high velocityfromahighnumberofvarioustypesofsources.Making these date useful for stakeholders requiresto turn these data into knowledge, as theknowledge is the end product of a data-drivendiscovery.First,wefocusonthekey“dimensions”thatmake

dealingwithBigDatachallenging

Page 3: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

The4V’sBigDatamodel

3

Page 4: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

LesfidedeiDaK

•  DataAvailabilityqualeèillivellodidisponibilitàdeidaK?SonodisponibiliatuP?

•  DataQuality–quantosono“buoni”idaK(rilevanKeconsistenK)?Qualeèillivellodicopertura?QuantosonoaggiornaK?

•  Datadiscoveryèunagrandesfida(cometroviamoaltaqualitàdidaKdallavastacollezionedidaKchesitrovanonelweb?)

•  CombiningmulKpledatasets

Page 5: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

LesfidedeiDaK•  CompletezzadeiDaA,cisonoareesenzacopertura?Qualeè

l’implicazione?•  IdenAficazionediinformazionipersonali

molteinformazioniriguardanoinformazionipersonali,possiamoestrarresufficienKinformazionipereffeWuareanalisiasupportodellepersone,senzacompromeWerelaprivacy?Inparte,questoèunproblemadelleaziendeedelleisKtuzionipubbliche.

Questorichiedediriconsiderarechecosasignificarealmentela

privacy.

Page 6: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

Processchallenges

•  LesfidedelprocessodigesKonedeiBigDataincludono:–  L’acquisizionedeidaK–  L’allineamentodeidaKderivanKdadiversesorgenK(es.quandodueoggePsonoglistessiindifferenKDB)

–  TrasformazionedeidaKinunaformaadaWaall’analisi– DefinizioneesceltadiModellidianalisi–  Capirel’output,condivisioneevisualizzazionedirisultaK

Page 7: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

ManagementChallenges

•  DataPrivacy,Security,andGovernance– AssicurarsicheidaKsianousaKcorreWamente(rispeWodegliuKlizziprevisKedellenormaKve)

– GesKonedeltrakingdeidaKuKlizzaK,trasformaKeraccolKecc.

– EgesKonedellorociclodivita

Page 8: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

BigDataopportunità,valoreecriKcità

Page 9: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

BigDataAnalyKcs

“IntheoldworldofdataanalysisyouknewexactlywhichquesKonsyouwantedtoasked,whichdroveaverypredictablecollecKonandstoragemodel.In the new world of data analysis your quesKonsare going to evolve and change over Kme and assuch you need to be able to collect, store andanalyze data without being constrained byresources”.WernerVogels,CTO,Amazon.com

Page 10: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

BigDataL’evoluzionedeidaA

patrimoniostaKcoincuiilloroscopofinisceconlarealizzazionedelloscopopercuisonostaKraccolK(essurveyconanalisicampionaria);

UKlizzodidaKlimitaK

DaKraccolKcon

domandepredefinite

difficoltàdiraccolta,

organizzazione,eanalisi

Organizzazione

dell’informazionealminimoperanalizzarlepiùfacilmente

Difficoltà(>%dierrore)diincludere

soWocategorie

Page 11: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

BigDataL’evoluzionedeidaA

•  Inalcunicasinonsipuòfareamenodelcampionamento.•  Inmol'campièperòina0ounprocessoevolu'vo:

DallaraccoltadiALCUNIdaK

All’accumulodelMAGGIORNUMERO

POSSIBILE

SepossibiledituP:N=tu9

GOOGLEFLUTRENDSusamiliardidiqueriesconsentendodiprevedereladiffusionedelvirusdell’influenzaalivellodiPaese,specificostato,ciWà.N=tu8,nonsignificanecessariamenteenormiquan'tàdida'.BigDatapuòessereintesocome“interoset”enon,campionamento.Ciòsignificaesserepiùliberidiesplorareodistudiarepiùapprofonditamentealcuniaspe8.

Page 12: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

Sovraccaricodiinformazioni

•  Nel2013laquanKtàdiinformazioniimmagazzinatenelmondoèstatasKmatain1200Exabyte*(menodel2%deiqualiinformanondigitale).(studiodiM.Hilbert-UniversityofsouthernCalifornia)

Cosasignifica?•  Sefosseroracchiusiinlibricartaceicoprirebberol’interasuperficiedegliUSA52volte;

•  SeraccolKinCd-Romemessil’unosull’altroarriverebberoallalunain5pileseparate;

QuesAcambiamenAdisorientanotuF!*Exabyte=unmiliardodigigabyte

Page 13: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

SfruWamentodeiBigData

•  Insegnareaduncomputerapensarecomegliesseriumani?No!

•  ApplicazionedellamatemaKcaadenormiquanKtàdidaKperdesumeredelleprobabilità:–  Laprobabilitàcheunaemailsiaspam;–  Chelele@eredigitatetehsianol’inversionedithe;

•  Crearesistemichefunzionanobeneperchéalimenta'daenormiquan'tàdida'sucuibasareleproprieprevisioni;costrui'per:–  Automigliorarsi(Googleèingradodiselezionareilsitopiùper'nente;linkedindiindovinarechiconosciamo)

Page 14: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

SfruWamentodeiBigData

Cosìcomeinternethacambiatoradicalmenteilmondoaggiungendolacapacitàdi

comunicazioneaicomputer,iBIGDATAmodificherannoaspePfondamentalidellavitadandoleunadimensionequanKtaKvachenon

hamaiavutoprima(Shonberger–Cukier2012)

Page 15: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

Bigdataeanalisidelleinformazioni•  EsaIezza-precisionevsimprecisione-tendenza;causalitàvscorrelazione.–  DastrumenKfondaKsull’esaWezza:misurarenelmodopiùprecisopossibileciòchevogliamoquanKficare(es.motoridiricercafinalizzaKarecuperareconprecisioneirecordcorrispondenKesaWamenteallensquery);

–  AstrumenKfondaKsu“cogliereunatendenza”:rinunciaadunpòdiesaWezza;ciòcheperdiamoalivellomicrolorecuperiamoincomprensionealivellomacro;

–  AbbandonodellatendenzaaricercarelacausalitàperscoprireneidaKcorrelazionicheoffronoindicazionioriginaliepreziose.(nonsempreserveconoscerelacausadiunfenomenosipuòlasciarecheidaKparlinodase).

Page 16: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

Processodellinguaggionaturaleetraduzionelinguis'ca–unesempio

•  Anni2000:M.BankoeE.BrilldiMicrososvolevanomigliorareilcorreWoreortografico;– MigliorarealgoritmiesistenK?Trovarenuovetecniche?

•  AlgoritmidiapprendimentoeranofondaKsuraccolteditestoconalmax1milionediparole;

–  Su4algoritmisonostaKinseriKaltridaK:setdi10mildiparole,poidi100mileinfinedi1miliardo;

•  RisultaKsbalordiKvi:•  L’algoritmopeggiorecon½mildiparoleerailmigliorecon1miliardodiparole;

•  Tassodiaccuratezzaèsalitodal75al95%•  Considerazionideiricercatori:riconsiderareilrapportotrainves'renellosviluppodeglialgoritmieinves'renellaraccoltadites'

Page 17: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

Processodellinguaggionaturaleetraduzionelinguis'ca–unesempio

•  Pochianni(2006)dopoiricercatoridiGooglehannoportatoavanKlostessoragionamento:–  Invecedi1miliardodiparolenehannouKlizzateuntrilione(10alla18);–  ObiePvoerasviluppareunsistemaperlatraduzioneautomaKca(insegnare

regoleeeccezioni…elevatacomplessità;–  GoogleavevaadisposizioneundatasetmoltovastoecaoKco:larete;(miliardi

dipagineditraduzioni…95miliardidifrasiininglese–anchesedidubbiaqualità)

•  RisultaK:–  TraduzionimiglioririspeWoadaltri(ancheseimperfeWe);–  Ametàdel2012ildatasetcopriva60lingue;–  AcceWainputvocalidaoltre14lingue;

“Modellisemplicichecheimpieganoungrannumerodida'sirivelanopiùu'lirispe0oamodellipiùsofis'ca'cheimpieganomenoda'”(PeterNorvig)

Page 18: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

Bigdataeanalisidelleinformazioni

•  PrimadeiBigDataleanalisisilimitavanoatestareunristreWonumerodiipotesidefinitespessoprimadiraccogliereidaK;

•  QuandolasciamoparlareidaKemergonocollegamenKdicuinonavevamomaisospeWatol’esistenza;–  alcunifondispeculaKviconsultanotwiWerperprevedereleperformancedelmercatoazionario;

–  AmazoneNezlixbasanoipropriconsiglidiacquistosuunamiriadediinterazionitragliutenKdeirispePvisiK;

–  TwiWer,LinkedIneFacebookinsiememappanoil“graficosociale”dellerelazionitrautenKpercapirelepreferenze

Page 19: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

Bigdataeanalisidelleinformazioni•  GliesseriumanianalizzanodaKdamillenni:

–  IgovernihannodamillennifaWocensimenKperraccoglieregrandiquanKtàdidaKsullapopolazione

•  Nell’eraanalogicaraccogliereeanalizzaredaKeracostosoerichiedevamoltotempo.

•  L’eradelladigitalizzazioneharesopiùefficienteilprocessodiraccolta,diarchiviazioneedanalisi(daanniapochigiornioore–paradigma:datasetconfinalitàspecifichecuisilegaillorovalore);

•  Nell’eradeiBigDataicambiamenKsonocaraWerizzabiliconladaCzzazione;paradigma:prendereinformazionieconver'rleinunastru0urachelequan'fichi.

Page 20: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

Bigdataeanalisidelleinformazioni

DaCzzazione•  CercareindicazionichesipossonoestrarredaidaK…illorovaloreintrinseco,nascosto,nonancoraportatoallaluce

L’obiePvodellacompeKzioneinaWoèscoprirloecaWurarloperintero

CausalitàvsCorrelazione

Page 21: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

BigDataenaturadelbusiness

Valoredelbusiness•  InfrastruWurefisiche(terreni,fabbricaK);•  ElemenKintangibili(brand,proprietàintelleWuale);

•  EstensionedelladematerializzazionevsiDATI

IDATIcomeassetaziendalediprimariaimportanza…carburantedell’economiadell’informazione

Page 22: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

L’effeWodeiBigDatasullaprofessionalità

QualeèilvaloredellacompetenzaspecificainunmondochemeWeinprimopianola

probabilitàelacorrelazione?Glispecialis'nonsparirannomadovrannocompetereconquellochedicel’analisideibigdata;

Implicazionisu:ideedimanagement,sulprocessodecisionale,sullagesKonedellerisorseumane,….

Page 23: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

IllatooscurodeiBIGDATA

Abbiamoaccumulatomillennidiesperienzanellostudiodelcomportamentoumano.

Comesifaaregolamentareunalgoritmo?Dallanascitadell’informaKca->azionieregoleperlatuteladellaprivacy;Conibigdataquelleregolesono“sostanzialmente”

inuKli…lepersonecondividonovolenKerileinformazionionline(caraWerisKcacentraledeiservizi,nonunavulnerabilitàdaprevenire);

Page 24: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

IllatooscurodeiBIGDATA

Qualepericolocorriamo?•  Dallaprivacyallaprobabilità:– GliAlgoritmiprevederannolaprobabilità:

•  disubireunaWaccodicuore(cicostringerannoapagareunpremioassicuraKvopiùalto);•  Dinonriuscireapagareilmutuodellacasa(indurrannolebancheanegarciilfinanziamento);•  DicommeWereuncrimine(facendocimagariarrestareprevenKvamente)

Page 25: Big Data - Università degli Studi di Milano-Bicocca · 2020-01-29 · Il lato oscuro dei BIG DATA Quale pericolo corriamo? • Dalla privacy alla probabilità: – Gli Algoritmi

IllatooscurodeiBIGDATA

•  Qualeèilruolodellalibertà,dellavolontàinrapportoalladiWaturadeidaK?

•  Cheruolorimaneall’intuito,allafede,all’incertezza,all’agireincontraddizioneconil

datoempiricoeall’apprendimentodall’esperienza?

•  Conilpassaggiodallacausalitàallacorrelazione,comepossiamoavanzarepragmaKcamentesenzaintaccarelebasistessedellasocietà,deirapporKumaniedelprogressofondatosullaragione?