Uvod u Big Data i nauku o podacima
-
Upload
startit -
Category
Technology
-
view
559 -
download
1
Transcript of Uvod u Big Data i nauku o podacima
Big data i data science
Pojam, tehnologije, primeri
Startit
Big data i data science
Pojam, tehnologije, primeri
Startit
3 / 33
Sadržaj• Uvod• Distribuirani sistem datoteka• MapReduce• Big data frameworks• Data science• Eksterni izvori podataka• Reference
Startit
Big data• Francis X. Diebold Paul F. and Warren S.
Miller Professor of Economics School of Arts and Sciences University of Pennsylvania – "...the necessity of grappling with Big Data, and the
desirability of unlocking the information hidden within it, is now a key theme in all the sciences —arguably the key scientific theme of our times."
4 / 33Startit
Big data• Tri izazova:
– Količina podataka (Volume)– Brzina obrade podataka u odnosu na njeno nastajanje
(Velocity)– Razlika u izvorima, formatu, kvalitetu i strukturi
podataka za obradu (Variety)
5 / 33Startit
Big Data
6 / 33Startit
7 / 33
Sadržaj• Uvod• Distribuirani sistem datoteka• MapReduce• Big data frameworks• Data science• Eksterni izvori podataka• Reference
Startit
Motivacija• Neki od zahteva koje treba zadovoljiti
– Smeštanje velikih datoteka (nekoliko GB)– Otpornost na greške– Čitanje i pisanje od strane puno klijenata
Koristiti super računar ili farmu jeftinih računara?
8 / 33Startit
Distribuirani sistem datoteka• Predstavlja sistem dototeka rasprostranjen
na farmi jeftinih računara koji obrazuju klaster
• Pruža jednostavnu skalabilnost, otpornost na greške, konkurentni pristup velikom broju klijenata
• Brzo izvršavanje željene operacije (pisanja ili čitanja)
9 / 33Startit
Distribuirani sistem datoteka• Sastoji se iz:
– Glavnog čvora (master) – sadrži podatke o drugim čvorovima• Lakaciju delova datoteka (chunks), način deljenja datoteka u
chunk-ove i lokacije chunk-ova i njihovih kopija– Podređeni čvorovi (chunkservers) – sadrže delove
datoteka i njihove verzije
10 / 33Startit
Distribuirani sistem datoteka• Arhitektura distribuiranog sistema datoteka
11 / 33Startit
Distribuirani sistem datoteka• Pisanje u distribuirani sistem datoteka
12 / 33Startit
13 / 33
Sadržaj• Uvod• Distribuirani sistem datoteka• MapReduce• Big data frameworks• Data science• Eksterni izvori podataka• Reference
Startit
MapReduce• Predstavlja programski model, čiji je cilj
obrada velike količine podataka– putem paralelnog i distribuiranog algoritma koji se
izvršava na klasteru– oslanjajući se na distribuirani sistem datoteka
• MR programski model vrši obradu u dva koraka– Map i Reduce koraku
14 / 33Startit
MapReduce
15 / 33Startit
16 / 33
Sadržaj• Uvod• Distribuirani sistem datoteka• MapReduce• Big data frameworks• Data science• Eksterni izvori podataka• Reference
Startit
Big data frameworks
17 / 33Startit
Hadoop• Predstavlja framework koji je zadužen za
skladištenje i obradu podataka na klasterima jeftinog hardvera
• baziran je na MapReduce programskom modelu
• Postoje razni DSL-ovi koji olakšavaju pisanje MapReduce programa na Hadoopu poput Apache Pig-a i Hive-a
18 / 33Startit
Apache Spark• Za razliku od MapReduce paradigme
– gde se podaci koriste u memoriji samo za vreme računanja Map ili Reduce koraka
• Apache Spark pruža klijentima mogućnost da izvrše keširanje podataka ili međurezultata – Na taj način lako i brzo izvršava iterativne algoritme
19 / 33Startit
Apache Storm• Predstavlja distribuirani sistem koji vrši
obradu tokova podataka u realnom vremenu• Koirsti se u realtime analizama, online
machine learning - u, kontinualnom računanju, distribuiranim RPC-ovima i ETL-u
20 / 33Startit
Cloudera Distributed Hadoop (CDH)
21 / 33Startit
22 / 33
Sadržaj• Uvod• Distribuirani sistem datoteka• MapReduce• Big data frameworks• Data science• Eksterni izvori podataka• Reference
Startit
Data science• Predstavlja interdisciplinarnu oblast
– O naučnim metodama, procesima i sistemima za izdvajanje znanja iz različitih oblika podataka• Struktuiranih i nestruktuiranih
• Podrazumeva ekspertizu iz različitih oblasti– Programiranje– Matematika– Poslovni procesi
23 / 33Startit
Data science• Hal Varian, Google's Chief Economist, NYT:
– "The next sexy job" – "The ability to take data—to be able to understand it,
to process it, to extract value from it, to visualize it, to communicate it—that's going to be a hugely important skill.„
• Mike Driscoll, CEO of metamarkets:– "Data science, as it's practiced, is a blend of Red-Bull-
fueled hacking and espresso-inspired statistics." – "Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools & materials, coupled with a theoretical understanding of what's possible."
24 / 33Startit
Data science
25 / 33Startit
Data science• Struktuiranje podataka (data jujitsu)
– Prikupljanje, scrap-ovanje, parsiranje, čišćenje, integracija, restrukturiranje, perzistencija, filtriranje, brisanje, kombinovanje, spajanje, provera, učitavanje i oblikovanje podataka
• Analiza podataka– Data mining, tradicionalna statistika
• Vizualizacija podataka– Putem grafikona
26 / 33Startit
Data science u praksi• Primena:
– Istraživanje mišljenja javnog mnjenja– Analiza konkurentnosti tržišta– Analiza poslovanja preduzeća– ...
• Dobijanje odgovora na bilo koje pitanje koje je bazirano na javno dostupnim podacima
27 / 33Startit
Data science u praksi
28 / 33Startit
Data science u praksi
29 / 33Startit
30 / 33
Sadržaj• Uvod• Distribuirani sistem datoteka• MapReduce• Big data frameworks• Data science• Eksterni izvori podataka• Reference
Startit
Eksterni izvori podataka• Twitter API
– Pruža kontinualan tok dela podataka sa Twitter-a• Facebook graph
– Pruža pristup dela Facebook graph-a klijenta i njegovih prijatelja
• Web crawler– Scrapy, Apache Nutch
31 / 33Startit
32 / 33
Sadržaj• Uvod• Distribuirani sistem datoteka• MapReduce• Big data frameworks• Data science• Eksterni izvori podataka• Reference
Startit
Reference– Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung – The
Google file system– Jeffrey Dean and Sanjay Ghemawat – MapReduce: Simplified
Data Processing on Large Clusters – Roger D. Peng – R Programming for Data Science– https://bigdatacoursespring2015.appspot.com/preview– http://cloudera.com/– http://www.cloudera.com/downloads/quickstart_vms/5-7.html– https://hadoop.apache.org/– https://spark.apache.org/– https://storm.apache.org/– https://dev.twitter.com/overview/api– https://developers.facebook.com/docs/graph-api– http://scrapy.org/doc/– http://nutch.apache.org/
33 / 33Startit
Pitanja i komentari
?Startit
Sadržaj• Uvod• Distribuirani sistem datoteka• MapReduce• Big data frameworks• Data science• Eksterni izvori podataka• Reference
Startit
Big Data i data science
Pojam, tehnologije, primeri
Startit