Big Data: I Microsoft ima slona za utrku

Post on 12-Jan-2016

61 views 0 download

description

MICROSOFT HRVATSKA. Big Data: I Microsoft ima slona za utrku. Luka Lovošević, Antonio Faletar Microsoft Hrvatska. Sadržaj Uvod u Big Data Pregled MS platforme Hadoop Demo. Što je Big Data?. Što je Big Data?. Podaci koji su vam bitni, ali ih tradicionalnim alatima ne možete procesirati. - PowerPoint PPT Presentation

Transcript of Big Data: I Microsoft ima slona za utrku

Big Data: I Microsoft ima slona za utrkuLuka Lovošević, Antonio FaletarMicrosoft Hrvatska

• MICROSOFT HRVATSKA

SadržajUvod u Big DataPregled MS platformeHadoopDemo

Što je Big Data?

MICROSOFT CONFIDENTIAL – INTERNAL ONLY

Što je Big Data?Podaci koji su vam bitni, ali ih tradicionalnim alatimane možete procesirati.

VOLUME(Količina)

VARIETY (Struktura)

VELOCITY (Brzina, real-

time)

Izvori podataka

Logovi Text

Pametne kuće Senzori

Vrijeme i lokacija RFID

Telemetrija Društvene mreže

Big Data algoritmi

Analiza na društvenim mrežama

Slični artikli (npr. web shop) Real-time analiza Česti skupovi artikala

Reklamiranje na webu

Analiza povezanih pojmova

Sustavi preporukaKlastering (grupiranje)

c

Microsoft Big Data platforma

Microsoft Big Data platforma

Hadoop – HDInsight

(Windows ili Azure)

SQL Server 2012 Parallel Data Warehouse

SQL Server StreamInsight

Self-service BI alati

Malo više o Hadoopu

Što je Hadoop?Platforma za procesiranje velike količine podataka

Apache, open source

Google GFS i MapReduce

Visoko skalabilan i distribuiran

Commodity hardver

2013

Yahoo!

EnterpriseHadoop

Apache projekt

2004 2008 2010 20122006

Hadoop arhitektura

Node

NodeNode

Podaci

Node

MapReduce

// Map Reduce function in JavaScript

var map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {

if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};

var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());

}context.write(key, sum);};

NodeNode

NodeNode

Program

MapReduce

Primjer za MapReduce

Alati za uspješno Hadoopiranje

Pig

Procesiranje i oblikovanjepodataka

ETL tool

MapReduce

Hive

Strukturiranje podataka

SQL sintaksa

ODBC, Excel …

MapReduce

MahoutBiblioteka gotovih algoritama

Strojno učenje (npr. clustering, recommendation, …)

MapReduce

HDInsight

Hadoop

Programiranje u .NET-uSecurity, HA & managementPodrška za virtualizacijuIntegracija s Microsoft BI alatimaIsto iskustvo za on-premise i cloud

Hadoop za Windows ServerHadoop za Windows Azure

Demo

Windows Azure HDInsight

Hadoop 2.0

HortonWorks Stinger inicijativa

Tez (interactive) vs. batch

Streaming (Storm project), itd.

ZaključakBig data trendHadoop de facto standardWindows Azure HDInsightOpen source

Pitanja?

Hvala!