Tbp big dataogbi_tbp

26
Sådan bruges Big Data til Business Intelligence - fra store data til store forretningsfordele Torben Bach Pedersen Center for Data-intensive Systemer (Daisy) Aalborg Universitet

description

Oplægget blev holdt ved InfinIT-arrangementet Big Data og data-intensive systemer i Danmark, der blev af holdt en 15. januar 2014. Læs mere om arrangementet her: http://infinit.dk/dk/arrangementer/tidligere_arrangementer/big_data_i_danmark.htm

Transcript of Tbp big dataogbi_tbp

Page 1: Tbp big dataogbi_tbp

Sådan bruges Big Data til

Business Intelligence - fra store data til store forretningsfordele

Torben Bach Pedersen

Center for Data-intensive Systemer (Daisy)

Aalborg Universitet

Page 2: Tbp big dataogbi_tbp

Sådan bruges Big Data til

Business Intelligence - fra store data til store forretningsfordele

Torben Bach Pedersen

Center for Data-intensive Systemer (Daisy)

Aalborg Universitet

kan

bruges

Page 3: Tbp big dataogbi_tbp

Hvad er Business Intelligence?

• Business intelligence is “the ability to apprehend the interrelationships of

presented facts in such a way as to guide action towards a desired goal”

H. P. Luhn, A Business Intelligence System, IBM Journal of

Research and Development. Vol. 2(4), 1958

• “Business intelligence (BI) is a business management term, which refers

to a set of tools and techniques that enable a company to transform its

business data into timely and accurate information for the decisional

process, to be made available to the right persons in the most suitable

form.”

S. Rizzi, Springer Encyclopedia of Database Systems, 2009.

• Business intelligence is “an umbrella term that includes the applications,

infrastructure and tools, and best practices that enable access to and

analysis of information to improve and optimize decisions and

performance”

Gartner Reports, IT Glossary, 2013

• Så det er noget med at optimere sin forretning via data…

Big Data og data-intensive systemer i Danmark, 15. januar 2014 3

Page 4: Tbp big dataogbi_tbp

Hvad er Big Data?

• ”Big data er et begreb indenfor datalogi, der bredt dækker

over indsamling, opbevaring, analyse, processering og

fortolkning af enorme mængder af data. Som mange

andre IT-ord har Big data ingen dansk oversættelse.”

http://da.wikipedia.org/wiki/Big_data

• ”Big data is the term for a collection of data sets so large

and complex that it becomes difficult to process using on-

hand database management tools or traditional data

processing applications.”

http://en.wikipedia.org/wiki/Big_data

• Så det skal være så ”stort” at det bliver ”svært” at gøre

som man plejer…

Big Data og data-intensive systemer i Danmark, 15. januar 2014 4

Page 5: Tbp big dataogbi_tbp

Big Data karakteristika

• Man taler ofte om ”de 3 V-er” (eller 4)

• Volume

Meget store datamængder

• Velocity

Data ankommer meget hurtigt (datastrømme)

• Variety

Data har meget forskellige/komplekse formater/typer/mening

• Det kan godt være ”Big Data”, selv med kun 1-2 V’er…

• Veracity

Hvor meget kan vi ”stole på” data ?

Big Data og data-intensive systemer i Danmark, 15. januar 2014 5

Page 6: Tbp big dataogbi_tbp

BI versus Big Data

• Ligheder

Man indsamler, integrerer, og analyserer data for at få ny viden

Man har store mængder data

Data ankommer (ofte) hurtigt

• Forskelle

Big Data og data-intensive systemer i Danmark, 15. januar 2014 6

BI Big Data

Datatyper Strukturerede (mest) Ustrukturerede (også)

Datakilder Mest interne Mest eksterne

Bruger Økonomiperson Data scientist

Præcision Eksakte resultater Tilnærmede resultater

Privacy Ikke kritisk Meget kritisk

Kontrol med data Stor kontrol Lille eller ingen kontrol

Page 7: Tbp big dataogbi_tbp

Business Intelligence at a Glance

7

Malú Castellanos, HP Labs

Big Data og data-intensive systemer i Danmark, 15. januar 2014

Page 8: Tbp big dataogbi_tbp

(Typiske) Typer af Big Data

• Søgedata

Data om websider, søgninger, rankings, osv.

Google’s data, den første slags Big Data

• Sociale netværks data

Opdateringer fra Twitter, Facebook, LinkedIn, brugerfora,….

Tekst, billeder, brugerinfo, Likes, lokation, venne/netværks-graf,…

• Linked/Open Data

Data delt/publiceret på web f.eks. via Semantic Web teknologier

• Men det er ikke kun fra web…

• Big Sensor Data

Big Science Data (har vi hørt om)

Big GPS/Location Data – i 2 andre sessioner

Big RFID Data

Big Energy Data

Big Data og data-intensive systemer i Danmark, 15. januar 2014 8

Page 9: Tbp big dataogbi_tbp

Bruges Big Data til BI i Danmark ?

• Godt spørgsmål…helt uvidenskabelig undersøgelse

• LinkedIn opdatering Nov. 2013 til mine 481 forbindelser

”Er der nogen der har et godt eksempel på brug af Big Data til BI i

Danmark?”

• 1(!) svar, fra en konsulent

Ikke nogle gode eksempler på brug af ”rigtig store” data

Nogle få er på forsøgsstadiet

Big Data er ”bagud” i Danmark

• Måske er vi for konservative?

• Men lad os da se på nogle eksempler jeg kender

Ikke dækkende…

Big Data og data-intensive systemer i Danmark, 15. januar 2014 9

Page 10: Tbp big dataogbi_tbp

BI på Twitter og søgedata

• Twitter – meget simpelt, mange muligheder

160 karakters tekst – med hashtags, forkortelser, referencer…

Megen ”behandling” nødvendig for at få fuldt udbytte

• Sentiment analysis - standard analyse på (korte) tekster

Er teksten/udsagnet positivt/negativt/neutralt ?

Interessant f.eks. i.f.t. produktomtaler

• Hvordan får man fat på Twitter data ?

Sample via Twitter Streaming API (gratis)

Firehose: ALT der matcher, betaling til Gnip/Datasift (også FB,…)

• Eksempler fra TARGIT, grundslides lånt af

Morten Middelfart (søgedata)

Steen Kjøng Paulsen (Twitter)

• Full disclosure: jeg har samarbejdet med TARGIT siden

2001 og får ikke procenter…men de ligger jo i Hjørring!

Big Data og data-intensive systemer i Danmark, 15. januar 2014 10

Page 11: Tbp big dataogbi_tbp

Structure and concept

Server

ETL

Building relations between users and networks while adding extra info such as geo-location and CRM data

Other data sources

(internal or external)

The key concept of #SocialAnalytics is to measure and visualize impact on social networks over time

Since we cannot capture the entire internet, we stick to sampling

11

Page 12: Tbp big dataogbi_tbp

12

Page 13: Tbp big dataogbi_tbp

13

Page 14: Tbp big dataogbi_tbp

14

Page 15: Tbp big dataogbi_tbp

15

Page 16: Tbp big dataogbi_tbp

Twitter data hos TARGIT

• Bruges internt til at holde øje med artikler/produktomtaler..

Lige nu: observer re-tweet aktivitet på studielicenser

• Muliggør et godt historisk overblik over aktiviteten

Hvilke dage folk er mest aktive omkring forskellige typer tweets?

Hvor længe har en re-tweet bølge varet?

Big Data og data-intensive systemer i Danmark, 15. januar 2014 16

Page 17: Tbp big dataogbi_tbp

Search data hos TARGIT

• Ønske om at holde øje med ”targit.com” placering i Google

søge ranking for forskellige kombinationer af søgeord

Mere detaljeret end man kan med Google Trends

• Ikke muligt at få Google’s data

• Sampling-baseret tilgang

Fyr (mange) søgninger afsted fra en query node

Opsaml resultaterne (HTML sider)

Parse og find TARGIT’s placering for hver kombination

Transformer og overfør data

Big Data og data-intensive systemer i Danmark, 15. januar 2014 17

Page 18: Tbp big dataogbi_tbp

Inverted Data Warehouse (IDW)

o Inspiration from CERN’s LHC

o “Shotgun Approach”; equal to formulating

hypotheses; data scientist

o No single point of failure

(parallel Query Nodes have also been tested)

Page 19: Tbp big dataogbi_tbp
Page 20: Tbp big dataogbi_tbp
Page 21: Tbp big dataogbi_tbp
Page 22: Tbp big dataogbi_tbp

Big Energy Data i Smart Grids

• Måledata

Komplekse tidsserier skal

forecast’es

• Opsamle og håndtere

eksplicitte fleksibiliteter

• Balancer forbrug og

produktion i realtid

• Forudsig produktion,

forbrug og fleksibilitet

ned på apparatniveau

• Komplekst system med

megen BI

Big Data og data-intensive systemer i Danmark, 15. januar 2014 22

Intermittent Supply and Demand

Renewable Energy SourcesRenewable Energy Sources

Prosumer(provider of flexibility)

Flexible Demand and Supply

Heat pumpsHeat pumps

Balance Responsible Party(acquirer of flexibility)

1

past future

volatility

uncertainty

Flex-Offer specifies flexibility in

2 Acceptance3 Assignment

Inflexible DemandInflexible Demand

......

Combined HeatCombined Heat

Smart White GoodsSmart White Goods

......

Power Timeintegrates

controls

specifies how flexibility is to be exercised (schedule)

Aggregation

Scheduling Disaggregation

Aggregation Disaggregation

Page 23: Tbp big dataogbi_tbp

Big RFID Data

• BagTrack – styr på bagagen

HTF: Daisy, Lyngsoe, SAS, IATA, AAL, …

Bagagestrimler med RFID chips i – læs på afstand

Nummerplade (ID), rute, datp

Vision: verdensomspændede bagageinformation i

realtid – reducer bagageproblemer med 50% i

2020 og spar 1.2 mia. US$/år

• Daisy BI forskning

Rensning af data – mening af RFID læsninger

Realtids data og forespørgsler

OLAP/DW – analyser processer og målinger

Data mining: problemer og årsager i event sekv.

Store og komplekse data, 1000+ lokationer

Big Data og data-intensive systemer i Danmark, 15. januar 2014 23

TransferDeparture Arrival

Page 24: Tbp big dataogbi_tbp

Open/Linked Data – hvad findes?

Big Data og data-intensive systemer i Danmark, 15. januar 2014 24

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

Page 25: Tbp big dataogbi_tbp

BI på Big Linked/Open Data

• Brug for eksterne data

Format/betydning?

Tilgang/forespørgsler?

• Løsning: Semantic Web

Formelle ontologier

angiver mening

Kan linke til andre

ontologier/begreber

(Linked Data)

SPARQL forespørgsler

• Self-service BI

Ex: Fusion cubes

Big Data og data-intensive systemer i Danmark, 15. januar 2014 25

A. Abello et al. Fusion Cubes: Towards Self-Service Business

Intelligence. IJDWM 9(2), 2013.

Page 26: Tbp big dataogbi_tbp

Hvad mangler vi ?

• Erfaringer, viden, lovgivning,…

• Skalerbare, effektive og brugervenlige BI+Big Data

værktøjer og teknologier

Relevant forskning hos Daisy?

• ”Programmerbar ETL” til MapReduce/Hadoop

Kraftfuld: opdater slowly changing snowflaked dim med 1 linje kode

Skalerbar: Automatisk scale-out parallelisering

• All-RiTE

INSERT/UPDATE-like data tilgængelig med bulk load hastighed

• Komprimerede bitmap indeks – PLWAH

Effektive søgninger for komplekse kriterier på Big Data (Algorhyme)

• Fusion Cubes

Brugerdrevet self-service BI på interne og Linked/Open Big Data

Big Data og data-intensive systemer i Danmark, 15. januar 2014 26