Tbp big dataogbi_tbp
-
Upload
infinit-innovationsnetvaerket-for-it -
Category
Technology
-
view
416 -
download
2
description
Transcript of Tbp big dataogbi_tbp
Sådan bruges Big Data til
Business Intelligence - fra store data til store forretningsfordele
Torben Bach Pedersen
Center for Data-intensive Systemer (Daisy)
Aalborg Universitet
Sådan bruges Big Data til
Business Intelligence - fra store data til store forretningsfordele
Torben Bach Pedersen
Center for Data-intensive Systemer (Daisy)
Aalborg Universitet
kan
bruges
Hvad er Business Intelligence?
• Business intelligence is “the ability to apprehend the interrelationships of
presented facts in such a way as to guide action towards a desired goal”
H. P. Luhn, A Business Intelligence System, IBM Journal of
Research and Development. Vol. 2(4), 1958
• “Business intelligence (BI) is a business management term, which refers
to a set of tools and techniques that enable a company to transform its
business data into timely and accurate information for the decisional
process, to be made available to the right persons in the most suitable
form.”
S. Rizzi, Springer Encyclopedia of Database Systems, 2009.
• Business intelligence is “an umbrella term that includes the applications,
infrastructure and tools, and best practices that enable access to and
analysis of information to improve and optimize decisions and
performance”
Gartner Reports, IT Glossary, 2013
• Så det er noget med at optimere sin forretning via data…
Big Data og data-intensive systemer i Danmark, 15. januar 2014 3
Hvad er Big Data?
• ”Big data er et begreb indenfor datalogi, der bredt dækker
over indsamling, opbevaring, analyse, processering og
fortolkning af enorme mængder af data. Som mange
andre IT-ord har Big data ingen dansk oversættelse.”
http://da.wikipedia.org/wiki/Big_data
• ”Big data is the term for a collection of data sets so large
and complex that it becomes difficult to process using on-
hand database management tools or traditional data
processing applications.”
http://en.wikipedia.org/wiki/Big_data
• Så det skal være så ”stort” at det bliver ”svært” at gøre
som man plejer…
Big Data og data-intensive systemer i Danmark, 15. januar 2014 4
Big Data karakteristika
• Man taler ofte om ”de 3 V-er” (eller 4)
• Volume
Meget store datamængder
• Velocity
Data ankommer meget hurtigt (datastrømme)
• Variety
Data har meget forskellige/komplekse formater/typer/mening
• Det kan godt være ”Big Data”, selv med kun 1-2 V’er…
• Veracity
Hvor meget kan vi ”stole på” data ?
Big Data og data-intensive systemer i Danmark, 15. januar 2014 5
BI versus Big Data
• Ligheder
Man indsamler, integrerer, og analyserer data for at få ny viden
Man har store mængder data
Data ankommer (ofte) hurtigt
• Forskelle
Big Data og data-intensive systemer i Danmark, 15. januar 2014 6
BI Big Data
Datatyper Strukturerede (mest) Ustrukturerede (også)
Datakilder Mest interne Mest eksterne
Bruger Økonomiperson Data scientist
Præcision Eksakte resultater Tilnærmede resultater
Privacy Ikke kritisk Meget kritisk
Kontrol med data Stor kontrol Lille eller ingen kontrol
Business Intelligence at a Glance
7
Malú Castellanos, HP Labs
Big Data og data-intensive systemer i Danmark, 15. januar 2014
(Typiske) Typer af Big Data
• Søgedata
Data om websider, søgninger, rankings, osv.
Google’s data, den første slags Big Data
• Sociale netværks data
Opdateringer fra Twitter, Facebook, LinkedIn, brugerfora,….
Tekst, billeder, brugerinfo, Likes, lokation, venne/netværks-graf,…
• Linked/Open Data
Data delt/publiceret på web f.eks. via Semantic Web teknologier
• Men det er ikke kun fra web…
• Big Sensor Data
Big Science Data (har vi hørt om)
Big GPS/Location Data – i 2 andre sessioner
Big RFID Data
Big Energy Data
Big Data og data-intensive systemer i Danmark, 15. januar 2014 8
Bruges Big Data til BI i Danmark ?
• Godt spørgsmål…helt uvidenskabelig undersøgelse
• LinkedIn opdatering Nov. 2013 til mine 481 forbindelser
”Er der nogen der har et godt eksempel på brug af Big Data til BI i
Danmark?”
• 1(!) svar, fra en konsulent
Ikke nogle gode eksempler på brug af ”rigtig store” data
Nogle få er på forsøgsstadiet
Big Data er ”bagud” i Danmark
• Måske er vi for konservative?
• Men lad os da se på nogle eksempler jeg kender
Ikke dækkende…
Big Data og data-intensive systemer i Danmark, 15. januar 2014 9
BI på Twitter og søgedata
• Twitter – meget simpelt, mange muligheder
160 karakters tekst – med hashtags, forkortelser, referencer…
Megen ”behandling” nødvendig for at få fuldt udbytte
• Sentiment analysis - standard analyse på (korte) tekster
Er teksten/udsagnet positivt/negativt/neutralt ?
Interessant f.eks. i.f.t. produktomtaler
• Hvordan får man fat på Twitter data ?
Sample via Twitter Streaming API (gratis)
Firehose: ALT der matcher, betaling til Gnip/Datasift (også FB,…)
• Eksempler fra TARGIT, grundslides lånt af
Morten Middelfart (søgedata)
Steen Kjøng Paulsen (Twitter)
• Full disclosure: jeg har samarbejdet med TARGIT siden
2001 og får ikke procenter…men de ligger jo i Hjørring!
Big Data og data-intensive systemer i Danmark, 15. januar 2014 10
Structure and concept
Server
ETL
Building relations between users and networks while adding extra info such as geo-location and CRM data
Other data sources
(internal or external)
The key concept of #SocialAnalytics is to measure and visualize impact on social networks over time
Since we cannot capture the entire internet, we stick to sampling
11
12
13
14
15
Twitter data hos TARGIT
• Bruges internt til at holde øje med artikler/produktomtaler..
Lige nu: observer re-tweet aktivitet på studielicenser
• Muliggør et godt historisk overblik over aktiviteten
Hvilke dage folk er mest aktive omkring forskellige typer tweets?
Hvor længe har en re-tweet bølge varet?
Big Data og data-intensive systemer i Danmark, 15. januar 2014 16
Search data hos TARGIT
• Ønske om at holde øje med ”targit.com” placering i Google
søge ranking for forskellige kombinationer af søgeord
Mere detaljeret end man kan med Google Trends
• Ikke muligt at få Google’s data
• Sampling-baseret tilgang
Fyr (mange) søgninger afsted fra en query node
Opsaml resultaterne (HTML sider)
Parse og find TARGIT’s placering for hver kombination
Transformer og overfør data
Big Data og data-intensive systemer i Danmark, 15. januar 2014 17
Inverted Data Warehouse (IDW)
o Inspiration from CERN’s LHC
o “Shotgun Approach”; equal to formulating
hypotheses; data scientist
o No single point of failure
(parallel Query Nodes have also been tested)
Big Energy Data i Smart Grids
• Måledata
Komplekse tidsserier skal
forecast’es
• Opsamle og håndtere
eksplicitte fleksibiliteter
• Balancer forbrug og
produktion i realtid
• Forudsig produktion,
forbrug og fleksibilitet
ned på apparatniveau
• Komplekst system med
megen BI
Big Data og data-intensive systemer i Danmark, 15. januar 2014 22
Intermittent Supply and Demand
Renewable Energy SourcesRenewable Energy Sources
Prosumer(provider of flexibility)
Flexible Demand and Supply
Heat pumpsHeat pumps
Balance Responsible Party(acquirer of flexibility)
1
past future
volatility
uncertainty
Flex-Offer specifies flexibility in
2 Acceptance3 Assignment
Inflexible DemandInflexible Demand
......
Combined HeatCombined Heat
Smart White GoodsSmart White Goods
......
Power Timeintegrates
controls
specifies how flexibility is to be exercised (schedule)
Aggregation
Scheduling Disaggregation
Aggregation Disaggregation
Big RFID Data
• BagTrack – styr på bagagen
HTF: Daisy, Lyngsoe, SAS, IATA, AAL, …
Bagagestrimler med RFID chips i – læs på afstand
Nummerplade (ID), rute, datp
Vision: verdensomspændede bagageinformation i
realtid – reducer bagageproblemer med 50% i
2020 og spar 1.2 mia. US$/år
• Daisy BI forskning
Rensning af data – mening af RFID læsninger
Realtids data og forespørgsler
OLAP/DW – analyser processer og målinger
Data mining: problemer og årsager i event sekv.
Store og komplekse data, 1000+ lokationer
Big Data og data-intensive systemer i Danmark, 15. januar 2014 23
TransferDeparture Arrival
Open/Linked Data – hvad findes?
Big Data og data-intensive systemer i Danmark, 15. januar 2014 24
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
BI på Big Linked/Open Data
• Brug for eksterne data
Format/betydning?
Tilgang/forespørgsler?
• Løsning: Semantic Web
Formelle ontologier
angiver mening
Kan linke til andre
ontologier/begreber
(Linked Data)
SPARQL forespørgsler
• Self-service BI
Ex: Fusion cubes
Big Data og data-intensive systemer i Danmark, 15. januar 2014 25
A. Abello et al. Fusion Cubes: Towards Self-Service Business
Intelligence. IJDWM 9(2), 2013.
Hvad mangler vi ?
• Erfaringer, viden, lovgivning,…
• Skalerbare, effektive og brugervenlige BI+Big Data
værktøjer og teknologier
Relevant forskning hos Daisy?
• ”Programmerbar ETL” til MapReduce/Hadoop
Kraftfuld: opdater slowly changing snowflaked dim med 1 linje kode
Skalerbar: Automatisk scale-out parallelisering
• All-RiTE
INSERT/UPDATE-like data tilgængelig med bulk load hastighed
• Komprimerede bitmap indeks – PLWAH
Effektive søgninger for komplekse kriterier på Big Data (Algorhyme)
• Fusion Cubes
Brugerdrevet self-service BI på interne og Linked/Open Big Data
Big Data og data-intensive systemer i Danmark, 15. januar 2014 26