Mitä on big data, Aamiaistilaisuus 13.03.2012
-
Upload
eufris -
Category
Technology
-
view
1.179 -
download
2
description
Transcript of Mitä on big data, Aamiaistilaisuus 13.03.2012
Mitä on Big Data?13.03.2012Immo SaloEufris
Big Data: yleisesi>ely
Gartnerin top 10 strategista teknologiaa1. Media Tablets and Beyond
2. Mobile-‐Centric Applica9ons and Interfaces
3. Contextual and Social User Experience
4. Internet of Things
5. App Stores and Marketplaces
6. Next-‐Genera9on Analy9cs
7. Big Data
8. In-‐Memory Compu9ng
9. Extreme Low-‐Energy Servers
10.Cloud Compu9ng
Big Data ja Cloud CompuEng
• Vuodet 2009-‐2011 olivat ak2ivista Cloud Compu2ng-‐markkinoin2a
• Vuonna 2012 fokus on siirtynyt Big Dataan
• Osa toimijoista on samoja ja osa tarjoomista en2siä uudelleen nimeAyinä
Cloud Envy Big Data Envy
Pari yleistä kuvaa
2012 2015 2020
Mitä on Big Data?
• Big Data on kaAokäsite joukolle teknologioita
Kuvat: riak.com, aws.amazon.com, appengine.google.com, oracle.com, apache.org (Cassandra, Hadoop)
Mitä on Big Data?
• Se on markkinoin2termi, aivan kuten Cloud Compu2ng
Kuvat: rackspace.com, salesforce.com, appengine.google.com, aws.amazon.com, windowsazure.com
Big Data-‐määritelmiä
"Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis"IDC
"Big Data is a technlogy that helps extract value from the digital universe.”IDC
"Techniques and technologies that make handling data at extreme scale economical."Forrester
Miksi Big Datan pitäisi kiinnostaa?
• McKinseyn ennustus:• $250 mrd/vuosi säästöpoten5aali EU-‐alueen julkisella sektorilla
• $600 mrd/vuosi poten5aalinen taloudellinen lisäarvopoten5aali paikka5etojen hyödyntämisessä
• Tiedon määrä kasvaa vauhdilla• Datan määrä 50-‐kertaistuu(!) seuraavan kymmenen vuoden aikana maailmassa
Mistä dataa oikein tulee?
Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
Osaajapula uhkaa
“There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.”
Lähde: McKinsey
Big Data: viitekehyksiä
Big Datan ABC
• Analy2cs (analy5ikka)• Data pitää jalostaa informaa2oksi, 2edoksi ja ymmärrykseksi. Visualisoin2,
konkre2soin2, ennusteiden tekeminen, tunnuslukujen laskeminen, korrelaa2oiden hakeminen...
• Bandwidth (5etoliikenne)• Suurten 2etomäärien liikuAelu on yhä useammin pullonkaula. Lähtökohtainen päätös
siitä, missä 2etoja säilytetään ja missä niitä prosessoidaan on yhtä merkiAävä kuin käytetyt teknologiat ja analyysin hyödyntämiskohteet.
• Content (sisältö)• Edelleen suuri osa 2edosta säilytetään, muAa jätetään käyAämäAä tai vielä
pahempaa: heitetään hukkaan ilman ensimmäistäkään analyysia.
Lähde: Netapp.com
Big Datan kolme V-‐kirjainta (3V)
• Variety (vaihtelevuus)• Dataa on strukturoitua ja strukturoimatonta. Molempia pitää pystyä hyödyntämään.
• Velocity (vauh5)• Datan määrä kasvaa vauhdilla ja sitä tulee lukemaAomista lähteistä. Lähes
reaaliaikaisen analyysi tavoiAeena.
• Volume (voluumi)
• Data pitää pystyä analysoimaan ja säilyAämään myöhempää käyAöä varten.
Lähde: Netapp.com
Kaksi V-‐kirjainta lisää (3V+2V = 5V)
• Viscosity (viskositeeD)
• MiAaa sitä, miten nopeas2 datasta saadaan jalosteAua jotain liiketoiminnalle hyödyllistä.
• Virality (viraalisuus)• Kuvaa 2edon siirtymisen nopeuAa ihmiseltä toiselle (viraalisuuAa) organisaa2on sisällä
tai sen toimintaverkostossa.
Lähde: Netapp.com
Big Data: käsi>eitä
Hadoop
• Avoimen lähdekoodin Apache-‐projek2, joka on ehkä tunnetuin yksiAäinen tuotenimi Big Data-‐tarjoomista
• TarkoiteAu suurten datamäärien hajauteAuun prosessoin2in
• Asennetaan palvelinklusteriin, joka on vikasietoinen eli yksiAäisen palvelimen vikaantuminen ei haiAaa
• Kolme alaprojek2a1. Hadoop Common
2. Hadoop Distributed Filesystem
3. Hadoop MapReduce
Esimerkki: Facebook
• Facebook on yksi suurista Hadoopin käyAäjistä. KäyAäjien vies2en osalta HBaseen yritys siirtyi täysin kesällä 2011. Luvut ovat massiivisia:• 8 miljardia(!) vies9ä päivässä
• yli 75 miljardia luku-‐/kirjoitustapahtumaa päivässä
• ruuhka-‐aikoina 1.5 miljoonaa luku-‐/kirjoitustapahtumaa sekunnissa(!)
• 2 petatavua online dataa (ja 6 petatavua varmuuskopioita)
• datan määrä kasvaa 250 teratavua kuukaudessa
MapReduce
• Googlen vuonna 2004 esiAelemä laskentamalli
Map
2
2
2
1
2
3
Reduce 3
4
5
NoSQL
• Määritelmä 1:
“Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable. The original intention has been modern web-scale databases. The movement began early 2009 and is growing rapidly. Often more characteristics apply as: schema-free, easy replication support, simple API, eventually consistent, a huge data amount, and more.”
Nosql-database.org
NoSQL
• Määritelmä 2:
“In computing, NoSQL (sometimes expanded to "not only SQL") is a broad class of database management systems that differ from the classic model of the relational database management system (RDBMS) in some significant ways. These data stores may not require fixed table schemas, usually avoid join operations, and typically scale horizontally.”
Wikipedia.org
Big Data tuo>eita
Oracle Big Data Appliance
• Hinta n. 500 000 $
18 Oracle Sun Servers• 864 GB main memory;• 216 CPU cores;• 648 TB of raw disk storage;• 40 Gb/s InfiniBand connectivity between nodes and engineered systems;• 10 Gb/s Ethernet connectivity.
Autonomy IDOL 10
"For far too long, organizations have confined structured data to relational databases and unstructured data to simplistic keyword matching technologies..."
“IDOL 10 brings these worlds together, allowing organizations to automatically process, understand, and act on 100 percent of their data, in real-time. The results will be dramatic, as businesses can develop entirely new applications that explore the richness and color of Human Information that live in unstructured, semi-structured, and structured forms.”
Hinta?
IBM InfoSphere BigInsights• “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is
inspired by, and is compatible with, open source Apache Hadoop and used to store, manage, and gain insights from Internet-scale data at rest...”
• “InfoSphere BigInsights combines IBM’s unique knowledge of SQL-based big data approaches with Apache Hadoop-based workloads.”
• Lisenssihinta n. 24 000 € / vuosi
• Ominaisuudet:
http://www-01.ibm.com/software/data/infosphere/biginsights/features.html
SAP HANA
“Why wait for old-fashioned data analysis? Tap into huge volumes of detailed information as events unfold with the SAP HANA appliance - our new flexible, multipurpose, game-changing in-memory computing software.”
Suomessa Nordea otti käyttöönsä HANA:n ja joidenkin analyysien suorittamisaika putosi 2-3 tunnista 4 minuuttiin.Lähde: Tietoviikko.fi
Big Data pilvipalveluna
MapReduce ja NoSQL pilvessä
S3EC2
+ DynamoDB
Amazon ElasEc MapReduce
• Hadoop-‐klusteri palveluna
• Ei sitoutumista, ei kiinteitä kustannuksia
Amazon ElasEc MapReduce hinnat
Käyttöönotto 0 €, ei sitoumuksia.
Amazon DynamicDB
• NoSQL-‐2etokanta palveluna
• Ei sitoutumista, ei kiinteitä kustannuksia
• Saatavilla EU-‐alueella maaliskuusta 2012 alkaen
Amazon DynamoDB hinnat
Käyttöönotto 0 €, ei sitoumuksia.
Google BigQuery ja Cloud SQL
• Google BigQuery• OLAP Online Analy5cal Processing
• Tällä hetkellä (maaliskuu 2012) vain beta-‐testaajille
• Google Cloud SQL• Hosted MySQL
• OLTP Online Transac5onal Processing
• Toimii ainoastaan App Engine-‐sovellusten kanssa
Google BigQuery esimerkkiAineisto: Wikipedia
Kysymys: “Montako ‘th’ kirjainparin sisältävää otsikkoa löytyy?”
Aika: 7,6 sekuntia
KIITOS!