What is a Datawarehouse ?

13
What is a Datawarehouse ? The term Data Warehouse was coined by Bill Inmon in 1990, which he defined in the following way: "A warehouse is a subject-oriented, integrated, time-variant and non- volatile collection of data in support of management's decision making process". He defined the terms in the sentence as follows: Subject Oriented: Data that gives information about a particular subject instead of about a company's ongoing operations. Integrated: Data that is gathered into the data warehouse from a variety of sources and merged into a coherent whole. Time-variant: All data in the data warehouse is identified with a particular time period. Non-volatile: Data is stable in a data warehouse. More data is added but data is never removed. This enables management to gain a consistent picture of the business. (Source: "What is a Data Warehouse?" W.H. Inmon, Prism, Volume 1, Number 1, 1995).

description

What is a Datawarehouse ?. - PowerPoint PPT Presentation

Transcript of What is a Datawarehouse ?

Page 1: What is a Datawarehouse ?

What is a Datawarehouse ?The term Data Warehouse was coined by Bill Inmon in 1990, which he defined in the following way: "A warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process". He defined the terms in the sentence as follows:

Subject Oriented: Data that gives information about a particular subject instead of about a company's ongoing operations.

Integrated: Data that is gathered into the data warehouse from a variety of sources and merged into a coherent whole.

Time-variant: All data in the data warehouse is identified with a particular time period.

Non-volatile: Data is stable in a data warehouse. More data is added but data is never removed. This enables management to gain a consistent picture of the business.

(Source: "What is a Data Warehouse?" W.H. Inmon, Prism, Volume 1, Number 1, 1995).

Page 2: What is a Datawarehouse ?

What is a Datawarehouse ?(an updated definition)

Previous definition remains reasonably accurate almost ten years later. However, a single-subject data

warehouse is typically referred to as a data mart, while data warehouses are generally enterprise in scope. Also, data warehouses can be volatile. Due to the large amount of storage required for a data warehouse, (multi-terabyte data warehouses are not uncommon), only a certain number of periods of history are kept in the warehouse. For instance, if three years of data are decided on and loaded into the warehouse, every

month the oldest month will be "rolled off" the database, and the newest month added.

Ralph Kimball provided a much simpler definition of a data warehouse. As stated in his book, "The Data Warehouse

Toolkit", on page 310, a data warehouse is "a copy of transaction data specifically structured for query and analysis". This definition provides less

insight and depth than Mr. Inmon's, but is no less accurate.

Page 3: What is a Datawarehouse ?

Why to use Datawarehouses ?

Page 4: What is a Datawarehouse ?

First Steps in the data warehouse process

From various data sources to the data pool

What is the quality of the data sources

How to access/move the data

What is my extract/transport data model looking like

Frequency of extracts ?

Self consistency of extracts ?

Page 5: What is a Datawarehouse ?
Page 6: What is a Datawarehouse ?

A classical datawarehouse

Page 7: What is a Datawarehouse ?

What is a DATAMART ?

Is a business focused "data warehouse"

Has a clear mission

Typically is implemented within 2 weeks to six months

Usually uses non company standard database and tools

Is used by few to up to maximal 300 online users

Page 8: What is a Datawarehouse ?

DATAMARTs

Page 9: What is a Datawarehouse ?

What is DATA MINING ?

Data Mining is used to discover [hidden] patterns and relationships in your data in order to help you make

better business decisions.

Page 10: What is a Datawarehouse ?

Difference

Page 11: What is a Datawarehouse ?

Using the PAST to PREDICT the FUTURE

Bulk Data

ETL Data

Determine Keys

Build MODEL

Test Model2/3 of data to model, 1/3 to test

Predict IT

Apply live data, measure live success ratio

Re-constitude model parameters

Page 12: What is a Datawarehouse ?

Örnek UygulamalarBAĞINTI: “Çocuk bezi alan müşterilerin %30’u bira da satın alır.” Sepet analizinde (basket analysis) müşterilerin beraber satın aldığı malların analizi yapılır. Buradaki amaç mallar arasındaki pozitif veya negatif korelasyonları bulmaktır. Çocuk bezi alan müşterilerin mama da satın alacağını veya bira satın alanların cips de alacağını tahmin edebiliriz ama ancak otomatik bir analiz bütün olasılıkları gözönüne alır ve kolay düşünülemeyecek, örneğin çocuk bezi ve bira arasındaki bağıntıları da bulur.

 SINIFLANDIRMA: “Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır.”Amaç bir malın özellikleri ile müşteri özelliklerini eşlemektir. Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir. Örneğin bir otomobil satıcısı şirket geçmiş müşteri hareketlerinin analizi ile yukarıdaki gibi iki kural bulursa genç kadınların okuduğu bir dergiye reklam verirken küçük modelinin reklamını verir.

 REGRESYON: “Ev sahibi olan, evli, aynı iş yerinde beş yıldan fazladır çalışan, geçmiş kredilerinde geç ödemesi bir ayı geçmemiş bir erkeğin kredi skoru 825’dir.”Başvuru skorlamada (application scoring) bir finans kurumuna kredi için başvuran kişi ile ilgili finansal güvenilirliğini notlayan örneğin 0 ile 1000 arasında bir skor hesaplanır. Bu skor kişinin özellikleri ve geçmiş kredi hareketlerine dayanılarak hesaplanır.

 ZAMAN İÇİNDE SIRALI ÖRÜNTÜLER: “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla kanuni takibe gidiyor.”Davranış skoru (behavioral score), başvuru skorundan farklı olarak kredi almış ve taksitleri ödeyen bir kişinin sonraki taksitlerini ödeme/geciktirme davranışını notlamayı amaçlar.

 BENZER ZAMAN SIRALARI: “X şirketinin hisse fiyatları ile Y şirketinin hisse fiyatları benzer hareket ediyor.”Amaç zaman içindeki iki hareket serisi arasında bağıntı kurmaktır. Bunlar örneğin iki malın zaman içindeki satış miktarları olabilir. Örneğin dondurma satışları ile kola satışları arasında pozitif, dondurma satışları ile sahlep satışları arasında negatif bir bağıntı beklenebilir.

 İSTİSNALAR (FARK SAPTANMASI): “Normalden farklı davranış gösteren müşterilerim var mı?”Amaç önceki uygulamaların aksine kural bulmak değil, kurala uymayan istisnai hareketleri bulmaktır. Bu da örneğin olası sahtekarlıkların saptanmasını (fraud detection) sağlar. Örneğin Visa kredi kartı için yapılan CRIS sisteminde bir yapay sinir ağı kredi kartı hareketlerini takip ederek müşterinin normal davranışına uymayan hareketler için müşterinin bankası ile temasa geçerek müşteri onayı istenmesini sağlar.

 DÖKÜMAN MADENCİLİĞİ: “arşivimde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?”Amaç dökümanlar arasında ayrıca elle bir tasnif gerekmeden benzerlik hesaplayabilmektir (text mining). Bu genelde otomatik olarak çıkarılan anahtar sözcüklerin tekrar sayısı sayesinde yapılır.

Page 13: What is a Datawarehouse ?