HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI...

165
I T.C. Ġstanbul Üniversitesi Sosyal Bilimler Enstitüsü ĠĢletme Anabilim Dalı Sayısal Yöntemler Bilim Dalı Doktora Tezi HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI ĠLE DEĞĠġKEN SEÇĠMĠ VE TAHMĠNLEME: MENKUL KIYMET YATIRIM KARARLARINA ĠLĠġKĠN BĠR UYGULAMA Oğuz Akbilgiç 2502050244 DanıĢman: Prof.Dr. Mehmet Erdal Balaban Ġkinci DanıĢman: Prof.Dr. Hamparsum Bozdoğan Ġstanbul, 2011

Transcript of HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI...

I

T.C.

Ġstanbul Üniversitesi

Sosyal Bilimler Enstitüsü

ĠĢletme Anabilim Dalı

Sayısal Yöntemler Bilim Dalı

Doktora Tezi

HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI ĠLE

DEĞĠġKEN SEÇĠMĠ VE TAHMĠNLEME: MENKUL

KIYMET YATIRIM KARARLARINA ĠLĠġKĠN BĠR

UYGULAMA

Oğuz Akbilgiç

2502050244

DanıĢman: Prof.Dr. Mehmet Erdal Balaban

Ġkinci DanıĢman: Prof.Dr. Hamparsum Bozdoğan

Ġstanbul, 2011

II

III

ÖZ

Radyal Tabanlı Fonksiyon Ağları, kullandıkları özel bir tür aktivasyon

fonksiyonu nedeniyle yapay sinir ağlarının özel bir biçimi olarak

değerlendirilmektedir. Radyal tabanlı fonksiyonlar olarak adlandırılan bu özel

fonksiyonlar, modelin girdi uzayının farklı bölgelerinde saklı olan farklı yapıların

modellenmesine imkan vermektedir. Diğer taraftan radyal tabanlı fonksiyon ağları

modelinde, gizli katman nöron sayısının deneme yanılma yolu ile belirlenmesi,

merkez ve yayılım parametrelerinin uzun zaman alabilen iteratif yöntemlerle

belirlenmesi ve tasarım matrisinin tekilliği gibi sorunlar ortaya çıkmaktadır.

Bağımsız değişkenlerinin hangilerinin bağımlı değişken ile ilişkili olduğunun

belirlenememesi ise radyal tabanlı fonksiyon ağlarının eksikliklerinden biridir. Bu

çalışmada radyal tabanlı fonksiyon ağları sözü edilen sorun ve eksikliklere çözüm

getirecek şekilde uygun istatistik yöntemlerle entegre edilerek, Hibrit Radyal Tabanlı

Fonksiyon Ağları modeli oluşturulmuştur. Oluşturulan Hibrit Radyal Tabanlı

Fonksiyon Ağının performansı ve geçerliliği, İMKB Ulusal 100 endeksinin yönünün

belirlenmesi üzerine bir çalışma ile test edilmiştir.

IV

ABSTRACT

Radial Basis Function Networks are one of the sub division of artificial

neural networks with their special activation functions called radial basis functions.

These functions allow us to model the patterns hidden in the different locations of

input space. On the other hand, defining the number of neuron in hidden layer by

method of trial and error, finding the center and radius parameters using iterative

learning methods, and the singularity of design matrix are are common problems in

radial basis function networks modeling. However, not to being able to define which

variables are correlated with dependent variable is another problem with radial basis

function networks. In this study, we constructed a Hybrid Radial Basis Function

Network model to handle the problems mentioned. The performance of Hybrid

Radial Basis Function Network model is tested by a case study on forecasting the

direction of movement of Istanbul Stock Exchange National 100 index.

V

ÖNSÖZ

Yapay Zeka, bilim dünyasında son 60 yılın en popüler konularından birisidir. Yapay

zekanın bir çok alt çalışma kolu olmakla beraber Yapay Sinir Ağları, yapay zekanın

lokomotifi olmuş bir sahadır. Klasik istatistik yöntemlere alternatif çözümler

üretebilen yapay sinir ağlarının da kendi içinde birçok türü vardır. Bu türlerden birisi

olan Radyal Tabanlı Fonksiyon Ağları, özellikle sınıflandırma ve tahminleme

problemlerine başarı ile uyarlanmaktadır. Klasik istatistik yöntemlere göre daha az

varsayıma sahip olmaları nedeniyle gerçek hayat problemlerinin çözümüne oldukça

uygun olmakla beraber bu ağlar, bazı dezavantajlara da sahiptir. Bu dezavantajların

başında eldeki veriye en iyi uyum gösterecek ağ mimarisinin deneme yanılma yolu

ile belirlenmesi yer almaktadır. Dolayısıyla her zaman elde edilen çözümden daha iyi

bir çözüm olabileceği varsayılmaktadır. Diğer taraftan en uygun ağ parametrelerinin

belirlenmesi aşaması olan öğrenme, genellikle çok zaman alan, işlem yüküne neden

olan ve yerel en iyi çözüme takılması olası iteratif algoritmalar ile gerçekleştirilir. Ağ

parametrelerinin başlangıç değerlerinin rastgele olarak belirlenmesi de, en iyi ağın

bulunuşunun rastlantısallık içermesine neden olur. Ayrıca oluşturulan ağın parametre

değerleri, bağımsız değişkenler arasından hangilerinin en iyi olduğu ile ilgili bilgi

içermemektedir.

Bu çalışmada radyal tabanlı fonksiyon ağları modeli ile ilgili ifade edilen

problemler ve eksiklikler ele alınarak, bu sorunlara çözümler geliştirilmesi

amaçlanmıştır. Bu bağlamda, ağ mimarisini ve aktivasyon fonksiyonlarına ait

parametreleri belirlemek için Regresyon Ağaçları, ağırlık parametrelerini belirlemek

için Ridge Regresyon, bağımlı değişken üzeride etkili olan girdi değişkenlerini

belirlemek içinse Bilgi Kriterleri ve Genetik Algoritma yöntemleri, Radyal Tabanlı

Fonksiyon Ağları ile entegre edilerek sözü edilen sorunların üstesinden gelecek hibrit

bir model oluşturulmuştur. Hibrit Radyal Tabanlı Fonksiyon Ağları olarak

adlandırdığımız modelin geçerliliği öncelikle benzetim verisi üzerinde test edilmiştir.

Ayrıca modelin gerçek veriler üzerindeki geçerliliği, İMKB Ulusal 100 Endeks

yönünün tahmini üzerine yapılan bir uygulama ile sınanmıştır.

VI

Bu çalışmanın her aşamasında bilgi ve tecrübelerini benimle paylaşan

danışman hocam Prof.Dr. Mehmet Erdal Balaban‟a teşekkür ederim. Ayrıca beni

University of Tennessee‟de bir yıl süreyle misafir eden ve bu süreçte gerek verdiği

fikirlerle tezimi şekillendiren gerekse sağladığı kaynaklarla tez çalışmalarımı

hızlandıran ve kolaylaştıran eş danışman hocam Prof.Dr. Hamparsum Bozdoğan‟a

teşekkürü bir borç bilirim.

Tezimin finans uygulamasında her zaman fikirlerini benimle paylaşan Dr.

Ebru Demirci‟ye, tezimin yazım kısımlarının gözden geçirilmesinde desteklerini

esirgemeyen arkadaşlarım Dr. Eylem Deniz Howe, Dr. Seda Tolun ve Dr. Elif Ünal

Çoker‟e Matlab programı ile ilgili verdiği destekler için Dr. John Andrew Howe‟a

teşekkür ederim.

Verdikleri burslar ile tez çalışmamın bir yılını ABD‟de sürdürebilmemi

sağlayan başta TÜBİTAK olmak üzere YÖK ve İstanbul Üniversitesi‟ne

teşekkürlerimi sunarım.

Son olarak çok severek yaptığım akademisyenlik mesleğini bana kazandıran

hocam Prof.Dr. Nalan Cinemre‟ye ve geldiğim her noktada benden çok emekleri

olan ailem Nurten, Ahmet ve Fatih Akbilgiç‟e sonsuz teşekkürlerimi sunarım.

Oğuz Akbilgiç

Haziran 2011

VII

ĠÇĠNDEKĠLER

ÖZ ......................................................................................................... III

ABSTRACT .......................................................................................... IV

ÖNSÖZ ................................................................................................... V

ĠÇĠNDEKĠLER .................................................................................. VII

KISALTMALAR LĠSTESĠ ............................................................... XII

ġEKĠLLER LĠSTESĠ ....................................................................... XIII

TABLOLAR LĠSTESĠ ....................................................................... XV

GĠRĠġ ....................................................................................................... 1

BÖLÜM 1 YAPAY ZEKA ................................................................. 4

1.1 Yapay ZekaYaklaşımları .............................................................................. 4

1.1.1 İnsan Gibi Davranmak: Turing Testi Yaklaşımı ................................... 5

1.1.2 İnsan Gibi Düşünmek: Bilimsel Modelleme Yaklaşımı ....................... 5

1.1.3 Rasyonel Düşünme: Düşünce Kanunları Yaklaşımı ............................. 6

1.1.4 Rasyonel Davranmak: Rasyonel Ajan Yaklaşımı ................................. 6

1.2 Yapay Zeka Çalışmalarının Tarihçesi .......................................................... 8

1.3 Yapay Zekanın Alt Çalışma Alanları ......................................................... 10

1.3.1 Uzman Sistemler ................................................................................. 10

1.3.2 Bulanık Mantık ................................................................................... 11

1.3.3 Yapay Sinir Ağları .............................................................................. 12

1.3.4 Genetik Algoritma ............................................................................... 13

BÖLÜM 2 YAPAY SĠNĠR AĞLARI .............................................. 14

2.1 Yapay Sinir Ağlarının Kullanım Alanları .................................................. 17

2.2 Biyolojik Sinir Sistemi ve İşleyişi .............................................................. 18

VIII

2.3 Yapay Sinir Ağlarının Genel Yapısı .......................................................... 19

2.4 Yapay Sinir Ağlarının Bileşenleri .............................................................. 20

2.4.1 Katmanlar ............................................................................................ 20

2.4.2 Bağlantılar ........................................................................................... 22

2.4.3 Aktivasyon Fonksiyonları ................................................................... 22

2.5 Yapay Sinir Ağı Modelleri ve Öğrenme Algoritmaları .............................. 23

2.5.1 Hebb Kuralı ......................................................................................... 23

2.5.2 Perseptron ............................................................................................ 24

2.5.3 Delta Kuralı ......................................................................................... 30

2.5.4 Sezgisel Optimizasyon Algoritmaları ile Öğrenme ............................ 34

2.6 Yapay Sinir Ağlarının Avantajları ve Dezavantajları ................................ 34

2.7 Radyal Tabanlı Fonksiyon Ağları .............................................................. 36

BÖLÜM 3 HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI

........................................................................................... 37

3.1 Radyal Tabanlı Fonksiyon Ağları .............................................................. 37

3.2 Radyal Tabanlı Fonksiyon Ağlarının Yapısı .............................................. 39

3.3 Radyal Tabanlı Fonksiyonlar ..................................................................... 42

3.4 Radyal Tabanlı Fonksiyon Ağlarında Öğrenme .......................................... 46

3.4.1 Radyal Tabanlı Fonksiyonların c ve r Parametrelerinin Belirlenmesi 46

3.4.2 Radyal Tabanlı Fonksiyonların w Bağlantı Ağırlıklarının Belirlenmesi 50

3.5 RTFA ile Diğer Çok Katmanlı Yapay Sinir Ağlarının Karşılaştırılması ... 52

3.6 Radyal Tabanlı Fonksiyon Ağlarında Mevcut Sorunlar ve Eksiklikler ..... 52

3.7 Hibrit Radyal Tabanlı Fonksiyon Ağları .................................................... 53

BÖLÜM 4 REGRESYON AĞAÇLARI ......................................... 57

4.1 Regresyon Ağaçlarının Yapısı .................................................................... 58

IX

4.2 Regresyon Ağaçlarının Oluşturulması ....................................................... 59

4.3 Ayırma Kuralları ........................................................................................ 61

4.3.1 En Küçük Kareler Kuralı .................................................................... 61

4.3.2 En Küçük Mutlak Sapma Kuralı ......................................................... 62

4.4 Regresyon Ağaçlarının Budanması ............................................................ 62

4.5 Regresyon Ağaçlarında Maliyetler ............................................................. 63

4.5.1 Açıklayıcı Değişken Sayısı ve Yanlış Sınıflandırmaya Bağlı Maliyetler 63

4.5.2 Ağaç Karmaşıklığı Maliyeti ................................................................ 63

4.6 Regresyon Ağaçlarının Hibrit Radyal Tabanlı Fonksiyon Ağlarına Entegre

Edilmesi ................................................................................................................ 64

BÖLÜM 5 RĠDGE REGRESYON .................................................. 66

5.1 Çoklu Doğrusal Regresyon ........................................................................ 66

5.1.1 En Küçük Kareler Kestirimi ................................................................ 69

5.1.2 Çoklu Doğrusal Regresyon Modelinin Varsayımları .......................... 70

5.2 Ridge Regresyon ........................................................................................ 73

5.2.1 Varlık Teoremi .................................................................................... 75

5.2.2 Ridge Kestiricisinin Özellikleri .......................................................... 76

5.2.3 Genellestirilmiş Ridge Regresyon ....................................................... 77

5.3 En İyi Ridge Sabitinin Belirlenmesi ........................................................... 77

5.3.1 Ridge İzi Diyagramı ............................................................................ 77

5.3.2 Ridge Sabitinin Belirlenmesinde Kullanılan Diğer Yöntemler .......... 78

5.4 Hibrit RTFA Modelinde Ridge Regresyonun Kullanımı ........................... 80

BÖLÜM 6 DEĞĠġKEN SEÇĠMĠ ..................................................... 82

6.1 Uyum İyiliği ve Bilgi Ölçümü .................................................................... 84

6.1.1 Entropi ................................................................................................. 84

X

6.1.2 Kullback-Leibler Uzaklığı .................................................................. 84

6.1.3 Fisher Bilgi Matrisi ............................................................................. 86

6.2 Akaike-Tipi Değişken Seçim Kriterleri ...................................................... 87

6.2.1 Akaike Bilgi Kriteri ............................................................................. 88

6.2.2 Schwartz Bilgi Kriteri ......................................................................... 89

6.2.3 Tutarlı Akaike Bilgi Kriteri (CAIC) ................................................... 90

6.2.4 Fisher Bilgi Matrisine Dayalı Tutarlı Akaike Bilgi Kriteri ( CAICF) 90

6.3 ICOMP Tipi Değişken Seçim Kriterleri ..................................................... 91

6.4 AIC-Tipi Kriterler ile ICOMP-Tipi Kriterlerin Karşılaştırılması .............. 94

6.5 En İyi Model Değişkenlerinin Genetik Algoritma ile Belirlenmesi ........... 95

6.5.1 Genetik Algoritma ............................................................................... 95

6.5.2 Genetik Algoritmanın Yapısı 96

6.5.3 Genetik Algoritmanın Parametreleri ................................................... 97

6.5.4 Hibrit RTFA Modelinde Değişken Seçimi Problemi için Genetik

Algoritma ........................................................................................................ 102

BÖLÜM 7 UYGULAMA ................................................................ 103

7.1 Hibrit RTFA Modeli için MATLAB Kullanıcı Arayüzü .......................... 103

7.2 Benzetim Verisi için Uygulama ............................................................... 107

7.2.1 Benzetim Verisi için Uygun Radyal Tabanlı Fonksiyonun Seçimi .. 109

7.2.2 Değişken Seçimi ................................................................................ 111

7.2.3 Benzetim Verisi için Tahminleme .................................................... 112

7.2.4 Benzetim Çalışmasının Sonuçları ..................................................... 115

7.3 Hibrit RTFA Modeli ile İMKB Ulusal 100 Endeks Yönünün Tahmini ... 115

7.3.1 Değişkenlerin Belirlenmesi ............................................................... 116

7.3.2 Verilerin Analiz için Hazırlanması ................................................... 119

7.3.3 İMKB Ulusal 100 Endeksi İçin Değişken Seçimi ............................ 120

XI

7.3.4 İMKB Ulusal 100 Endeksinin Yönünün Tahmini ............................ 122

7.3.5 Çapraz Doğrulama ile Model Tutarlılığının Kontrolü ...................... 131

7.3.6 İMKB Ulusal 100 Endeks Yönü Tahmini Uygulama Sonuçların

Yorumlanması ................................................................................................. 133

SONUÇ VE ÖNERĠLER ................................................................... 135

KAYNAKÇA ...................................................................................... 137

ÖZGEÇMĠġ ........................................................................................ 150

XII

KISALTMALAR LĠSTESĠ

AIC : Akaike Bilgi Kriteri

BIC : Schwartz Bilgi Kriteri

BM : Bulanık Mantık

CAIC : Tutarlı Akaike Bilgi Kriteri

CAICF : Fisher Bilgisine Dayalı Tutarlı Akaike Bilgi Kriteri

ÇDB : Çoklu Doğrusal Bağlantı

ÇDR : Çoklu Doğrusal Regresyon

EKK : En Küçük Kareler

GA : Genetik Algoritma

GÇD : Genelleştirilmiş Çapraz Doğrulama

ICOMP : Bilgi Karmaşıklığı

IFIM : Ters Fisher Bilgi Matrisi

RA : Regresyon Ağaçları

RR : Ridge Regresyon

RTF : Radyal Tabanlı Fonksiyon

RTFA : Radyal Tabanlı Fonksiyon Ağları

SBC : Schwartz Bilgi Kriteri

US : Uzman Sistemler

VIF : Varyans Artış Faktörü

YSA : Yapay Sinir Ağları

YZ : Yapay Zeka

XIII

ġEKĠLLER LĠSTESĠ

Şekil 2-1 Nöron Genel Görünümü ve Nöronu Oluşturan Birimler (Fraser, 1998, s. 1)

.................................................................................................................................... 18

Şekil 2-2Bir yapay sinir ağının genel görünümü ....................................................... 20

Şekil 2-3 Tek katmanlı perseptron örneği .................................................................. 25

Şekil 2-4 İki girdi ve bir çıktılı perseptron ................................................................. 25

Şekil 2-5 AND, OR ve XOR problemleri için karar düzlemleri (Nascimento, 1994) 28

Şekil 2-6 m girdi ve n çıktılı tek katmanlı bir yapay sinir ağı (Fuller 2000, 174) ..... 32

Şekil 3-1 İki kategorili sınıflandırma problemi .......................................................... 38

Şekil 3-2 Boyut yükseltme yolu ile doğrusal ayrıştırılabilirlik .................................. 39

Şekil 3-3 RTFA Mimarisi .......................................................................................... 40

Şekil 3-4 Radyal Tabanlı Fonksiyonlar (c=0.5 ve r=0.2) .......................................... 43

Şekil 3-5 İki girdili bir RTFA mimarisinde RTF'lerin görünümü ............................. 44

Şekil 3-6 Aşırı Uyum ve Yetersiz Öğrenme Örneği .................................................. 45

Şekil 3-7 Karar Ağaçları ............................................................................................ 49

Şekil 3-8 Aşırı belirli model örneği (Bozdogan H. , 2007, s. 17) .............................. 51

Şekil 3-9 Hibrit Radyal Tabanlı Fonksiyon Ağı ........................................................ 56

Şekil 4-1 Örnek Regresyon Ağacı Gösterimi ............................................................ 58

Şekil 4-2 Regresyon Ağacının Dikdörtgenler Yardımı ile Gösterimi ........................ 59

Şekil 5-1 Ridge İzi Diyagramı (Bjorksrtrom, 2001, s. 8)........................................... 78

Şekil 6-1 Tek nokta çaprazlaması ............................................................................ 100

Şekil 6-2 İki nokta çaprazlaması .............................................................................. 100

Şekil 7-1 Hibrit RTFA kullanıcı arayüzü karşılama ekranı ..................................... 104

Şekil 7-2 Hibrit RTFA modeli ile değişken seçimi arayüzü .................................... 105

Şekil 7-3 Hibrit RTFA modeli ile tahminleme için kullanıcı arayüzü ..................... 106

Şekil 7-4 Benzetim verisi uygulaması için akış diyagramı ...................................... 108

Şekil 7-5 Bağımlı değişken ve doğru bağımsız değişkenler arasındaki ilişki .......... 109

Şekil 7-6 Eğitim veri kümeleri için tahminlenen ve gözlenen değerler ................... 114

Şekil 7-7 Test veri kümeleri için tahminlenen ve gözlenen değerler ....................... 114

XIV

Şekil 7-8 Endeks yönü tahmini uygulaması için akış diyagramı ............................. 118

Şekil 7-9Tahmin dönemi boyunca Hibrit RFTA modeli ile verilen al-sat kararları ve

IMKB100 endeksinin seyri ...................................................................................... 128

XV

TABLOLAR LĠSTESĠ

Tablo 2-1 Örnek Aktivasyon Fonksiyonları .............................................................. 23

Tablo 2-2 AND, OR ve XOR problemlerinin girdi ve çıktı değerleri ....................... 28

Tablo 3-1 Hibrit RTFA modeli bileşenlerinin işlevleri.............................................. 55

Tablo 6-1 Genetik Algoritma Parametreleri .............................................................. 97

Tablo 6-2 Göze Genişlikleri ....................................................................................... 99

Tablo 6-3 Bireylerin Alt ve Üst Seçim Aralıkları ...................................................... 99

Tablo 7-1 Farklı örneklem büyüklüğü ve radyal tabanlı fonksiyonlar için doğru

değişken seçim yüzdeleri ......................................................................................... 110

Tablo 7-2 Farklı Örneklem Büyüklüğü ve Radyal Tabanlı Fonksiyonlar için Doğru

Model Seçim Yüzdeleri............................................................................................ 111

Tablo 7-3 Çapraz doğrulama sonuçları .................................................................... 113

Tablo 7-4 Modelde kullanılan endeksler.................................................................. 118

Tablo 7-5 Değişken seçimi için model parametreleri .............................................. 120

Tablo 7-6 Değişken Seçimi Sonuçları...................................................................... 121

Tablo 7-7 Değişken Seçimi Sonucu Oluşan Modeller ............................................. 122

Tablo 7-8 Yapılan Tahminlerin ele alınan 7 model üzerinden ortalamaları ............ 124

Tablo 7-9 Tüm Modeller ve Eğitim veri kümesi büyüklükleri üzerinden ortalamalar

.................................................................................................................................. 125

Tablo 7-10 Tüm eğitim veri kümesi büyüklükleri ve RTF‟lar üzerinden ortalamalar

.................................................................................................................................. 126

Tablo 7-11 Model 2 için 200 işlem günlük tahmin .................................................. 127

Tablo 7-12 20 işlem günlük tahminler için yatırımın seyri...................................... 129

Tablo 7-13 En iyi model için çapraz doğrulama sonuçları ...................................... 132

1

GĠRĠġ

Yapay Sinir Ağları, insana özgü düşünce ve öğrenme sisteminin taklit

edilerek, mevcut verilerden öğrenen ve daha önce karşılaşılmamış durumlarda uygun

çıktılar üretecek şekilde yapılandırılan modellerdir. Bu özelliği ile bir yapay zeka

türü olan yapay sinir ağları, insan sinir sisteminin bilgisayar ortamındaki benzetimi

olarak değerlendirilebilir. Yapay sinir ağları, özellikle bağımlı ve bağımsız

değişkenler arasındaki doğrusal olmayan matematiksel ilişkilerin modellenmesinde

kullanılmaktadır. Bu bağlamda yapay sinir ağları, tahminleme, sınıflandırma,

kümeleme, sinyal işleme, görüntü ve ses tanıma v.b. birçok alanda başarıyla

uygulanabilmektedir.

İleri beslemeli yapıda bir tür yapay sinir ağı olan Radyal Tabanlı Fonksiyon

Ağları ise özellikle sınıflandırma ve tahminleme problemlerinde kullanılmaktadır.

Radyal tabanlı fonksiyon ağları, klasik istatistik yöntemlere göre daha az varsayıma

sahip olmaları nedeniyle gerçek hayat problemlerine daha kolay uyum

sağlamaktadır. Diğer taraftan her yöntemde olduğu gibi radyal tabanlı fonksiyon

ağlarında da karşılaşılan sorunlar ve eksiklikler vardır. Bu sorunların en

önemlilerinden biri, gizli katman nöron sayısının deneme yanılma yolu ile

belirlenmesidir. Ayrıca gizli katman nöronlarında kullanılan radyal tabanlı

aktivasyon fonksiyonlarının merkez ve yarıçap parametrelerinin öğrenilmesi,

oldukça zaman ve işlem yükü getiren iteratif algoritmalarla gerçekleştirilmektedir.

Bu zaman ve işlem yükünün göze alındığı durumlarda bile daha iyi bir parametre

kombinasyonunun var olmadığı garanti değildir. Diğer taraftan ağırlık değerlerinin

doğrusal regresyon ile öğrenilmesi aşamasında sıklıkla tekillik sorunu ortaya

çıkmaktadır.

Radyal tabanlı fonksiyon ağlarının yukarıda ifade edilen sorunlarının yanında

diğer bir önemli eksikliği, model parametrelerinin, bağımsız değişkenlerden

hangilerinin bağımlı değişken üzerinde daha etkili olduğu konusunda bilgi

2

içermemesidir. Bu bağlamda model karmaşıklığını azaltacak bir bileşenin eksikliği

söz konusudur.

Bu çalışmada radyal tabanlı fonksiyon ağları, sözü edilen sorunları ve

eksiklikleri açısından ele alınarak daha sağlam bir hibrit model ortaya konulması

amaçlanmıştır. Buradan hareketle Bölüm 1 ve Bölüm 2‟de sırasıyla yapay zeka ve

ileri beslemeli yapay sinir ağları üzerinde durularak radyal tabanlı fonksiyon ağları

için bir altyapı oluşturulmuştur. Sözü edilen sorunlara çözüm olacak şekilde öne

sürülen Hibrit Radyal Tabanlı Fonksiyon Ağları Bölüm 3‟te tanıtılmıştır. Ayrıca

modelde kullanılan diğer yöntemlerin detaylı açıklamasına ise Bölüm 3‟ü takip eden

bölümlerde yer verilmiştir.

Radyal tabanlı fonksiyonlarda, gizli katman nöron sayısının ve aktivasyon

fonksiyonlarının merkez ve yarıçap parametrelerinin belirlenmesi sorunlarını çözmek

üzere modele Regresyon Ağaçları entegre edilmiştir. Bu bağlamda öncelikle girdi

uzayı, hiper-dikdörtgenlerden oluşan alt uzaylara ayrılmaktadır. Daha sonra girdi

uzayındaki her bir hiper-dikdörtgene gizli katmanda bir nöron karşılık getirilerek

gizli katman nöron sayısı belirlenmektedir. Ayrıca her bir hiper-dikdörtgenin merkez

koordinatları ve bu merkeze kenarların uzaklık bilgileri, karşılık getirilen gizli

katman nöronundaki aktivasyon fonksiyonunun merkez ve yarıçap parametrelerinin

belirlenmesinde kullanılmaktadır. Bu bağlamda Bölüm 4, Regresyon Ağaçlarının

detaylı açıklanmasına ayrılmıştır. Ağırlık parametrelerinin doğrusal regresyon ile

öğrenilmesinde karşılaşılan tekillik sorunu ise bu aşamada Ridge Regresyon

kullanılarak aşılmıştır. Ridge Regresyon yönteminin detaylarına Bölüm 5‟te yer

verilmiştir.

Radyal tabanlı fonksiyon ağlarının bağımsız değişkenlerden hangilerinin

bağımlı değişken üzerinde etkili olduğunu belirleyememesi noktasındaki eksiklik,

bilgi kriterleri temelli değişken seçim kriterleri modelle entegre edilerek

giderilmiştir. Böylece radyal tabanlı fonksiyon ağlarının doğrusal olmayan

modelleme gücü ile bilgi kriterlerine dayalı kriterlerin değişken seçim yöntemlerinin

etkinliği birleştirilmiştir. Model karmaşıklığının indirgenmesinde oldukça etkin

olması beklenen bu birleşimin uygulamasında karşılaşılan eniyileme problemi ise

3

Genetik Algoritmalar ile gerçekleştirilmektedir. Bu bağlamda Bölüm 6‟da yer alan

Değişken Seçimi bölümünün içinde Genetik Algoritmalar konusuna da yer

verilmiştir.

Son olarak Bölüm 7, geliştirilen Hibrit Radyal Tabanlı Fonksiyon Ağının

değişken seçimi ve tahminleme açısından performansının test edilmesine ayrılmıştır.

Bu bağlamda öncelikle model performansı çok yüksek dereceden doğrusal olmayan

yapıda matematiksel ilişki barındıracak şekilde oluşturulmuş benzetim verisinde test

edilmiştir. Daha sonra modelin gerçek veri üzerindeki performansını test etmek

amacıyla İMKB Ulusal 100 endeksinin yönünün uluslararası endeks değerleri

kullanılarak tahmini üzerine bir uygulama gerçekleştirilmiştir. Çalışmada ortaya

konulan bulgular Sonuçlar ve Öneriler kısmında yer almakla beraber tüm çalışmanın

akışı aşağıdaki diyagram ile özetlenmektedir.

YAPAY ZEKA

ĠLERĠ BESLEMELĠ YAPAY SĠNĠR AĞLARI

HĠBRĠT RADYAL TABANLI

FONKSĠYON AĞLARI

RADYAL

TABANLI

FONKSĠYON

AĞLARI

REGRESYON

AĞAÇLARI

DEĞĠġKEN

SEÇĠMĠ VE

GENETĠK

ALGORTĠMA

ĠMKB ULUSAL 100 ENDEKS YÖNÜ TAHMĠNĠ

RĠDGE

REGRESYON

4

BÖLÜM 1 YAPAY ZEKA

İnsanoğlu tarih boyunca hayatını kolaylaştıracak icatlar peşinde koşmuştur.

İnsanlık ilerledikçe icatlar gelişmiş, icatlar geliştikçe insanlık ilerlemiştir. Buluşların

ve icatların temel çıkış noktasını ise insanın ihtiyaçları oluşturmaktadır. Bu bağlamda

insan, bedeninin fiziksel veya zihinsel yönden sınırlarını alet, araç, makine vb.

teçhizatları geliştirerek sürekli genişletmiştir.

İnsan karar verme, muhakeme ve idrak etme gibi çok karmaşık işlemleri çok

kısa sürede yapabiliyorken, sayısal işlemlerde aynı başarıyı gösterememektedir.

Örneğin sabah camdan dışarıya bakarak, hava koşullarından bedeninin olumsuz

etkilenmesini engelleyecek kıyafetleri birkaç saniyede seçebilen insan beyni, dört

basamaklı iki sayının çarpılması işlemini aynı hızla yapamamaktadır. Bu bağlamda

hesap makineleri, insanın eksik olan bu özelliğine destek olmak üzere geliştirilmiş

ilk bilgisayarlar olarak kabul edilmektedir. Günümüz bilgisayarları çok karmaşık

matematiksel işlemleri bile saliselerle ölçülebilecek kadar kısa sürelerde

yapabilmektedir. Ancak bilgisayarların bu işlem kapasitesi, kullanıcı tarafından

verilen talimatları gerçekleştirmekle sınırlıdır. İnsana ait olan, içinde bulunulan

durumu idrak etme ve buna göre karar verme işlemlerini bilgisayarlar ancak daha

önceden tanımlanmış sınırlı sayıda durum içinden seçim yapmak suretiyle

gerçekleştirebilmektedir. Bu yönü ile bilgisayarlar insan beyninin çok gerisindedir.

Yapay Zeka (Artificial Intelligence) kavramı, bilgisayarların bu eksikliğini gidermek

üzere ortaya atılmıştır. Temelinde, insan gibi düşünebilen, yorum yapabilen ve karar

verebilen sistem ve algoritmaların geliştirilmesi vardır.

1.1 Yapay ZekaYaklaĢımları

Yapay Zeka (YZ), son 60 senedir bilim adamlarının dikkatini yoğunlaştırdığı

başlıca konulardan birisi haline gelmiştir. Genel olarak amacı, insan düşünce yapısını

anlayarak bunun benzerini ortaya koyacak bilgisayar işlemlerini gerçekleştirmek,

diğer bir ifade ile insan gibi düşünebilen bilgisayar teknolojisini yaratmaktır.

Literatürde Yapay Zeka ile ilgili birçok tanım yer almaktadır. Heugeland

5

(1985, s. 2) yapay zekayı “Makineleri düşünebilir hale getirmek için heyecan verici

bir çaba… Yani tam anlamıyla, akıllı makineler.” şeklinde tanımlamaktadır. Luger

(2009, s. 1) ise yapay zeka için “Bilgisayar biliminin, zeki davranışların

otomasyonunu konu edinen alt kolu” tanımını vermektedir. Bu tanımların temelinde

insan gibi düşünme, insan gibi davranma, rasyonel düşünme ve rasyonel davranma

kavramları yatmaktadır. İfade edilen bu kavramların her biri aynı zamanda yapay

zeka çalışmalarının amaçlarına göre alt kollarını da ifade etmektedir. Bu alt çalışma

kolları takip eden kısımda daha ayrıntılı incelenmiştir.

1.1.1 Ġnsan Gibi Davranmak: Turing Testi YaklaĢımı

Alan Turing (1950) tarafından önerilen Turing Testi, zekanın tatmin edici

işlemsel tanımını vermektedir. Turing, bir makinenin zeki olup olmadığının

anlaşılabilmesi için bir deney önermektedir. Turing Testi olarak adlandırılan bu

deneye göre bir makine kendisine soru soran bir insana verdiği cevaplarla kendisinin

bir insan sanılmasını başarabiliyorsa, zeki bir makine olarak adlandırılır (Turing,

1950). Günümüzde bile böyle bir testi geçebilecek bir program yazmak, üzerinde

çalışılmaya değer bir konudur. Böyle bir bilgisayar aşağıda belirtilen özelliklere

sahip olmalıdır.

Doğal Dil ĠĢleme: İletişim kuracağı insanın dilini düzgün şekilde

konuşabilmek.

Bilgi Gösterimi: Sorgu öncesinde veya sorgu sırasında üretilen bilgiyi

saklayabilmek.

Muhakeme: Sorulan soruyu cevaplayabilmek ve yeni görüşler öne sürebilmek

üzere depolanan bilgiyi kullanabilmek.

Makine Öğrenmesi: Yeni durumlara adapte olabilmek ve daha önce görmüş

olduğu bir örnekle karşılaştığında bunu belirleyebilmek ve tahmin yürütebilmek.

1.1.2 Ġnsan Gibi DüĢünmek: Bilimsel Modelleme YaklaĢımı

Verilen bir programın insan gibi düşündüğünün söylenebilmesi için insan

düşünce sisteminin bazı yönlerinin bilinmesi ve insan beyninin çalışma prensibinin

incelenmesi gerekmektedir. Bunu gerçekleştirmenin iki yolu vardır. Bunlardan

6

birincisi, kendi düşünce ve duygularımızın izlenmesi, ikincisi ise psikolojik

deneylere başvurulmasıdır. Öncelikle, teoriyi bilgisayar programına dönüştürebilecek

insan aklına sahip olunması gereklidir. Örneğin, bir yapay zeka programı olan Genel

Problem Çözücüyü geliştiren Newell ve Simon (1961), programlarının problemi

doğru bir şekilde çözme başarısından çok programlarının problem çözmede izlediği

yol ile benzer bir problemi çözen insanın izlediği yol arasındaki benzerliklere

odaklanmışlardır.

1.1.3 Rasyonel DüĢünme: DüĢünce Kanunları YaklaĢımı

“Rasyonel düşünme” ilk defa Aristo tarafından aksi iddia edilemeyecek şekilde

bir sisteme bağlanmıştır. Aristo‟nun doğru düşünce sistemi, verilen doğru

önermelerden her zaman doğru çıkarımlar yapacak şekilde tasarlanmıştır. Bunun bir

örneği, “Sokrates bir erkektir ve tüm erkekler bir ölümlüdür. O zaman, Sokrates‟de

ölümlüdür.” önermesi ile verilebilir (Kodratof, 1988, p. 11). Aristo‟nun rasyonel

düşünce için tanımladığı bu kurallar, insan beyninin düşünce sistemi olarak kabul

edilir ve mantık biliminin temellerini oluşturur.

On dokuzuncu yüzyılın sonları ve yirminci yüzyılın başlarında modern mantık,

bilimin hemen her dalı için bir notasyon ortaya koymuştur. 1965‟li yıllarda, yeterli

zaman ve bellek sağlandığında, mantık operatörleri ile ifade edilebilmiş problemlerin

varsa çözümünü bulabilen programlar geliştirilmiştir. Yapay zekanın düşünce

kanunları yaklaşımı, bu tip zeki sistemler yaratmakla ilgilenir.

Yapay zekanın düşünce kanunları yaklaşımında iki temel zorluk vardır.

Bunlardan birincisi, formal olmayan bilgiyi mantık operatörlerinin kullanılabileceği

formal hale getirebilmektir. İkincisi ise bir problemi teorik olarak çözmek ile bunu

gerçek hayata uygulanması önündeki büyük zorluktur.

1.1.4 Rasyonel Davranmak: Rasyonel Ajan YaklaĢımı

Rasyonel davranmak, kişinin kendisini mevcut hedefine ulaştıracak

davranışları seçmesi olarak tanımlanmaktadır. Burada ajan, durumu algılayan ve ona

göre hareket belirleyen birimdir. Bu yaklaşımda yapay zeka, rasyonel bir ajan elde

etmenin bir aracı olarak görülür.

7

Yapay zekanın düşünce kanunları yaklaşımında sadece doğru çıkarsama yapma

üzerine odaklanılmaktadır. Doğru çıkarsama yapabilmek bazen rasyonel bir ajan

yaratmanın bir parçası olarak görülmektedir. Çünkü doğru çıkarsama yapabilmek, bir

kişinin hedefine ulaşması sürecinde uygulaması gerekenlerden sadece birisidir. Diğer

taraftan, doğru çıkarsama yapmak rasyonel olmak anlamına gelmez. Çünkü bazen

öyle durumlar vardır ki, bu durumda uygulanacak kanıtlanmış doğru bir davranış

şekli bulunmaz. Bununla birlikte, çıkarsama içermeyen rasyonel davranış biçimleri

de vardır. Örneğin, birinin elini sıcak sobadan refleks olarak aniden kaldırması,

mevcut durumu değerlendirip uygun çözüm yolları arasından elini kaldırmak

yönünde çıkarımda bulunması ve uygulamasından daha iyidir. Refleks de çıkarsama

da aynı sonucu üretmiştir, ancak çıkarsamaya başvuran kişinin eli artık yanmıştır.

Turing Testinin gerektirdiği tüm muhakeme yetenekleri rasyonel davranışı

bulmak içindir. Bu nedenle, hangi durumda ne yapılacağı bilgisini ifade edebilme

yeteneğine ihtiyaç duyulmaktadır. Çünkü bu yetenek, mevcut farklı durumlar

arasında doğru olanı seçme becerisini sağlamaktadır.

Yapay zekanın rasyonel ajan dizayn etme çalışmalarının iki önemli avantajı

bulunmaktadır. Bu avantajlardan ilki, düşünce kanunları yaklaşımından daha genel

olmasıdır. Çünkü doğru çıkarım sadece rasyonelliğe ulaşmanın mekanizmalarından

birisi olarak görülebilir ve gerekli değildir. İkincisi ise bilimsel gelişmelere katkı

açısından, insan gibi davranma ve insan gibi düşünme yaklaşımlarından daha önemli

olmasıdır. Çünkü rasyonelliğin standartları kesin çizgilerle belirlidir ve bilgisayara

anlatılması çok daha kolaydır. Ayrıca insan düşüncesi yaklaşımı, daha belirgin

durumlara uyarlanabilir niteliktedir ve genel sorunların çözümünde yetersiz

kalmaktadır (Russell & Norvig, 2009, s. 5).

Bu kısma kadar yapılan açıklamalardan anlaşılacağı gibi yapay zekanın temel

amacı, görüntü tanıma, dil ve konuşma işleme, planlama ve tahminleme gibi

genellikle akıllı insanlar tarafından yürütülen işleri makinelerin yapmasını

sağlayacak yöntem ve sistemler geliştirmek suretiyle, yaşayan organizmaları simüle

edebilecek bilgisayar bilgi sistemlerini geliştirmek ve insan beyninin işleyişi ile ilgili

bilgilerimizi arttırmaktır (Kasabov, 1998, s. 1).

8

1.2 Yapay Zeka ÇalıĢmalarının Tarihçesi

Yapay Zeka fikrinin izleri eski Mısır‟a kadar dayanıyor olsa da, makine zekası

kavramı, elektronik bilgisayarın geliştirilmesi ile ortaya çıkmıştır. 1941 yılında

Amerika ve Almanya‟da eş zamanlı olarak icat edilen bilgisayar, hafıza ve bilgi

işleme konusunda bilinenleri tamamıyla değiştirmiştir. İlk bilgisayarlar geniş ve

soğutmalı yerlere ihtiyaç duymakta ve bir programın çalışmasında bile ayrı ayrı

binlerce kablonun yeniden düzenlenmesini gerektirmekteyken, 1949 yılındaki

gelişmeler sayesinde bilgisayara program girilmesi daha kolay hale gelmiştir.

1955 yılının sonlarında Newel ve Simon, birçok bilim adamı tarafından ilk

yapay zeka programı olarak kabul edilen Mantık Teorisyeni1 adlı programı

geliştirmiştir. Her bir problemi bir ağaç diyagramı olarak ele alan program, problemi

doğru çözümü vermesi en olası dalları seçerek çözme esasına dayanmaktadır. Mantık

Teorisyeni, YZ alanındaki en önemli kilometre taşlarından birisi olarak tarihe

geçmiştir.

Modern Yapay Zeka biliminin temelleri ise, 1956 yazında Dartmooth

College‟da düzenlenen bir konferansta atılmıştır. Başta John McCarthy, Marvin

Minsky, Allen Newell ile MIT, CMU ve Stanford Üniversitesi‟ndeki yapay zeka

laboratuarlarının kurucusu olan Herbert Simon olmak üzere, bu konferansa katılan

kişiler on yıllarca yapay zeka çalışmalarının liderliğini yürütmüşlerdir. Bu konferansı

takip eden yedi yıl içerisinde yapay zeka çalışmaları büyük bir hız kazanmıştır. Bu

konferansta yapay zeka bir bilim dalı olarak henüz tanımlanmamış olmasına rağmen,

konferansta şekillenen fikirler üzerine çalışılarak büyük bir bilgi birikimi

sağlanmıştır. Konferansı takiben Carnegie Mellon ve MIT‟ de yapay zeka

araştırmaları merkezleri kurulmuş ve yeni fikirler ortaya çıkmaya başlamıştır.

Konferansa katılan kişiler ve onların öğrencileri, cebirdeki bazı problemleri çözen,

mantık teoremlerini ispatlayan ve İngilizce konuşan birçok program yazmışlardır. Bu

çalışmalar, 1960‟lı yılların ortalarında Amerika Savunma Departmanı tarafından da

desteklenmeye başlanmıştır.

1 Mantık Teorisyeni (Logic Theorist): Birçok mantık teoreminin ispatını, insana ait problem çözme

yöntemlerini taklit edecek şekilde yazılmış olan ilk yapay zeka programıdır.

9

O zaman için yeni bir program olan Genel Problem Çözücü1 (Newell, Shaw, &

Simon, 1959)‟nün ilk versiyonu 1957 yılında test edilmiştir. Genel problem

çözücüden birkaç yıl sonra IBM, yapay zeka çalışmaları yapmak üzere bir araştırma

grubu kurmuştur ve Herbert Gelerneter bu grupta, geometri teoremlerini çözecek bir

program üzerinde üç yıl boyunca çalışmıştır.

Farklı çalışma grupları tarafından birçok programın üretildiği sıralarda

McCharty, yapay zeka tarihinde devrim sayılacak bir çalışma ile meşgul olmuş ve

1958 yılında, günümüzde hala kullanılmakta olan LISP programlama dilini

tanıtmıştır.

1960‟lı yıllarda yapay zeka alanına olan yoğun ilgi ve ortaya koyulan

çalışmalar, bu alanda çalışan birçok bilim adamının yapay zeka çalışmalarında

karşılaşacakları zorlukları tahmin edememelerini de beraberinde getirmiştir. Bu

nedenledir ki, Simon (1965) ve Minsky (1967) gibi birçok bilim adamı yapay

zekanın geleceği ile hayale varan iyimserliğe kapılmış, 1980‟li yıllara gelindiğinde

yapay zeka yaratma probleminin tamamen çözülmüş olacağını ve makinelerin

insanın yapabildiği her işi yapabileceğini öngörmüşlerdir.

Yapay Zeka çalışmalarında diğer bir önemli gelişme, 1970‟lerde Uzman

Sistemlerin ortaya çıkması ile gerçekleşmiştir. Uzman Sistemler, belirli koşullar

altında alternatif bir çözümün seçilmesi olasılığını tahmin etmekte ve daha sonra

alternatif çözümlerden en yüksek olasılık değerini alan alternatifin problemin

çözümü olarak belirlenmesi esasına dayanmaktadır. Olasılıkların belirlenmesinde ise,

bu problemle karşılaşan bir uzman kişinin değerlendirme süreci ve değerlendirme

sürecinde tanımladığı kurallar uzman sisteme eğer-ise yapısı ile kodlanarak, benzer

problemde uzman sistemin, uzman kişi ile benzer çözüm bulması amaçlanmaktadır.

1980‟ler yapay zeka çalışmalarının artık özel sektör tarafından da yürütüldüğü

ve dolayısıyla çok büyük bir ivme kazandığı yıllar olmuştur. 1986 yılında ABD‟nin

1 Genel Problem Çözücü (General Problem Solver): Herbert Simon (1965) tarafından geliştirişmiş

olan ve matematiksel sembollerle ifade edilebilen cebir teoremlerini ve geometri problemlerini

çözebilecek şekilde yazılmış olan bir yapay zeka programıdır.

10

yapay zeka ile ilgili yazılım satışından kazancı $425 milyona ulaşmıştır. Aynı

dönemde Uzman Sistemlere ise etkin kullanımı nedeni ile özel bir talep olmuştur.

Digital Electronics, DuPont, General Motors ve Boing firmaları, uzman sistemleri

aktif olarak kullanmaya ve uzman sistemlere dayalı ürünler satmaya başlamışlardır.

Yapay zekanın alt çalışma alanlarından birisi olarak görülen ve belirsizlik

altında karar verme konusunda tek alternatif olarak görülen Bulanık Mantık ise ilk

olarak Lotfi Zadeh (1965) tarafından ortaya atılmıştır. Bulanık mantık esasına

dayanan teknolojilerin geliştirilmesi 1980‟lerin sonlarından itibaren Japonya‟da

başlamıştır. Bu tarihlerde yapay sinir ağları da yapay zekanın bir alt çalıma alanı

olarak yeniden ele alınmaya başlanmıştır. 1980‟li yıllar yirmi birinci yüzyılın anahtar

bilimi olan yapay zekanın ve yapay zeka ürünlerinin gerçek hayatla bütünleştiği ve

günümüze kadar devam eden sürecin başlangıcı sayılabilir.

1.3 Yapay Zekanın Alt ÇalıĢma Alanları

Yapay zeka çalışmaları, insanın taklit edilen özelliğine göre Uzman Sistemler,

Bulanık Mantık, Yapay Sinir Ağları ve Genetik Algoritmalar olmak üzere dört ana

başlıkta toplanabilir. Uzman Sistemler, bir konu üzerinde uzman olan insanların o

konu ile ilgili bilgi ve tecrübelerinin “eğer-ise” kuralları ile bilgisayara aktarılarak,

mevcut işin makine tarafından yapılmasını sağlamaktan ibarettir. Bulanık Mantık ile

bilgisayarın, matematikteki klasik mantık sistemi ile çalışan ve sınırları çok keskin

olan kararlar yerine, insan beyninin yaklaşımına daha yakın olan ve kararlar arasında

yumuşak geçiş esasına dayanan bir sistem ile çalışması sağlanır. İnsanın öğrenme,

tecrübe edinme ve karşılaştığı yeni durumlar karşısında karar verebilme özelliğinin

bilgisayarda modellenmesi de yapay sinir ağları çalışmaları kapsamındadır. Genetik

algoritmalar ise genellikle, insanı bugünkü varlığına ulaştıran evrim sürecinin

unsurlarından “doğal seçilimi” taklit eden eniyileme algoritmaları olarak

tanımlanabilir. Buradan hareketle sözü edilen yapay zeka alt çalışma alanları aşağıda

özetlenmiştir.

1.3.1 Uzman Sistemler

Edward Feigenbaum (1983) tarafından ortaya atılan Uzman Sistemler (US)

sınırlı bir alanda geniş bir veri tabanına sahip ve sadece o işin uzmanı tarafından

11

yapılabilecek bir işi, karmaşık dolaylı muhakeme yeteneği ile yapabilen bilgisayar

programlarıdır. Bu tanıma göre bir uzman sistem, yapay bir uzman olarak da

adlandırılabilir. Karar verme gibi çok geniş bir yelpazeye hitap etmesi nedeniyle tıp,

hukuk, eczacılık, mühendislik, işletmecilik gibi çok farklı disiplinlerde uygulama

alanı bulmuştur.

İnsan nasıl yaşamı boyunca sürekli yeni bilgiler edinmekte, zaman içerisinde

görüşlerini derinleştirmekte, değiştirmekte ve olgunlaştırmakta ise US‟de benzer

şekilde bilgi tabanını genişletebilmeli ve her yeni bilgi eklemesinde yeniden program

yazılmasını gerektirmemelidir. Bir sistemin uzman sistem olarak adlandırılabilmesi

için bu sistemin, kullanıcı hatalarını algılama ve bu hataların kaynağını tespit ederek

kullanıcıyı hata ile ilgili bilgilendirme yapma becerisinin de olması gerekmektedir

(Nabiyev, 2005, s. 445).

1.3.2 Bulanık Mantık

İlk defa Azeri matematikçi Lotfi A. Zadeh (1965) tarafından ortaya atılan

Bulanık Mantık (BM), daha sonraları hızlı bir gelişme göstermiştir. Tam ve kesin

bilginin bulunmadığı, belirsizliğin hakim olduğu durumlarda karar verme esasına

dayanan BM, karar verme gibi çok geniş bir alanda kullanıldığı için bilim ve

teknolojinin hemen her alanında uygulanmaktadır. BM‟de amaç, belirsizlik ifade

eden, tanımlanması güç veya anlamı zor kavramlara üyelik derecesi atayarak onlara

belirlilik getirmektir (Türkşen, 1985).

Bulanık Mantığın tanımı iki anlamda yapılabilir. Dar anlamda düşünüldüğünde

BM, 1865 yılında Alman matematikçi Cantor tarafından ortaya koyulan klasik ikili

mantık sistemine dayanan Kümeler Teorisinin genelleştirilmişidir. Daha geniş

anlama bakıldığında ise BM kesin mantığı da içine alan Bulanık Kümeler Teorisi ile

eş anlamdadır (Pop, 2004, s. 111).

Klasik mantıkta bir önerme doğru ise 1, yanlış ise 0 değeri olmak üzere,

yalnızca iki değer alabilir. BM‟da ise bir önerme, doğruluk derecesine göre

kapalı aralığında sonsuz farklı değer alabilmektedir. Bu da gerçek hayata

uygulandığında çok keskin kararlar yerine daha esnek kararlar verilmesini

sağlamaktadır.

12

Bulanık mantığın en geçerli olduğu iki durumdan biri, incelenen olayın çok

karmaşık olması ve bu olayla ilgili yeterli bilginin bulunmaması durumunda kişilerin

görüş ve değer yargılarına yer verilmesi, ikincisi ise insan kavrayış ve yargısına

gerek duyulan hallerdir. İnsan düşüncesinde sayısal olmasa bile belirsizlik, yararlı bir

bilgi kaynağıdır. İşte bu tür bilgi kaynaklarının, olayların incelenmesinde

kullanılmasında bulanık mantık ilkelerinden faydalanılır (Baykal & Timur, 2004).

1.3.3 Yapay Sinir Ağları

Yapay Sinir Ağları (YSA), insan beyninin özelliklerinden olan öğrenme yolu

ile yeni bilgiler türetebilme ve keşfedebilme gibi yetenekleri herhangi bir yardım

almadan, otomatik olarak gerçekleştirebilmek amacı ile geliştirilen bilgisayar

sistemleridir. YSA insan beyninden esinlenerek, öğrenme sürecinin matematiksel

olarak modellenmesi uğraşısı sonucu ortaya çıkmıştır. Bu nedenle YSA üzerindeki

çalışmalar, ilk olarak beyni oluşturan biyolojik birimler olan nöronların

modellenmesi ve bilgisayar sistemlerinde uygulanması ile başlamış, daha sonraları

bilgisayar sistemlerinin gelişimine paralel olarak birçok alanda kullanılır hale

gelmiştir. İnsan beyninin çalışma prensibini taklit ederek çalışan bu sistemler, her ne

kadar bilgisayar teknolojisi hızlı bir gelişim göstermiş, işlem hızları nano saniyeler

düzeyine inmiş olsa da, değil insan beyni, ilkel bir canlıya ait sinir sisteminin

yanında bile çok ilkel kalmaktadır. Nano saniyeler bazındaki işlem hızları ile yapay

sinir ağları, mili saniyeler mertebesindeki işlen hızları ile işlem yapan insan beyninin

işlevselliğinin henüz çok uzağındadır.

İnsan beyninde yaklaşık 10¹¹ sinir hücresinin var olduğu düşünülünce, bu

sayının bilgisayar ortamında modellenmesi şu an için mümkün görünmemektedir.

Fakat karar hızı açısından insan beyni ile henüz yarışamasalar bile, YSA

yapısallıkları ve hassas eşleştirmeleri başarı ile gerçekleştirebilmeleri nedeni ile gün

geçtikçe daha fazla uygulama alanı bulmaktadır.

Yapay sinir ağları başlı başına bir çalışma alanı olmakla birlikte, diğer birçok

alanda bir araç olarak da kullanılmaktadır. Bu bağlamda YSA, bilimin hemen her

alanında uygulanmaktadır. Bu uygulamalarda başlıcaları, uzay araştırmaları,

13

bankacılık, sigortacılık, kalite kontrol, elektronik, savunma sanayi, yönetim bilimleri,

insan kaynakları ve robotik olarak sayılabilir.

1.3.4 Genetik Algoritma

Milyonlarca yıldan beri organizmalar, değişen dünya koşullarına ayak

uydurabilmek ve varlıklarını sürdürebilmek için biyolojik evrimden geçmektedir.

Yaşayan her organizma genlerden oluşan ve kromozom adı verilen genetik

materyallere sahiptir. Bu kromozomların dizilişleri ve düzenlenmesi, türlerin

varlığını sürdürebilmesinde anahtar rol oynamaktadır. Doğal seçilim süreci ve en

güçlü olanın yaşamını sürdürme ilkesi, evrimin önemli dayanaklarındandır. Genetik

Algoritma (GA), evrimin bu ilkeleri üzerine kurulmuştur. Bu bağlamda GA,

problemin alternatif çözümlerini birer birey, mevcut çözümden daha iyi bir çözüme

geçme aşamasını ise doğal seçilim olarak kabul eden sezgisel bir eniyileme

algoritmasıdır.

Çalışmamızda özel bir ileri beslemeli YSA türü olan Radyal Tabanlı Fonksiyon

Ağları, sorunları ve eksiklikleri bakımından ele alınmış ve bu sorun ve eksiklikler

karşısında çözüm olarak önerilen Hibrit Radyal Tabanlı Fonksiyon Ağları modeli

oluşturulmuştur. Oluşturulan modelin daha iyi anlaşılabilmesi amacıyla Bölüm 2„de

ileri beslemeli ağlara odaklanılarak YSA‟a yer verilmiştir.

14

BÖLÜM 2 YAPAY SĠNĠR AĞLARI

İnsan beyni üzerine yapılan çalışmalar binlerce yıl öncesine kadar uzanır. Ancak

insan beyninin ve düşünce sisteminin taklit edilmesi çalışmaları modern elektroniğin

ortaya çıkışı ile gerçekleşebilmiştir. YSA çalışmalarına olan ilginin ilk dalgaları, Warren

McCulloch ve Walter Pitts (1943) isimli nöro-psikologların gerçekleştirdikleri

çalışmalarında basitleştirilmiş nöron yapılarını tanıtmaları ile başlamıştır. Yaşamlarının

yirmi yılını düşünme ve hissetme gibi sinirsel olayları araştırmaya harcayan McCulloch

ve Pitts‟in çalışması, insan beyninin nasıl düşündüğünü ortaya çıkarmak için basit

elektrik devrelerini kullanan ilkel bir YSA dizaynı üzerinedir. Onların bu çalışması,

McCulloch ve Pitts‟in Formal Sinir Ağı Teorisi olarak anılmaktadır (Haykin, 1994, p.

38).

Yapay Sinir Ağları teknolojilerindeki diğer bir büyük gelişme, Donald Hebb

(1949) tarafından yayınlanan “The Organization of Behavior” adlı kitapla sağlanmıştır.

Bu kitap, McCulloch ve Pitts‟in nöronlar ve bunların nasıl işlediklerine ilişkin teorisini

destekler niteliktedir. Hebb‟in kitabı ile ortaya koyulan en önemli bilgi, nöral

bağlantıların her kullanılışlarında daha da güçlendiklerinin gösterilmesidir. Bu bilginin

doğruluğu, YSA‟nın öğrenme algoritmalarının geliştirilmesi ile pekiştirilmiştir (Haykin,

1994, p. 39).

1950‟li yıllarda YSA çalışmaları yavaşlama olmuştur. Bununla birlikte bazı

araştırmacılar bireysel olarak bu alandaki çalışmalarına devam etmiştir. Marvin Minsky

(1954) yazdığı "Theory of Neural-Analog Reinforcement Systems and its Application to

the Brain-Model Problem" isimli doktora tezinde YSA‟nı kullanmıştır. Ayrıca Minsky,

ilk defa YZ konusunu detaylı olarak ele alan “Steps Towards Artificial Intelligence"

isimli bir de bilimsel makale yayınlamıştır (Minsky, 1963). Bu makale, YSA‟nı anlatan

geniş bir bölüm içermektedir. 1956 yılında Dartmouth‟ta yapılan Yapay Zeka Yaz

15

Araştırma Projesi kapsamındaki çalışmalar, çok basit düzeyde olsalar da YSA

çalışmalarının ilk örnekleri sayılır.

1950‟li yıllarda John Von Neuman‟ın, telgraf aleti ve vakum tüpleri kullanılarak

basitleştirilmiş nöron fonksiyonlarının taklit edilebileceği üzerine ortaya attığı fikir, Von

Neumann Makinesi1 keşfine de zemin hazırlamıştır.

McCulloch and Pitts‟in çalışmalarından 15 yıl sonra YSA‟da yeni bir yaklaşım

tanıtılmıştır. 1958 yılında Cornell Üniversitesinde nöro-biyolog olarak görev yapan

Frank Rosenblatt, Perseptron üzerinde çalışmaya başlamıştır. Perseptron, uygulamaya

elverişli ilk YSA modeli olarak kabul edilmektedir. Perseptronun oluşturulmasında o

zamanların bile en ilkel donanım malzemeleri kullanılmıştır. Perseptronun ilham

kaynağı ise sineklerin gözleri olmuştur. Yaklaşan bir tehlikeyi gören bir sineğin kaçma

kararını alma süreci, perseptron ile modellenmiştir (Masters, 1993).

1959 ve 1960 yıllarında ABD‟nin Stanford Üniversitesi‟nden Bernard Wildrow

ve Marcian Hoff, ADALINE2 ve MADALINE

3 modellerini geliştirmişlerdir. Bu

modeller, sinyal işleme gibi gerçek hayat problemlerine uygulanabilen ilk yapay sinir

ağları olarak ortaya çıkmaktadır. (Rojas, 1996, s. 476).

Yayınlanmasını takiben oldukça popüler hale gelen perseptrondaki büyük çöküş,

Marvin Minsky ve Seymour Papert (1969) tarafından yayınlanan “Perceptrons” isimli

kitapta perseptronların sınırlı problem çözme kapasitelerinin ispatlanması ile

gerçekleşmiştir (Masters, 1993). Minsky ve Papert‟in YSA‟nın eksikliklerini ortaya

koymaları ile beraber, birçok bilim adamı yapay sinir ağı çalışmalarını bırakmaya

1 Von Neumann Makinesi: Matematikçi John Von Neumann tarafından geliştirilen, komutlar ve verinin

aynı depolama biriminde saklandığı bir çeşit bilgisayar tasarımıdır.

2 ADALINE (ADAptive LINear Elements): 1960 yılında Bernard Widrow ve doktora öğrencisi Tedd

Hoff tarafından geliştirilen tek katmanlı bir yapay sinir ağı örneğidir.

3 MADALINE (Çokluple ADALINE): ADALINE ağında girdi ve çıktı arasına paralel olarak yerleştirilen

bir katmanla elde edilen bir çeşit iki katmanlı yapay sinir ağıdır.

16

başlamıştır. Başlıcaları Teuvo Kohonen, Stephen Grosberg, James Anderson ve

Kunihiko Fukushima olmak üzere az sayıda bilim adamı ise YSA çalışmalarına devam

ettirmişlerdir (Kröse & Smagt, 1996). 1969‟dan 1981 yılına kadar geçen süreçte YZ ve

YSA‟na bilim adamlarının ilgisi azalmış olsa da yapay zeka ve robotlar konusunu

işleyen birçok roman, film ve televizyon programı ile konu gündemde kal mıştır.

Yapay Sinir Ağlarına olan ilginin yeniden artmaya başlaması, özellikle

bilgisayarların işlem kapasitelerinin artması ve hatanın geri yayılımı algoritmasının

keşfini takiben 1980‟li yılların başlarına kadar beklemiştir (Kröse & Smagt, 1996, s. 13).

Bu tarihlerde YSA‟da önemli bir yenilik sayılan Özdüzenleyici Haritalar1 öne çıkmaya

başlamıştır. 1982 yılında California Teknoloji Enstitüsünden John Hopfield, YSA‟ya

yeni bir yaklaşım getiren çalışmasını bilim dünyasına sunmuştur. Hopfield çalışmasında,

YZ yaklaşımlarının insan beynini tam olarak taklit etmesinin mümkün olmamasına

rağmen, dinamik problemleri çözebilecek makinelerin yapımının sağlanabileceğini ifade

etmiştir. Hopfield‟in fikirleri YSA‟da yeni bir alanın doğmasını sağlamıştır. Hopfield‟in

fikrine dayanan YSA modelleri ise Hopfield Modeli olarak anılmaktadır (Haykin,

Neural Networks, 1994, s. 41).

Yaklaşık aynı zamanlarda Japonya‟da gerçekleştirilen YSA konulu bir

konferansta Japonlar, YSA‟nın kabiliyetlerinin yeniden araştırılmaya başlanacağını

duyurmuşlardır. Bu duyuru, Amerika Birleşik Devletleri‟ni YZ ve YSA çalışmalarında

geride kalmak korkusuna sevk etmiş ve bu alandaki çalışmalara büyük fonlar

ayırmalarına neden olmuştur.

Yapay sinir ağları konulu yıllık konferansların ilki 1986 yılında 1800 bilim

insanının katılımı ile gerçekleştirilmiştir. Aynı yıl Rumelhart, Hinton ve Williams

(1986), geri yayılım algoritmasındaki gelişmeleri konu alan bir rapor hazırlamışlardır.

1 Özdüzenleyici Haritalar (Self-Organizing Maps-SOM): Danışmansız öğrenme algoritmalarını kullanan

bir çeşit yapay sinir ağıdır. Genellikle çok boyutlu girdi uzayının, harita olarak adlandırılan düşük

boyutlarla ifade edilmesinde kullanılır (Kohonen, 2001, s. 106).

17

Bu çalışmalarında, geri yayılım algoritmasının çok katmanlı perseptronların eğitiminde

neden en önemli yöntem olarak ortaya çıktığı üzerinde durmuşlardır. 1990‟lı yıllar

teknolojide ve dolayısıyla da YSA konusunda birçok ileri düzeyde araştırma ve

ilerlemenin gerçekleştiği yıllar olmuştur. Günümüzde ise YSA ilkelerinin elektronik

uygulamaları oldukça popülerdir.

2.1 Yapay Sinir Ağlarının Kullanım Alanları

Yapay sinir ağları, birimleri sınıflara ayırmada oldukça başarılı bir yöntemdir.

Walzack ve Sincich (1999) çalışmalarında, üniversite adaylarını, kabul edildikleri

takdirde kayıt yaptırıp yaptırmayacak adaylar olmak üzere YSA ile iki kategoriye

ayırmışlardır. Calderon ve Cheh (2002) ise yapay sinir ağlarını, iş başarısızlığı riskinin

ölçülmesinde kullanmıştır. Huang v.d. (2008) iş başarısızlığı tahmininde YSA ve

finansal analiz metotlarını bir araya getirerek hibrit bir model kurmuştur. Angelini v.d.

(2008) ise kredi başvurularını değerlendirmede YSA modeli kullanmışlardır.

Yapay sinir ağlarının çok başarılı olduğu diğer bir alan ise tahminlemedir. Palaez

(2006) çalışmasında, işsizliğin tahmini için ekonomik modeller ile YSA modelini

karşılaştırmış ve YSA‟nı başarılı bir tahminleyici olarak bulmuştur. Dawson v.d. (2002),

Çinin Yangtze nehri için yağış miktarı-akış sürecinin ölçülmesinde iki farklı YSA

modeli kullanılmıştır. Yangtze nehrine ait 1991-1993 arası 6 saatlik yağış miktarı-akış

verileri kullanılmış ve her iki YSA modelinin de nehrin akışını başarı ile tahmin ettiğini

görmüşlerdir.

Yapay sinir ağları çalışmalarının geleneksel istatistik tekniklerin kullanıldığı her

alanda kendilerini göstermesi ile YSA ve istatistik tekniklerin karşılaştırıldığı çalışmalar

literatürde sıkça yer almaya başlamıştır. Akbilgiç ve Keskintürk (2008), çoklu regresyon

analizi ve YSA‟nı bir benzetim örneği için karşılaştırmış ve hata kareler ortalaması ve

bilgi karmaşıklığı (ICOMP) kriterleri açısından YSA‟nın daha iyi bir tahminleyici

olduğunu göstermiştir. Eastaugh v.d. (1997), erken doğuma bağlı riskli gebeliklerin

belirlenmesinde YSA ve lojistik regresyon modellerini karşılaştırmıştır. Bu çalışmada,

18

kullanılan açıklayıcı değişkenlerin her iki modelde de başarılı tahmin yapmaya yeterli

olmadıkları görülmüştür.

2.2 Biyolojik Sinir Sistemi ve ĠĢleyiĢi

İnsan sinir sistemi bütün olarak düşünüldüğünde oldukça karmaşık bir yapıda

olmasına rağmen, kendisini oluşturan birimler oldukça basittir. Sinir sistemini oluşturan

bu basit hücrelere nöron adı verilir. Şekil 2-1‟de bir nöronun genel görünümü ve nöronu

oluşturan birimler yer almaktadır.

ġekil 2-1 Nöron Genel Görünümü ve Nöronu OluĢturan Birimler (Fraser, 1998, s. 1)

Şekil 2-1‟de genel görünümü verilen, sinir sistemini oluşturan unsurların sistem

içindeki görevleri ise özetle aşağıdaki gibidir.

Gövde: Nöronun orta kısmını oluşturur. Alınan sinyaller gövdede toplanır ve yine

gövdede yer alan çekirdekte işlenir.

Akson

Akson Tümseği

Gövde

Çekirdek Dentrit

Akson Çıkışı

19

Dentrit: Dış çevreden nörona sinyallerin alındığı birimdir. Her bir nöronda çok

sayıda dentrit bulunur.

Akson: İşlenen sinyalleri dış çevreye ileten birimdir.

Sinaps: Sinyal ileten aksonlarla sinyal alan dentritler arasındaki bağlantıyı

sağlayan birimlerdir.

Yukarıda temel elemanları ifade edilen bir nöronun işleyişi, sinapslardan geçen

sinyallerin dentritlere ulaşması ile başlar. Nörona bağlı tüm dentritlerden gelen sinyaller

hücre gövdesinde toplanır. Bu toplam değer bir eşik değerini aştığı zaman nöron

ısınmaya başlar ve aksonlar aracılığı ile diğer nöronlara sinyal gönderir (Halıcı, 2001, s.

2-3).

Biyolojik sinir sistemindeki işleyiş YSA ile modellenerek, insan gibi karar

verebilen ve muhakeme yeteneği olan zeki sistemler yaratılmaya çalışılmıştır. Bu

bağlamda YSA, YZ‟nin önemli kilometre taşlarından birisi olmuştur.

2.3 Yapay Sinir Ağlarının Genel Yapısı

İnsan sinir sistemini taklit edecek şekilde oluşturulan bir yapay sinir ağı modeli,

Şekil 2-2‟de gösterildiği gibi girdi katmanı, gizli katman (veya ara katman) ve sonuç

katmanı olmak üzere üç kısımdan oluşmaktadır. Bu katmanlardan gizli katman, birden

fazla katmandan oluşabilir. Her bir katman nöronlardan oluşmaktadır. Girdi ve çıktı

katmanındaki nöron sayısı, bağımsız ve bağımlı değişkenlerinin sayısı ile belirlenmekte

iken, gizli katmandaki katman sayısı ve her bir gizli katmanda bulunacak nöron sayıları,

en iyi performansı verecek şekilde kullanıcı tarafından belirlenmektedir.

20

ġekil 2-2Bir yapay sinir ağının genel görünümü

Nöronlar arasındaki bilgi akışı YSA‟nın türünü belirlemektedir. YSA‟da bilgi akışı

genellikle ileriye doğrudur ve bu tür YSA “İleri Beslemeli Ağlar” olarak adlandırılır. Bu

çalışmada, sadece ileri beslemeli ağlar üzerinde durulmaktadır. Bu bağlamda ileri

beslemeli ağlarda yer alan her bir nöron, alıp işlediği bilgiyi kendinden sonraki

katmandaki nöronlara iletir. Bu bilgi iletimi sırasında nöronlar arasındaki bağlantıların

ağırlıkları oldukça önemlidir. Diğer bir ifade ile bilgiler, ileten ve iletilen nöron

arasındaki ağırlık değeri ile çarpılarak iletilmektedir.

2.4 Yapay Sinir Ağlarının BileĢenleri

Genel görünümü Şekil 2-2 ile verilen bir yapay sinir ağı modeli, nöron adı verilen

basit birimlerin bir araya getirilmesi ile oluşturulmaktadır. Bu nöronlar her birinde farklı

görevleri yerine getirmek üzere girdi katmanı, gizli katman ve çıktı katmanında

gruplandırılır. Bu bağlamda bir YSA modeli, nöronlar ve bilgi akışını ve işleyişini

sağlayacak şekilde o nöronları bir arada tutan bağlantılardan oluşur.

2.4.1 Katmanlar

Genel bir YSA modeli, girdi katmanı, gizli katman ve çıktı katmanından

oluşmaktadır. Bu katmanların her biri, bilgi işleyişini sağlayacak şekilde farklı görevlere

sahip nöronlar içermektedir. Bilginin ağa ilk gösterildiği kısım olan girdi katmanı, yapay

sinir ağı modelinin dış dünya ile bağlantısını sağlamaktadır. Girdi katmanında bulunacak

21

nöron sayısı, bağımsız değişken sayısı kadardır. Bununla birlikte bazı YSA

modellerinde, regresyon analizindeki sabit terim görevini gören ve yan olarak

adlandırılan bir nöron daha eklenmektedir. Yan nöronuna girilen bilginin sabit olarak 1

değerini aldığı varsayılmaktadır. Bununla birlikte ne yan değeri ne de bağımsız değişken

değerleri, girdi katmanı nöronlarında herhangi bir işleme tabi tutulmazlar.

Gizli katman, YSA‟da kara kutu olarak bilinen kısımdır. Girdi katmanından

kendisine iletilen bilgi bu katmanda işlenmektedir. Gizli katman birden fazla alt

katmandan oluşabilir. Gizli katmanın kaç alt katmandan oluşacağı ve her bir alt

katmanda kaç nöron bulunacağı kullanıcı tarafından belirlenir. Literatürde bu sayılarla

ilgili bazı öneriler bulunmakla beraber, genellikle deneme yanılma yolu ile en iyi sonucu

veren sayılar bulunur.

Gizli katman nöronları bilgiyi, her bir nöronda bulunan aktivasyon fonksiyonları

aracılığı ile işlerler. Bu bağlamda aktivasyon fonksiyonunun seçimi, kullanıcı

inisiyatifinde olan ve ağın başarısını önemli ölçüde etkileyen parametrelerden birisidir.

Bazı basit YSA modellerinde girdi katmanı direk çıktı katmanına bağlanır. Ancak

bu tip ağlar bağımlı ve bağımsız değişkenler arasındaki doğrusal olmayan ilişkiyi

modelleyememektedir. Buradan hareketle gizli katman, YSA‟na doğrusal olmayan

ilişkileri modelleme gücünü kazandıran katmandır.

Biyolojik nöron yapısında aksona karşılık gelen çıktı katmanı, modelde işlenen

verinin dış dünyaya iletildiği katmandır. Gizli katmandan bağlantılar ile kendisine gelen

bilgi, genellikle aynen ağın çıktısı olarak dış dünyaya iletilmektedir. Özellikle gizli

katman bulunmayan basit YSA modellerinde ise çıktı katmanı nöronları, gelen bilgiyi

bir eşik değer fonksiyonundan geçirerek dış dünyaya iletirler. Diğer taraftan, çıktı

katmanında bulunacak olan nöron sayısı verideki açıklanan değişken sayısı kadardır.

22

2.4.2 Bağlantılar

Yapay sinir ağlarında katmanlar arasındaki bilgi akışı bağlantılar aracılığı ile

gerçekleştirilmektedir. Her bir katman kendisine gelen bilgiyi (işleyerek ya da doğrudan)

kendisinden sonraki katmana aktarır. Bu aktarma işleminin gerçekleşebilmesi için,

katmanlardaki her bir nöron, bir sonraki katmanda bulunan her bir nörona bağlanır. Bu

bağlantıların her birisi bir ağırlık değerine sahiptir. Böylece herhangi iki nöron arasında

iletilen bilgi, bu ağırlık değeri ile çarpılarak iletilmiş olur. Bu bağlamda herhangi bir

nörona gelen net bilgi, kendisine bağlı olan bir önceki katmandaki nöronların çıktılarının

doğrusal bir kombinasyonudur.

Yapay sinir ağlarında bağlantı sayısı, katmanlarda yer alan nöronların

belirlenmesi ile kendiliğinden ortaya çıkar. Ancak her bir bağlantıya ait bağlantı ağırlık

değerleri genellikle başlangıçta keyfi olarak kullanıcı tarafından belirlenmektedir. Daha

sonra bu ağırlık değerleri, ağın çıktısı ile hedeflenen çıktı değerleri arasındaki farkı

eniyileyecek şekilde iteratif olarak değiştirilir. YSA‟da bu ağırlık değerlerinin iteratif

olarak değiştirilmesi süreci öğrenme olarak adlandırılmaktadır.

2.4.3 Aktivasyon Fonksiyonları

Aktivasyon fonksiyonları YSA‟da bilginin işlenmesini sağlayan elemanlardır. Bazı

basit YSA modelleri dışında sadece gizli katman nöronları için geçerlidir. Gizli

katmanda yer alan her bir nörona bir aktivasyon fonksiyonu (genellikle aynı fonksiyon)

karşılık getirilmektedir. Gizli katman nöronuna gelen net bilgi, aktivasyon

fonksiyonlarının girdisi olarak nöron içerisinde işlenir. Aktivasyon fonksiyonun bu net

girdiye karşılık ürettiği değer ise ilgili nöronun çıktısını oluşturmaktadır.

Yapay sinir ağı literatüründe kullanılmış birçok aktivasyon fonksiyonu türü

olmakla beraber, bunlardan bazıları Tablo 2-1 ile özetlenmektedir. Bu tabloda yer alan

radyal tabanlı fonksiyonları kullanan YSA modelleri, Radyal Tabanlı Fonksiyon Ağları

olarak adlandırılan ayrı bir YSA türü belirlemektedir. Tablo 2-1 kapsamında radyal

23

tabanlı fonksiyonlar bir merkez ( ) ve yarıçap ( ) parametresinin fonksiyonu olacak

şekilde tanımlanmış olmakla beraber Bölüm 3‟te daha detaylı olarak ele alınmıştır.

Tablo 2-1 Örnek Aktivasyon Fonksiyonları

Fonksiyon Adı Kısa Adı Formülasyonu

Eşik Değer -

Logaritmik Sigmoid logsig

Tanjant Hiperbolik tanh

Sekant Hiperbolik sech

Radyal Tabanlı Fonksiyonlar RBF

2.5 Yapay Sinir Ağı Modelleri ve Öğrenme Algoritmaları

Yapay sinir ağlarının bir araç olarak kullanılması, kullanılacak YSA modelinin ve

daha da önemlisi seçilen model için kullanılacak öğrenme algoritmasının belirlenmesini

gerektirmektedir. Burada öğrenme, iteratif işlemler ile hedeflenen ve ağın ürettiği çıktı

değerleri arasındaki farkın bir fonksiyonu olan hata fonksiyonunu enküçükleyecek

şekilde ağ parametrelerinin değiştirilmesi işlemidir. Literatürde önerilmiş birçok

öğrenme algoritması olmakla beraber bunlardan göreceli olarak önemli olanları takip

eden kısımda verilmiştir.

2.5.1 Hebb Kuralı

Hebb‟in, kendi adı ile anılan öğrenme kuralı, en eski ve en ünlü öğrenme kuralıdır.

Hebb (1949)‟in kitabında “Eğer bir A hücresinin aksonları B hücresine, onu etkileyecek

kadar yakınsa ve sürekli olarak etkilemeye devam ederse, B hücresinde, A hücresinin

uyarılarının etkisi ile metabolik değişmeler meydana gelir.” ifadesi yer almaktadır. Hebb

hücre seviyesindeki bu değişmeyi, etkileşimli öğrenmenin temeli olarak kabul etmiştir.

Hebb Kuralının Matematiksel Modeli: Hebb öğrenmesinin formülasyonunda

nöronuna gelen ve nöronundan çıkan sinyaller sırasıyla ve olmak üzere nöronlar

24

arasındaki bağlantı ağırlığı ile gösterilmektedir. Sinaptik ağırlık ‟ye ‟inci

adımda uygulanan düzeltmenin genel formu (2.1) ile verilmektedir.

(2.1)

Burada , nörona giren ve çıkan sinyallerin bir fonksiyonudur. ‟inci iterasyonda

nörona giren ve çıkan sinyaller olan ve birer gerçel sayı olarak kabul

edilmektedir. (2.1) ile verilen eşitlik, Hebb türü olan birçok öğrenme formunda aynıdır.

Hebb öğrenmesinin en basit formu (2.2) ile ifade edilmektedir.

(2.2)

Burada , pozitif bir sabit olan öğrenme oranıdır. (2.2) eşitliğinden yararlanarak

‟inci adımda ilgili ağırlık değerinin hesabı (2.3) ile verilmektedir.

(2.3)

2.5.2 Perseptron

Perseptron, Rosenblatt (1958) tarafından örüntü sınıflandırıcı olarak ortaya atılmış

basit bir YSA modelidir. Tek katmanlı perseptron, bir girdi ve bir çıktı katmanı içerir.

Perseptronda hem girdi katmanı hem de çıktı katmanı ikili (0 ve 1) birimlerden

oluşmaktadır. Bununla beraber perseptronun çıktı birimlerinde aktivasyon fonksiyonu

olarak eşik değer fonksiyonu kullanılmaktadır. Girdi katmanında , çıktı katmanında

nöron bulunan tek katmanlı bir perseptronun genel görünümü Şekil 2-3 ile

verilmektedir.

25

Şekil 2-3‟te görüldüğü gibi tek katmanlı bir perseptron, birden fazla nörondan

oluşan girdi katmanındaki her bir nöronun ve bir yan değerinin, birden fazla nörondan

oluşabilen çıktı katmanındaki her bir nörona bağlanması ile elde edilmektedir. En basit

hali ile iki girdi ve tek çıktılı bir perseptron modeli ise Şekil 2-4 ile verilmektedir. Şekil

2-3 ve Şekil 2-4„te gösterildiği gibi perseptronda her zaman yan değeri “1” olarak

alınmaktadır.

+1

Girdi Katmanı Çıktı Katmanı

Yan Değeri

+1

ġekil 2-3 Tek katmanlı perseptron örneği

ġekil 2-4 Ġki girdi ve bir çıktılı perseptron

26

Perseptron modelinde girdi katmanındaki nöronların aldığı değerler, ilgili

bağlantıları ile çarpılarak net sinyal değeri hesaplanır ve bu değer çıktı katmanı

nöronlarının girdisini oluşturur. Herhangi bir çıktı katmanı nöronu için sözü edilen bu

net sinyal, ilgili çıktı katman nöronunun kendisine bağlı her bir girdi katman

nöronlarının ilettiği sinyal değerlerinin ağırlık değerleri ile çarpımlarının toplamına yan

değerin ağırlığının eklenmesi ile elde edilir. Çıktı katmanı nöronlarının dış dünyaya

ilettiği bilgi ise her bir çıktı nöronuna gelen net sinyale karşılık eşik değer

fonksiyonunun verdiği sonuçtur. Buna göre ‟inci çıktı katmanı nöronunun girdisi ve bu

girdiye karşılık gelen çıktısı sırasıyla (2.4) ve (2.5) ile verilmektedir.

(2.4)

(2.5)

(2.4) ve (2.5)‟te yer alan , ‟inci girdi katmanı nöronunun değerini, , ‟inci

çıktı katman nöronunun net girdisini, , ‟inci girdi nöronu ile ‟inci çıktı nöronu

arasındaki bağlantı ağırlığını, , eşik değer ile ‟inci çıktı nöronu arasındaki bağlantı

ağırlığını ve ise ‟inci çıktı nöronunun ürettiği çıktıyı ifade etmektedir. Çıktı katmanı

nöronlarının kullandığı aktivasyon fonksiyonu ise ile gösterilmiştir ve (2.6) ile

tanımlanmaktadır.

(2.6)

(2.6) ile verilen formülden anlaşılacağı gibi tek katmanlı perseptron, “-1” ya da

“+1” sonuçlarını üretmektedir. Bu hali ile perseptron, verilen örüntüleri iki kümeye

ayırma problemlerinde kullanılabilir. İki kümenin ayrılma sınırını ise (2.6) ile verilen

eşik değer fonksiyonundan da anlaşılacağı gibi değeri belirler. Perseptronda çıktı

nöronları doğrusal aktivasyon fonksiyonu kullandığı için girdi değerleri bir hiper-düzlem

ile iki bölgeye ayrılır. Girdileri iki sınıfa ayıran bu hiper-düzleme “Karar Yüzeyi” adı

verilir ve (2.7) ile formüle edilir.

27

(2.7)

Perseptron Öğrenme Kuralı, bağlantı ağırlıklarının değiştirilerek ağın öğretilmesi

esasına dayanan iteratif bir yöntemdir. Temel olarak, eğitim veri kümesinin ağa

gösterilmesi ve hata miktarının daha önceden belirlenmiş olan bir tolerans değerini

aşması durumunda her bir ağırlık değerinin bir düzeltme terimi eklenerek güncellenmesi

işlemlerinden ibarettir. Herhangi bir ‟inci adımda, girdi ile çıktı katmanı nöronları

arasındaki bağlantılar ve yan değeri ile çıktı katmanı nöronları arasındaki bağlantıların

düzeltilmiş değerleri sırasıyla (2.8) ve (2.9) ile hesaplanmaktadır.

(2.8)

(2.9)

(2.8) ve (2.9) formülleri ile öğrenme, örüntüleri daha doğru sınıflandıracak

şekilde ve düzeltme değerlerinin hesaplanması problemine

indirgenmektedir. Perseptron öğrenmesi ile en uygun çözümün diğer bir ifade ile en iyi

karar düzleminin kesinlikle bulunabileceği, Rosenblatt (1958) tarafından ispatlanan

Perseptron Yakınsaklık Teoremi ile gösterilmiştir.

Perseptron Yakınsaklık Teoremi: Eğitim kümesini oluşturan girdi vektörlerinin

kümesi ve hedeflenen çıktı vektörlerinin kümesi olmak üzere, eğer ve

kümeleri sonlu ve doğrusal ayrıştırılabilirse Perseptron Öğrenme Algoritması ile

başlangıç ağırlıkları ne olursa olsun, sonlu sayıda iterasyon ile ve ‟yi iki kümeye

ayıracak ağırlıkları bulunabilir (Rojas, 1996, s. 85).

Yukarıdaki teoremden de anlaşılacağı üzere perseptron, yalnızca doğrusal

ayrıştırılabilir problemlerin çözümünü garanti etmektedir. Diğer bir ifade ile bir

sınıflandırma probleminin perseptron ile çözülebilmesi, her bir çıktı birimi için girdileri

iki ayrık bölgeye ayırabilecek bir hiper-düzlemin bulunmasını gerektirmektedir. Ancak

gerçek hayatta karşılaşılan birçok problem doğrusal ayrıştırılabilir değildir. Şekil 2-5 iki

girdi ve bir çıktı değerine sahip mantıksal fonksiyonlar olan AND, OR ve XOR

28

problemlerinin geometrik gösterimini vermektedir. Belirtilen mantık problemleri için

girdi ve çıktı değerleri ise Tablo 2-2 ile verilmektedir.

Tablo 2-2 AND, OR ve XOR problemlerinin girdi ve çıktı değerleri

Girdi Değerleri Çıktı Değerleri

X1 X2 AND OR XOR

0 0 0 0 1

1 0 0 1 0

0 1 0 1 0

1 1 1 1 1

Şekil 2-5‟ten anlaşılacağı gibi AND ve OR problemleri doğrusal ayrılabilirdir.

Ancak XOR problemini doğrusal olarak ayırabilecek hiç bir hiper-düzlem yoktur.

Perseptrondaki doğrusal ayrıştırılabilirlik kısıtının üstesinden gelebilmenin yolu,

tek katmanlı perseptrondaki girdi ve çıktı katmanı arasına ayrı bir katman (gizli katman)

eklenmesi ile elde edilen çok katmanlı perseptron kullanmaktır (Gibson, Siu, & Cowan,

1989, s. 1184). Böylece birçok hiper-düzlemin bir araya getirilmesi ile yeni bir karar

yüzeyi tanımlanır. Perseptronlarla ilgili Minsky ve Papert (1969) tarafından yayımlanan

kitapla beraber YSA üzerinde yoğunlaşmış olan ilgi, diğer YZ alanlarına doğru

= 0 = 1

0 1

1

OR

0 1

1

AND

0 1

1

XOR

ġekil 2-5 AND, OR ve XOR problemleri için karar düzlemleri (Nascimento, 1994)

29

yönelmiştir. Minsky ve Papert (1969) kitaplarında, perseptron ile ilgili ortaya koyulan bu

eksikliğe rağmen perseptronun önemini vurgulamış ve ileride ortaya atılacak bazı

yakınsaklık teoremleri ile perseptronun doğrusal olmayan ayrıştırıcı özelliğine

kavuşacağını belirtmişlerdir (Minksy & Papert, 1969).

Perseptron Öğrenme Algoritması: Girdi vektörü ve hedeflenen çıktı vektörü

‟den oluşan eğitim kümesi için perseptron öğrenme algoritması üç temel adımda

özetlenebilir.

Adım 1: Eğitim kümesinden daha önce gösterilmemiş bir örnek ağa gösterilir.

Adım 2: Ağın çıktısı hesaplanır ve hedeflenen çıktı değeri ile

karşılaştırılır.

Adım 3: Kendi içinde üç aşamadan oluşan bu adıma göre;

a) Eğer ise ve eğitim kümesinde ağa gösterilmemiş örnek varsa

Adım 1‟e dönülür.

b) Eğer ise ve eğitim kümesinden ağa gösterilmemiş örnek

kalmadıysa ağın eğitimi bitirilir.

c) Eğe ise ağın ağırlıkları düzeltme terimleri

eklenerek güncellenir.

Perseptron öğrenme sürecinin Hebb kuralından tek farkı, ağ doğru çıktı ürettiğinde

bağlantılarda herhangi bir değişiklik yapılmamasıdır. Ayrıca yan değerin çıktı katmanına

bağlayan bağlantının ağırlık değeri 0w ile gösterilir ve yukarıda tanımlanan perseptron

öğrenme algoritmasına göre (2.10) formülü ile güncellenir.

(2.10)

30

2.5.3 Delta Kuralı

Hata düzelterek öğrenme süreçlerinden birisi olan Delta Kuralı, Widrow ve Hoff

(1960) tarafından ADALINE1 nöronları için geliştirilmiş iteratif bir öğrenme

algoritmasıdır. Hata düzelterek öğrenme süreci olarak değerlendirilir. Buna göre,

öncelikle girdiler oluşturulan ağı takip ederek çıktı katmanına ulaşır. Sonra ağa

gösterilen eğitim girdi verisi için ağın çıktısı hesaplanır. Daha sonra hesaplanan bu değer

ile hedeflenen çıktı değeri (bağımlı değişken değeri) karşılaştırılır ve bu karşılaştırma

değeri (hata fonksiyonu) hesaplanır. Eğer hesaplanan ve hedeflenen çıktı değeri arasında

fark kabul edilebilir düzeyde ise veya fark yoksa ağda herhangi bir değişiklik yapılmaz.

Bununla birlikte bu farkın önceden belirlenmiş tolerans değerini aşması halinde, ağın

bazı bağlantılarında değişiklik yapılması gerekir. Bu değişikliklerin yapılmasında En

Dik Azalış Yöntemi (Steepest Descent Method) kullanılır.

Ağın ağırlıkları ve hata fonksiyonu olmak üzere t‟inci iterasyonda ağırlık

değerleri ve hata fonksiyonu değeri sırasıyla ve ile gösterilir. Bu tanıma göre

‟inci iterasyonda ağırlıkların yeni değeri için hata fonksiyonun değeri

ile arasında (2.13) ile verilen ilişki vardır.

(2.13)

Hata düzelterek öğrenme süreci, ağırlıklarının her bir iterasyonda en dik azalış

doğrultusunda (türevin ters yönü) sıfırdan büyük bir sabit sayı olan öğrenme katsayısı

ile orantılı olarak değiştirilmesi esasına dayanmaktadır.

(2.14)

1 ADALINE (ADAptive LINear Element): Bernard Widrow ve Tedd Hoff tarafından 1960 yılında

geliştirilen, bir yan ve bu yan değerine bağlı ağırlık fonksiyonu ile toplam işlemcisinden oluşan basit bir

YSA modelidir.

31

(2.14) ile verilen eşitsizlikte yer alan değeri, olarak

belirlenir. Öğrenme oranının yeterince küçük seçilmesi durumunda, en dik azalış

yönteminde her iterasyon, bir öncekinden daha küçük hata değeri verecektir.

Delta kuralına göre çıktı birimlerine ait aktivasyon fonksiyonunun, özdeşlik

fonksiyonu1 olduğu varsayılır. Dolayısıyla ağın ürettiği çıktı değerleri ile hedef değerler

arasındaki farkların kareleri toplamı enküçüklenir (Fausett, 1993).

Şekil 2-6 ile gösterilen ve girdi katmanında , çıktı katmanında nöron bulunan

tek katmanlı bir yapay sinir ağı ele alındığında, girdi vektörü ‟e karşılık ağın ürettiği

çıktı vektörü olmak üzere ‟inci çıktı nöronuna karşılık gelen değer (2.15)‟deki gibi

hesaplanır.

(2.15)

gözlemden oluşan eğitim kümesi, olmak

üzere, eğitim kümesinin herhangi bir ‟inci elemanı için girdi ve çıktı değerleri

vektörü sırasıyla (2.16) ve (2.17)‟deki gibi gösterilir.

(2.16)

(2.17)

1 Özdeşlik Fonksiyonu (Identity Function): şeklinde tanımlanan özel bir fonksiyon tipidir.

32

ġekil 2-6 m girdi ve n çıktılı tek katmanlı bir yapay sinir ağı (Fuller 2000, 174)

Delta öğrenme algoritmasının temel prensibi, tüm ağın performansının ölçüsü olan

bir hata fonksiyonu tanımlamak ve ağın performansını eniyilemektir. Tek katmanlı bir

yapay sinir ağı için ağın performansı (2.18)‟deki fonksiyonu ile tanımlanır.

(2.18)

(2.18)‟de , ‟inci çıktı nöronu için hedeflenen değer,

ile ağın çıktısı ifade

edilmektedir. Delta öğrenme kuralında çıktı katmanı nöronlarındaki aktivasyon

fonksiyonunun türevlenebilir olması durumunda, ağırlıklarda yapılacak olan türevin tersi

yönünde belirli orandaki değişiklikler yardımıyla eniyileme sağlanır. eğitim veri

kümesi için, ağırlıkların değiştirilme kuralı en dik azalış yöntemine göre (2.19)‟daki

gibidir.

(2.19)

(2.19)‟da yer alan hata fonksiyonu ‟nin kısmi türevi zincir kuralının

kullanılmasıyla,

(2.20)

şeklinde yazılabilir. (2.20)‟nin (2.19)‟da yerine yazılmasıyla, ijw ağırlığının öğrenme

algoritmasında her iterasyonda alacağı yeni değer (2.21) ile hesaplanır.

33

(2.21)

Öğrenme algoritmasına adını veren ve delta olarak adlandırılan hata sinyali,

‟inci çıktı nöronu için (2.22)‟deki gibi hesaplanır.

(2.22)

Doğrusal çıktı birimleri için , ‟inci çıktı değeri ile hedeflenen değer arasındaki

farka eşittir. Buradan hareketle, ‟inci çıktı nöronunun ağırlık matrisi , sistemin girdisi

, hedef vektörünün ‟inci koordinatı , ağdan hesaplanan çıktı vektörünün ‟inci

elemanı ve öğrenme oranı ile ifade edilmek üzere delta öğrenme kuralı (2.23)

ve (2.24) ile ifade edilir.

(2.23)

(2.24)

Bu tip ağların temel özelliği, benzer örüntüleri benzer çıktılara karşılık

getirebilmeleridir. Bu özelliği sayesinde ağ, eğitim kümesi verilerinin kullanılmasıyla

genellemeler yaparak daha önce görmediği örüntülere uygun sonuçlar üretebilir.

Standart delta öğrenme kuralında doğrusal bir aktivasyon fonksiyonu kullanılır.

Hata fonksiyonu, hata kareler toplamıdır ve bu fonksiyon en dik azalış yöntemi ile

eniyilenir. Buraya kadar ifade edilenlere göre delta öğrenme algoritması aşağıdaki gibi 7

adımda özetlenebilir (Fuller, 2000, pp. 176-177):

Adım 1: Öğrenme oranı ve en büyük hata tolerans değeri

belirlenir.

Adım 2: ağırlıklarının başlangıç değerleri rastgele küçük sayılar olarak

belirlenir, ve olarak seçilir.

34

Adım 3: Öğrenme bu adımda başlar. girdisi ağa gösterilir ve bu girdiye

karşılık çıktısı (2.25) yardımıyla hesaplanır.

(2.25)

Adım 4: Ağırlık değerleri (2.26)‟da verilen formüle göre güncellenir.

(2.26)

Adım 5: Hata fonksiyonunun değeri (2.27)‟deki formül ile hesaplanır.

(2.27)

Adım 6: Eğer ise olarak seçilir ve eğitime devam etmek üzere

Adım 3‟e, değilse Adım 7‟ye gidilir.

Adım 7: Eğitim döngüsü bu aşamada tamamlanır. ise eğitime son

verilir, ise olarak seçilir ve yeni bir eğitim döngüsü için Adım

3‟e gidilir.

2.5.4 Sezgisel Optimizasyon Algoritmaları ile Öğrenme

Buraya kadar değinilmiş olan öğrenme algoritmaları analitik çözümlere

dayanmaktadır. Ancak bazı durumlarda bu yöntemler yerel çözümlere takılmakta veya

en iyi çözüme yakınsamakta yetersiz kalabilmektedir. Bu sorunlar bazen veri

yapısından, bazen de ağırlıkların başlangıç değerlerinin iyi belirlenmemiş olmasından

kaynaklanabilir. Bu tip durumlarda sezgisel optimizasyon algoritmaları sıklıkla

başvurulan yöntemlerdir. Genetik Algoritma, Parçacık Sürü Optimizasyonu, Karınca

Kolonisi Algoritması, Tabu Araması v.b. sezgisel yöntemler kullanılarak öğrenmenin

sağlandığı çalışma sayısı oldukça fazladır.

2.6 Yapay Sinir Ağlarının Avantajları ve Dezavantajları

Yapay sinir ağları geleneksel istatistik tekniklerin kullanıldığı hemen her alanda

alternatif bir yöntem olarak ortaya çıkmaktadır. Literatürde YSA‟nın istatistik

35

tekniklerle karşılaştırıldığı birçok çalışma bulunmaktadır. YSA‟nın parametrik istatistik

yöntemlere göre en önemli avantajı, daha az varsayıma sahip olmasıdır. Diğer bir ifade

ile YSA‟da bağımlı ve bağımsız değişkenler arasındaki ilişkinin yapısı ile ilgili herhangi

bir varsayım bulunmamaktadır. Bununla birlikte birçok istatistik yöntemde yer alan,

değişkenlerin belirli dağılımlara sahip olması ve süreklilik varsayımları YSA için geçerli

değildir. Bu özellikleri ile YSA, gerçek hayat problemlerine uygulanabilirlik açısından

istatistik yöntemlere göre daha elverişlidir. YSA, aktivasyon fonksiyonlarının seçimine

bağlı olarak istatistik yöntemlerle analizi mümkün olmayan çok yüksek dereceden

doğrusal olmayan ilişkileri bile yakalama gücüne sahiptir (Cganh, Liang, & Chen, 2001,

s. 530).

Yapay sinir ağları bir anlamda parametrik olmayan bir istatistik yöntem olarak

düşünülebilir (Comrie, 1997, s. 655). YSA‟ya yöneltilen en büyük eleştiri bu noktada

ortaya çıkmaktadır. YSA ile oldukça başarılı tahmin ve sınıflandırma yapılabilmekle

birlikte, elde edilen nihai modele ait katsayı değerleri yorumlanamaz. Ayrıca hangi

bağımsız değişkeninin bağımlı değişkenler üzerinde etkili olduğuna ilişkin bilgi de elde

edilemez. Bu bağlamda YSA, politika belirlemede kullanılamaz.

Buraya kadar ifade edilen dezavantajların yanı sıra, YSA‟da kullanıcıya bağlı

olarak değiştirilebilir parametre çok fazladır. Ağırlıkların başlangıç değerlerinin,

aktivasyon fonksiyonunun tipinin, gizli katmanda bulunacak alt katman sayısının ve bu

alt katmanlarda bulunacak nöron sayılarının belirlenmesi keyfi olarak yapılmakta ve en

iyi ağ yapısı deneme yanılma yolu ile belirlenmektedir. Ayrıca kullanılacak öğrenme

algoritmasının belirlenmesi de ağın başarısı üzerinde oldukça etkilidir ve literatürde her

zaman diğerlerinden daha iyi olduğu ispat edilmiş bir öğrenme algoritması

bulunmamaktadır.

Yukarıda ifade edilen dezavantajların dolaylı olarak ortaya çıkardığı bir başka

olumsuz yön ise YSA‟da işlem yükünün çok fazla olmasıdır. Öğrenme algoritmalarının

genellikle iterasyona dayalı olması, uzayan işlem sürelerinin kısaltılabilmesi için

36

belirlenen durdurma kriterlerinin fazla esnek olmamasına, bu da elde edilebilecek daha

iyi çözümlerin göz ardı edilmesine neden olabilmektedir.

2.7 Radyal Tabanlı Fonksiyon Ağları

Radyal Tabanlı Fonksiyon Ağları (RTFA), çok katmanlı ileri beslemeli YSA‟nın

özel bir halidir ve iki karakteristik özelliği vardır. Bunlardan birincisi, tek gizli katman

bulundurması, ikincisi ise gizli katman nöronlarında aktivasyon fonksiyonu olarak

radyal tabanlı fonksiyonların kullanılmasıdır. Radyal tabanlı fonksiyon ağlarının diğer

bir önemli özelliği ise girdi nöronlarından gizli katman nöronlarına bilginin

değiştirilmeden aktarılmasıdır. Diğer bir ifade ile girdi katmanı ile gizli katman

arasındaki tüm bağlantı ağırlıklarının “1” olduğu söylenebilir.

Bu çalışmada Radyal Tabanlı Fonksiyon Ağları ele alınmıştır. Daha önce ifade

edilen YSA‟nın dezavantajlarından bazılarının üstesinden gelecek şekilde yeni bir hibrit

model geliştirilmiştir. Bu bağlamda, radyal tabanlı fonksiyon ağları için mevcut olan

merkez ve yarıçap parametrelerinin belirlenmesi sorunu ve gizli katman ile çıktı katmanı

arasındaki ağırlık parametrelerinin öğrenilmesi sırasında ortaya çıkan tasarım matrisinin

tekilliği sorunu uygun istatistik yöntemlerin ağa entegre edilmesi ile çözülmektedir.

RTFA‟nın dezavantajlarının bazılarının giderilmesine yönelik bu eklentilerin yanında,

oluşturulan model değişken seçimi yapacak şekilde tasarlanmıştır. Bu sayede RTFA‟nın

avantajları da bir ölçüde arttırılmış olmaktadır.

Yukarıda bahsedilen ve Hibrit RTFA olarak adlandırılan model, daha ayrıntılı

olarak Bölüm 3‟te açıklanmıştır.

37

BÖLÜM 3 HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI

Çalışmanın bu kısmında YSA‟nın özel bir türü olan Radyal Tabanlı Fonksiyon

Ağları (RTFA) ele alınmaktadır. RTFA‟nın genel yapısı, işleyişi ve öğrenme kuralları

incelendikten sonra RTFA ile ilgili mevcut problemler ortaya konularak bu problemlere

önerilen çözümler irdelenmektedir. Bu bağlamda RTFA çerçeve kabul edilerek uygun

istatistik teknikler bu çerçeveye yerleştirilmiş ve oluşturulan Hibrit RTFA modeli hem

değişken seçimi hem de tahminleme problemlerine çözüm getirecek şekilde

oluşturulmuştur.

3.1 Radyal Tabanlı Fonksiyon Ağları

Moody ve Darken (1989) tarafından popüler hale getirilen RTFA, danışmanlı

öğrenme kapsamında değerlendirilen ileri beslemeli bir YSA modelidir. Ağ mimarisinin

basitliği nedeniyle çok katmanlı YSA modellerine göre birçok avantajı vardır. Bu

avantajlardan başlıcası, diğer geri yayılım algoritmalarına göre daha hızlı

eğitilebilmeleri olarak ifade edilebilir.

RTFA‟yı diğer YSA‟ndan ayıran en önemli özellik, gizli katman aktivasyon

fonksiyonlarının sigmoid ve S-türü fonksiyonlar yerine, çekirdek fonksiyon olarak da

adlandırılan Radyal Tabanlı Fonksiyonlar (RTF) kullanılmasıdır. Bu özelliği ile RTFA,

farklı bölgelerinde farklı davranışlar gösteren girdi uzayları üzerinde çalışılırken etkin

bir araç olarak öne çıkmaktadır.

38

Şekil 3-1‟de iki kategorili çıktısı olan tipik bir sınıflandırma problemi

görülmektedir. RTFA yerel bilgi işleme kapasitesi sayesinde, sözü edilen probleme

kolayca çözüm getirecek şekilde uyarlanabilmektedir. Şekil 3-1 ile tanımlanan

problemin çözümü için, merkezi kesikli çemberin ortasında yer alacak şekilde

belirlenmiş tek bir radyal tabanlı fonksiyon kullanmak yeterli olacaktır.

Şekil 3-1 ile basit bir örneği verilmiş olmakla beraber, RTFA çok karmaşık

yapıdaki, diğer bir ifade ile yüksek dereceden doğrusal olmayan yapıdaki örüntüleri bile

sınıflandırabilecek şekilde yapılandırılabilir. RTFA‟nın bu özelliğinin temeli Cover‟ın

örüntülerin ayrılabirliği üzerine ortaya attığı teoreme dayanmaktadır (Haykin, 1999, s.

257).

Cover Teoremi: Karmaşık yapıdaki örüntü sınıflandırma problemleri, doğrusal

olmayan dönüşümlerle yüksek boyutlu uzaya taşındıklarında, düşük boyutlu uzaylarda

yapılan çözümlere göre daha yüksek doğrusal ayrıştırılabirliğe sahiptir (Cover, 1965, s.

15).

Cover Teoremine uygun olarak RTFA, doğrusal olmayan dönüşümler yardımı ile

girdi uzayının içerdiği karmaşık yapıdaki örüntülerin doğrusal ayrıştırılabilir hale

ġekil 3-1 Ġki kategorili sınıflandırma problemi

39

getirilmesi ve daha sonra doğrusal modeller yardımı ile problemin çözülmesi esasına

dayanmaktadır. Bu yapı içerisinde RTF‟nin görevi, girdi uzayını doğrusal olmayan

dönüşümlerle yüksek boyutlu uzaya dönüştürülmesidir. Ağırlık parametreleri ise

doğrusal ayırma yüzeyine karşılık gelmektedir. Cover teoreminin iddiası, Şekil 3-2 ile

örneklenmiştir.

Şekil 3-2‟de yer alan soldaki grafik, iki boyutta doğrusal ayrıştırılabilir olmayan

iki kategorili bir sınıflandırma probleme aittir. Uygulanan doğrusal olmayan dönüşüm

ile problem, sağdaki grafikte görüldüğü gibi boyutu arttırılarak üç boyutlu uzaya

taşınmıştır. E düzleminin, siyah ve gri renkle gösterilmiş olan iki kategorili sınıflandırma

problemini doğrusal olarak ayrıştırabildiği görülmektedir. Sonuç olarak iki boyutta

çözümü doğrusal ayrıştırılabilirlik açısından imkansız olan problem, üç boyuta taşınarak

daha yüksek boyutta çözülebilir hale gelmiştir.

3.2 Radyal Tabanlı Fonksiyon Ağlarının Yapısı

Radyal tabanlı fonksiyon ağları ileri beslemeli çok katmanlı YSA‟nın özel bir

halidir. RTFA tek gizli katmandan oluşan ve bu gizli katman nöronlarında RTF

kullanılan bir yapıdadır. Buna göre bir RTFA‟nın genel görünümü Şekil 3-3 ile

verilmektedir.

A

B

C D

E

Doğrusal Olmayan Dönüşüm

ġekil 3-2 Boyut yükseltme yolu ile doğrusal ayrıĢtırılabilirlik

40

Radyal tabanlı fonksiyon ağlarında girdi katmanı sadece modele dış dünyadan veri

alınmasını sağlar. Bu bağlamda girdi, hiç bir şekilde işlenmeden doğrudan girdi katmanı

aracılığı ile gizli katman nöronlarına iletilir. Diğer bir ifade ile girdi katmanını gizli

katmana bağlayan tüm ağırlık değerlerinin “1” olduğu ve çözüm süresince değişmediği

varsayılır. Bu özelliği ile öğrenme aşamasında değeri değiştirilecek parametre sayısında

önemli bir azalma gerçekleşir ve dolayısıyla öğrenme hızlanır.

Herhangi bir tahmin modeli için, kullanıcı tarafından keyfi denemelerle belirlenen,

deneme yanılma yolu ile iyileştirilebilen parametrelerinin az oluşu, ilgili modelin

kullanışlılığı açısından olumlu bir işarettir. Bu bakımdan RTFA‟nın çok katmanlı

YSA‟ya göre daha kullanışlı olduğu söylenebilir. Bunun nedeni, eldeki problemin

çözümüne uygun RTFA‟nın oluşturulması aşamasında ağ mimarisine ilişkin verilecek

tek kararın, gizli katmanda bulunacak nöron sayısının belirlenmesi olmasıdır. En iyi

modelde bulunması gereken gizli katman nöron sayısı, problemden probleme ve hatta

aynı problem için elde edilmiş farklı veri kümelerine göre bile değişebilmektedir. Bu

Nöronlar

Çıktılar

Girdiler

ġekil 3-3 RTFA Mimarisi

41

nedenle en iyi model için gizli katman nöron sayısı genellikle farklı alternatiflerin

denenmesi yoluyla bulunur.

Girdi katmanından gelen bilgi gizli katmanda RTF‟ler aracılığıyla işlendikten

sonra ilgili ağırlık değerleri ile çarpılarak çıktı katmanına iletilir. RTFA‟da bilgi akışına

ilişkin ifade edilenlere göre, gizli katmanda bulunan nöron sayısı ve herhangi bir

‟inci nörona atanmış RTF ile gösterilmek üzere, tek çıktılı bir radyal tabanlı

fonksiyon ağının girdisine karşılık ürettiği değer, doğrusal bir model oluşturacak

şekilde (3.1) ile ifade edilmektedir.

(3.1)

ağın çıktısını, ağın girdisini,

gizli katman

nöronlarının çıktılarını ve

parametreleri ise gizli katmanı çıktı katmanına

bağlayan ağırlık parametrelerini göstermektedir. (3.1) eşitliğinde matris notasyonunun

kullanılmasıyla tek çıktılı RTFA modelinin çıktısı, (3.2) ile verilen tipik bir doğrusal

modele dönüşür.

(3.2)

(3.2)‟de eğitim veri kümesi için gözlem sayısı ve gizli katman nöron sayısı

olmak üzere , ( boyutlu bağımlı değişkenin tahmin değerleri vektörünü; ,

( boyutlu ağırlıklar vektörünü ve , açık hali (3.3) ile verilen ( boyutlu

tasarım matrisini göstermektedir.

(3.3)

(3.2)‟den anlaşılacağı gibi, RTFA‟nın başarısındaki en önemli etken, aktivasyon

fonksiyonu olarak uygun radyal tabanlı fonksiyonun seçilmesidir. Sözü edilen RTF‟nin

başlıcaları devam eden kısımda ayrıca incelenmiştir.

42

Uygun radyal tabanlı fonksiyonun seçimi kadar, sayısının belirlenmesi de ağ

mimarisinin oluşturulmasında önemli rol oynamaktadır. En iyi radyal tabanlı fonksiyon

sayısının seçilmesine ilişkin en basit yol, bu sayının rastgele olarak belirlenmesidir. Bu

şekilde yapılan seçimde birçok farklı sayı için denemeler yapılarak içlerinden en iyi

performansı gösteren belirlenir. Ancak bu yöntem hiç bir zaman en iyi alternatifin

bulunmasını garanti etmemektedir. İlerleyen kısımlarda değinilecek bazı öğrenme

yöntemlerinde ise kullanılacak radyal tabanlı fonksiyon sayısı kendiliğinden ortaya

çıkmaktadır.

3.3 Radyal Tabanlı Fonksiyonlar

Radyal tabanlı fonksiyon ağlarına adını vererek yeni bir YSA sınıfının oluşmasına

yol açan RTF, girdi veri kümesinin özel olarak belirli bir bölgesine düşen değerler için

en büyük (ya da en küçük) değerini alan ve bu noktadan uzaklaştıkça daha küçük (ya da

daha büyük) değerler üreten fonksiyonlardır. Bu özelliği ile RTF bölgesel işlemciler

olarak kabul edilmektedir.

Herhangi bir radyal tabanlı fonksiyon, merkez ( ) ve yarıçap ( ) olmak üzere

iki parametre ile belirlenir. Bu parametrelerden , fonksiyonun en büyük ya da en küçük

değerini aldığı noktayı gösterirken , bu noktaya olan uzaklıkları ölçeklendiren

parametredir. Buradan hareketle, belirli bir değerinden uzaklığın değerine oranının

fonksiyonu olacak şekilde RTF (3.4)‟teki gibi ifade edilir.

(3.4)

Literatürde yer almış birçok radyal tabanlı fonksiyon olmakla beraber bunlardan

başlıcaları Gauss, Cauchy, Çoklu-Kuadratik ve Ters Çoklu-Kuadratik fonksiyonlardır.

Bu radyal tabanlı fonksiyonların formülasyonları sırasıyla (3.5)-(3.8) ile verilmektedir.

Gauss RTF

(3.5)

43

Cauchy RTF

(3.6)

Çoklu Kuadratik RTF

(3.7)

Ters Çoklu Kuadratik RTF

(3.8)

Formülasyonları verilen radyal tabanlı fonksiyonların iki boyutta görünümleri

Şekil 3-4 ile verilmektedir. Şekil 3-4‟ten anlaşılacağı gibi Gauss ve Çoklu-Kuadratik

fonksiyonlar merkez değere yaklaştıkça en büyük değerlerine yaklaşırken, Cauchy ve

Ters Çoklu-Kuadratik türü fonksiyonlarda en küçük değer, merkez noktasında alınır ve

merkezden uzaklaştıkça fonksiyon daha büyük değerler alır.

ġekil 3-4 Radyal Tabanlı Fonksiyonlar (c=0.5 ve r=0.2)

44

Radyal tabanlı fonksiyonlar merkez parametresi ile belirlenen belirli noktalarda en

büyük ya da en küçük değerlerini aldıkları için girdi uzayının farklı bölgelerindeki farklı

davranışları modelleyebilirler. Gizli katmanda bulunan nöron sayısı, girdi-çıktı

arasındaki ilişkinin o sayı kadar farklı modellerle sonuca yansıtılmasını sağlar.

Şekil 3-5‟te iki girdili bir RTFA için, radyal tabanlı fonksiyonların girdi

uzayındaki dağılımları gösterilmektedir. İç içe geçmiş her bir halkalar grubu bir radyal

tabanlı fonksiyona karşılık gelirken, bu iç içe geçmiş halkalar ilgili radyal tabanlı

fonksiyonun merkezden gittikçe uzaklaşan girdilere karşılık aldıkları değerdeki değişimi

ifade etmektedir.

Radyal tabanlı fonksiyon ağı mimarisinde kaç gizli katman nöronu bulunacağı

dolayısıyla, kaç tane radyal tabanlı fonksiyon kullanılması gerektiğinin belirlenmesi

önemli bir sorundur. Gizli katman sayısı yeterince arttırılarak eğitim veri kümesindeki

tüm noktalardan geçen bir model oluşturmak mümkündür. Ancak radyal tabanlı

fonksiyonların sayısının, diğer bir ifade ile matrisinin boyutunun arttırılması, birçok

h1

h2

hp

ġekil 3-5 Ġki girdili bir RTFA mimarisinde RTF'lerin görünümü

45

hazır paket programın bile altından kalkamayacağı matris tersi alma işlemlerini

gerektirecektir. Bununla beraber iyi öğrenmiş bir ağdan beklenen eğitim girdisini sıfır

hata verecek şekilde tahminlemesi değil, girdi ile çıktı arasında yatan gerçek ilişkiyi

modellemesidir. Eğitim veri kümesini sıfır hata ile öğrenmiş bir model, çıktı değerlerinin

doğasında bulunan tesadüfi veya sistematik hatayı da modele katmış demektir. Bu

şekildeki model, eğitim kümesinde yer almayan daha önce görmediği girdilerle

karşılaştığında hedeflenen çıktı değerinden uzak sonuçlar üretir. Diğer taraftan

gereğinden az sayıda radyal tabanlı fonksiyon kullanılması, girdi ile çıktı arasındaki

ilişkiyi yakalamakta yetersiz bir model oluşturulmasına yol açacaktır. Bu bağlamda gizli

katman nöron sayısı, RTF ağlarının mimarisinde karar verilmesi gereken en önemli

parametrelerden birisidir.

Şekil 3-6 aşırı ve yetersiz öğrenmiş bir RTFA modeli için eğitim veri kümesi için

ağ çıktılarının seyrini göstermektedir. Buna göre aşırı uyum durumunda (E1) siyah

noktalarla gösterilmiş olan eğitim veri kümesi noktaları tam olarak yakalanmış olmakla

beraber, serinin gerçek seyri modellenememiştir. Diğer taraftan yetersiz öğrenme

E1

E2

E3

E1: Aşırı Uyum (Ezberleme)

E2: Gerçek Gözlem Değerleri

E3: Yetersiz Öğrenme

ġekil 3-6 AĢırı Uyum ve Yetersiz Öğrenme Örneği

46

durumunda (E3) ise ne eğitim kümesindeki noktalar ne de serinin gerçek seyri

yakalanabilmiştir.

3.4 Radyal Tabanlı Fonksiyon Ağlarında Öğrenme

Radyal tabanlı fonksiyon ağlarında öğrenme, danışmanlı1 ve danışmansız

2

öğrenmenin karışımı olacak şekilde iki aşamada gerçekleştirilmektedir. Danışmansız

öğrenme kapsamındaki ilk aşama, gizli katman nöronlarında yer alan radyal tabanlı

fonksiyonların merkez ve yarıçap parametrelerinin belirlenmesi aşamasıdır. Bir doğrusal

regresyon problemi gibi çözülebilen ve danışmanlı öğrenme kapsamında değerlendirilen

ikinci aşama ise gizli katmanı çıktı katmanına bağlayan bağlantı ağırlıklarının

belirlenmesi sürecidir. Her iki öğrenme aşaması için de önerilmiş birçok yöntem

olmakla beraber bunlardan önce çıkanlar takip eden kısımda özetlenmektedir.

3.4.1 Radyal Tabanlı Fonksiyonların c ve r Parametrelerinin Belirlenmesi

Radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin belirlendiği bu

aşamanın genellikle danışmansız öğrenme kapsamında değerlendirilmesinin nedeni, bu

aşamada önerilen yöntemlerde genellikle gözlenen çıktı değerlerinin kullanılmamasıdır.

Bu aşamada girdi uzayı, çıktı değerlerinden bağımsız olarak birbirine benzeyen girdi

değerlerinin kümelendiği bölgelerin ve bu bölgelerin genişliklerinin belirlenmesi

sürecidir. Bu aşamada kullanılan matematiksel, istatistik ve sezgisel yöntemlerden

bazıları çalışma kapsamında açıklanmıştır.

1 Danışmanlı Öğrenme (Supervised Learning): Gözlenen bağımlı değişken değerlerinin var olduğu

durumda kullanılan öğrenme türüdür. Tahminleme ve sınıflandırma problemleri danışmanlı öğrenme

kapsamında çözülür.

2 Danışmansız Öğrenme (Unsupervised Learning): Bağımlı değişken değerlerinin olmadığı veya

bilinmediği durumlarda kullanılan öğrenme türüdür. Kümeleme ve eniyileme problemleri danışmansız

öğrenme kapsamında değerlendirilir.

47

Rastgele Olarak SeçilmiĢ Sabit Merkezler: Bu yönteme göre girdi uzayından

rastgele noktalar belirlenir ve bu noktaların her biri, bir radyal tabanlı fonksiyona

karşılık gelen merkez parametreleri olarak sabitlenir. Bu sabit merkez parametrelerinin

değeri öğrenme süresince değiştirilmez. Bu yöntemde yarıçap parametreleri de sezgisel

olarak belirlenebileceği gibi (3.9)‟da verilen formülasyona göre de belirlenebilir.

(3.9)

Yukarıdaki formülasyonda herhangi iki merkez arasındaki en büyük uzaklığı,

ise gizli katman nöron sayısını göstermektedir. Tek başına kullanıldığında probleme

etkin çözümler getiremeyen bu yöntem, diğer birçok teknik için başlangıç çözümü

olarak kullanılmaktadır.

Kümeleme Analizi: Girdi uzayının benzer girdi değerlerinin bulundukları

bölgelerin merkezlerinin belirlenmesi amacıyla kullanılan istatistik yöntemlere

Kümeleme Analizi adı verilir. Bu bağlamda, herhangi bir kümeleme analizi yöntemi ile

ağ mimarisinde kullanılan radyal tabanlı fonksiyon sayısı ve bu fonksiyonların

merkezleri belirlenebilir (Mehrotra, Mohan, & Ranka, 2000). Yarıçap parametreleri ise

genellikle küme merkezlerinin birbirlerine olan ortalama uzaklıkları veya ilgili küme

merkezine en yakın diğer küme merkezi arasındaki uzaklık dikkate alınarak hesaplanır.

Gradyen AzalıĢ Yöntemi: Radyal tabanlı fonksiyon ağlarına uyarlanışı Poggio ve

Girossi (1989) tarafından önerilen gradyen azalış yöntemini kullanan RTFA,

Genelleştirilmiş Radyal Tabanlı Fonksiyon Ağları (GRTFA) olarak adlandırılmaktadır

(Wettschereck & Dietterich, 1992). Bu yöntem, başlangıçta rastgele olarak belirlenmiş

olan ve parametrelerinin, modelin çıktıları ile hedeflenen çıktılar arasındaki farka

ilişkin tanımlanan bir hata fonksiyonunun, ve parametrelerine göre kısmi türevlerinin

tersi yönünde, değerlerinin güncellenmesi esasına dayanır. Buna göre ve

parametreleri öğrenmenin her aşamasında (3.10) ve (3.11) ile formülleri verilen değişim

miktarları ile toplanarak güncellenir.

48

(3.10)

(3.11)

Yukarıda verilen formülasyonlarda yer alan ve değerleri sırasıyla merkez

ve yarıçap parametrelerinde yapılacak olan değişiklik miktarını, , hata kareler

toplamını ve ise öğrenme oranını göstermektedir. Yukarıda her iki formülasyonda da

aynı öğrenme oranı kullanılmış olmakla beraber merkez ve yarıçap parametrelerinin

öğrenmesinde farklı öğrenme oranları da kullanılabilir. Öğrenme oranlarının

büyüklüğünün seçimi, öğrenmenin başarısı üzerinde doğrudan etkilidir. Gereğinden

küçük belirlenmiş öğrenme oranı işlem süresinin çok uzamasına neden olurken,

gereğinden büyük belirlenmesi en iyi çözümün atlanmasına neden olabilir.

Gradyen azalış yöntemine göre öğrenme işlemi sırasında hata fonksiyonu

aracılığıyla hedeflenen çıktı değerleri de kullanıldığı için, diğer yöntemlerden farklı

olarak bu yöntem, danışmanlı öğrenme kapsamında değerlendirilir. Bu yöntemin

olumsuz yanı, öğrenmenin yerel çözümlere takılabilmesidir. Ayrıca iteratif olarak

yürütülen bu yöntem, gözlem sayısı ve radyal tabanlı fonksiyon sayısının fazlalığına

bağlı olarak oldukça yüksek işlem yükü getirebilmektedir.

Karar Ağaçları: Genel görünümü Şekil 3-7 verilen Karar Ağaçları, girdi uzayının

sorgulama yolu ile art arda iki bölgeye ayrılması esasına dayanmaktadır. Sürekli

sorgulamalar yolu ile alt hiper-dikdörtgen uzaylara bölünen girdi uzayı, birbirinden

farklı özellikler gösteren girdilerin gruplandığı bölgelere ayrılmış olur. Böylece karar

ağaçları, hiper-dikdörtgenlerden oluşan bu alt uzayların her birisine bir radyal tabanlı

fonksiyonun merkez ve yarıçapı atanarak radyal tabanlı fonksiyon parametrelerinin

belirlenmesinde kullanılmaktadır.

49

Bir tür karar ağacı olan Sınıflandırma ve Regresyon Ağaçları yöntemleri, benzer

şekilde radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin

belirlenmesinde etkin olarak kullanılmaktadır. Açıklayıcı değişkenin kesikli olması

durumunda sınıflandırma ağaçları, sürekli olması durumunda ise regresyon ağaçları

yöntemi kullanılır. Sınıflandırma ve regresyon ağaçları diğer öğrenme yöntemlerine göre

birçok avantaja sahiptir. Bunlardan en önemlisi, oluşturulan her bir hiper-dikdörtgen bir

radyal tabanlı fonksiyona karşılık geldiği için, ağ mimarisinde kullanılacak olan gizli

katman sayısı kendiliğinden ortaya çıkmaktadır. Bu özelliği ile sınıflandırma ve

regresyon ağaçları, RTFA‟yı kullanıcıya daha az bağımlı hale getirmektedir.

Sınıflandırma ve regresyon ağaçlarının ikinci önemli avantajı, analize başlamadan önce

bir defa çalıştırılarak analiz boyunca değiştirilmeden kullanılacak merkez ve yarıçap

parametrelerinin belirlenmesini sağlamaları ve bu sayede ağır işlem yükü getiren iteratif

öğrenme algoritmalarından daha az zaman almalarıdır.

Yukarıda sözü edilen avantajlarından dolayı bu çalışmada, RTFA‟nın merkez ve

yarıçap parametreleri Bölüm 4‟te detaylı olarak açıklanan regresyon ağaçları

kullanılarak belirlenmiştir. Bu bağlamda bağımlı değişkenin sürekliliği, oluşturulan

modelin varsayımlarından birisidir.

x<100

y<50

y>30

y>80

x<130

y<10 x<165

0

x>75

x<25 x<90

y

25 75 90 100 130 165

x

10

50

80

30

ġekil 3-7 Karar Ağaçları

50

3.4.2 Radyal Tabanlı Fonksiyonların w Bağlantı Ağırlıklarının Belirlenmesi

Radyal tabanlı fonksiyon ağları öğrenmesinin ikinci aşaması, danışmanlı öğrenme

kapsamında değerlendirilen ve gizli katmanı çıktı katmanına bağlayan bağlantı

ağırlıklarının ( ) belirlenmesi aşamasıdır. Bu aşamada öğrenme, gizli katmanda yer alan

gizli katman çıktılarının ( ) bağımsız değişken değerlerini, hedef çıktı değerlerinin ( )

bağımlı değişken değerlerini ve vektörünün regresyon katsayılarını temsil ettiği bir

regresyon modeli ile ifade edilebilir. Dolayısıyla ağırlık parametrelerinin öğrenilmesi,

(3.12)‟de verilen doğrusal modelin ağırlıklarının belirlenmesi problemine indirgenmiş

olur (Bozdogan H. , 2007, s. 2).

(3.12)

(3.12) ile verilen regresyon modeli için parametresinin belirlenmesinde ilk akla

gelen yöntem En Küçük Kareler (EKK) yöntemidir. EKK yöntemine göre ağırlık

parametrelerinin bulunmasına ilişkin formül (3.13)‟teki gibi verilmektedir.

(3.13)

RTFA öğrenmesinde ağırlık parametrelerinin (3.13)‟tekine benzer bir

formülasyonla hesaplanması, modelin yeni veriler için genelleme yapabilme kapasitesi

açısından bazı sorunları beraberinde getirmektedir. Bu sorunların ortaya çıkmasının

temel iki nedeni; ağ mimarisinde kullanılan radyal tabanlı fonksiyon sayısının girdi çıktı

arasındaki gerçek ilişkiye ait modelin serbestlik derecesinden yüksek olması ve çok fazla

radyal tabanlı fonksiyon kullanarak ağın aşırı belirli olması olarak özetlenebilir (Haykin,

1999, s. 265). Eğitim veri kümesinde gerçekleşen bu aşırı belirlilik, modelin test

aşamasındaki kötü performans olarak ortaya çıkmaktadır.

51

Şekil 3-8 ile kötü konumlanmış1 matrisi ve bu durumda ortaya çıkan sorun

gösterilmektedir. Buna göre, sinüs dalgası fonksiyonuna rastgele hatalar eklenerek

gözlem değerleri oluşturulmuş ve ilişki RTFA ile modellenmiştir (Bozdogan H. , 2007).

Grafiğin ilk yarısı eğitim veri kümesi için modelin çıktılarının gerçek değerlere oldukça

yakın olduğunu göstermektedir. Bununla beraber test aşamasında kullanılan ikinci

yarıda, modelin çıktıları ile gerçek çıktı değerleri arasında büyük farklar oluşmaktadır.

Bu çalışmada ağırlık parametrelerinin belirlenmesinde, matrisinin tekilliği

sorununun önüne geçmek üzere kötü konumlanmış matrisler için bir düzenleme yöntemi

olan Ridge Regresyon yöntemi kullanılmıştır. Ridge Regresyon yöntemi Bölüm 5‟te

ayrıntılı bir şekilde açıklanmaktadır.

1 Kötü Konumlanmış Matris (Ill Posed Matrix): Tekillik sorununa yol açan matris

Gözlem Değerleri

Gerçek İlişki

Modellenen İlişki

Tahminlenen İlişki

ġekil 3-8 AĢırı belirli model örneği (Bozdogan H. , 2007, s. 17)

52

3.5 RTFA ile Diğer Çok Katmanlı Yapay Sinir Ağlarının KarĢılaĢtırılması

Radyal tabanlı fonksiyon ağları diğer çok katmanlı YSA gibi doğrusal olmayan

ileri beslemeli ağ yapısındadır. Her iki model de evrensel fonksiyon yakınsayıcı1

özellikte olduğundan, her zaman çok katmanlı YSA kullanılarak çözülen bir probleme

yakın sonuç verebilecek bir RTFA bulunmaktadır (Haykin, 1999, s. 208-209). Ayrıca

RTFA ağları tek gizli katmanı bulunan ve gizli katmanında radyal tabanlı fonksiyonlar

kullanan bir tür çok katmanlı yapay sinir ağı türü olarak değerlendirilebilir.

Yukarıda sözü edilen benzerliklerinin yanında ilgili iki model arasında büyük

farklar da vardır. Bu farklardan birisi, çok katmanlı ağlarda gizli katman ve çıktı katmanı

nöronlarında yapılan hesaplamalar birbirine benzer iken RTF ağlarında gizli katman ve

çıktı katman nöronlarının işlemlerinin birbirinden tamamen farklı olmasıdır. Çok

katmanlı ağlarda genellikle hem gizli katman hem çıktı katman nöronları doğrusal

olmayan işlemcilerdir. RTF ağlarında ise gizli katman doğrusal olmayan işlemci, çıktı

katmanı ise gizli katman çıktılarının ağırlıklı toplamı olan doğrusal işlemcidir.

RTFA ve çok katmanlı ağlar arasındaki belki de en önemli fark, problemlere

çözüm üretme yöntemleridir. Çok katmanlı ağlar girdi-çıktı arasındaki doğrusal olmayan

ilişkiyi bir bütün olarak ele alıp genel bir yaklaşım ortaya koymaktayken RTFA bu

ilişkiyi, girdi kümesinin farklı alt uzaylarında tanımlanmış farklı ilişkiler olarak

değerlendirerek daha yerel çözümler üretir.

3.6 Radyal Tabanlı Fonksiyon Ağlarında Mevcut Sorunlar ve Eksiklikler

Radyal tabanlı fonksiyon ağları, özellikle parametrik istatistik yöntemlere göre

daha az varsayıma sahip olmaları ve sınıflandırma ve tahminleme problemlerindeki

başarılı performansları ile öne çıkmaktadır. Ancak her yöntemde olduğu gibi RTFA‟da

1 Evrensel Fonksiyon Yakınsayıcı (Universal Function Approximator): Herhangi bir fonksiyon için uygun

bir doğruluk düzeyinde tahmin yapabilen modellerdir. En az bir gizli katmanı bulunan yapay sinir ağları

genel fonksiyon uydurucu özelliktedir (Hornik, 1989).

53

da bazı sorunlar ve eksiklikler vardır. Bu sorun ve eksiklikler ana başlıklar halinde şu

şekilde listelenmektedir.

Ağ mimarisinin oluşumunda probleme en uygun gizli katman nöron sayısının

belirlenmesinde herhangi bir kural olmayışı, bu sayının sezgisel olarak deneme

yanılma yolu ile belirlenmesi sorunu.

Öğrenmenin birinci aşamasında, merkez parametrelerinin rastgele ya da işlem

yükü ağır iteratif yöntemlerle belirlenmesi sorunu.

Ağırlık parametrelerinin belirlenmesi aşamasında karşılaşılan matrisinin

tekilliği sorunu.

Değiştirilebilir parametre sayısının çok fazla olması sorunu.

Model parametrelerinin yorumlanamaması nedeniyle bağımsız değişkenlerden

önemli olanların belirlenememesi sorunu ve buna bağlı olarak model

karmaşıklığını azaltacak şekilde bağımsız değişkenleri arasından seçim yapacak

bir mekanizma ile entegre edilmemiş olması.

3.7 Hibrit Radyal Tabanlı Fonksiyon Ağları

Buraya kadar olan kısımda RTFA‟nın genel yapısı, işleyişi, öğrenme algoritmaları

ve son olarak da mevcut sorun ve eksiklikler üzerinde durulmuştur. Bu aşamadan

itibaren belirtilen sorun ve eksikliklerden yola çıkarak çalışma şekillendirilmektedir.

Buna göre öncelikle her bir sorun ve bu sorunlara karşılık çalışma kapsamında ele alınan

yardımcı çözüm yöntemleri belirtilmiş ve daha sonra bu yardımcı çözüm yöntemleri

RTFA modeline entegre edilerek çalışmada önerilen model ortaya çıkarılmaktadır.

Burada kısaca sözü edilecek olan yardımcı çözüm yöntemleri ve bu yöntemlerin RTFA

modeline nasıl entegre edildikleri ise takip eden bölümlerde tek tek açıklanmıştır.

Radyal tabanlı fonksiyon ağlarının merkez ve yarıçap parametrelerinin

belirlenmesinde Breiman v.d. (1984) tarafından geliştirilmiş olan Regresyon Ağaçları

kullanılmıştır. Regresyon ağaçları kullanılarak merkez ve yarıçap parametrelerinin

belirlenmesi fikri Kubat (1998) tarafından ortaya atılmış ve Orr (2000) tarafından

54

geliştirilmiştir. Buna göre girdi uzayı, her seferinde eksenlerden birisine paralel olacak

şekilde art arda iki parçaya bölünerek, hiper-dikdörtgenlerden oluşan alt uzaylara

ayrılmakta ve her bir alt hiper dikdörtgenin koordinatları kullanılarak merkez ve yarıçap

parametreleri belirlenmektedir. Merkez ve yarıçap parametrelerinin bu şekilde

belirlenmesi ile hem işlem yükü getiren iteratif öğrenme algoritmalarına hem de

öğrenme oranı gibi direk sonuca etki eden ve kullanıcı tarafından keyfi olarak belirlenen

parametrelere gerek kalmamaktadır. Diğer taraftan regresyon ağaçlarının, girdi uzayının

farklı girdi türlerinin kümelendiği bölgeleri farklı alt uzaylara ayırma özelliği, radyal

tabanlı fonksiyonların çalışma ilkesi ile bağdaşmaktadır. Regresyon ağaçlarını RTFA ile

entegre etmenin belki de en önemli faydası, gizli katman nöron sayısının, diğer bir ifade

ile kullanılacak radyal tabanlı fonksiyon sayısının doğrudan ortaya çıkmasıdır.

Regresyon ağaçları kullanımı ile RTF sayısının kendiliğinden ortaya çıkması ve

öğrenme oranı parametresine gerek kalmaması, en iyi ağ yapısının kullanıcı tarafından

yapılacak olan keyfi denemelerle bulunabilmesi gibi RTFA‟nın en çok eleştirilen yanına

çözüm getirmektedir.

Radyal tabanlı fonksiyon ağlarında karşılaşılan diğer önemli bir sorun ise ağırlık

parametrelerinin belirlenmesi aşamasında ortaya çıkan matrisinin tekilliği

sorunudur. Bu sorun özellikle en küçük kareler regresyon yönteminin kullanılmasıyla

ortaya çıkmaktadır. Tekillik sorunun çözümü için modelde, Tickhonov (1963) tarafından

önerilen ridge regresyon yöntemi kullanılmaktadır. Ağırlık katsayılarının kestiriminde

matrisine bir yan değeri eklenerek tekillik sorununun engellenmesi esasına dayanan

bu yöntem, yanlı sonuçlar üretmekle beraber doğru ridge parametresinin belirlenmesi

durumunda en küçük kareler yöntemine göre daha düşük hata kareler toplamı

vermektedir (Conniffe & Stone, 1973, s. 182).

Model karmaşıklığını azaltmak üzere değişken seçiminin yapılmayışı, RTFA‟nın

eksik olduğu yönlerinden biridir. Özellikle veri kümesinin boyutlarının büyük olduğu

durumlarda değişken seçimi, modelin işlem yükünü azaltmak açısından oldukça

55

önemlidir. Diğer taraftan değişken seçimi yapılmadığı durumda bağımlı değişken

üzerinde açıklayıcılığı daha yüksek olan bağımsız değişkenler belirlenememiş olur.

Çalışmada oluşturulan modelde değişken seçimi işlemini yürütmek üzere hem

Akaike (1973) hem de ICOMP (Bozdogan H. , 1988) türü değişken seçim kriterleri

kullanılmaktadır. Her iki tür değişken seçim kriterleri için de en küçük değişken seçim

kriteri değerini veren bağımsız değişken alt kümesinin, bağımlı değişken üzerinde en

açıklayıcı olan değişkenler oluğu kabul edilir. Bu bağlamda bir en küçükleme problemi

olarak ortaya çıkan, değişken seçim kriterine en küçük değerini aldıracak olan bağımsız

değişken alt kümesinin belirlenmesi problemi, Genetik Algoritma kullanılarak

çözülmektedir.

Radyal tabanlı fonksiyon ağlarındaki sözü edilen sorunlara çözüm bulacak ve

eksiklikleri giderecek şekilde seçilen yöntemler ve bu yöntemlerin Hibrit RTFA

modelindeki işlevleri Tablo 3-1 ile özetlenmektedir.

Tablo 3-1 Hibrit RTFA modeli bileĢenlerinin iĢlevleri

Yöntem Adı Çözdüğü Sorun / Giderdiği Eksiklik Belirlediği Parametreler

Regresyon Ağaçları

Gizli katman nöron sayısının keyfi

olarak belirlenmesi sorunu

İteratif öğrenme algoritmaları ile

artan işlem yükü sorunu

RTF merkezlerinin rastgele

belirlenmesi sorunu

, ,

Ridge Regresyon

matrisinin tekilliği sorunu

İteratif öğrenme algoritmaları ile

artan işlem yükü sorunu

AIC, ICOMP Değişken seçimi konusundaki

eksiklik

Bağımsız değişkenlerin alt

kümesi

Genetik Algoritma Değişken seçim kriterlerinin

optimizasyonunun uzun zaman

alması

Bağımsız değişkenlerin alt

kümesi

Buraya kadar anlatılanlara göre önerilen Hibrit RTFA modeli, tek çıktılı olarak

Şekil 3-9 ile gösterilmektedir. Önerilen Hibrit RTFA modeli sadece tahminleme

problemlerinde değil aynı zamanda değişken seçimi problemlerinde de kullanılacak

56

şekilde oluşturulmuştur. Önerilen model tek çıktı için kurgulanmış olup, sadece girdi

değişkeninin sürekli olması varsayımına sahiptir.

Çalışmanın takip eden kısımları, Hibrit RTFA modeline entegre edilmiş olan

yöntemlerin açıklanması ve modelin uygulaması ile devam etmektedir. Buna göre

regresyon ağaçları, ridge regresyon ve değişken seçimi konuları sırasıyla 4, 5 ve 6‟ncı

bölümlerde ele alınmaktadır. Bu bölümlerde sadece bu yöntemler açıklanmakla

kalınmamış aynı zamanda ilgili yöntemlerin Hibrit RTFA modeline nasıl entegre

edildikleri üzerinde de durulmuştur. Çalışmamız kapsamında genetik algoritma, en iyi

bağımsız değişken alt kümesinin bulunmasında kullanılan değişken seçim kriteri

değerinin eniyilenmesi amacıyla modele eklenmiştir. Bu nedenle genetik algoritmaya

ayrı bir bölümde değil, değişken seçimi bölümü içerisinde yer verilmiştir. Önerilen

modelin performansının ölçüldüğü Freidman benzetim verisi ve IMKB Ulusal 100

Endeksi‟nin yönünün tahmini üzerindeki çalışmalar Bölüm 7‟de yer almaktadır.

Regresyon Ağaçları

Ridge Regresyon

Değişken Seçim

i: ICOMP

Genetik Algoritma

Radyal Tabanlı Fonksiyon Ağı

ġekil 3-9 Hibrit Radyal Tabanlı Fonksiyon Ağı

57

BÖLÜM 4 REGRESYON AĞAÇLARI

Regresyon Ağaçları (RA) yoğun sayısal işlemlere dayanan parametrik olmayan

yöntemlerdir ve son 20-30 yıl içinde oldukça popüler hale gelmiştir. Çok fazla değişken

ve çok fazla sınıfın olduğu problemlere kolayca uyarlanabilen RA, aykırı değerlere karşı

oldukça sağlam bir yöntemdir (Steinberg & Colla, 1995).

Regresyon ağaçları, hızlı ve doğru sonuçlar elde etmek isteyen ancak bunun için

geleneksel istatistik yöntemleri kullanacak zaman ve becerisi olmayan araştırmacılar için

iyi bir alternatif oluşturmaktadır. Geleneksel istatistik yöntemlerin kullanılabilmesi

durumunda bile, eğer çok fazla değişken varsa, bu değişkenler arasındaki önem sırasının

ve aralarındaki etkileşimin belirlenmesinde RA kullanılabilir. RA veri madenciliği

alanında oldukça sıklıkla kullanılır hale gelmiş olmakla beraber, eksik gözlemlere

yaklaşık değer bulunması gibi temel konularda da kullanılmaktadır (Harrel, 2001).

Regresyon ağaçlarının ortaya çıkışı, 1960‟lı yıllarda Morgan ve Sonquist (1963)

tarafından geliştirilen AID (Automatic Integraction Detection) isimli karar ağacı

tekniğine dayanmaktadır. Daha sonra 1970‟li yıllarda yine Morgan ve Messenger (1973)

THAID (Theta AID) tekniği adı altında sınıflandırma ağaçlarını ortaya tanıtmışlardır.

AID ve THAID tekniklerinin her ikisi de Michigan Üniversitesi Sosyal Araştırmalar

Enstitüsü‟nde geliştirilmiştir (Sutton, 2005, s. 304).

1980‟li yıllarda Breiman v.d. (1984) veriye uygun ağacı karşılık getiren başarılı

bir program olan CART (Classification And Regression Trees) yöntemini

geliştirmişlerdir. İlk sürümünden bu yana oldukça geliştirilmiş olan CART, halen

Salford Systems tarafından üretilip satılan bir programdır. 1997 senesinde geliştirilen

QUEST (Quick Unbiased Efficient Statistical Tree) yöntemi (Loh & Shih, 1997), CART

yöntemini temel almakla beraber, yansız değişken seçimi, eksik veri ile çalışabilme ve

58

çok fazla kategori içeren tahminleyicilerle çalışabilmesi açısından CART yönteminden

daha üstün özelliklerdedir (Sutton, 2005, s. 304).

Günümüzde regresyon ağaçları birçok farklı paket program yardımıyla

oluşturulabilmektedir. Bu çalışmada ise RA‟yı oluşturmak için MATLAB programı

kullanılmaktadır.

4.1 Regresyon Ağaçlarının Yapısı

Regresyon ağaçlarında amaç, sürekli bir bağımlı değişkenin değerlerinin, bir ya

da birden çok sürekli veya kategorik bağımsız değişken tarafından tahminlenmesidir.

Kategorik açıklayıcı değişkenlerle çalışabilmesi dikkate alındığında, RA‟nın çoklu

regresyon analizine göre daha az varsayıma sahip olduğu söylenebilir.

Regresyon ağaçları yöntemi, gözlem verileri kullanılarak karar ağacı

oluşturmasında kullanılan iteratif yöntemlerden birisi olarak düşünülebilir. Oluşturulan

karar ağacı, girdi uzayını daha küçük alt parçalara ayıran evet-hayır soruları kümesi

şeklindedir. Karar ağacı oluşturma sürecinin her bir iterasyonunda, girdi uzayını en iyi

şekilde iki parçaya ayıracak soruyu bulmak amacıyla tüm değişkenler ve bu

değişkenlerin tüm olası değerleri üzerinden arama (eniyileme) yapılır.

Yaş > 40

Kilo > 100 Kilo > 80

Yaş >60 Yaş < 30

Yaş < 70

Kilo< 100

Kilo < 50

E

E

E

H

E

E E: Evet

H: Hayır

ġekil 4-1 Örnek Regresyon Ağacı Gösterimi

59

Örneği Şekil 4-1 ile verilen RA ile girdi uzayı, her bir aşamada tek bir değişkenin

belirli bir değeri üzerinden iki parçaya ayrılmaktadır. Ayrıca bir değişken üzerinden,

farklı iterasyonlarda olmak kaydıyla, birden fazla kez ayırma işlemi yapmak

mümkündür. Şekil 4-1 ile ağaç yapısında verilen RA‟nın diğer bir gösterimi ise

koordinat sistemi üzerinde hiper-dikdörtgenlerin sınırlarının belirtilmesi şeklindedir.

Ancak bu gösterim en fazla üç bağımsız değişken olması durumunda

kullanılabilmektedir. Şekil 4-2 ile Şekil 4-1‟de ağaç yapısında verilmiş olan RA‟nın iki

boyut için hiper-dikdörtgenler yardımıyla gösterimi verilmektedir.

4.2 Regresyon Ağaçlarının OluĢturulması

Regresyon ağaçlarının temel mantığı, girdi uzayını art arda ikiye bölmek

suretiyle alt uzaylara ayırmak ve çıktısı her bir alt uzayın içerdiği girdilere karşılık gelen

çıktıların ortalaması olacak şekilde bir fonksiyona yaklaştırmaktır. Elde edilen her bir alt

uzayın sınırları eksenlerden birine paraleldir ve bağımsız değişkenleri içeren eşitsizlik,

ayrımın yapıldığı değişken ve ayrımın yapıldığı nokta olmak üzere,

şeklinde ifade edilir (Breiman, Freidman, Olshen, & Stone, 1984).

ġekil 4-2 Regresyon Ağacının Dikdörtgenler Yardımı ile Gösterimi

60

Regresyon ağaçlarında esas düğüm, eğitim veri kümesi

‟nin tamamını

içeren ve Şekil 4-2‟de gösterildiği gibi en dışta yer alacak olan mümkün en küçük hiper

dikdörtgendir. Esas düğümün herhangi bir ‟inci boyut (ya da değişken) için uzunluk

( - yarı genişlik) ve merkez ( ) değerleri (4.1) ve (4.2)‟deki gibi belirlenir (Orr, et al.,

1999, s. 456).

(4.1)

(4.2)

(4.1) ve (4.2)‟de her için açıklayıcı değişken indisleri

kümesi ve olmak üzere eğitim verisi indisler kümesini ifade

etmektedir. Esas düğümün belirli bir ‟inci boyutunun noktasından ikiye bölünmesi ile

girdi uzayı sol ve sağ olmak üzere sırasıyla (4.3) ve (4.4)‟te formülleri verilen ve

alt kümelerine ayrılır.

(4.3)

(4.4)

ve alt kümelerinde yer alan girdilere karşılık gelen çıktı değerlerinin

ortalamaları ve sırası ile ve alt kümelerin içerdikleri örnek sayısı olmak

üzere (4.5) ve (4.6)‟daki gibi hesaplanır.

(4.5)

(4.6)

Tüm olası ve değerleri arasından hata fonksiyonuna en küçük değerini

aldıran parçalanış, esas düğümün çocuklarını (esas düğümün ikiye ayrılması ile elde

61

edilecek olan girdi uzayının alt kümelerini) yaratmakta kullanılır ve bu -boyut ve -

gözlem üzerinden yapılacak olan kesikli arama ile gerçekleştirilir.

Esas düğümün çocukları da benzer mantıkla art arda iki alt kümeye ayrılmaya

devam eder. Herhangi bir alt uzayda ayırma işleminin devam edip etmeyeceği kararı,

daha önceden belirlenmiş olan parametresine göre belirlenir. Buna göre herhangi

bir alt uzayda yapılacak ayırma sonucu elde edilen kümelerden birisinde

parametresinden daha az gözlem kalması durumunda, son yapılan ayırma işlemi de iptal

edilerek bu alt uzay için ayırma işlemi bitirilir.

Girdi uzayı öncelikle çıktı hakkında daha çok bilgi içeren boyutlar (bağımsız

değişkenler) üzerinden ikiye ayrılma eğilimi gösterir (Orr, et al., 1999, s. 456). Bu

özelliği ile RA, hem modelin kestirilmesinde hem de hangi girdi değişkenlerinin

modellenen girdi-çıktı ilişkisinde daha önemli olduğuna karar verilmesinde

kullanılabilir. Diğer taraftan kurulan RA modelinde dallanmanın fazla olması kestirilen

modelin karmaşıklığı ile ilgili bilgi içermemektedir.

4.3 Ayırma Kuralları

Girdi uzayının art arda ikiye parçalanması işlemi, bir hata fonksiyonun

eniyilenmesi ile gerçekleştirilmektedir. Ayrım kuralı olarak da adlandırılan hata

fonksiyonu genellikle “En Küçük Kareler” ve “En Küçük Mutlak Sapma” olmak üzere

iki farklı şekilde tanımlanmaktadır.

4.3.1 En Küçük Kareler Kuralı

Bu yöntem doğrusal modeller için kullanılan en küçük kareler yöntemine

benzemektedir. Ayrım, düğümlerden elde edilecek ortalama çıktı değerleri ile ilgili

düğümlerde yer alan gözlem değerleri arasındaki farkın kareler toplamı ortalamasını

eniyileyecek şekilde yapılır. Buna göre algoritmanın herhangi bir adımında, ayrımın

yapılacağı yer kararının verilmesinde kullanılacak en küçük kareler fonksiyonu

(4.7)‟deki gibi ifade edilir.

62

(4.7)

(4.7) ile verilen formülasyonda k, ayrımın hangi değişken, b ise ilgili değişkenin

hangi değeri üzerinden yapılacağını göstermektedir.

4.3.2 En Küçük Mutlak Sapma Kuralı

Bu kritere göre her bir düğümdeki çıktıların, yine bu çıktı değerlerinin medyan

değerinden olan ortalama mutlak sapmaları eniyilenir. Bu yöntemin en küçük kareler

kuralına göre avantajı, aykırı değerlerden fazla etkilenmemesi, dolayısıyla daha sağlam

tahminler elde edilmesidir. Dezavantajı ise veri kümesinin fazla miktarda 0 değerini

içermesi durumuna duyarsız olmasıdır (Moisen, 2008, s. 584).

Ayrımın sol ve sağ tarafında kalan düğümler için hesaplanan medyan değerleri

sırasıyla ve olmak üzere en küçük mutlak sapma hata fonksiyonu (4.8)‟deki

gibi hesaplanmaktadır.

(4.8)

4.4 Regresyon Ağaçlarının Budanması

Regresyon ağaçları yöntemi ile oluşturulan ağaç, bazen çok büyük ve kullanılan

veriye aşırı uyum gösterecek şekilde konumlanabilir. Bu durum, genellikle her bir

düğüm hemen tek bir gözlem içerene kadar ağacın büyütülmesi durumunda ortaya çıkar.

Ezberlemeye işaret eden bu durum, test aşamasında yetersiz tahminler yapılması ile

sonuçlanmaktadır. Diğer taraftan ağacın çok küçük olduğu ve dolayısıyla girdi-çıktı

arasındaki ilişkiyi yakalayamadığı durumlar da olabilir. Bu bağlamda RA‟da uygun ağaç

büyüklüğünün belirlenmesi oldukça önemlidir.

Uygun ağaç büyüklüğünün belirlenmesinde kullanılan farklı yöntemler vardır.

Bunlardan biri, düğümlerin heterojenliğinin ölçüsündeki azalma miktarı için bir eşik

değer belirlenmesi ve bu eşik değerin aşılamaması durumunda dallanma (ayrım)

yapılmamasıdır. Önerilen diğer bir yöntem ise önce ağacın belirli bir minimum düğüm

63

büyüklüğü sağlanana kadar geliştirilmesi ardından ağacın en iyi büyüklüğe gelene kadar

budanmasıdır. En iyi ağaç büyüklüğü, test verilerinin kullanılması veya çapraz-

doğrulama (Cross Validation) yoluyla belirlenebilir. Her iki durumda da belirli bir hata

oranına göre en uygun büyüklükteki ağaç elde edilmiş olur (Moisen, 2008).

4.5 Regresyon Ağaçlarında Maliyetler

Regresyon ağaçlarının bir istatistik modelleme aracı olarak kullanılması sırasında

karşılaşılan maliyetler ana başlıklar halinde aşağıdaki gibi özetlenebilir.

4.5.1 Açıklayıcı DeğiĢken Sayısı ve YanlıĢ Sınıflandırmaya Bağlı Maliyetler

Birçok uygulamada, bazı bağımsız değişkenlerle ilgili veri toplamak oldukça

yüksek maliyetli ve diğerlerine göre daha zor olabilir. Ayırma sürecinde daha düşük

maliyetli açıklayıcı değişkenlere öncelik verilmesi ile bu maliyet azaltılabilmektedir.

Diğer taraftan uygulamada hatalı sınıflandırma maliyeti genellikle daha yüksektir. Bu

nedenle maliyet fonksiyonu hesaplanırken problemin tipine göre sınıflandırma ya da

tahminleme hatası formüle edilmektedir.

4.5.2 Ağaç KarmaĢıklığı Maliyeti

Regresyon ağaçlarının budanması aşamasında açıklandığı gibi, kullanıcı

tarafından belirlenen değerinin çok küçük belirlenmesi, oldukça büyük bir ağaç

oluşmasına neden olabilir. Bununla beraber budama işlemi sonucu elde edilen ağaç

genellikle ilk başta elde edilene göre önemli ölçüde daha küçüktür. Bu küçülme miktarı

kullanılan veriye göre, budanmış ağacın büyüklüğünün başlangıçtaki ağaçtan 10 kere

daha küçük olmasına kadar varabilir. Dolayısıyla budama ile hesaplama süresinde de

önemli ölçüde azalma sağlanır. Sonuç olarak, yerine koyma maliyeti olarak da

düşünülebilecek olan model karmaşıklığı, ceza terimi ile maliyet fonksiyonuna eklenir.

Bunun yolu, ağaçtaki düğüm sayısının belirli bir oranda eğitim veri kümesinden

hesaplanan maliyete eklenmesidir. Böylece çok büyük oluşturulmuş ağaç, küçük yanlış

sınıflandırma hatası vermekle beraber yüksek ceza terimine neden olacaktır. Diğer

taraftan küçük ağaç için ceza düşerken hatalı sınıflandırma maliyeti artacaktır.

64

Karmaşıklık maliyeti özellikle çapraz doğrulama kullanılan durumlarda, budanmak

üzere oluşturulan ilk baştaki büyük ağaca uygulanarak büyük ölçüde hesaplama etkinliği

sağlanabilir.

4.6 Regresyon Ağaçlarının Hibrit Radyal Tabanlı Fonksiyon Ağlarına Entegre

Edilmesi

Regresyon ağaçlarında esas düğüm, çocukları olan (tekrar dallanma yapan)

terminal olmayan düğümler ve çocukları olmayan (tekrar dallanma yapmayan) terminal

düğümler içermektedir. Oluşturulan ağaçta yer alan her bir düğüm, girdi uzayında

merkezli ve genişliğinde bir hiper-dikdörtgene karşılık gelmektedir. En büyük hiper-

dikdörtgen, esas düğüme karşılık gelendir ve ağacı oluşturacak şekilde sürekli daha

küçük parçalara bölünür.

Hiper-dikdörtgenleri radyal tabanlı fonksiyonlara çevirmek için ele alınan

düğümün merkezi, karşılık getirilecek radyal tabanlı fonksiyonun merkezi ( ), genişliği

( ) ise bir sabiti ile çarpılarak radyal tabanlı fonksiyonunun yarıçapı olarak ( )

aşağıdaki gibi kullanılmaktadır.

(4.9)

Yukarıdaki formülde yer alan , gibi regresyon ağaçlarının diğer bir

parametresidir. parametresinin belirlenmesine yönelik Kubat (1998, s. 815) tarafından

önerilen formül (4.10)‟da verilmiştir.

(4.10)

Yukarıdaki formülde yer alan , ‟inci hiper dikdörtgenin ‟inci boyutuna

ilişkin uzunluğunu, ise karşılık getirilecek olan Gauss tipi radyal tabanlı fonksiyonun

ilgili boyuta (bağımsız değişkene) ait standart sapma değerini vermektedir. Buradaki

sabitinin belirlenmesi tüm düğümler (hiper-dikdörtgenler) için aynı şekildedir.

65

sabitinin belirlenmesine ilişkin diğer bir formülasyon ise Orr v.d. (2000, s.

456) tarafından önerilmiştir. Buna göre ilgili formülasyon, (4.10)‟daki Kubat

tarafından önerilmiş parametre değeri olmak üzere (4.11) ile verilmektedir.

(4.11)

Literatürde sabiti için farklı değerlerin kullanıldığı çalışmalar vardır.

Bunlardan en sık karşılaşılanı ise sabitine faklı sabit değerler vererek en iyi

performans gösteren ile model oluşturulmasıdır. Çalışmamızda, sabiti değerleri

için yapılan denemeler ile belirlenmektedir.

Regresyon ağaçlarının diğer bir parametresi olan ise 5 olarak sabitlenmiştir.

Bu parametrenin 5‟ten küçük belirlenmemesinin nedeni, modelin aşırı öğrenme sorunu

ile karşılaşmasına engel olmaktır.

Buraya kadar ifade edilenlere göre Hibrit RTFA modelinde, öncelikle girdi uzayı

regresyon ağaçları yöntemi ile her birinde en az 5 gözlem değeri bulunan ve hiper

dikdörtgenlerden oluşan alt uzaylara bölünür. Daha sonra oluşturulan ağaç yapısında yer

alan her bir hiper dikdörtgene, gizli katmanda bir nöron (dolayısıyla radyal tabanlı

fonksiyon) karşılık getirilir. Böylece bu aşamada ağ mimarisinin temeli olan gizli

katman nöron sayısı kendiliğinden belirlenmiş olur. Sözü edilen karşılık getirme işlemi,

ele alınan hiper-dikdörtgenin merkezinin karşılık getirilen radyal tabanlı fonksiyonun

merkezi ( ), yarıçapının ise sayılarından birisi ile çarpılarak radyal tabanlı

fonksiyonun yarıçap parametresi ( ) olarak belirlenmesi ile gerçekleştirilir.

66

BÖLÜM 5 RĠDGE REGRESYON

Regresyon Analizi, bağımlı ve bağımsız değişkenler arasındaki ilişkinin

varlığının, varsa bu ilişkinin yönünün ve gücünün belirlenmesi ile belirlenmiş bu ilişkiyi

kullanarak bağımlı değişkenlerin değerlerinin tahminlenmesinde kullanılan bir istatistik

yöntemdir (Johnson & Bhattacharyya, 2006, s. 431). Regresyon analizi bağımlı değişken

sayısının bir ya da birden çok olması, kurulan modelin doğrusal olup olmaması ve

bağımsız değişken sayısına bağlı olarak farklı şekilde kurgulanır. Bununla beraber, her

istatistik yöntemde olduğu gibi regresyon analizinin uygulanabilmesi için de bazı

varsayımlar ve bu varsayım bozulumları için önerilmiş çözüm yöntemleri vardır.

Bu bölümde Hibrit-RTFA modelinde ağ parametrelerinin belirlenmesi

aşamasında karşılaşılan tasarım matrisinin tekilliği sorunu ele alınmakta ve bu sorunun

çözümünde Ridge Regresyon (RR) yönteminin kullanılması üzerinde durulamaktadır.

Bu bağlamda sırasıyla, çoklu doğrusal regresyon modelinin tanımlanması, bu modelde

sağlanması gereken varsayımların belirtilmesi, bu varsayımlardan çoklu doğrusal

bağlantı problemine çözüm olan RR yönteminin açıklanması ile RR yönteminin Hibrit

RTFA modeli ile entegrasyonu üzerinde durulmaktadır.

5.1 Çoklu Doğrusal Regresyon

Çoklu Doğrusal Regresyon (ÇDR), bir bağımlı değişken ile iki veya daha fazla

bağımsız değişken arasındaki doğrusal ilişkiyi modellemekte kullanılan bir istatistik

yöntemdir. ÇDR‟nin amacı, bağımlı değişkenin kendi içindeki değişimi, bağımsız

değişkenlerin doğrusal bir kombinasyonu olan bir fonksiyon yardımıyla

açıklayabilmektir. Bu bağlamda, bağımlı değişken için açıklanan değişken, bağımsız

değişkenler içinse ise açıklayıcı değişken ifadeleri de kullanılmaktadır. Buna göre genel

ÇDR modeli ve modelin bileşenleri, gözlem ve bağımsız değişken için (5.1)‟deki

gibi ifade edilmektedir.

67

(5.1)

Formülasyonu (5.1) ile verilen ÇDR modelinde , boyutlu bağımlı

değişkene ait gözlem vektörünü, , olmak üzere bağımsız değişkene ait

boyutlu gözlem vektörünü, , boyutlu ve elemanları birbirine eşit olan

regresyon sabiti vektörünü, , değişkenine karşılık gelen regresyon katsayısını ve ,

boyutlu ve dağılımlı hata terimi vektörünü göstermektedir.

(5.1) eşitliği ile açık hali verilen model, gösterim kolaylığı sağlamak amacıyla,

ve olmak üzere (5.2) ile verilen matris

formunda ifade edilebilir.

(5.2)

Regresyon katsayıları, ilgili bağımsız değişkenin bağımlı değişkene göre eğimini

vermektedir. Diğer bir ifade ile , dışındaki tüm bağımsız değişkenlerin değeri sabit

tutularak değişkeninin değerinin 1 birim artırılması halinde, değişkeninde meydana

gelecek değişim miktarını göstermektedir. Bu bağlamda, herhangi bir değişkeni ile

‟nin saçılım grafiği, ilgili değişkenler arasındaki ilişkinin yapısı hakkında bilgi

verebilir (Bluman, 1998, s. 484).

Hata terimi , bağımsız değişkenlerce açıklanamayan ve örneklemeden

kaynaklandığı varsayılan rastgele hatayı göstermektedir. Benzetim çalışmaları dışında

genellikle gerçek model tam olarak bilinmediği için hata terimi de bilinmeyendir.

(5.2) ile matris gösteriminde verilen ÇDR modelinde regresyon katsayılarının

gözlem verileri yardımıyla gerçekleştirilen kestirimi ile gösterilmek üzere, ‟nin

kestirimi, şeklinde hesaplanır. ‟nin gerçek ve kestirilen değerlerinin birbirine

yakınlığı, gerekleştirilen kestirimin ne kadar iyi olduğunu gösterir. Buradan hareketle,

regresyon artıkları olarak da bilinen hata teriminin kestirimi, formülü ile

68

yapılır. Regresyon artıkları, kestirilen modelin açıklama gücünün bir ölçüsü olan

belirlilik katsayısının hesaplanmasında kullanılmaktadır.

Belirlilik katsayısı , bağımlı değişken ‟nin kendi içindeki değişimin,

modelde yer alan bağımsız değişkenler tarafından açıklanan kısmının oranını verir. Bu

bağlamda belirlilik katsayısı (5.3) ile verildiği biçimde hesaplanır (Berk, 2004, s. 107).

(5.3)

Belirlilik katsayısı formülasyonunun, aralarında eşitliği

bulunan bileşenleri, ‟nin ortalaması ve , elemanları 1‟lerden oluşan vektör

olmak üzere (5.4), (5.5) ve (5.6) ile ifade edilmektedir.

Hata Kareler Toplamı : (5.4)

Toplam Kareler Toplamı : (5.5)

Regresyon Kareler Toplamı : (5.6)

aralığında değerler alabilen belirlilik katsayısının 1‟e yakın olması modelin

uyum iyiliğinin güçlü, 0‟a yakın olması ise modelin uyum iyiliğinin zayıf olduğunu

ifade etmektedir (Yamane, 1973, s. 414-415). Modele eklenecek her yeni bağımsız

değişken, değişkeni ile ilişkisinin zayıf olması durumunda bile değerini

arttırmaktadır. Bu nedenle ‟nin uyum iyiliğinin değerlendirilmesinde kullanılması

eleştirilmektedir (Bonate, 2006, s. 17). Bu noktada modelin uyum iyiliğinin

değerlendirilmesinde, bağımsız değişken sayısından ‟ye göre daha az etkilenen

düzeltilmiş belirlilik katsayısı kullanılabilir (Munch & Branson, 2004, s. 4).

(5.7)

Daha önce (5.2) ile verilen modelin hata teriminin standart hatası ‟nın kestirimi

ise,

69

(5.8)

şeklinde elde edilir (Yamane, 1973, s. 915). (5.8) ile verilen model standart hatasının

kestirim formülü, regresyon katsayılarının varyans-kovaryans matrisinin kestiriminde

aşağıdaki biçimde kullanılır.

(5.9)

Buraya kadar formülü verilen istatistikler, örneklem ile çalışılan durumlar için

geçerlidir. Anakütle ile çalışılması durumunda ve kestirimleri herhangi bir

düzeltme terimi gerektirmeksizin sırasıyla aşağıdaki gibi hesaplanır.

(5.10)

(5.11)

kestiriminin varyansı ise matrisinin köşegen elemanları olarak

hesaplanmaktadır.

5.1.1 En Küçük Kareler Kestirimi

En Küçük Kareler (EKK), hata kareler toplamını eniyileyecek şekilde

bilinmeyen regresyon katsayılarının kestirilmesinde kullanılan bir yöntemdir. Bu

bağlamda, EKK yöntemi kullanılarak regresyon katsayılarının kestiriminde eniyilenecek

fonksiyon (5.12) ile ifade edilir.

(5.12)

(5.12) ile verilen fonksiyonun parametrelerine göre kısmi türevlerinin alınarak

sıfıra eşitlenmesi ile elde edilen denklem sistemi, normal denklemler olarak

adlandırılmaktadır. Normal denklemlerin çözümü ile elde edilen regresyon katsayılarının

EKK kestirimleri;

70

(5.13)

formülü ile elde edilir (Yamane, 1973, s. 945). Elde edilen regresyon katsayılarının EKK

kestirimi kullanılarak, ‟nin EKK kestirimi ise (5.14) ile verilmektedir.

(5.14)

, ‟nın yansız ve minimum varyanslı kestiricisi olması nedeni ile regresyon

varsayımlarının sağlanması durumunda en çok başvurulan kestirim yöntemidir. Bu

kısımdan itibaren formülasyonlara sadelik getirmek amacıyla EKK kestiricisi için

sembolü kullanılmıştır.

5.1.2 Çoklu Doğrusal Regresyon Modelinin Varsayımları

Çoklu doğrusal regresyon modelinin uygulanabilirliği bazı varsayımın

sağlanmasına bağlıdır. Bu varsayımların sağlanması durumunda EKK kestiricisi

yansızlık, etkinlik ve tutarlılık bakımından en iyi kestiricidir (Engle, 1982, s. 995).

Yansızlık, kestirimin beklenen değerinin parametrenin gerçek değerine eşit olması,

etkinlik ise kestiricinin diğer tüm yansız kestiricilerden daha küçük varyanslı olması

anlamına gelmektedir. Örnek büyüklüğünün sonsuza ıraksaması durumunda kestiricinin

yan ve varyansının sıfıra yakınsaması ise tutarlılık olarak adlandırılmaktadır. Buradan

hareketle ÇDR modeline ait varsayımlar başlıklar halinde aşağıdaki gibi özetlenebilir

(Ostrom, 1990).

Doğrusallık: Açıklanan ve açıklayıcı değişkenler arasındaki ilişki doğrusaldır.

İlişkinin doğrusal olmaması durumunda mümkünse, veriye uygun dönüşüm uygulanarak

ilişki doğrusal hale getirilir. Dönüşümle doğrusallığı sağlamanın mümkün olmadığı

durumlarda diğer istatistik modellere başvurulabilir. Ayrı ayrı her bir açıklayıcı

değişkenle açıklanan değişken arasındaki saçılım grafiğine bakılarak da bu varsayımın

sağlanıp sağlanmadığı ile ilgili bilgi sahibi olunabilir.

Normallik: Hata terimi olacak şekilde normal dağılıma sahiptir. Bu

varsayım geleneksel istatistik yöntemlerle regresyon katsayılarının anlamlılığının test

71

edilebilmesi için sağlanmalıdır. Bu bağlamda normallik, ÇDR‟nin en önemli

varsayımıdır.

Hataların Rastlantısallığı: Hatalar rastlantısaldır ve birbirleri ile doğrusal

ilişkisizdir. şeklinde ifade edilen bu varsayım zaman serilerinde

sıklıkla bozulur.

Hatalarla Açıklayıcı DeğiĢkenlerin Bağımsızlığı: Hatalar ile bağımsız

değişkenler birbirinden doğrusal bağımsızdır. Bu varsayım şeklinde

ifade edilir. Her bir açıklayıcı değişken ile artıkların saçılım grafiğine bakılarak varlığı

tespit edilebilir.

Sabit Varyanslılık: Hata varyansı sabittir. Bir başka ifadeyle tahminleyicilerin

değerine göre sistematik olarak değişmez. olarak ifade edilen bu varsayım

da özellikle zaman serilerinde sıklıkla bozulur.

Çoklu Doğrusal Bağlantı: Çoklu doğrusal regresyon analizinde kullanılan

tahminleyiciler genellikle bağımsız değişkenler olarak adlandırılır. Ancak bu, ilgili

değişkenlerin birbirleri ile bağımsız oldukları anlamında değildir. Aslında doğal

sistemlerde değişkenler genellikle birbirleri ile oldukça ilişkilidir. Çoklu Doğrusal

Bağlantı (ÇDB), bağımsız değişkenlerin kendi içinde yüksek bağlantılı olmaları

durumudur. (5.8) ve (5.10) ile verilen formüllerden de anlaşılabileceği üzere, kestirilen

regresyon katsayılarının varyansı, tahminleyicilerin kendi aralarındaki korelasyona

bağlıdır. Bu nedenle sözü edilen varsayım, kestirimlerin etkinliği açısından oldukça

önemlidir.

Çoklu doğrusal bağlantı varsayımının bozulması, oluşturulan regresyon

modelinin geçersiz olduğu anlamına gelmez. ÇDB altında bile eldeki veriye çok iyi

uyum gösteren kestirimler elde edilebilir. Ancak ÇDB‟nin birçok olumsuz etkisi vardır.

Bunlardan birincisi, regresyon katsayılarının varyanslarının çok yüksek çıkmasıdır. Bu

durumda bağımlı değişken üzerinde büyük ölçüde açıklayıcı olan bağımsız değişkenler

72

için bile regresyon katsayılarının testi anlamsız sonuç verebilir. İkinci olarak, regresyon

katsayılarının büyüklüğü, hatta işaretleri bile yanlış kestirilebilir. ÇDB‟nin üçüncü

olumsuz etkisi ise modele bir değişken eklenmesi veya çıkarılması durumunda

regresyon katsayılarının çok yüksek değişime uğrayacağı ve işaretinin bile

değişebileceğidir (Quinn & Keough, 2001, s. 133).

Çoklu doğrusal regresyon modelinin ÇDB varsayımını sağlayıp sağlamadığının

belirlenmesinde sıklıkla Varyans Artış Faktörü (Variance Inflation Factor - VIF)

istatistiği kullanılır (Quinn & Keough, 2001, s. 133). VIF, ÇDB‟nin kestirilen regresyon

katsayılarının varyansı üzerindeki etkisini göstermektedir. ÇDB, yalnızca bağımsız

değişkenler arasındaki ikili ilişkiye bağlı değildir. Aynı zamanda herhangi bir bağımsız

değişkenin birden fazla bağımsız değişkenin kombinasyonu olarak ifade edilebilmesi de

ÇDB sorununa yol açar. Bu nedenle (5.15) ile formülü verilen VIF, çoklu doğrusal

regresyonda yer alan her bir değişkenin, diğer değişkenler üzerindeki çoklu belirlilik

katsayısına dayanır.

(5.15)

Burada , ‟inci bağımsız değişkenin diğer tüm bağımsız değişkenlerle olan

belirlilik katsayısı, ise ilgili açıklayıcı değişkene ait VIF değerini ifade etmektedir

(Haan, 2002). Bir bağımsız değişkenin diğerlerinden bağımsız olması durumunda ilgili

değişken için hesaplanan VIF değeri “1” olur. Bununla beraber, tam bağımlılık

durumunda VIF değeri sonsuza ıraksar. Böyle bir durumda kestirilen regresyon

katsayılarının varyansı da sınırsız olur.

Varyans artış faktörü değerlerinden en az bir tanesi büyük değer aldığında, ÇDB

probleminden bahsedilebilir. Bu büyüklüğün ne kadar olduğu ise analizi yapan kişi

tarafından belirlenir. Bazı araştırmacılar bu sınırı 5, bazıları ise 10 olarak kabul

etmektedir. VIF için kabul görmüş olan bu 5 ve 10 değerleri sırasıyla 0.80 ve 0.90

değerlerine karşılık gelir. Bazı araştırmacılar ise herhangi bir VIF değerinin, tüm VIF

73

değerlerinin ortalamasından önemli ölçüde büyük olması durumunu ÇDB işareti olarak

değerlendirmektedir (Haan, 2002). Hangi kriter olursa olsun, ÇDB çok güçlü bağımlılık

durumunda ortaya çıkan bir sorundur. Bu bağlamda sıfır olmayan her korelasyon, ÇDB

problemine yol açmamaktadır.

ÇDB durumunda önerilmiş birçok yöntem olmasına rağmen, değişken seçimi ve

Ridge Regresyon oldukça sıklıkla başvurulan yöntemler olarak öne çıkmaktadır. Fakat

çoklu bağlantının çok güçlü olduğu ve değişkenlerin önem derecelerinin birbirine yakın

olduğu durumlarda değişken seçimi için adımsal yöntemler uygun değildir. Son yıllarda

değişkenler arasındaki çoklu doğrusal bağlantı durumunda kullanımı oldukça yaygın

olan bir diğer yöntem ise bilgi kriterleri yardımı ile değişken seçim yöntemidir. Bu

yöntemler daha detaylı olarak Bölüm 6‟da ele alınmıştır.

5.2 Ridge Regresyon

En küçük kareler yöntemi, tüm varsayımlarının sağlanması durumunda ÇDR

modelinin kestiriminde sağlam ve kullanışlı sonuçlar üretir. Bununla beraber gerçek

hayat problemlerinde veriler, her zaman bu varsayımları sağlayacak türden değildir.

Uygulamalarda genellikle ÇDB olarak adlandırılan açıklayıcı değişkenlerin doğrusal

bağlantılı olduğu durumla karşılaşılır. Bu durumda EKK kestirimi en iyi yansız doğrusal

kestirici olmasına rağmen, regresyon katsayılarının, hatta işaretlerinin yanlış

belirlenmesine neden olabilir.

Çoklu doğrusal regresyon analizinde amacın yalnızca tahmin yapmak olması ve

ÇDB probleminin tahminleme süreci boyunca değişmeyeceği varsayımı altında,

ÇDB‟nin problem yaratmayacağı düşünülebilir. Bunun nedeni, ÇDB‟nin modelin

tahminini değil sadece regresyon katsayılarının kestirimini etkileyecek olmasıdır

(Koutsoyiannis, 1977).

ÇDB problemi altında, model kestiriminde oldukça sıklıkla kullanılan Ridge

Regresyon (RR) ilk kez Arthur Hoerl ve Robert Kennard (1970) tarafından önerilmiştir.

RR, parametre kestiricilerinin varyansını düşürmek amacıyla regresyon denklemlerine

74

yan terimi eklenmesi esasına dayanır. En iyi ridge sabitinin belirlenmesinde kullanılan

yönteme bağlı olarak, parametre kestiriminde en büyük açıklanan varyansı verecek

şekilde birçok farklı yazar tarafından farklı ridge kestiricileri ortaya atılmıştır.

Daha önce (5.2) ile verilen matris notasyonundaki ÇDR modelinde özellikle

tahminleyici değişkenler arasında ÇDB olması durumunda karşılaşılabilecek problem,

tasarım matrisi ‟nin sütunları arasında tam ya da yaklaşık doğrusal bağımlılık

olmasıdır. Bu durumda EKK kestirimine ilişkin formülünde yer alan

tasarım matrisi ‟nin determinantının sıfıra çok yakın olacağı ve dolayısıyla tersinin

hesaplanamayacağı için bu formül regresyon parametrelerinin kestiriminde

kullanılamaz. RR yöntemi, tasarım matrisinin, tekilliğini ortadan kaldıracak şekilde

yeniden yapılandırılması esasına dayanmaktadır.

Hoerl ve Kennard (1970) kestirimin sağlamlığını ve varyansını kontrol altında

tutabilmek için EKK kestiricisinin genişletilmiş hali olarak olmak üzere (5.16) ile

verilen kestirimi önermişlerdir.

(5.16)

En küçük kareler kestiricisi , durumu için ridge kestiricisinin özel bir

hali olarak düşünülebilir. Ridge kestiricisi yanlı olmasına rağmen, EKK kestiriminden

daha küçük hata kareler ortalamasına (HKO) sahiptir. Ayrıca (5.16) formülünde yer alan

, bağımsız değişkenler matrisi ‟in, matrisini korelasyon matrisi yapacak şekilde

normalize edilmiş halidir.

parametresinin herhangi bir yanlı bir kestiricisi için HKO,

(5.17)

şeklinde tanımlanır. Buna göre , ve vektörleri arasındaki ortalama

karesel Öklid uzaklığı olarak yorumlanabilir. Bu nedenle düşük HKO değerine sahip

olan bir kestirici gerçek parametreye daha yakın olacaktır (Koutsoyiannis, 1977).

75

En küçük kareler kestiricisinin RR literatüründe sıklıkla üzerinde durulan bir

özelliği, , matrisinin en küçük özdeğeri olmak üzere,

(5.18)

eşitsizliğinin geçerli olmasıdır. Açıklayıcı değişkenlerin doğrusal bağlantılı olması ve

dolayısıyla ‟nin küçük değerler alması, EKK katsayılar vektörünün karesel

uzunluğunun beklenen değerinin, gerçek katsayılar vektörünün karesel uzunluğundan

büyük olması anlamına gelmektedir. ‟nin değeri küçüldükçe bu fark daha da büyür.

değeri, tasarım matrisi tekilliğe yaklaştıkça, diğer bir ifade ile ÇDB‟nin şiddetinin

artmasıyla daha da küçük değerler almaktadır (Judge, Griffits, Hill, Lütkepohl, & Lee,

1985).

5.2.1 Varlık Teoremi

RR analizinin temel dayanaklarından birisi varlık teoremidir. Varlık teoremi, her

zaman,

(5.19)

koşulunu sağlayacak pozitif gerçel sayısının bulunabileceğini iddia eder (Hoerl &

Kennard, 1970, s. 62). Burada değerleri, tasarım matrisinin özdeğerlerini,

fonksiyonu (5.20) ile formülasyonu verildiği gibi ‟nın herhangi bir kestiricisi için

ve arasındaki karesel Öklid uzaklığını ifade etmektedir.

(5.20)

(5.20) ifadesine göre , EKK kestiricisi ile , ise ridge kestiricisi ile

arasındaki Öklid uzaklığını ifade etmektedir. Buradan hareketle varlık teoremi, “her

zaman, ridge kestiricisinin teorik değerine olan karesel Öklid uzaklığını, EKK

kestiricinin değerine olan karesel Öklid uzaklığından daha küçük yapacak pozitif

gerçel sayısı mevcuttur” şeklinde yeniden ifade edilebilir.

76

Varlık teoremi ile ilgili sıkıntı, ridge sabiti ‟nin, modelin bilinmeyen

parametreleri olan ve ‟ya bağlı olmasıdır. Bu nedenle sayısının varlığı

bilinmesine rağmen, uygulama da EKK kestiriminden daha küçük bir HKO verecek bir

sayısı belirlendiğinden emin olunmalıdır (Draper & Smith, 1981).

5.2.2 Ridge Kestiricisinin Özellikleri

Ridge kestiricisi ‟nın bazı önemli özellikleri aşağıdaki gibi maddeler

halinde yazılabilir.

Özellik 1: Ridge kestiricisi için hesaplanan HKO, EKK kestiricisi

için hesaplanan HKO değerinden daha küçüktür.

(5.21)

Özellik 2: için artık kareler toplamı (5.22) ile bulunur.

(5.22)

Özellik 3: Ridge kestiricisinin ortalaması;

(5.23)

şeklinde hesaplanır. (5.23) formülünden anlaşılacağı gibi durumunda , yanlı

bir kestiricidir.

Özellik 4: Ridge kestiricisinin yanı, (5.23) ile verilen ortalamasının kullanılması

ile (5.24)‟deki gibi bulunur.

(5.24)

77

Özellik 5: Ridge kestiricisinin varyans-kovaryans matrisinin, EKK kestiricisinin

varyans kovaryans matrisi türünden ifadesi (5.25) ile verilir.

(5.25)

5.2.3 GenellestirilmiĢ Ridge Regresyon

Yukarıda ele alınan ridge kestiricisi, tasarım matrisinin her bir satırına aynı

ridge sabitinin eklendiği varsayımına dayanır ve özel olarak Global Ridge Regresyon

(GRR) olarak da adlandırılır. matrisinin her bir satırına farklı bir ridge sabiti

eklenmesi ile elde edilen ve Genelleştirilmiş veya Yerel Ridge Regresyon olarak

adlandırılan model için parametesinin kestirimi,

olmak üzere

aşağıdaki şekilde formüle edilir (Hoerl & Kennard, 1970, s. 63).

(5.26)

5.3 En Ġyi Ridge Sabitinin Belirlenmesi

Ridge sabiti, RR modelini ÇDB probleminden korur. Ridge sabitinin değeri

arttıkça, kestiricinin yanlılığı artar ancak varyansı azalır. Bu nedenle, RR uygulamasında

çözülmesi gereken en önemli problemlerden birisi, ridge sabitinin belirlenmesidir.

Literatürde farklı yazarlar tarafından önerilmiş birçok yöntem bulunmaktadır. Bunlar

genellikle HKO ve AKT benzeri hata fonksiyonlarının eniyilenmesi gibi objektif

kriterlere dayanmakla beraber, grafik üzerinden karar vermeye dayanan objektif

olmayan kriterler de mevcuttur.

5.3.1 Ridge Ġzi Diyagramı

Doğru parametresinin belirlenebilmesi için ridge izi diyagramından

yararlanılabilir (Hoerl & Kennard, 1970, s. 65). Ridge izi, ridge kestiricileri olan

‟lerin farklı sabiti değerleri için aldığı değerleri gösteren 2-boyutlu bir grafiktir.

Başlangıçta değeri sıfırdan başlatılır. değeri arttırıldıkça kestirimler mutlak değerce

daha küçük değer alır ve limit durumunda kestirimler sıfır değerine yakınsar.

78

Hoerl ve Kennard (1970, s. 65), ridge izi diyagramında parametre kestirimlerinin

durağanlaştığı yerdeki değerinin ridge sabiti olarak belirlenmesini önermişlerdir.

ġekil 5-1 Ridge Ġzi Diyagramı (Bjorksrtrom, 2001, s. 8)

Ridge izi diyagramına bakılarak sabitinin değerini belirlemeye çalışmak,

araştırmacının öznel yargısına dayandığından bu yöntem subjektif bir kriter olarak ele

alınmaktadır. Ancak bu yöntem, ridge sabitinin yaklaşık değeri ile ilgili bir önsel bilgi

elde edilmesinde kullanılabilir. Şekil 5-1‟e göre aralığında bir değerde tüm

ridge parametrelerinin durağanlaştığı görülmektedir. Dolayısıyla ridge sabitinin

aralığında bir değer olduğu söylenebilir.

5.3.2 Ridge Sabitinin Belirlenmesinde Kullanılan Diğer Yöntemler

Ridge sabitinin belirlenmesine ilişkin bu kısımda tanıtılacak yöntemler için

matrisi ve vektörünün standartlaştırılmış olduğu varsayılmaktadır. Dolayısıyla

matrisi bağımsız değişkenler arasındaki korelasyon matrisini ve vektörü bağımsız

değişkenler ile bağımlı değişken arasındaki korelasyon vektörünü göstermektedir.

79

Hoerl, Kennard ve Baldwin (1975) tarafından önerilen ridge parametresi seçimi,

(5.27)

formülü ile verilmektedir. Burada , kestirilen parametre sayısı, sabit terim içermeyen

EKK kestiricisi ve ise EKK yönteminden elde edilen tahminlenen bağımlı değişken

varyansıdır.

Lindley ve Smith (1972), ve önsel olasılık

dağılımları varsayımı altında ridge sabitinin Bayes kestiriminin

olduğunu

göstermiştir. Regresyon artıklarının varyansı ve regresyon katsayılarının varyansı

genellikle bilinmeyen parametreler oldukları için formülde bu varsayımların kestirimleri

kullanılmaktadır.

(5.28)

(5.28) ile verilen yöntemlere ek olarak önerilmiş bazı teknikler ise

aralığının taranarak en iyi parametresinin bulunması esasına dayanır. Ayrıca

Genelleştirilmiş Çapraz Doğrulama (GÇD) yöntemi de en iyi ridge parametresinin

bulunmasında sıklıkla kullanılan bir yöntemdir. Hataların sıfır ortalamalı normal

dağılımlı olmasına dayanan GÇD yöntemine göre en iyi ridge sabitinin bulunması

amacıyla, olmak üzere (5.29) ile verilen fonksiyon enküçüklenir

(Golub, Heath, & Wahba, 1979).

(5.29)

Son yıllarda Bozdoğan‟ın bilgi kompleksliği ölçümü yaklaşımı da ridge sabiti

seçimine başarı ile uyarlanmaktadır (Urmanov, Bozdogan, Gribok, Hines, & Uhrig,

2002).

80

5.4 Hibrit RTFA Modelinde Ridge Regresyonun Kullanımı

Hibrit RTFA modelinde gizli katmanda radyal tabanlı fonksiyonlar tarafından

işlenen girdi değerlerinin oluşturduğu matrisi ile gösterilmektedir. Bu aşamada

belirlenmesi gereken model parametresi, ağırlık değerleridir ve bu değerler (5.30) ile

verilen doğrusal modelin çözümünden elde edilir.

(5.30)

Daha önce Bölüm 3‟te belirtildiği üzere Hibrit RTFA modelinde sorun, tasarım

matrisi ‟nin tekil matris olmasıdır. Bu nedenle ağırlık parametreleri, EKK

yöntemine dayalı,

(5.31)

formülü ile doğrudan hesaplanamaz. Bu aşamada Hibrit RTFA modelinin ağırlık

parametrelerinin hesaplanmasında RR modeli kullanılmıştır. Buna göre Hibrit RTFA

modelinin ağırlık parametreleri için kullanılan formül,

(5.32)

şeklindedir. (5.33) formülünde yer alan k sabiti ise daha önce açıklanan Hoerl Kennard

(1970) tarafından ortaya atılan ridge kestiricisi olarak belirlenmiştir. Bu bağlamda

herhangi bir girdisi için Hibrit RTFA modelinin çıktısı (5.33) formülü ile hesaplanır.

(5.33)

Çalışmanın bu kısmına kadar girdi katmanından modele girilen verinin çıktı

katmanına kadar işlenme süreci açıklanarak Hibrit RTFA modelinin çıktısının nasıl elde

edildiği üzerinde durulmuştur. Bir sonraki bölümünde ise Hibrit RTFA modelinin,

bağımlı değişken üzerindeki açıklayıcılığı en yüksek bağımsız değişken alt kümesinin

belirlenmesinde kullanılan değişken seçimi teknikleri ile nasıl birleştirildiği üzerinde

durulmaktadır. Bu bağlamda Bölüm 6‟da öncelikle bilgi kriteri kavramı ve bu kavrama

81

dayanan değişken seçim kriterlerinden bahsedilmiştir. Daha sonra açıklanan bu kriterler

ile Hibrit RTFA modelinin entegrasyonu üzerinde durulmaktadır.

82

BÖLÜM 6 DEĞĠġKEN SEÇĠMĠ

Model Seçimi (Model Selection) olarak ta bilinen Değişken Seçimi (Variable

Selection) ile bağımsız değişkenlerinden hangisinin ya da hangilerinin bağımlı değişken

üzerinde etkili olduğu belirlenerek problemin boyutu indirgenir. Böylece hem hesaplama

kolaylığı sağlanmakta hem de veri derlemesine ilişkin maliyetler azaltılmaktadır.

Problem boyutunun indirgenmesinin diğer bir yararı ise, model parametrelerinin daha

doğru bir şekilde kestirilmesi ve parametreler hakkında daha açık yorum yapılmasının

sağlamasıdır.

Bağımsız değişken sayısının çok olduğu ve ekonometrik modeller gibi model

hakkında önsel bilginin bulunmadığı veya yetersiz olduğu durumlarda, en iyi bağımsız

değişkenlerin belirlenmesi, tahminleme problemlerinin önündeki büyük bir sorundur.

Bazı durumlarda açıklayıcı değişkenlere ilişkin alternatif seçim sayısı milyonları

bulabilmektedir. Örneğin 20 açıklayıcı değişkenin bulunduğu bir problem için önsel

bilginin bulunmaması durumunda farklı değişken kombinasyonu söz

konusudur ve bu sayı açıklayıcı değişken sayısına bağlı olarak üstel olara artış gösterir.

Dolayısıyla tüm olası açıklayıcı değişken kombinasyonlarının denenerek veriye en

uygun değişkenlerin belirlenmesi oldukça maliyetli ve hatta değişken sayısına bağlı

olarak imkansız olabilir. Bu bağlamda, hem alternatif değişken kombinasyonları

arasından seçim yapılmasını sağlayacak değişken seçim kriterlerine hem de bu değişken

seçim kriterlerine göre tüm alternatif modellerin tümünü denenmeden en iyi değişken

kombinasyonunun belirlenmesini sağlayabilecek optimizasyon tekniklerine olan

gereksinim ortaya çıkmaktadır (Bozdogan H. , 2004).

İstatistik paket programlarının çoğu, değişken seçimi için adımsal teknikler

yardımı ile Değişken Seçimi seçeneğini sunarlar. Bununla birlikte, adımsal teknikler her

zaman en iyi değişken kombinasyonunun bulunmasını garanti etmezler (Bozdogan H. ,

2004). Adımsal teknikler ile ilgili en önemli eleştiri, modele girecek ve modelden

83

çıkacak değişkenlerin sırasının belirlenmesinin teorik dayanaktan yoksun olması (Boyce,

Farhi, & Weischedel, 1974) (Wilkinson, 1989) ve dolayısıyla doğru değişkenlerin

seçilmesinin rastlantısallık içermesidir. Adımsal teknikler ile ilgili diğer bir eleştiri ise

adımsal tekniklerin tamamıyla doğru değişkenleri nadiren belirleyebilmesidir (Mantel,

1970), (Hocking, 1983), (Moses, 1986). Son olarak adımsal tekniklerin belki de en zayıf

yönü, sadece yerel aramaya dayalı bir algoritma olmaları nedeniyle tüm arama uzayının

oldukça sınırlı bir bölgesinin taranabilmesidir. Adımsal teknikler kullanılarak en iyi

ihtimalle, uygun bir model belirlenebilir (Sokal & Rohlf, 1981).

Bilgi kriterlerine dayalı değişken seçimi, adımsal tekniklere alternatif

oluşturmaktadır. Akaike (1973) tarafından ortaya atılan Akaike Bilgi Kriteri (Akaike‟s

Information Criterion - AIC) bu konuda milat olarak sayılabilir. Akaike‟nin ilgili

çalışmasını takiben AIC‟yi temel alan ve bu nedenle Akaike-tipi bilgi kriterleri olarak

adlandırılan birçok kriter geliştirilmiştir. Schwartz (1978) tarafından geliştirilen

Schwartz Bayesci Bilgi Kriteri (Schwartz‟s Bayesian Criterion - SBC ya da Bayesian

Information Criterion - BIC), Hannan-Quinn (1979) tarafından geliştirilen Hannan-

Quinn Bilgi Kriteri (Hannan & Quinn‟s Criterion - HQC) ve Bozdogan (1987)

tarafından geliştirilen Tutarlı Akaike Bilgi Kriteri (Consistent Akaike Information

Criteria - CAIC) bu kriterlerden sıklıkla kullanılanlarıdır. Değişken seçiminde ayrı bir

sınıf olan ve Bozdogan (1988), (1994), (2000) tarafından geliştirilmiş olan bilgi

karmaşıklığına dayalı değişken seçim kriterleri ise ICOMP (Information Complexity)-

tipi kriterler olarak bilinmektedir.

ICOMP-tipi kriterler, sadece uyum iyiliği ve model yalınlığını değil, model

karmaşıklığını da azaltmak üzere bilgi karmaşıklığını göz önüne alırlar. Burada önemli

nokta, bilginin tutarlı bir şekilde ölçülebilmesidir. Bu bağlamda değişken seçim

kriterlerine geçilmeden önce bilgi ölçümü ve bilgi karmaşıklığı kavramları üzerinde

durulmuştur.

84

6.1 Uyum Ġyiliği ve Bilgi Ölçümü

Uyum iyiliği ve bilgi ölçüsünde entropi, Kullback-Leibler uzaklığı ve Fisher

Bilgi Matrisi kavramları önemli bir yer tutmaktadır. Çalışmanın devam eden kısımlarına

temel oluşturacak bu kavramlar sırasıyla aşağıdaki gibi özetlenebilir.

6.1.1 Entropi

Bilgi kuramında Cladue E. Shannon (1951) tarafından tanıtılan entropi kavramı,

bir rastlantı değişkeni için belirsizlik ölçüsü olarak tanımlanmaktadır (Wang, 2008, s. 1).

Dolayısıyla herhangi bir rastlantı değişkeni için hesaplanan ve ile gösterilen

entropi, rastlantı değişkeni ile ilgili bilgi ölçüsü olarak yorumlanabilir. Diğer bir ifade

ile dağılım fonksiyonuna sahip olduğu varsayılan bir rastlantı değişkeni için

formülü ile hesaplanan entropi, rastlantı değişkeninin

dağılımına ne kadar uyduğu bilgisini vermektedir. Buradan hareketle, normal dağılıma

uyan bir rastlantı değişkeni için Shannon entropisi (6.1) formülü

ile hesaplanır.

(6.1)

(6.1) ile normal dağılan bir rastlantı değişkeni için hesaplanmış olan entropi,

bilinmeyen parametre değerlerine bağlıdır ve bu parametreler örneklem yardımı ile

kestirilir (Deniz, 2007).

6.1.2 Kullback-Leibler Uzaklığı

Kullback-Leibler (KL) uzaklığı tüm bilgi kriterlerinin temel çıkış noktasıdır. İlk

defa Kullback ve Leibler (1951) tarafından tanıtılan KL uzaklığı, iki olasılık dağılımı

85

arasındaki uzaklığın ölçülmesinde kullanılır. Uygulamada ise genellikle tahminlenen ve

gerçek model arasındaki uzaklığın ölçümünde kullanıldığı için ne kadar küçük değer

alıyorsa gerçek modele o kadar çok yaklaşılmış demektir.

fonksiyonu, verilen bir parametre vektörü için raslantı değişkeninin

bileşik olasılık yoğunluk fonksiyonu olmak üzere, gerçek model fonksiyonu ile

verilmiş olsun. Ayrıca gerçek model ile herhangi bir model olan arasındaki KL

uzaklığı ile ifade edilsin. Bu durumda ( ) değişkenleri birbirinden

bağımsız olmak üzere, KL uzaklığı (6.2) formülü ile hesaplanır.

(6.2)

Yukarıdaki formülde yer alan ( ), değişkeninin marjinal olasılık

yoğunluk fonksiyonunu göstermektedir. Ayrıca (6.2)‟nin ilk terimi verilen bir

içim sabit olan negatif entropi, olur. İkinci terim ise (6.3) ile ifade

edilir ve (6.4) formülü uyarınca yansız olarak tahminlenir.

(6.3)

(6.4)

Böylece, genellikle bilinmeyen doğru parametre vektörü , formülden

çıkarılmış olur. (6.4)‟de yer alan , gözlemlerin parametresi için kestirilen

log-olabilirlik fonksiyonudur. Uygulamada öncelikle, en çok olabilirlik kestirimi ile elde

edilen için parametre vektörü kestirilir ve buradan,

(6.5)

ifadesine yakınsamak üzere en büyüklenmiş olan log-olabilirlik fonksiyonu kullanılır

(Howe, 2009).

86

6.1.3 Fisher Bilgi Matrisi

Fisher bilgisi, bir rastlantı değişkenine ait rastlantısal gözlem değerlerinin,

bilinmeyen parametresi hakkında taşıdığı bilginin ölçüsüdür. Fisher bilgisi, raslantı

değişkenine ait olabilirlik fonksiyonunun parametresine göre ikinci türevinin beklenen

değerinin ters işaretlisi olarak tanımlanır. Fisher Bilgisine dayanan yarı pozitif tanımlı ve

simetrik Fisher Bilgi Matrisi, (6.6)-(6.9) arası verilen hesaplama prosedürü yardımıyla

elde edilir (Li, Asma, Qi, Bading, & Leahy, 2004).

bağımsız bileşenden oluşan rastlantı değişkeninin olasılık

yoğunluk fonksiyonu olmak üzere, rastlantı değişkenine ait olabilirlik

fonksiyonu (6.6) şeklindedir.

(6.6)

Buradan log-olabilirlik fonksiyonu (6.7) formunda yazılabilir.

(6.7)

(6.7) ile çıkarımı verilen log-olabilirlik fonksiyonunun kullanılmasıyla Fisher

bilgisinin beklenen değeri (6.8) formülü ile hesaplanır.

(6.8)

İstatistiksel kestirim kuramına önemli bir katkı sağlayan Fisher bilgisi, etkinlik

ve yeterlilik kavramları ile yakından ilgilidir. Negatif olmayan bir değerler alan bu bilgi,

parametresine ilişkin bilginin miktarını ölçer ve ‟nın yansız kestiricisinin doğruluğu

ile orantılıdır. Fisher bilgisi ile Kullback-Leibler bilgisinin yeterlilik, etkinlik,

toplanabilirlik ve gözlemlerin gruplanmasına ilişkin özellikleri benzerdir (Kotz &

Johnson, 1982).

Fisher bilgi matrisinin tersi ile model kovaryans matrisi yakından ilişkilidir. Bu

özelliği ile Fisher bilgisi, bazı değişken seçim kriterlerinde önemli rol oynamaktadır.

87

Kestirilen Ters-Fisher Bilgi Matrisi (Inverse Fisher Information Matrix - IFIM),

parametre kestirimi yardımı ile elde edilen kovaryans matrisi ‟nın kullanılmasıyla,

(6.9)

şeklinde hesaplanır. Yukarıdaki formülde , boyutlu dublikasyon

matrisi, ise ‟nin Moore-Penrose tersi olacak şekilde

formülü

ile hesaplanan boyutlu matristir. işareti ise doğrudan (kronecker)

çarpımı ifade etmektedir (Williams, Bozdogan, & Aiman-Smith, 1995).

6.2 Akaike-Tipi DeğiĢken Seçim Kriterleri

Sonlu sayıdaki alternatif değişken kombinasyonları içinden eldeki veriye en iyi

uyum gösteren değişkenlerin seçilmesinde iki tip hata dikkate alınır. Bunlardan birincisi

modelleme hatası, ikincisi ise yan ve varyans kavramlarının oluşturduğu kestirim hatası

denen ve parametre vektörünün kestiriminden kaynaklanan hatadır. toplam riski,

modelleme riskini ve ise kestirim riskini göstermek üzere toplam risk

aşağıdaki şeklide ifade edilir.

Genellikle değişken seçim kriterleri kullanılırken modelin önceden belirlenen

belirli bir parametrik dağılıma uyduğu varsayılarak model kestirilir. Ancak veri analizi

süreci boyunca sıklıkla, eldeki veriler bilinen dağılımlara uyum göstermediği durumlarla

karşılaşılır. Bu gibi durumlarda, modelin dağılımının doğru belirlenebilmesi anlamında

hatalı modelleme riski ortaya çıkmaktadır. Dağılımın doğru belirlenmesi gereklidir

ancak yeterli değildir. Kestirim riski ise gerçek parametre vektörünün, belirlenen model

88

üzerinden sınırlandırılmış bir parametre uzayı için kestirildiği durumlarda ortaya çıkar.

Burada risk, kestirimde varyans bileşeni olarak adlandırılır. Gerçek parametre

vektörünün, modelin sınırlandırılmış parametre uzayı tarafından içerilmediği durumda

yan oluşur.

Kestirimde yan ve varyansın diğer bir ifadesi ise şu şekildedir: Varyans, modelin

kabul edilen parametre uzayının büyüklüğüne karşılık getirilen ceza olarak

yorumlanabilirken yan, modelin gerçek parametre vektörü ile indirgenmiş parametre

uzayı arasındaki uzaklıktır. Model değişkenlerinin seçiminde amaç, toplam risk ‟nin

enküçüklenmesidir. Bu bağlamda değişken seçim kriterleri, en çok olabilirlik kestirimi

altında modelin toplam riskinin kestiricileridir ve başarım ölçüsü olarak adlandırılır.

Akaike (1973), (1974), (1981) bu alanda yayınladığı art arda önemli makaleleri ile

istatistik modelleme ve model değerlendirmesi alanındaki gelişmelere ön ayak olmuştur

(Bozdogan H. , 2000).

AIC-tipi kriterler, AIC kriterini temel alan kriterlerin ortak adıdır. Bu kriterler için

uyum eksikliği bileşeni aynı olmakla beraber, kestirilen parametre sayısının

cezalandırıldığı ceza terimleri açısından farklılık gösterir.

6.2.1 Akaike Bilgi Kriteri

Ortalama beklenen olabilirliğin logaritmasının katının yansız kestircisi olan

AIC, kestirilen modelin uyum eksikliğinin ve kestirilen parametre sayısının

cezalandırılmasına dayalı bir kriterdir. Parametre sayısının ceza terimi olarak kritere

eklenmesi AIC‟yi farklı boyutlu modellerin karşılaştırmasında kullanılabilir hale

getirmektedir (Deniz, 2007). Uyum eksikliğinin cezalandırılması ise KL uzaklığına

dayanmaktadır. Buna göre , boyutlu bilinmeyen parametre vektörü, , ‟nın en çok

olabilirlik kestiricisi ve , bilinmeyen parametreli olabilirlik fonksiyonu olmak

üzere AIC,

(6.10)

89

şeklinde formüle edilir. AIC formülünün birinci terimi uyum eksikliğini, ikinci terimi ise

parametre sayısını cezalandırmaktadır.

(6.10) ile verilen gösterimin yanında AIC, daha açık bir formülasyonla (6.11) ile

verildiği gibi de ifade edilebilir.

(6.11)

(6.11)‟de gözlem sayısını, bağımsız değişken değerleri matrisini ve ise

parametre kestirimi vektörünü göstermektedir.

Alternatif modeller arasından en küçük AIC değerine sahip olan model, en iyi

model olarak belirlenir. Karşılaştırılan modeller için AIC değerinin enküçüklenmesiyle

bir anlamda kestirilen model ile gerçek model arasındaki KL uzaklığı enküçüklenmiş

olur. AIC, en çok olabilirlik kestirimi yapılması ve gerçek modeli içeren parametrik

dağılımlar ailesi üzerinde çalışılması koşulları altında uygulanabilir (Deniz, 2007).

6.2.2 Schwartz Bilgi Kriteri

Bayesci Bilgi Kriteri olarak da bilinen SBC, AIC‟nin bir türevi olarak Schwartz

(1978) tarafından ortaya atılmıştır. Bayes kuramını temel alan SBC kriterinin ceza terimi

AIC‟nin ceza teriminden daha büyüktür. Dolayısıyla (6.12) ile formülasyonu verilen

SBC ile seçilecek olan modelin, AIC ile seçilecek olan modelden daha küçük veya en

azından eşit boyutlu olması beklenir.

(6.12)

AIC‟de olduğu gibi (6.12) verilen SBC formülasyonu da (6.13) ile verildiği gibi

açık formda yazılabilir.

(6.13)

90

6.2.3 Tutarlı Akaike Bilgi Kriteri (CAIC)

AIC formülü, son terimi olan bilinmeyen parametrenin neden 2 ile çarpıldığının

açık olmadığı noktasında eleştirilmektedir. Rissanen (1978) bu sayının rastgele

seçildiğini belirtmiş, Bhansali ve Downham (1977) ise çalışmalarında 2 yerine, değeri 1

ile 4 arasında değerler alabilecek bir sabiti için genellemeler yapmıştır.

CAIC, Bozdoğan (1987) tarafından AIC kriterinin bir türevi olarak ortaya

atılmıştır. CAIC, AIC‟ye göre daha tutarlı bir kriterdir (Bozdogan H. , 1987). Kestirilen

parametre sayısına ilişkin ceza terimi, AIC‟nin ceza terimine göre oldukça fazladır. Bu

özelliği ile CAIC, daha az parametreli model seçilmesini sağlamaktadır. Formülasyonu,

(6.14)

şeklinde verilen CAIC‟ye göre en iyi model, en küçük CAIC değerini veren modeldir.

CAIC formülü SBC‟ye benzemekle beraber, CAIC‟nin ceza terimi SBC'nin ceza

teriminden bilinmeyen parametre sayısı kadar daha fazladır. Dolayısıyla CAIC ile

seçilen model SBC‟ye oranla da daha basit model olacaktır.

6.2.4 Fisher Bilgi Matrisine Dayalı Tutarlı Akaike Bilgi Kriteri ( CAICF)

Fisher bilgisine dayalı AIC olarak ta bilinen CAICF, ceza terimine Fisher bilgi

matrisinin eklenmesiyle, CAIC‟ye farklı bir yaklaşım getirmektedir. Buna göre,

kestirilen Fisher bilgi matrisi olmak üzere CAICF, aşağıda verildiği şekilde tanımlanır.

(6.15)

Bozdogan (1987)‟a göre AIC, CAIC ve CAICF, en iyi modelin, diğer bir ifade

ile açıklayıcı değişkenlerin veriye uygun en iyi alt kümesinin belirlenmesinde etkili

kriterlerdir. Ayrıca anlamlılık düzeyinin rastgele belirlenmemesi ve hesaplama kolaylığı

açısından diğer yöntemlere göre üstündürler. CAIC ve CAICF kullanılması ile

ezberleme olarak adlandırılan veriye aşırı bağımlılık ya da veriye aşırı uyum gösteren

91

model elde edilmesi olasılığı azaltılmış ve daha basit modeller elde edilmiş olur

(Bozdogan H. , 1987).

Tutarlı kriterler için gözlem sayısı arttıkça bir modelin uyum eksikliği ya da aşırı

uyum göstermesi olasılığı azalacaktır. Sonuç olarak örneklem büyüklüğünün fazla

olduğu durumlarda CAIC veya CAICF, aşırı uyumun sorun olarak kabul edilmediği

durumlarda ise AIC kriterinin kullanılması uygundur (Deniz, 2007).

6.3 ICOMP Tipi DeğiĢken Seçim Kriterleri

Van Endem (1971)‟e göre -değişkenli bir Gauss dağılımı için karmaşıklığın

makul bir tanımı kovaryans matrisi, , aracılığı ile yapılabilir. ‟inci değişkene ait

marjinal entropi ile ve tüm değişkenler üzerinden bileşik entropi ile

gösterilmek üzere modelin karmaşıklığı (6.16) ile ifade edebilir.

(6.16)

Burada ile ‟inci değişkenin varyansı ifade edilmektedir. (6.16)

formülünde yer alan ‟ın bazı karakteristik özellikleri aşağıdaki gibi sıralanabilir.

Eğer köşegen matris ise eşitliği geçerlidir.

Eğer ise olur.

formülünün sağ tarafındaki ilk ifade ortonormal dönüşümler altında sabit

değildir.

92

Sonuç olarak tüm sistem koordinatları üzerinden yapılan en

büyükleme işlemi ile Bozdogan (1988)‟e göre karmaşıklığın birinci dereceden en büyük

bilgi kuramsal ölçümü aşağıdaki şeklide elde edilir.

(6.17)

ile ölçülen kovaryans matrisi her zaman tam ranklı olmayacağı için formülde

yer alan değeri genellikle olarak ile değiştirilir. ‟e ilişkin bazı

özellikler ise aşağıdaki gibi verilebilir (Howe, 2007).

, özdeğerlerin aritmetik ortalamasının geometrik ortalamasına oranının

logaritmasıdır.

, iz ve determinant gibi çok basit ölçümler yardımıyla hesaplanır.

için ilişkisi geçerlidir.

Değişkenler arasındaki iletişim arttıkça büyür.

ICOMP genel olarak iki KL uzaklığının toplamı olacak şekilde ifade edilebilir

(Bozdogan, 1988, 1994, 2000, 2004). Genel çok değişkenli doğrusal ya da doğrusal

olmayan modeller için model değerinin, Ters Fisher Bilgi Matrisi (Inverse

Fisher Information Matrix - IFIM) için hesaplanan karmaşık olacak şekilde,

ile kestirildiği varsayımı altında ICOMP(IFIM) kriteri, Bozdogan (1988)

tarafından (5.18) ile tanımlanmıştır.

(5.18)

Burada kestirilen parametrenin dağılımı şeklinde

ifade edilebilir. Ayrıca , (5.19) eşitliğinde verilen çok değişkenli normal dağılıma

ait IFIM‟in karmaşıklığının en büyük teorik bilgi ölçümü değerdir.

93

(5.19)

Yukarıdaki eşitlikte yer alan parametrelerden ,

şeklinde hesaplanır.

Hibrit RTF modeli için IFIM ise,

(6.20)

şeklinde tanımlanır. Bu tanımın kullanılması ile ICOMP(IFIM), aşağıdaki biçime

dönüşür.

(6.21)

Burada entropik karmaşıklık değeri (6.22) ile hesaplanmaktadır.

(6.22)

(6.21) ile tanımlanan ICOMP(IFIM) kriterinden başka, yanlış tanımlanmış

modeller için ICOMP temelli Değişken Seçim kriteri ise (6.22) şekilde tanımlanır.

(6.23)

(6.23) ile verilen eşitlikte yer alan

değeri,

94

(6.24)

şeklinde hesaplanmaktadır.

(6.25)

(6.25) ile verilen formül, kovaryans matrisinin kestirimidir. Varsayılan

modelin doğru olup olmamasına bağlı olmaksızın doğru varyansı verdiği için sıklıkla

“Sandviç Kovaryans” veya “Sağlam Kovaryans” kestiricisi olarak adlandırılır. Modelin

doğru olduğu durumda alınır ve (6.25) kovaryans formülü Fisher bilgi matrisinin

tersi formülüne indirgenir (White, 1982). İlgili kovaryans matrisi basıklık ve çarpıklık

değerlerini de hesaba katarken bu durum, AIC ve SBC kriterlerinin kullanıldığı

durumlarda mümkün değildir.

6.4 AIC-Tipi Kriterler ile ICOMP-Tipi Kriterlerin KarĢılaĢtırılması

Akaike-tipi kriterlerle uyum eksikliği ve modelin kestirilen parametre sayısı

cezalandırılmaktadır. Bu bağlamda Akaike-tipi kriterlere yöneltilen en önemli eleştiri,

bağımsız değişkenler arasındaki korelasyonu hesaba katmamasıdır. Bu nedenle, Akaike-

tipi kriterler kullanılarak yapılan değişken seçimi işlemi ile birbirleriyle yüksek

dereceden korelasyonlu bağımsız değişkenlerin seçilmesi olasıdır. Bu da, çoklu doğrusal

bağlantı sorununa neden olabilecek bir model oluşturulması anlamına gelmektedir.

Diğer bir ifade ile Akaike-tipi kriterlerle en az açıklayıcı değişken kullanılarak en iyi

uyum iyiliği sağlayan model belirlenirken, seçilen değişkenler arasındaki çoklu doğrusal

bağlantı ile ilgili bilgi içerilmemektedir.

Yukarıda sözü edilen AIC-tipi kriterlere yöneltilen eleştiri noktasından hareketle

ICOMP-tipi kriterler, uyum eksikliği ve kestirilen parametre sayısının yanında, bağımsız

değişkenler arasındaki ilişkiyi de cezalandırır. Dolayısıyla ICOMP-tipi kriterler

kullanılarak seçilen model, ÇDB problemi dikkate alınarak seçilmiş bir model

olmaktadır. Diğer bir ifade ile ICOMP-tipi kriterler, en düşük seviyede çoklu doğrusal

95

bağlantılı ve mümkün en az sayıdaki değişken kullanılarak olabilecek en iyi uyum

iyiliğini sağlayacak bağımsız değişkenlerin seçilmesini sağlarlar. Bu bağlamda ICOMP-

tipi kriterlerle belirlenen modelin, AIC-tipi kriterle belirlenen modele oranla, ÇDB

problemine neden olma olasılığı daha düşük olmaktadır.

Akaike-tipi kriterler karmaşıklığa sadece bilinmeyen parametre sayısı açısından

duyarlıdır (Mark A. Pitt, 2002, s. 475). AIC tipi kriterler bu nedenle yetersiz kalabilir.

(6.9)‟de bulunan IFIM‟nin izi ve determinantı, sırasıyla parametre duyarlılığının etkisi

ve parametrelerin korelasyonunu dikkate alan karmaşık bir fonksiyonu temsil

etmektedirler (Deniz, 2007).

6.5 En Ġyi Model DeğiĢkenlerinin Genetik Algoritma ile Belirlenmesi

Değişken seçim kriterleri ile ilgili buraya kadar anlatılan kısımdan çıkan sonuç,

hangi değişken seçim kriteri kullanılırsa kullanılsın, ilgili kriterin değerini en küçük

yapacak model en iyi model olarak belirlenmesidir. Dolayısıyla en iyi açıklayıcı

değişken alt kümesinin belirlenmesi işlemi, belirlenmiş olan değişken seçim kriterini

amaç fonksiyonu, açıklayıcı değişkenlerin tüm olası kombinasyonlarının oluşturduğu

kümeyi ise arama uzayı olarak kabul eden bir eniyileme problemi olarak düşünülebilir.

Açıklayıcı değişken sayısının artışına bağlı olarak arama uzayının üstel olarak

büyümesi nedeniyle tüm değişken kombinasyonlarına karşılık gelen değişken seçim

kriteri değerinin hesaplanması zor hatta zaman ve maliyet açısından imkansız olabilir.

Ayrıca üzerinden eniyileme eniyileme yapılacak olan değişken seçim kriterleri oldukça

karmaşık fonksiyonlar oldukları için analitik yollardan enküçüklenmeleri çok zordur.

Değişken sayısı arttıkça, klasik yöntemlerle değişken seçimi yapmak güç olacağı

için son yıllarda oldukça popüler olan genetik algoritma yöntemi tercih edilmektedir.

6.5.1 Genetik Algoritma

Evrimsel algoritmalar, gradyen temelli en iyileme algoritmalarına alternatif

olarak ilk defa 1970‟li yılların başında ortaya atılmıştır. Newton gibi eniyileme

yöntemleri, problemin tek bir çözüm noktasının geliştirilmesi esasına dayanmaktadır.

96

Diğer taraftan evrimsel yaklaşım, geniş bir olası çözümler kümesinin simüle edilmesi ile

çözüme ulaşılması şeklindedir. Bu olası çözümler arasında rastlantısal mutasyonlar ve en

iyi uygunluk temelli seçim ile birbirleri ile etkileşime izin verilerek iteratif bir şekilde en

iyi çözüme ulaşılır. Evrimsel algoritmaların bir türü olan Genetik Algoritma (GA),

Holland (1975) ve öğrencileri tarafından geliştirilmiştir. Scientific American dergisinde

Holland (1992) tarafından yayınlanan “Genetic Algorithms” isimli makale, genetik

algoritmaların popüler hale geldiği yayın olarak sayılabilir. Ayrıca Vose (1999)

tarafından yayınlanan “The Simple Genetic Algorithm: Foundations and Theory” isimli

kitap GA‟nın matematiksel altyapısının anlaşılması için iyi bir kaynak oluşturmaktadır.

6.5.2 Genetik Algoritmanın Yapısı

Genetik algoritma, biyolojik evrimden esinlenen bir rastlantısal arama

algoritmasıdır. Biyolojik organizmaları belirleyen kromozomlar genetik algoritmada

genellikle ikili değerlerle temsil edilir. Bu ikili değerler optimizasyon problemi için olası

bir çözümün bileşenleri olarak düşünülebilir. Aşağıda genel olarak adımları verilen GA,

birbirini takip eden basit süreçlerden oluşmaktadır.

1. Başlangıç çözümünü üret,

2. Mevcut çözüm popülasyonunun elamanlarını sırala,

3. Mevcut popülasyonun bir sonraki nesli üretmek üzere nasıl etkileşime gireceğini

belirle,

4. Bireyleri çiftleştir; kromozomlar arası çaprazlama ve genetik mutasyon uygula,

5. Elde edilen bireyleri yeni nesle aktar,

6. Bitirme kriteri sağlanıyorsa algoritmayı bitir, sağlanmıyorsa Adım 2 ye dön.

97

Tablo 6-1 Genetik Algoritma Parametreleri

Parametre Adı Örnek parametre Değeri

Nesil Sayısı

Erken Bitirme Eşiği

Popülasyon Büyüklüğü

Nesil Tohumlama Türü

Çaprazlama Olasılığı

Mutasyon Olasılığı

Elitizm

Amaç Fonksiyonu

60

40

30

Rulet

0,75

0,10

Evet

bilgi kriteri

Genetik algoritma için, örnek değerleri Tablo 6-1‟de verilen 8 ana işlevsel

parametre vardır. Tablo 6-1 ile verilen GA parametrelerinin ve işlemcilerinin tanımları

takip eden kısımda açıklanmaktadır. GA parametre ve işlemcilerinin temel tanımlarının

verilmesinden sonra özel olarak GA‟nın Değişken Seçimi üzerine uygulaması üzerinde

durulacaktır.

6.5.3 Genetik Algoritmanın Parametreleri

Nesil Sayısı: GA‟da iterasyonlar, biyolojik esin kaynağına atfen, nesil olarak

adlandırılır. Dolayısıyla nesil sayısı parametresi kendi kendini açıklamaktadır. Burada

nesil sayısının belirlenmesi, genetik algoritma ile çözüm sürecinde oldukça önemlidir.

Nesil sayısının çok büyük belirlenmesi hesaplama süresinin artmasına yol açarken

yeterinden az belirlenen nesil sayısı, en iyi olmayan bir çözüm bulunması ile

sonuçlanabilir (Howe, 2007).

Erken Bitirme Kriteri: Bu parametre GA‟nın yakınsama kriteridir.

Algoritmanın amaç fonksiyonunda bir iyileşme kaydetmeksizin belirli bir sayıda nesil

aktarımı yapması, algoritmanın en iyi ya da en iyiye yakın bir çözüme yakınsaması

olarak yorumlanır. Burada amaç fonksiyonunda ilerleme olmaksızın algoritmanın devam

ettirileceği maksimum iterasyon sayısının yüksek belirlenmesi hesaplama süresinin

artmasına neden olur. Diğer taraftan bu parametrenin düşük belirlenmesi, mevcut

çözümden optimal çözüme geçme olasılığını azaltabilir.

98

Popülasyon Büyüklüğü: Bu parametre ile her bir nesilde kaç tane birey (çözüm

noktası) yer alacağı kontrol edilir. Genellikle popülasyon sayısının arttırılması ile

algoritmanın yakınsama süresinin azaltılması beklenir. Ancak belirli bir noktadan sonra

aşırı popülasyon büyüklüğünün yol açacağı yoğun hesaplama yükü, algoritmanın iyi

çalışmamasına yol açar. Bu parametrenin belirlenmesi oldukça zordur ve bu konuda

önerilmiş az sayıda sezgisel yaklaşım vardır. Örneğin değişkenli bir en iyi alt kümeyi

belirleme probleminde popülasyon sayısı , koşulunu sağlamalıdır (Bozdogan H.

, 2004, s. 37).

Nesil Tohumlama Türü: Bu parametre ile gelecek neslin bireylerinin hangi

tohumlama türü ile üretileceği kontrol edilir. Bu amaca yönelik sıklıkla kullanılan 3

yöntem vardır. Bunlardan en basiti, çözümlerin rastgele olarak parçalanması ve

çiftleştirilmesidir. Turnuva Seçimi yönteminde, olmak üzere, sayıda

çözümünden oluşan küme tek biçimli dağılıma göre rastgele olarak üretilir ve amaç

fonksiyonu değerleri hesaplanır. En iyi amaç fonksiyonu değerine sahip olan iki çözüm

çiftleştirilerek bir sonraki nesle aktarılır. Bu işlem, bir sonraki nesil tamamlanana kadar

tekrarlanır. Turnuva seçimi yönteminin faydası, her bir iterasyonda popülasyonu

oluşturan tüm bireyler için amaç fonksiyonunun hesaplanmamasıdır. Hesaplanması zor

olan bir amaç fonksiyonu ile çalışılan problemlerde bu yöntem zaman kazanımı

açısından oldukça etkilidir.

Oldukça sıklıkla kullanılan diğer bir yöntem ise Rulet Seçimi olarak adlandırılır.

Bu yöntem her bir gözesi farklı büyüklükte olan hileli bir rulet tekerleği ile rulet

oynamaya benzer. Herhangi bir . çözüm için göze genişliği, olmak üzere,

(6.26)

formülü ile hesaplanır. Yukarıdaki formüle göre örneğin 4 kromozom için sıralanmış

göze genişliklerinin hesaplanışı Tablo 6-2‟de verildiği gibidir.

99

Tablo 6-2 Göze GeniĢlikleri

Göze GeniĢliği

Her bir kromozom için seçilme alt ve üst limitleri Tablo 6-3‟teki gibi hesaplanır.

Tablo 6-3 Bireylerin Alt ve Üst Seçim Aralıkları

Alt ve Üst

Limitler 1 2 3 4

0,00

0,10

0,10

0,30

0,30

0,60

0,60

1,00

Daha geniş olan başlangıçtaki gözelere karşılık gelen kromozomlar için amaç

fonksiyonu değeri en iyiye daha yakındır. Bu noktada, tek biçimli

dağılımından adet rasgele sayı üretilir ve üretilen her bir sayı Tablo 6-3‟ten hangi

kromozomun alt ve üst sınırları arasında yer alıyorsa o kromozom seçilir. Bu yöntemle

daha iyi amaç fonksiyonu değerine sahip kromozomların çiftleştirme havuzunda yer

alma olasılıkları artmaktadır. Sonuç olarak çözümlerin sırası rastgele olarak değiştirilmiş

olur ve çözümler sırayla eşleştirilir (Howe, 2007).

Çaprazlama Türleri: Çaprazlama işleminin yürütülmesine ilişkin birçok

yöntem vardır. Bunlardan başlıcaları aşağıdaki gibi sıralanabilir (Bozdogan H. , 2004, s.

38).

Tek Nokta Çaprazlaması: Tek nokta çaprazlamasına göre öncelikle bir

çaprazlama noktası belirlenir. Daha sonra çaprazlanacak iki bireyden birincisinin

çaprazlama noktasına kadar olan kromozomları ile ikincisinin çaprazlama

100

sonrasından sonrasındaki kromozomları birleştirilerek yeni birey oluşturulur.

Bireylerin 10 kromozomlu ikili değerlerden oluşması ve çaprazlama noktasının 3

olarak belirlenmesi durumunda örnek bir çaprazlama Şekil 6-1 ile ifade

edilmektedir.

Ġki Nokta Çaprazlaması: İki nokta çaprazlamasında iki tane çaprazlama noktası

belirlenir. Buna göre çaprazlamaya alınan ilk bireyin başlangıçtan ilk çaprazlama

noktasına kadar olan ve ikinci çaprazlama noktasından son kromozoma kadar

olan kısmı, ikinci bireyin ise iki çaprazlama noktası arasında düşen

kromozomları yeni bireyin ilgili kromozomu olarak kopyalanır. Buna göre Şekil

6-1 ile verilen A ve B bireyleri için çaprazlama noktalarının 3 ve 7 olarak

belirlenmesi durumunda iki nokta çaprazlaması „deki gibi uygulanmaktadır.

Tek Biçimli Çaprazlama: Bu tip çaprazlamada kromozomlar rastgele olarak

seçilerek yeni bireye aktarılır. Buna göre eşleştirilecek kromozomlu her bir

birey için aralığından tek biçimli dağılıma uyan rastgele bir tamsayı

üretilir. aralığı yerine kullanılması, iyi çözümlerin uç

noktalarından çaprazlamaya uğratılmalarını engellemektedir. Buna göre

çözümlerin sağ parçası, üretilen sayının bir fazlasına karşılık gelen

kromozomdan başlayarak ayrılır.

Çaprazlama Olasılığı: Çaprazlama olasılığı, yeni birey üretme sürecinin hangi

sıklıkla yapılacağını kontrol eder. Bu göre eşleştirilen her bir çift için aralığından

Birey A Birey B Yeni Birey

1011011001 + 1100011010 = 1010011001

Birey A Birey B Yeni Birey

1011011001 + 1100011010 = 1010011010

ġekil 6-1 Tek nokta çaprazlaması

ġekil 6-2 Ġki nokta çaprazlaması

101

rastgele bir sayı üretilir. Belirlenen çaprazlama olasılığından daha büyük sayı üretilen

çiftler için çaprazlama uygulanır. Diğerleri ise bir sonraki nesle aynen kopyalanır.

Çaprazlama olasılığı, çaprazlama sıklığını arttırmak için genellikle ‟ten büyük

seçilmektedir. Arama uzayının yeterli taranması açısından önemli bir parametredir.

Genetik Mutasyon: Eşleşme ile yeni bireyler (çözümler) elde edildikten sonra

bu yeni bireyler mutasyona uğratılır. İkili sistemin kullanıldığı tipik GA için mutasyon

işlemi oldukça basittir. Mutasyon olasılığına bağlı olarak mutasyona uğratılacak

çözümler mevcut popülasyondan tek biçimli dağılıma uyacak şekilde rastgele olarak

seçilir. Mutasyon olasılığının belirlenmesi kullanıcıya bağlı olmakla beraber genellikle

‟den küçük olarak belirlenir. Seçilen her bir kromozom için kromozomun bileşenleri

rastgele olarak seçilir ve seçilen bileşen değeri ise , ise yapılır. Mutasyon, GA‟yı

güçlü kılan en önemli özelliklerden birisidir. Mutasyonun ihmal edilmesi durumunda

algoritma kolaylıkla yerel en iyi noktalardan birisine takılabilir. Bununla beraber,

mutasyon işleminin algoritmaya dahil edilmesi ile algoritma arama uzayının ulaşılmamış

farklı bölgelerine yönlendirilebilir. Bu anlamda GA, benzetilmiş tavlama algoritması ile

benzer özellik gösterir.

Amaç Fonksiyonu: İster en büyükleme ister eniyileme problemi olsun, tüm

arama algoritmaları ve optimizasyon tekniklerinin yürütülebilmeleri için bir amaç

fonksiyonu gerekir. GA uygulaması için en iyi amaç fonksiyonun tipi, probleme göre

değişir. Bu çalışmada amaç fonksiyonu olarak Değişken Seçim kriterleri

kullanılmaktadır.

Elitizim: Algoritma süresince karşılaşılan iyi çözümlerin kaybedilmemesi için

elitizm kuralı kullanılır. Buna göre her bir nesilde amaç fonksiyonuna en iyi değerini

veren çözüm, hiç bir değişikliğe uğratılmadan bir sonraki nesle aynen aktarılır. Elitizim

kuralının kullanılması, popülasyon büyüklüğünün dolayısıyla da hesaplama süresinin her

bir yeni nesille beraber artması anlamına gelmektedir. Yapılan çalışmalar, rulet tekerleği

tekniğinin kullanıldığı durumlarda elitizmin çok önemli olmadığını göstermektedir.

102

6.5.4 Hibrit RTFA Modelinde DeğiĢken Seçimi Problemi için Genetik Algoritma

Hibrit RTFA modeli ile değişken seçiminde bireylerin kromozom sayısı

bağımsız değişken sayısı olarak belirlenmektedir. Her bir kromozom {0,1}

değerlerinden birini almaktadır. Buna göre bir kromozomun 1 değerini alması ilgili

değişkenin modelde yer aldığını, 0 değerini alması ise yer almadığını ifade etmektedir.

Örneğin 8 bağımsız değişken içeren bir problemde 1., 3. ve 5. bağımsız değişkenlerin

modelde olduğunu ifade eden çözüme karşılık gelen kromozom aşağıdaki gibi ifade

edilir.

GA ile en iyi değişken alt kümesinin belirlenmesi sürecinde seçilen değişken

seçim kriteri eniyilenmeye çalışılmaktadır. Bu bağlamda her bir iterasyonda mevcut

çözümlere karşılık gelen bağımsız değişkenler Hibrit RTFA modelinde yerine konularak

bağımlı değişken tahminlenir. Daha sonra bu tahminler değerlerinden yararlanılarak

değişken seçim kriteri değerleri hesaplanır. Durma kriterlerinden biri sağlanana kadar

her iterasyonda bu işlemler tekrarlanır ve sonuçta en küçük değişken seçim kriteri

değerini veren değişken alt kümesi seçilir.

103

BÖLÜM 7 UYGULAMA

Çalışmanın bu kısmına kadar Hibrit RTFA modelinin teorik altyapısı üzerinde

durulmuştur. Bu bölüm ise oluşturulan modelin uygulamasına ayrılmıştır. Önerilen

Hibrit RTFA modeli ile değişken seçimi ve tahminleme yapacak hazır bir paket program

bulunmadığı için hesaplamalar Matlab programı üzerinde kodlanmıştır. Ayrıca Hibrit

RTFA ile hem değişken seçimi hem de tahminlemenin kolaylıkla, her seferinde kodlama

aşmasına girmeden yapılabilmesi için yine Matlab programı üzerinde bir kullanıcı

arayüzü oluşturulmuştur.

Hibrit RTFA modeli, öncelikle oldukça yüksek derecen doğrusal olmayan bir

benzetim verisi üzerinde test edilmiştir. Hibrit RTFA modelinin ele alınan benzetim

verisi üzerindeki başarılı performansının gösterilmesinin ardından model finansal

piyasalara yönelik gerçek veri üzerinde uygulanmıştır. Bu bağlamda dolar bazında

İMKB Ulusal 100 endeksinin yönü, diğer uluslararası endeksler yardımıyla

tahminlenmiştir.

7.1 Hibrit RTFA Modeli için MATLAB Kullanıcı Arayüzü

Matlab (Matrix Laboratory), Cleve Moler tarafından 1970 yılında geliştirilmiş

matris tabanlı problem çözme, istatistik işlemler ve grafik çizimi gibi çok geniş bir

yelpazede kullanılan bir programdır. İlk başlarda Fortran üzerinde yazılmış olan Matlab,

günümüzde C++/Java ortamında yazılmaktadır. İlk başlarda eğitim amacıyla kullanılan

Matlab programı daha sonraları mühendislik alanında da oldukça yaygın olarak

kullanılır hale gelmiştir. Günümüzde Matlab programının yaygın kullanımının nedenleri

arasında birçok istatistik işlemin hazır fonksiyonlar yardımı ile yapılabilmesi, kolay

kodlanabilirlik ve matris tabanlı işlem yapma kabiliyeti sayesinde büyük verilerle

işlemlerin kolaylıkla yapılabilmesi sayılabilir.

104

Buraya kadar ifade edilen nedenlerden ötürü çalışmamızda Hibrit RTFA modeli

Matlab programı üzerinde yazılmıştır. Yazılmış olan kodlar için bir kullanıcı arayüzü

oluşturularak Hibrit RTFA modelinin kolay uygulanabilirliğinin sağlanması

amaçlanmıştır. Bu bağlamda ilgili program çalıştırıldığında ilk olarak ekrana gelen

arayüz aşağıda Şekil 7-1 ile verilmiştir.

Şekil 7-1‟de görüldüğü gibi kullanıcı arayüzü karşılama ekranı Hibrit RTFA

programı ile yapılacak olan işlemin seçildiği aşamadır. Karşılama ekranında değişken

seçimi (Model Selection) ve tahminleme (Prediction) olmak üzere iki seçenek vardır.

Buradan değişken seçimi seçeneği seçili iken başlat (Start) butonuna tıklandığında

ekrana gelen pencere Şekil 7-2 ile verilmiştir.

ġekil 7-1 Hibrit RTFA kullanıcı arayüzü karĢılama ekranı

105

Şekil 7-2 kullanıcıya iki farklı seçenek sunmaktadır. Bunlardan birincisi “Model

Selection for Simulated Freidman Data” seçeneğidir. Bu seçenek seçili iken

uygulamanın benzetim kısmında tanımlanacak olan protokolden istenen sayıda

büyüklükteki (Sample Size) örnek için istenen sayıda (Number of Replication for

Freidman Data) benzetim yapılabilmektedir. İkinci seçenek ise gerçek veri (Model

Selection for Real Data) için değişken seçimi yapılmasıdır. Bu aşamada arayüze veriler,

bağımsız değişkenler (Upload X Data) ve bağımlı değişkenler (Upload Y Data) “.m”

uzantılı olacak şekilde ayrı ayrı girilmektedir. Ayrıca model parametreleri yine arayüz

üzerinde seçim yapılarak belirlenebilmektedir. İşlem süreci sonunda seçilen değişkenler

sağ alttaki sonuçlar (Results) kısmına yazılmakta, genetik algoritma ile eniyileme

sürecinde ilgili değişken seçim kriterinin değerlerindeki değişimler ise sağ üstte yer alan

grafikte görülmektedir. Değişken seçimi aşaması gerçekleştirildikten sonra “Ana

Menüye Dön (Go To Main Menu)” seçeneği ile karşılama ekranına buradan da

tahminleme (Prediction) seçeneği seçilerek aşağıda Şekil 7-3 ile verilen ekrana ulaşılır.

ġekil 7-2 Hibrit RTFA modeli ile değiĢken seçimi arayüzü

106

Tahminleme için verilmiş olan arayüzde benzer şekilde bir sonraki kısımda

tanıtacağımız benzetim verisi (Prediction for Simulated Freidman Data) ve gerçek veri

(Prediction for Real Data) için tahminleme olmak üzere iki alternatif sunmaktadır.

Gerçek veri seçilmesi durumunda, girilecek veriler düzenlenirken önce eğitim verileri

sonra devamına test verileri eklenerek tek bir “.m” dosyası hazırlanmalıdır. Burada

eğitim verisinin nereden başladığının anlayabilmesi için ilgili arayüzde bulunan ilgili

alanlar eğitim verisinin (Sample Size for Training Data) ve test verisinin (Sample Size

for Test Data) gözlem sayıları (örnek hacimleri) yazılmalıdır. İlgili arayüzden model

parametreleri de seçilebilmektedir. Yapılan tahmine ilişkin Hata Kareler Ortalamasının

Karekökü (HKOK) ve Ortalama Mutlak Hata (OMH) gibi iki farklı kritere göre

hesaplanan sonuçlar ilgili arayüze yazılmaktadır. Ayrıca bağımlı değişkenin gerçek

ġekil 7-3 Hibrit RTFA modeli ile tahminleme için kullanıcı arayüzü

107

değerleri ile Hibrit RTFA ile yapılan tahmini değerlere ait grafik arayüzün sağ üst

kısmındaki bölüme çizilmektedir.

Uygulamanın devam eden kısımlarındaki çalışmalar burada tanımlanmış olan

kullanıcı arayüzü yardımı ile gerçekleştirilmiştir.

7.2 Benzetim Verisi için Uygulama

Çalışmamızın bu kısmında Hibrit RTFA modelinin değişken seçimi ve

tahminleme başarısının ölçülmesi amaçlanmıştır. Bu bağlamda girdi ile çıktı arasında

modellenmesi kolay olmayan bir fonksiyonel ilişki oluşturulması benimsenmiştir.

Buradaki amaç, Hibrit RTFA modelinin oldukça karmaşık fonksiyonel ilişkileri bile

yakalamakta başarılı olduğunu göstererek değişken seçimi ve tahminleme alanında

kullanılabilirliğine dair kanıt bulmaktır.

Yukarıda belirtilmiş olan amaçlar doğrultusunda çalışmamızda kullanılmak üzere

çok yüksek dereceden doğrusal olmayan yapıda bir ilişki modellenmiştir. Buna göre

girdi ile çıktı arasındaki ilişki hem trigonometrik hem kuadratik hem de doğrusal

bileşenlerin toplamı olacak şekilde oluşturulmuştur. Bu bağlamda öncelikle 7 tane

bağımsız değişken,

(7.1)

rastgele sayılar olarak üretilmiştir. Buna göre ile gösterilen açıklayıcı değişkenler

matrisi, formunda yazılabilir. Rastgele olarak üretilmiş

olan açıklayıcı değişkenlerinin ilk dört tanesinin kullanılmasıyla bağımlı değişken,

olacak şekilde aşağıda (7.2) ile verildiği gibi oluşturulmuştur. Dikkat edilecek

olursa bağımlı değişkenin oluşturulmasında, üretilmiş olan 7 değişkenin sadece ilk 4

tanesi kullanılmıştır. Bunun nedeni, modelimizin bu ilişkisiz 3 değişkeni belirleyip

belirleyemeyeceğinin test edilmesidir.

(7.2)

108

Tanımlanan benzetim protokolüne göre üretilecek olan veriler üzerinden Hibrit

RTFA modelinin performansının ölçülmesinde izlenecek yol Şekil 7-4 ile verilmiştir.

Uygulamanın benzetim kısmı için yol haritası niteliğindeki diyagrama göre öncelikle

Hibrit RTFA modeli içinde kullanılacak radyal tabanlı fonksiyona karar verilmekte ve

daha sonra değişken seçimi yapılarak bağımlı değişken üzerinde etkili olan bağımsız

değişkenler belirlenmektedir. Değişken seçimini takiben, belirlenen bağımsız

değişkenler yardımıyla tahmin yapılmakta ve kurulan modelin tutarlılığını belirlenmesi

için son olarak çapraz doğrulama yapılmaktadır.

(7.2) ile verilen formülasyonundan da anlaşılacağı gibi oluşturulan bağımlı

değişken ile , ve bağımsız değişkenleri ile ilişkisizdir. Diğer taraftan ile ,

, arasında doğrusal olmayan ilişki ile arasında ise doğrusal bir ilişki vardır. Bu

ifade edilenlere göre doğru model , , ve bağımsız değişkenlerini içeren

modeldir. Bağımlı değişken ve doğru modelde yer alan bağımsız değişkenler arasındaki

ilişki Şekil 7-5‟ten de gözlemlenebilir.

BENZETĠM VERĠSĠNĠN

ÜRETĠLMESĠ

RADYAL TABANLI

FONKSĠYON SEÇĠMĠ

Gauss – Cauchy – Çoklu Kuadratik

Ters Çoklu Kuadratik

DEĞĠġKEN SEÇĠMĠ

ICOMP – AIC – CAIC -

SBC

TAHMĠNLENME

ÇAPRAZ

DOĞRULAMA

ġekil 7-4 Benzetim verisi uygulaması için akıĢ diyagramı

109

Şekil 7-5 ile doğru model değişkenlerinin her birisinin ayrı ayrı bağımlı değişken

ile olan korelasyonları ve saçılım grafikleri verilmektedir. Buna göre özellikle , ve

değişkenlerinin ile olan korelasyonları çok düşük olmakla beraber saçılım

grafikleri de bunu desteklemektedir. Dolayısıyla değişkeni ile doğru model

değişkenleri arasında Eşitlik (7.2) yardımıyla tanımlamış olan ilişkiyi mevcut bağımsız

değişkenleri kullanarak yakalayacak bir model kurmak oldukça zor görünmektedir.

Uygulamanın devamında, yukarıda tanımlanmış olan ve oldukça yüksek

dereceden doğrusal olmayan yapıdaki ilişki, Hibrit RTFA modeli ile yakalanmaya

çalışılmıştır. Bu bağlamda benzetim çalışması, Hibrit RTFA modeli için radyal tabanlı

fonksiyon seçimi, değişken seçimi ve seçilen değişkenler yardımıyla tahminleme olmak

üzere üç aşamada tamamlanmıştır.

7.2.1 Benzetim Verisi için Uygun Radyal Tabanlı Fonksiyonun Seçimi

Bu aşamada, yukarıda tanımlanmış benzetim protokolünün ortaya koyduğu

ilişkiyi modellemek üzere oluşturulacak Hibrit RTFA modelinde kullanılacak olan

radyal tabanlı fonksiyon türüne karar verilmektedir. Bu amaçla Gauss, Cauchy, Çoklu

ġekil 7-5 Bağımlı değiĢken ve doğru bağımsız değiĢkenler arasındaki iliĢki

110

Kuadratik ve Ters Çoklu Kuadratik olmak üzere dört farlı radyal tabanlı fonksiyon

arasından seçim yapılmıştır. Her bir radyal tabanlı fonksiyona göre oluşturulmuş Hibrit

RTFA modelleri, ICOMP(IFIM)HM kriterine göre doğru değişken alt kümesinin

seçimindeki başarıları açısından karşılaştırılmış.

Hibrit RTFA modelinin diğer parametrelerinden ridge sabiti ‟nın seçiminde,

Hoerl, Kennard ve Baldwin (HKB) tarafından önerilen ridge kestiricisi modele

uyarlanmıştır. Regresyon ağaçları parametrelerinden , 5 olarak belirlenmiş,

regresyon ağaçlarının diğer parametresi içinse 2 ve 4 olmak üzere iki farklı alternatif

değerden veriye en iyi uyum gösteren seçilmiştir. Genetik algoritma parametrelerinden

nesil sayısı 15, popülasyon büyüklüğü 10, çaprazlama tipi tek biçimli, çaprazlama

olasılığı 0,5, mutasyon olasılığı 0,1 olarak sabitlenmiş ve optimizasyonda aşamasında

elitizm özelliği kullanılmıştır.

Yukarıda tanımlanmış olan amacı gerçekleştirmek üzere farklı örneklem

büyüklükleri ( ) ve radyal tabanlı fonksiyonlar (Gauss, Cauchy,

Çoklu Kuadratik, Ters Çoklu Kuadratik) için olmak üzere toplam 16 Hibrit RTFA

modeli incelenmiştir. Her bir model için 100 benzetim yapılmış ve her bir modelin

doğru değişkenleri seçme yüzdeleri Tablo 7-1 ile verilmiştir.

Tablo 7-1 Farklı örneklem büyüklüğü ve radyal tabanlı fonksiyonlar için doğru değiĢken seçim

yüzdeleri

ICOMP(IFIM)HM N

Radyal Tabanlı Fonksiyon Türü 50 100 250 500

Gauss % 26 % 49 % 71 % 89

Cauchy % 19 % 47 % 71 % 74

Çoklu Kuadratik % 13 % 25 % 68 % 87

Ters-Çoklu Kuadratik % 17 % 45 % 70 % 78

Tablo 7-1‟den anlaşılacağı gibi, Gauss türü radyal tabanlı fonksiyon kullanarak

oluşturulan Hibrit RTFA modelinin, doğru değişkenlerin belirlenmesi açısından diğer

fonksiyonları kullanarak oluşturan modellere göre daha iyi sonuç verdiği görülmektedir.

111

Bu nedenle benzetim verisi üzerine uygulama çalışmasının devamında Hibrit RTFA

modelleri Gauss tipi radyal tabanlı fonksiyon kullanılarak oluşturulmuştur.

7.2.2 DeğiĢken Seçimi

Çoklu doğrusal regresyon tahminleme problemlerinin çözümünde akla ilk gelen

yöntemlerden birisidir. Her ne kadar tanımladığımız benzetim protokolü ile üretilen veri

doğrusal regresyon için uygun olmasa da, bu özelliği nedeniyle bu aşamada ele

alınmıştır. Bu bağlamda benzetim çalışmasının ikinci aşaması, Hibrit RTFA ve klasik

çoklu doğrusal regresyon modellerinin performanslarının değişken seçimi açısından

karşılaştırılmasını içermektedir. Veri üretmekte kullanılacak olan benzetim protokolü,

daha önce yukarıda tanımlananın aynısıdır. Buradan hareketle Hibrit RTFA ve çoklu

doğrusal regresyon modelleri farklı örnek büyüklükleri ( ) ve

değişken seçim kriterleri için 100‟er defa simüle edilmiş ve doğru değişkenlerin seçilme

yüzdeleri Tablo 7-2‟de verilmiştir.

Tablo 7-2 Farklı Örneklem Büyüklüğü ve Radyal Tabanlı Fonksiyonlar için Doğru Model Seçim

Yüzdeleri

n

MODEL TÜRÜ

Hibrit RTFA Çoklu Doğrusal Regresyon Modeli

AIC SBC CAICF ICOMP(IFIM)H M AIC SBC CAICF ICOMP(IFIM)H M

50 %17 %24 %19 %26 %10 %6 %14 %22

100 %58 %64 %50 %49 %12 %14 %24 %33

250 %78 %80 %84 %71 %3 %17 %45 %13

500 %87 %90 %87 %89 %0 %7 %24 %1

Tablo 7-2 ile verilen sonuçlardan da açıkça görüleceği gibi Hibrit RTFA modeli

değişken seçimi açısından doğrusal regresyonu modelinden kıyaslanamayacak ölçüde

üstündür. Ayrıca Hibrit RTFA modelin doğru değişkenleri seçme yüzdesi örneklem

büyüklüğündeki artışa bağlı olarak olarak artmaktadır. Benzetim protokolünde

tanımlanan oldukça yüksek dereceden doğrusal olmayan ilişkiye rağmen Hibrit-RBF

modeli tüm Değişken Seçim kriterleri için doğru model değişkenlerini başarılı bir

112

şekilde seçmektedir. Doğrusal regresyonun doğrusal olmayan yapılı Freidman benzetim

verisi üzerinde başarılı performans göstermemesi sürpriz değildir. Çünkü doğrusal

regresyon analizi hatalı model durumuna cevap verememekle beraber, tasarım matrisi

matrisinin tekil olması durumunda da sonuç vermemektedir. Diğer taraftan Hibrit

RTFA modeli güçlü fonksiyon yaklaştırma ve düzleştirme özellikleri sayesinde hatalı

tanımlanmış model sorunundan modeli korumaktadır. Ayrıca bünyesinde ridge

regresyon bulundurması ile tasarım matrisini tekilliği bir sorun yaratmamaktadır.

7.2.3 Benzetim Verisi için Tahminleme

Benzetim çalışmasının üçüncü ve son aşaması ise yukarıda tanımlanan benzetim

protokolü için Gauss tipi radyal tabanlı fonksiyon kullanılarak oluşturulmuş Hibrit

RTFA modelinin kestirim ve tahminleme başarısının ölçülmesidir. Bunun için

yukarıdaki benzetim protokolüne göre büyüklüğünde örnekler

oluşturulmuştur. Her bir örnek büyüklüğü için üretilen örneklerin %80‟i eğitim veri

kümesi, %20‟si ise test veri kümesi olarak ayrılmıştır. Her bir gözlem sayısı için

öncelikle eğitim verileri kullanılarak model parametreleri belirlenmiş ve daha sonra

parametreleri belirlenmiş olan modeller, test verilerine uygulanmıştır. Böylece eğitim

sonucunda modelin ezberlemiş yada öğrenmiş olduğu ortaya çıkarılabilmektedir. Ayrıca

ezberleme sorunun oluşmadığından tam olarak emin olabilmek için çapraz doğrulama

yoluna gidilmiştir. Buna göre her bir gözlem sayısı için test veri kümesi için seçilen

%20‟lik veri dilimi 5 defa değiştirilerek tahminler yapılmıştır. Yapılan her bir tahmin

sonucu model performansını ölçmek üzere HKOK ve OMH değerleri hesaplanmış ve

sonuçlar Tablo 7-3‟te özetlenmiştir.

113

Tablo 7-3 Çapraz doğrulama sonuçları

Gözlem Sayısı

(Eğitim + Test)

n=100

(80+20)

n=250

(200+50)

n=500

(400+100)

Çapraz

Doğrulama

Veri

Türü HKOK OMH HKOK OMH HKOK OMH

1 Eğitim 6,47 5,14 7,22 5,64 7,22 5,64

Test 7,30 5,96 6,52 5,10 6,52 5,10

2 Eğitim 6,61 5,36 7,11 5,63 7,11 5,63

Test 6,16 5,14 7,30 5,42 7,29 5,42

3 Eğitim 6,95 5,39 7,36 5,61 7,36 5,61

Test 7,47 5,99 6,49 5,25 6,49 5,25

4 Eğitim 6,72 5,50 6,52 5,10 6,74 5,38

Test 7,72 6,42 8,36 6,79 6,40 5,05

5 Eğitim 6,12 4,94 6,86 5,45 6,79 5,35

Test 6,56 5,33 7,43 5,90 6,44 5,21

Ortalama Eğitim 6,58 5,26 7,01 5,49 7,04 5,52

Test 7,04 5,77 7,22 5,69 6,63 5,21

Tablo 7-3 açıkça göstermektedir ki, Hibrit RTFA modeli ile tahminlemede

ezberleme sorunu ile karşılaşılmamıştır. Diğer taraftan Şekil 7-6 ve Şekil 7-7‟den de

görüleceği gibi Hibrit-RBF modeli veriye sadece eğitim verisi için değil test verisi

içinde çok iyi uyum göstermektedir. Bu özellik, Hibrit-RBF modelinin girdi ve çıktı

arasındaki ilişkiyi öğrenebildiği yönünde bir önerme için kanıt oluşturabilir.

114

ġekil 7-6 Eğitim veri kümeleri için tahminlenen ve gözlenen değerler

ġekil 7-7 Test veri kümeleri için tahminlenen ve gözlenen değerler

115

7.2.4 Benzetim ÇalıĢmasının Sonuçları

Yapılan benzetim çalışması, Gauss tipi radyal tabanlı fonksiyonunun, denenen

alternatifler arasında modellenen ilişki için en iyi seçim olduğu görülmüştür. Diğer

taraftan Hibrit RTFA modelinin değişken seçimindeki başarısı doğrusal regresyonla

karşılaştırılarak incelenmiş ve gözlem sayının artmasına bağlı olarak çok yüksek

olasılıklarla doğru model değişkenlerini belirlediği sonucuna varılmıştır. Son olarak

Hibrit RTFA modelinin kestirim ve tahminleme başarısı, bir önceki aşamada seçilen

açıklayıcı değişkenler kullanılarak HKOK ve OMH kriterlerine göre ölçülmüştür.

Sonuçlar göstermiştir ki, Hibrit RTFA modeli girdi ve çıktı arasında oldukça yüksek

dereceden doğrusal olmayan ilişki olduğu durumda bile oldukça etkili bir değişken

seçimi ve tahminleme aracıdır.

Uygulamanın buraya kadar ifade edilen ilk kısmında Hibrit RTFA modelinin

başarılı performansı ortaya konmuştur. Buradan hareketle modelimizin gerçek hayat

problemlerinde de kullanılabileceğini göstermek amacıyla takip eden kısımda finansal

piyasa verileri üzerinde bir uygulama çalışmasına daha yer verilmiştir.

7.3 Hibrit RTFA Modeli ile ĠMKB Ulusal 100 Endeks Yönünün Tahmini

Uygulama çalışmasının bu aşamasında, bir önceki kısımda benzetim verileri

üzerinde değişken seçimi ve tahminleme açısından oldukça iyi sonuçlar verdiği

gösterilen Hibrit RTFA modelinin finansal piyasa verileri üzerindeki performansı test

edilecektir.

Küreselleşmenin tüm dünyayı hızla etkisi altına aldığı, buna direnen ülkeleri ise

kendi sınırları içerisine izole ettiği günümüz koşullarında borsa endeks tahminleri çok

daha zor hale gelmiştir. Yatırım fazlası bulunan ülkeler özelleştirme, şirket birleşmeleri,

şirket satın alınması, yatırım teşvikleri, vergi muafiyetleri v.b. yollarla diğer ülkelerin

ekonomilerine ciddi katkılar yaratmaktadır. Bu nedenle küreselleşmeye açık ve

ekonomisi göreceli olarak zayıf olan ülkelerde borsa endeksleri, sadece kendi ülkesinde

gelişen olaylardan değil küreselleşmeye öncülük eden büyük ekonomilerdeki

116

gelişmelerden de etkilenmektedir. Bu tip zayıf ekonomiye sahip ülkelerin borsalarında

yabancıların payının artması kısa vadede ülkeye sıcak para girişi anlamında olumlu

görünmekle beraber sıcak paranın kontrolünün zorluğu nedeniyle ülkedeki küçük

istikrarsızlıklar, borsadan büyük kaçışlara neden olabilmektedir. Dolayısıyla ülke borsa

endekslerinin ülkenin mali politikası, siyasi gelişmeler, doğal afetler, borsaya açık

şirketlerin mali yapısı v.b. etkenlerin yanında, küreselleşmenin sonucu olarak büyük

ekonomiye sahip ülkelerin borsa endekslerinden de etkilendiği söylenebilir.

Borsa endeks yönü, yukarıda ifade edildiği gibi çok fazla etkene bağlı olarak

değişim gösterebildiği için tahmini oldukça zor olmakla beraber yatırımcılar için

oldukça önemlidir. Bu bağlamda çalışmamızda, İMKB Ulusal 100 (IMKB) Endeksi‟nin

yönü, kendisinin ve diğer uluslararası endeks değerlerinin gecikmeli değerleri ile

tahminlenmeye çalışmıştır. Uygulamanın bu kısmı endeks yönü tahmini ile ilgili giriş ve

kurulacak modelin alternatif değişkenlerinin belirlenmesi, değişken seçimi, tahminleme

ve elde edilen sonuçların yorumlanması şeklinde yapılandırılmıştır.

7.3.1 DeğiĢkenlerin Belirlenmesi

Menkul kıymet borsalarında yatırımcıların hisse senetlerinin fiyatlarına ilişkin

tahmin yaparak kar elde etmeye çalışmaktadırlar. Yatırımcılar temel ve teknik analiz

sonucu hisse senetlerinin ya da portföylerin yönünü tahmin ederek gerekli alım satım

kararını vermektedirler. Menkul kıymet piyasaların birbirinden çok fazla etkilendiği göz

önüne alınırsa piyasaların yönünün belirlenmesinde etkili olan uluslararası piyasaları

dikkatle incelemek gerekmektedir. Türkiye gibi gelişmekte olan ülkelerin menkul

kıymet piyasalarında bu etkinin varlığı birçok çalışmada farklı metotlar kullanılarak

araştırılmıştır.

Literatürde IMKB endeksindeki değişimin açıklanması üzerinde yapılmış birçok

çalışma vardır. Bu çalışmalardan bazıları İMKB endeksindeki değişimin kendi

gecikmeli değerleri ile açıklanması üzerine olmakla beraber İMKB endeksi ile ilişkili

olan uluslararası endeks değerlerinin belirlenmesi üzerine de çalışmalar mevcuttur.

117

Bunlardan Korkmaz v.d. (2011) Türkiye ve Amerika Birleşik Devletleri borsaları

arasında yaptıkları nedensellik çalışmasında Türkiye borsasının Amerikan borsasından

etkilendiğini göstermişlerdir. Ozun (2007) ise gelişmiş ülke borsalarındaki volatilitenin

Brezilya ve İMKB üzerindeki etkisini incelemiştir. Bu çalışmada Ozun (2007), Avrupa

borsalarının İMKB endeksi üzerindeki açıklayıcılık oranının Amerikan endekslerinin

etkisine göre daha fazla olduğunu göstermiş olmakla beraber Amerikan endekslerinin de

pozitif yönde bir etkisi olduğunu belirtmiştir. Diğer taraftan Vuran (2010) çalışmasında

IMKB ile FTSE-100, Dax ve Bovespa endeksleri ile eş bütünleşik olduğunu

göstermiştir. IMKB-100 endeks değerinin tahminlenmesi üzerinde yaptıkları çalışmada

Boyacıoğlu ve Avcı (2010), makro ekonomik değişkenlerin yanında DJI, DAX ve

BOVESPA endekslerinin açıklayıcı değişken olarak kullanmışlardır.

Çinko ve Avcı (2007) çalışmalarında İMKB Ulusal 100 endeksinin günlük ve

seanslık getirilerinin hesaplanmasında yapay sinir ağları ve regresyon modellerini

karşılaştırmış ve yapay sinir ağlarının daha iyi tahminler verdiğini göstermişlerdir.

Ayrıca bu çalışmada açıklayıcı değişken olarak sadece endeksin kendi gecikmeli

değerleri kullanılmıştır. Özdemir (2011) v.d ise çalışmalarında IMKB Ulusal 100

endeksinin yönünü tahminlemede makro ekonomik değişkenlerin yanında EM (MSCI

Emerging Markets Index), EU (MSCI European Index) ve S&P500 endekslerini

kullanmışlardır.

Buraya kadar verilmiş olan literatür taramasından yararlanarak İMKB100

endeksinin yönünün tahminlenmesinde kullanılacak uluslarası endekslerden oluşan

değişkenler Tablo 7-4 ile verilmiştir. Ayrıca dolar kurundaki artışlardan tahmin

modelimizin etkilenmemesi için IMKB100 endeksinin dolar getirisi kullanılmıştır.

118

Tablo 7-4 Modelde kullanılan endeksler

Kısaltma DeğiĢken

Adı Açıklama

1 İMKB100 IMKB İstanbul Menkul Kıymetler Borsası Ulusal 100 Getiri

Dolar bazında Endeksi

2 S&P500 SP Standard & Poor ‟s 500 Getiri Endeksi

3 DAX DAX Almanya Borsası Getiri Endeksi

4 FTSE100 FTSE Birleşik Krallık Getiri 100 Endeksi

5 NIK225 NIK Osaka 225 Getiri Endeksi

6 BVSP BVSP Sao Paolo Borsa Getiri Endeksi

7 EU EU

European Index: 16 Avrupa ülkesinin hisse senedi

piyasasının performansını gösteren piyasa değeri

ağırlıklı bir endekstir (Özdemir, Tolun, & Demirci,

2011)

8 EM EM

MSCI Emerging Markets Index: 21 yükselen piyasa

ekonomisinin hisse senedi piyasa performansını

gösteren piyasa değeri ağırlıklı bir endekstir

(Özdemir, Tolun, & Demirci, 2011) .

Uygulama çalışmasının bu kısmında yapılacak analizlere ilişkin akış diyagramı

Şekil 7-8 ile verilmektedir.

VERĠNĠN

HAZIRLANMASI

EĞĠTĠM VERĠ KÜMESĠ

BÜYÜKLÜĞÜNÜN

BELĠRLENMESĠ

EN ĠYĠ RADYAL TABANLI

FONKSĠYONUN BELĠRLENMESĠ

EN ĠYĠ MODELĠN

BELĠRLENMESĠ

ENDEKS YÖNÜ TAHMĠNĠ ÇAPRAZ DOĞRULAMA

ġekil 7-8 Endeks yönü tahmini uygulaması için akıĢ diyagramı

119

7.3.2 Verilerin Analiz için Hazırlanması

Bu aşamada öncelikle Tablo 7-4 ile verilen değişkenlere ait günlük endeks

değerlerini içeren veriler elde edilmiştir. IMKB değişkeni www.imkb.gov.tr, EU

değişkeni http://www.msci.com/products/indices/tools/ ve EM değişkeni

http://www.msci.com/products/indices/country_and_regional/em/, diğer tüm değişkenlere ait

veriler ise finance.yahoo.com internet sitesinden elde edilmiştir. Çalışmada kullanılan

veriler 5 Ocak 2009 – 22 Şubat 2011 tarihleri arasındaki İMKB‟de gerçekleştirilen 536

işlem gününe aittir. Belirlenen tarihlerde İMKB‟de işlem günü olup ta diğer uluslararası

borsalarda işlem gününe denk gelmeyen gözlemler için borsaların bir önceki

gerçekleşmiş olan işlem gününe ait kapanış değerleri kullanılmıştır. Çalışmada amaç hali

hazırda gerçekleşmiş gözlemlerden yararlanarak bir sonraki işlem gününün İMKB100

endeksinin yönünü belirlemek olduğu için her bir değişkene ait gecikmeli değerlerden

oluşan başka değişkenler oluşturulmuştur. Borsaların birbirlerini hızla etkilemesinden

dolayı borsa gecikmeleri 1 ve 2 gecikme ile sınırlandırılmıştır. Gecikmeli değişkenler

oluşturulurken sadece bir ve iki gecikmeli değişkenler kullanılmasıyla 536 olan gözlem

sayısı 534‟e düşmüştür. Yeni değişkenlere isim verirken bir değişkenlerin daha önce

tanımlanmış olan adlarının sonuna, bir gün gecikmeli değerler için “1”, iki gün

gecikmeli değerler için “2” sayıları eklenmiştir. Bu tanımlamaya göre örneğin IMKB

değişkeninin bir gün gecikmeli değerlerinden oluşan değişken IMKB1 ile iki gün

gecikmeli değerlerinden oluşan değişken ise IMKB2 ile gösterilmektedir.

Değişkenlerin gecikmeli değerleri hesaplanırken saat farkları da dikkate

alınmıştır. Buna göre Japonya ile olan saat farkı nedeniyle NIK değişkeninin gecikmeli

değerleri hesaplanırken IMKB kapanmadan önce kapanmış olan son iki endeks değeri

alınmıştır. Diğer bir ifade ile bugünün IMKB endeksini tahminlemek üzere gecikmeli

değerler olarak aynı günün NIK değeri (NIK1) ve bir gün öncesinin NIK değeri (NIK2)

dikkate alınmıştır. Buna göre veri kümesinin düzenlenmesini ardından değişken seçimi

aşamasına geçilmiştir.

120

7.3.3 ĠMKB Ulusal 100 Endeksi Ġçin DeğiĢken Seçimi

Bu aşamada yapılmak istenen, tanımlanmış olan uluslararası endeks değerlerinin

gecikmeli değerlerinden hangilerinin IMKB 100 endeksi üzerinde etkili olduğunun

belirlenmesi ve tahminleme aşamasına hazırlık yapılmasıdır. Bu bağlamda ilgili

bağımsız değişkenlerin uygun alt kümesini belirlemek amacıyla daha önce tanıtılmış

olan kullanıcı arayüzleri kullanılarak değişken seçimi yapılmıştır. Değişken seçimi

aşamasında kullanılan model parametreleri Tablo 7-5 ile verilmiştir.

Tablo 7-5 DeğiĢken seçimi için model parametreleri

Hibrit RTFA Modeli Parametreleri Genetik Algoritma Parametreleri

Ġterasyon Sayısı 30

DeğiĢken Seçim

Kriteri ICOMP(IFIM)HM Popülasyon Sayısı 25

RTF Türü

Gauss, Cauchy,

Çoklu Kuadratik,

Ters Çoklu

Kuadratik

Çaprazlama Türü Tek Nokta

Regresyon Türü Global Ridge Çaprazlama

Olasılığı 0,5

Ridge Kestiricisi Hoerl Kennard Mutasyon Olasılığı 0,1

pmi n 5 Elitizm Evet

Değişken seçimi aşaması dört farklı radyal tabanlı fonksiyonun her biri için

ayrıca yapılmış, her bir model için seçilen değişkenler 1, seçilmeyen değişkenler 0 ile

gösterilerek Tablo 7-6 „da verilmiştir.

121

Tablo 7-6 DeğiĢken Seçimi Sonuçları

Y=IMKB Tam

Model Gauss Cauchy

Çoklu

Kuadratik

Ters Çoklu

Kuadratik

Toplam

Seçilim

IMKB1 1 0 0 1 0 1

SP1 1 1 1 0 1 3

DAX1 1 1 0 1 1 3

FTSE1 1 1 0 0 0 1

NIK1 1 1 1 1 1 4

BVSP1 1 1 1 1 1 4

EU1 1 1 1 1 1 4

EM1 1 0 1 1 1 3

IMKB2 1 0 0 0 0 0

SP2 1 0 0 1 1 2

DAX2 1 1 1 1 0 3

FTSE2 1 0 0 1 0 1

NIK2 1 1 1 1 1 4

BVSP2 1 1 1 1 1 4

EU2 1 0 1 1 1 3

EM2 1 1 1 1 1 4

Tablo 7-6‟dan da görüldüğü gibi her bir radyal tabanlı fonksiyona karşılık farklı

bir değişken alt kümesi elde edilmiştir. Oluşturulan dört farklı modelin dördünde de yer

alan değişkenler NIK1, BVSP1, EU1, NIK2, BVSP2 ve EM2 değişkenleridir. Buradan

hareketle bu değişkenlerin IMKB değişkenindeki değişimi açıklamakta diğerlerinde göre

daha önemli oldukları söylenebilir. Diğer taraftan, SP1, DAX1, EM1, DAX2 ve EU2

değişkenleri toplam dört modelin üçünde yer aldıkları görülmektedir. Bu bağlamda bu

iki değişken gruplarından oluşan ayrı iki model daha oluşturulmuştur. Buna göre her

dört model tarafından da seçilen değişkenler Model 6, en az 3 defa seçilen değişkenler

ise Model 7 olarak adlandırılmış ve çalışmanın devam eden kısmına dahil edilmiştir.

Değişken seçimi çalışmasından çıkan ilginç bir sonuç ise IMKB2 değişkeninin

hiç, IMKB1 değişkeninin ise sadece bir defa seçilmiş olmasıdır. Diğer bir ifade ile

İMKB Ulusal 100 endeksi kendi gecikmeli değerlerinin değil, diğer uluslararası

endekslerin etkisinde kalmaktadır. Bu sonuç uygulama çalışmamızın giriş kısmında

değindiğimiz küreselleşme ile ilgili analizlerimizi de doğrular niteliktedir.

122

Yukarıda Tablo 7-6 ile verilen ve sonrada oluşturulan iki modelden hangisinin

daha iyi olduğunun anlaşılabilmesi için her bir model kullanılarak ayrı ayrı tahminler

yapılmış ve tahmin sonuçlarına göre karar verilmeye çalışılmıştır. Bu bağlamda devam

eden kısımda tam model, Hibrit RTFA modeli ile seçilmiş olan dört farklı model ve

sonradan oluşturduğumuz 2 model için tahminler yapılmış ve sonuçlar karşılaştırılarak

en iyi model seçilmiştir.

7.3.4 ĠMKB Ulusal 100 Endeksinin Yönünün Tahmini

Bu kısımda, bir önceki aşamada farklı radyal tabanlı fonksiyonlar kullanılarak

Hibrit RTFA modeli tarafından seçilen değişkenlere bağlı olarak belirlenen modeller

için tahminler yapılıp hangi modelin daha iyi sonuç verdiğine karar verilecektir. Bu

bağlamda karşılaştırılacak modeller için bağımlı ve bağımsız değişkenler Tablo 7-7 ile

gösterilmiştir.

Tablo 7-7 DeğiĢken Seçimi Sonucu OluĢan Modeller

Model Bağımlı

DeğiĢken Bağımsız DeğiĢkenler

Model 1

(Tam model) IMKB100

IMKB1–SP1–DAX1–FTSE1-NIK1-BVSP1-

EU1-EM1 IMKB2- SP2–DAX2–FTSE2-NIK2-

BVSP2-EU2-EM2

Model 2

(Gauss) IMKB100

SP1–DAX1–FTSE1-NIK1-BVSP1-EU1-DAX2 -

NIK2- BVSP2-EM2

Model 3

(Cauchy) IMKB100

SP1–NIK1-BVSP1-EU1-EM1–DAX2 -NIK2-

BVSP2-EU2-EM2

Model 4

(Çoklu Kuadratik) IMKB100

IMKB1–DAX1 -NIK1-BVSP1-EU1-EM1-SP2–

DAX2–FTSE2-NIK2-BVSP2-EU2-EM2

Model 5

(Ters Çoklu

Kuadratik)

IMKB100 SP1–DAX1–NIK1-BVSP1-EU1-EM1-SP2–

NIK2-BVSP2-EU2-EM2

Model 6

(4 defa seçilenler) IMKB100 NIK1-BVSP1-EU1- NIK2-BVSP2- EM2

Model 7

(3 veya 4 defa

seçilenler)

IMKB100 SP1–DAX1–NIK1-BVSP1-EU1-EM1-DAX2-

NIK2-BVSP2-EU2-EM2

Tablo 7-7 ile verilmiş olan 7 modelin karşılaştırılması amacıyla her bir model

için ayrı ayrı tahminler yapılacaktır. Söz konusu tahmin endeks yönü, dolayısıyla al-sat

123

kararı olduğu için tahminleri karşılaştırmada kullanılacak kriterlerden birisi endeks

yönünün doğru tahmin yüzdesi olarak belirlenmiştir. Ayrıca yapılan tahminler için

HKOK ve OMH değerleri de diğer karşılaştırma kriterleri olarak değerlendirilmiştir.

Çalışmanın sonuçlarının yatırımcı açısından kazancını belirlemesi amacıyla

parasal değer alan ikinci bir karşılaştırma kriteri belirlenmesinin gerekliliği görülmüştür.

Belirlenecek tahmin döneminin başında IMKB100 endeksine 100 dolar yatırım yapıldığı

varsayılarak her bir model için ayrı ayrı günlük tahminlerle al-sat kararları verilmiş ve

bu kararlara göre yatırılmış olan 100 dolar (100 Dolar Kriteri), borsadaki gerçek getiri

ile kümülatif olarak güncellenecektir. Tahmin yapılan dönem sonunda 100 doları daha

yüksek miktara ulaştıran modelin bu kriter açısından diğerlerinden daha iyi sonuç

verdiği kabul edilecektir.

Tahminleme yapılacak dönem 5 Mayıs 2010 - 22 Şubat 2011 arasındaki son 200

işlem günü olarak belirlenmiştir. Ayrıca bu 200 işlem günü kendi içinde 20 günlük

kısımlara ayrılmıştır. Bunun nedeni, borsa endeksleri arasındaki sürekli değişen dinamik

yapıya uygun şekilde verinin güncellenmesi gerekliliğidir. Buna göre 5 Mayıs 2010

tarihinden önceki, belirlenmiş sayıda güne ait veri ile Hibrit RTFA modelleri eğitilecek,

daha sonra sonra 5 Mayıs 2010 - 2 Haziran 2010 arasındaki 20 işlem günlük için kısım

için tahminler yapılacaktır. Bu işlem bittikten sonra 3 Haziran 2010 tarihinden önceki

aynı belirlenmiş sayıda veri için Hibrit RTFA modeli eğitilecek ve 3 Haziran – 30

Haziran arası 20 günlük kısım için tahminler yapılacaktır. Bu işlemin 9 defa

tekrarlanması ile toplamda 200 günlük tahmin dönemi tamamlanmış olmaktadır. Diğer

taraftan, 100 dolar ile başlayan yatırımın her 20 günlük kısmın sonunda ulaştığı miktar,

bir sonraki 20 günlük kısmın başlangıç değeri olarak alınmıştır. Dolayısıyla sonuçta tam

200 gün sonunda ele alınmış olan modellere göre al-sat yapan bir kişinin yatırdığı 100

doların ulaştığı miktar görülmektedir.

Yukarıda açıklanan tahminleme sürecinde belirlenmesi gereken önemli bir

parametre, modellerin eğitiminde kullanılacak gözlem sayısının, diğer bir ifade ile işlem

124

günü sayısının belirlenmesidir. Finansal piyasaların oldukça dinamik ve sürekli değişen

yapıda olması nedeniyle genellikle yapay sinir ağlarında geçerli olan “ne kadar çok veri

o kadar iyi öğrenme” yaklaşımı bu uygulama için geçerli olmayabilir. Bu nedenle

tahminler farklı büyüklükteki eğitim veri kümeleri (100, 150, 200, 250, 300, 334) için

yapılarak uygun eğitim veri kümesi büyüklüğünün belirlenmesi amaçlanmıştır.

Tahminleme sürecinde daha önce belirlenmiş olan 7 farklı model ve bu

modellerin her birisi için kullanılan 4 farklı radyal tabanlı fonksiyon ile adet

Hibrit RTFA modeli yapılandırılmıştır. Bu 28 adet modelin her birisi de yine yukarıda

belirtilmiş olan 6 farklı büyüklükteki eğitim veri kümeleri için ayrı ayrı oluşturulmuş

dolayısıyla toplamda farklı model için 200 günlük tahminler yapılmıştır.

Yapılan tahminlerin ele alınmış olan 7 farklı model ve 4 farklı radyal tabanlı fonksiyon

üzerinden ortalama değerleri aşağıdaki Tablo 7-8 ile verilmiştir.

Tablo 7-8 Yapılan Tahminlerin ele alınan 7 model üzerinden ortalamaları

KarĢılaĢtırma

Kriteri

Eğitim Veri Kümesi Büyüklüğü

100 150 200 250 300 350

100 Dolar 182.675 179.522 192.010 200.844 192.490 182.624

Yön 66.643 61.839 64.214 66.446 66.214 63.554

HKOK 0,0148 0,0156 0,016 0,016 0,016 0,0168

OMS 0,0111 0,0115 0,012 0,012 0,012 0,013

Tablo 7-8 ile verilen sonuçlara göre 100 Dolar kriterine göre eğitim veri kümesi

büyüklüğüne bağlı olarak tahminler arasında büyük farklar görülmektedir. Diğer taraftan

Yön kriterine bakımından büyük farklılıklar gözlenmemiştir. Buna göre eğitim veri

kümesi büyüklüğü 250 olduğunda IMKB100 endeksinin yönü yaklaşık %66 doğru

tahminlenmekte ve yatırılan 100 dolar, 200 işlem günü sonunda ortalama 200 dolara

ulaşmaktadır. Buradan hareketle daha fazla kazanç sağlaması nedeniyle eğitim veri

kümesi büyüklüğü 250 olarak belirlenmiştir. Diğer taraftan, aynı dönemde yatırılmış ve

hiç al-sat yapılmamış olan 100 dolarlık yatırımın yaklaşık 101 dolara ulaştığı göz önüne

alındığında Hibrit RTFA modeli verilen al-sat kararlarına göre yönlendirilen yatırımın

oldukça karlı olduğu gözlenmiştir.

125

Tablo 7-8‟de çıkan diğer bir sonuç ise daha önce tanımlanmış olan HKOK ve

OMH kriterleri tüm eğitim veri büyüklükler için birbirine çok yakın olmasıdır. BU

nedenle ilgili kriterler eğitim veri kümesi büyüklüğünün (250) belirlenmesinde dikkate

alınmamıştır.

Bu noktada üzerinde karar verilmesi gereken diğer bir husus ise Hibrit RTFA

modelinin mimarisinde kullanılacak radyal tabanlı fonksiyonun belirlenmesidir. Bu

bağlamda yapılmış olan tahminlerin farklı eğitim kümesi büyüklükleri ve farklı modeller

üzerinden hesaplanan ortalamaları, her bir radyal tabanlı fonksiyon için Tablo 7-9 ile

özetlenmiştir.

Tablo 7-9 Tüm Modeller ve Eğitim veri kümesi büyüklükleri üzerinden ortalamalar

KarĢılaĢtırma

Kriteri Gauss Cauchy

Çoklu

Kuadratik Ters Çoklu Kuadratik

100 Dolar 189,617 189,6174 191,469 189,272

Yön 63,988 65,34524 65,262 64,679

HKOK 0,017 0,017 0,016 0,016

OMH 0,014 0,013 0,013 0,013

Tablo 7-9 ile verilen ortalama değerler, gerek Yön kriteri gerekse 100 Dolar

kriteri açısından büyük farklılıklar göstermemekle beraber, Çoklu Kuadratik tipi radyal

tabanlı fonksiyon kullanılarak oluşturulan Hibrit RTFA modelleri ile elde edilen

tahminlerin biraz daha iyi olduğu görülmektedir. Diğer taraftan HKOK ve OMH

kriterleri için hesaplanan değerler de birbirine çok yakın olmakla beraber Çoklu

Kuadratik tipi fonksiyon biraz daha küçük hata vermektedir. Burada ifade edilen

nedenlerle Hibrit RTFA modelinin mimarisinde kullanılacak olan radyal tabanlı

fonksiyon Çoklu Kuadratik olarak seçilmiştir.

Çalışmanın değişken seçimi aşamasında verilecek olan son karar, ele alınan 7

modelden hangisini daha iyi olduğuna karar verilmesidir. Bu kararın verilmesi ile İMKB

Ulusal 100 endeksinin yönünün tahminlenmesinde etkili olan değişkenler belirlenmiş

olacaktır. Bu kararın verilmesine yardımcı olmak üzere, 6 farklı eğitim veri kümesi

126

büyüklüğü ve 4 farklı radyal tabanlı fonksiyon üzerinden yapılmış olan tahminlerin

ortalaması Tablo 7-10‟da gösterilmiştir.

Tablo 7-10 Tüm eğitim veri kümesi büyüklükleri ve RTF’lar üzerinden ortalamalar

KarĢılaĢtırma

Kriteri

Model

1

Model

2

Model

3

Model

4 Model 5

Model

6

Model

7

100 Dolar 189,078 190,189 187,987 187,076 187,118 188,403 188,675

Yön 64,917 65,000 64,792 64,667 64,625 64,792 64,938

HKOK 0,0166 0,01655 0,0166 0,0166 0,0166 0,0166 0,0165

OMH 0,0135 0,0134 0,0135 0,0134 0,0134 0,0134 0,0134

Tablo 7-10‟dan açıkça görüldüğü gibi tüm hata kriterlerine göre farklı modeller

arasında büyük farklılıklar yoktur. Diğer taraftan, Gauss tipi radyal tabanlı fonksiyon

kullanılarak oluşturulan Model 2, az farklarla olsa da diğer modellerden daha iyi

sonuçlar vermiştir. Uygulamanın benzetim çalışması kısmında da Gauss tipi fonksiyon

kullanılarak yapılan değişken seçiminin en iyi modeli verdiği görülmüştür.

Seçilen modelden İMKB Ulusal 100 endeks yönünün tahmininde SP1, DAX1,

FTSE1, NIK1, BVSP1, EU1, DAX2, NIK2, BVSP2 ve EM2 değişkenlerinin etkili

olduğu gözlenmiştir. İMKB Ulusal 100 endeksini kendi gecikmeli değerlerinin modelde

yer almaması, bunun yanında diğer endeks değerlerinin özellikle bir gecikmeli

değerlerinden etkilenmesi, Türkiye finansal piyasalarının uluslararası finansal

piyasalarla olan olan hızlı ve yoğun etkileşimini göstermektedir.

Model 2‟nin seçilmesi ile ortaya çıkan diğer bir sonuç ise toplamda 16 olan

bağımsız değişken sayısının 10‟a düşürülmüş olmasıdır. Değişken seçimi yapılmış olan

modelin hem model karmaşıklığını indirgediği hem de ele alınan tüm hata kriterleri

açısından tam modele göre daha iyi sonuçlar verdiği görülmüştür. Buradan hareketle

değişken seçiminde kullandığımız ICOMP(IFIM)YM kriterinin oldukça iyi bir

performans gösterdiğini ortaya çıkarmaktadır.

Bu aşamaya kadar tahminleme modeli ile verilen kararlar özetlenecek olursa;

eğitim verisi büyüklüğü 250 olan, mimarisi Çoklu Kuadratik radyal tabanlı fonksiyon ile

127

oluşturulan ve Gauss radyal tabanlı fonksiyonu kullanılarak seçilmiş Hibrit RTFA

modeli İMKB Ulusal 100 endeksinin yönünün tahmininde en iyi sonuçları vermektedir.

İfade edilen bu kombinasyon ile 20 günlük kısımlardan oluşan 200 günlük tahmin

dönemi için elde edilmiş detaylı sonuçlar Tablo 7-11 ile verilmektedir.

Tablo 7-11 Model 2 için 200 iĢlem günlük tahmin

Tahminleme Dönemi Hibrit RTFA Modeline Göre

Verilen Al-Sat Kararları IMKB100 Endeksi

BaĢlangıç 100 100

20. Gün Sonu 117,8346 91,2655

40. Gün Sonu 128,2444 90,6202

60. Gün Sonu 145,8518 104,5077

80. Gün Sonu 153,3419 99.7200

100. Gün Sonu 171,9641 114.4346

120. Gün Sonu 185,0689 131.0021

140. Gün Sonu 162,6970 113.3602

160. Gün Sonu 176,5294 112.0803

180. Gün Sonu 186,1654 108,9440 200. Gün Sonu 202,0610 105,5242

Tablo 7-11 ile Hibrit RTFA modelini önerdiği al-sat kararlarına göre yapılan 100

dolarlık yatırımın 200 gün sonunda yaklaşık 202 dolara ulaştığı görülmektedir. Aynı

dönemde yapılan 100 dolarlık yatırım, hiçbir al-sat yapılmaması durumunda yaklaşık

105 dolar olmaktadır. Bu sonuçlar itibariyle Hibrit RTFA modelinin endeks yönü

tahmininde oldukça başarılı olduğu görülmektedir. Ayrıca Tablo 7-11 ile özetlenmiş

olan sonuçlar Şekil 7-9‟dan da anlaşılmaktadır.

128

Şekil 7-9 ile tahminleme yapılan on tane 20 günlük olmak üzere toplam 200

günlük dönemin 9 tanesinde Hibrit RTFA modeli ile verilen al-sat kararlarına hareket

edilmesi durumunda sürekli yatırımın değerlendiği görülmektedir. Bu sürekli artış

sadece endeksin artışta olduğu dönemlerde değil, gerçek endeks değerini azalışta olduğu

dönemlerde de sağlanmıştır.

Buraya kadar yapılan bütün tahminlerde 200 işlem günü için yapılan tahminlerin

sonuçları verilmiştir. Bu tahminleme sürecinden yapılan işlemlerin daha iyi

anlaşılabilmesi için ele alınan 200 günlük tahmin döneminin ilk 20 günlük kısmı detaylı

olarak Tablo 7-12 ile verilmiştir.

ġekil 7-9Tahmin dönemi boyunca Hibrit RFTA modeli ile verilen al-sat kararları ve IMKB100

endeksinin seyri

129

Tablo 7-12 20 iĢlem günlük tahminler için yatırımın seyri

Günler Endeks Yönü Endeks Yönü Tahmini Karar Al-Sat Var Al-Sat Yok

1 - - Sat 100.0000 97.2299

2 - + Al 97,5386 94,8367

3 - - Sat 97,5386 87,8112

4 + + Al 107,8638 97,1066

5 - - Sat 107,8638 96,0809

6 + - Bekle 107,8638 99,1060

7 + + Al 108,5335 99,7213

8 - - Sat 108,5335 95,1962

9 - - Bekle 108,5335 94,8693

10 + + Al 110,8596 96,9026

11 - - Sat 110,8596 90,0334

12 - - Bekle 110,8596 89,3095

13 + + Al 112,5537 90,6742

14 - - Sat 112,5537 85,6230

15 + + Al 117,5910 89,4550

16 + + Bekle 119,3674 90,8064

17 + + Bekle 121,7044 92,5842

18 - + Bekle 118,6782 90,2821

19 - + Bekle 117,8346 89,6404

20 + - Sat 117,8346 91,2655

Tablo 7-12‟den anlaşılacağı gibi, borsada iken ertesi günün endeks yönü pozitif

olarak tahminlendiğinde borsada beklenmekte, negatif olarak tahminlendiğinde ise satış

kararı verilmektedir. Diğer taraftan borsa dışında iken ertesi günün pozitif

tahminlenmesi durumunda alım yapılmakta, negatif tahminlenmesi durumunda ise

beklenmektedir. Burada yapılan tahminlerde alım satım işlem komisyon ücretleri ihmal

edilmiştir. Tablo 7-12 ile verilen tahminlerde her al-sat işlemi için yatırımdan binde bir

oranında komisyon kesilmesi durumunda 100 doların ulaşacağı değer 117,8346 yerine

116,8951 dolar olmaktadır. Buradan, Hibrit RTFA modeli ile yapılan tahminlerin gerçek

piyasa ortamından çok fazla etkilenmeyeceği sonucuna varılmaktadır.

130

Tablo 7-12 ile verilen al-sat kararlarının belirlenmesinde kullanılan Hibrit RTFA

modeli, tahmin döneminden geriye doğru 250 günlük verinin kullanılmasıyla elde

edilmiştir. Eğitim sonucu elde edilen Hibrit RTFA modeli (7.3) ile gösterilmiştir.

0,1951 1+0,0010,1121 0,1578 0,1418

0,1951 0,1195 0,14501+ 1+0,00080,1231

0,1578 1+0,00130,1065 1+0,01710,0822 0,1951

1+0,0010,1121 0,1578 0,1418 0,1951

0,1195 0,03261+ 1+0,00080,1231 0,1578 1

+0,00130,1065 1+0,00800,0459 0,1951 1+0,01770,0451

0,1578 0,1418 0,1951 0,1195+

0,1951 0,0670 0,1060 0,1418

0,1951 0,1195 0,3575{1+ 1+0,00080,1231

0,1578 1+0,00130,1065 1+0,01950,0551 0,121

7 1+0,0010,1121 0,1418 0,1951 0,119

5]} (7.3)

Buraya kadar yapılan tahminlerde verinin belirli bir bir kısmında Hibrit RTFA

modeli eğitilmiş, daha sonra 20 günlük kısımda ise test (tahmin yapılması) edilmiştir.

Ancak herhangi bir yapay sinir ağı modelini geçerliliğinin sınanmasında verinin eğitim-

test olarak ayrılması yeterli görülmez. Bunların yanında çapraz doğrulama ile modelin

geçerliliği sınanmalıdır. Bu bağlamda devam eden kısımda, yapılmış olunan tahminlerin

güvenilirliğinin araştırılması açısından çapraz doğrulama yapılmıştır.

131

7.3.5 Çapraz Doğrulama ile Model Tutarlılığının Kontrolü

Bir önceki aşamada modeller belirli bir sayıda veri içeren eğitim veri kümesi için

eğitilmiş ve 20 gün için tahminler yapılmıştır. Buradaki tahminlerin yapıldığı verinin 20

günlük kısmı, test verisi görevini görmektedir. Daha önce Tablo 7-7 ile verildiği gibi

tahminlerin eğitim ve test verileri için yaptıkları tahminlerin tutarlı olduğu gösterilmişti.

Ancak bu tutarlılığın çapraz doğrulama ile bir kez daha sağlamasını yapılması, yapay

sinir ağları literatüründe yapılması beklenen bir çalışmadır. Bu bağlamda çapraz

doğrulama yapılmak üzere daha önce en iyi olarak belirlenen, Model 2 ele alınmıştır.

Gözlem sayısındaki tutarlılığı sağlamak için 534 gözlemin ilk dört tanesi silinerek 530

gözlemden oluşan yeni veri seti hazırlanmıştır. Bu veri setinin ilk 250 tanesi ile model

eğitilmiş, takip eden 20 tanesi için tahmin yapılmıştır. Daha sonra sürekli baştan 20 veri

silinip aynı süreç tekrarlanarak 14 farklı dönem için elde edilen tahmin değerleri çapraz

doğrulama için kullanılmıştır. Buna göre sözü edilen 14 farklı dönem için yapılan

tahminlere ait karşılaştırma kriteri ve hata değerleri Tablo 7-13 ile verilmiştir.

132

Tablo 7-13 En iyi model için çapraz doğrulama sonuçları

Çapraz

Doğrulama HKOK OMH

Çapraz

Doğrulama HKOK OMH

Çapraz

Doğrulama HKOK OMH

nem

1

itim

0,019 0,015

nem

6

itim

0,017 0,013

nem

11

itim

0,015 0,012

Tes

t

0,019 0,014

Tes

t

0,013 0,010

Tes

t

0,025 0,019

nem

2

itim

0,019 0,015

nem

7

itim

0,017 0,013

nem

12

itim

0,016 0,012

Tes

t

0,019 0,016

Tes

t

0,0122 0,010

Tes

t

0,013 0,011

nem

3

itim

0,018 0,014

nem

8

itim

0,017 0,013 D

ön

em 1

3

itim

0,015 0,012

Tes

t

0,013 0,010

Tes

t

0,011 0,009 T

est

0,014 0,012

nem

4

itim

0,018 0,014

nem

9

itim

0,016 0,012

nem

14

itim

0,016 0,012

Tes

t

0,011 0,009

Tes

t

0,011 0,090

Tes

t

0,014 0,012

nem

5

itim

0,016 0,013

nem

10

itim

0,015 0,012

Ort

ala

ma

itim

0,017 0,013

Tes

t

0,034 0,027

Tes

t

0,017 0,013

Tes

t

0,016 0,013

Tablo 7-13‟ten anlaşılacağı gibi çapraz doğrulama için ele alınan her bir döneme

karşılık yapılan tahminlere ait hata değerleri ile ortalama hata değerleri hem eğitim hem

133

de test verisi için birbirine oldukça yakındır. Dolayısıyla yapılan tahminlerin başarısının

seçilen veri kümesine bağlı olmadığı dolayısıyla rastlantısallık içermediği sonucuna

varılmıştır.

7.3.6 ĠMKB Ulusal 100 Endeks Yönü Tahmini Uygulama Sonuçların

Yorumlanması

Uygulama çalışmasının bu kısmında öncelikle İMKB100 endeksinin yönü,

üzerinde etkili olan uluslararası endeksler belirlenmiştir. Yapılan değişken seçimi

çalışması, İMKB100 endeksini yönü üzerinde kendi gecikmeli değerlerinin etkili

olmadığı yönündedir. Diğer taraftan değişken seçimi aşamasında belirlenmiş olan Model

2, açıklayıcı değişkenlerin en iyi alt kümesini oluşturmaktadır. Model 2 incelendiğinde,

İMKB100 endeksinin ele alınan uluslararası endeksleri takip ettiği söylenebilir.

Değişken seçimi aşamasını takiben İMKB100 endeksinin yönü, kendisinin ve

diğer uluslararası endekslerin gecikmeli değerleri yardımıyla tahminlenmiştir. Yapılan

tahminleme çalışmaları, mevcut değişkenler kullanılarak İMKB100 endeksinin hareket

yönünün %65‟in üzerinde bir doğrulukla Hibrit RTFA modeli tarafından

tahminlenebildiği görülmüştür. İstatistiksel açıdan tahmini oldukça güç olan bu alanda

%65 başarı, yatırımcılar için oldukça iyi bir referans oluşturabilir. Zaten yapılan 200

işlem günlük tahminleme sonuçları da göstermiştir ki, İMKB100 endeksine 100 dolarlık

yatırımla başlayan ve Hibrit RTFA modelinin tahminleri ile al-sat (ya da elde tut)

kararları veren bir yatırımcının 100 doları yaklaşık 202 dolara kadar yükselmektedir.

Aynı dönemde 100 dolarlık yatırımla başlayan ve hiç al sat yapmadan kişinin 200 işlem

günü sonrası yatırımının ulaştığı değerin 105 dolar civarında olduğu düşünüldüğünde

Hibrit RTFA modelinin başarısı daha anlamlı görülmektedir.

Bu kısımda yapılan çalışma, uluslararası endekslerin İMKB100 endeksi

üzerindeki etkileri üzerinde olduğu için açıklayıcı değişkenler arasında döviz kuru,

petrol, altın v.b. günlük değişim gösteren diğer finansal araçlara yer verilmemiştir. Bu

134

açıdan da bakıldığında sadece uluslararası endeksler kullanılarak yakalanmış %65‟lik

tahmin başarısı, sözü edilen bu değişkenlerin de model eklenmesi ile geliştirilebilir.

Hibrit-RBF modeli birden fazla tekniğin bir kombinasyonu olduğu için oldukça

fazla parametreye sahiptir. Bu parametrelerden birçoğu çalışmamızda sabit tutulmuştur.

Bu bağlamda Hibrit RTFA modelinin mevcut performansı, ilgili parametreler üzerinden

yapılacak değişikliklerle artırılabilir.

Buraya kadar ifade edilenler göre, ortaya konulan modelin İMKB100 endeks

yönünün tahmininde kullanılabileceği söylenebilir. Diğer taraftan, İMKB Ulusal 100 ve

İMKB Ulusal 30 endekslerinin yönü arasında %100‟e yakın bir korelasyon olduğu

dikkate alınırsa, önerilen modelin IMKB Ulusal 30 kapsamındaki hisse senetlerinde

oluşturulan portföyün al-sat kararlarında da benzer bir başarı ile kullanılabileceği

söylenebilir.

135

SONUÇ VE ÖNERĠLER

Çalışmamızda RTFA ve bu ağlarla yapılan analizlerde karşılaşılan sorunlar ele

alınmış ve bu sorunlara çözüm getirecek istatistik teknikler ile RTFA entegre edilerek

Hibrit RTFA ağları oluşturulmuştur. Bu çalışmada Hibrit RTFA ağlarına getirilen

yenilik, modelin bilgi karmaşıklığı temelli değişken seçim kriterleri ile

güçlendirilmesidir. Bu sayede Hibrit RTFA modeli ile bağımlı değişken üzerinde etkili

olan açıklayıcı değişkenlerin belirlenmesinde kullanılabilir hale gelmiştir. Bu aşamada

özellikle Hibrit RTFA modelinin doğrusal olmayan ilişkileri yakalama gücü ile ICOMP

tipi değişken seçim kriterlerinin çok yönlü değişken seçim gücü tek bir modelde

toplanmış olmaktadır.

Geliştirilen model hem benzetim verisi hem de gerçek veri üzerinde

uygulanmıştır. Oldukça yüksek dereceden doğrusal olmayan yapıda oluşturulan

benzetim verisi üzerinde model, hem değişken seçimi hem de tahminleme açısından

oldukça başarılı sonuçlar vermiştir. Diğer taraftan gerçek veri için endeks yönü tahmini

konusu gibi hem doğrusal olmayan ilişkilerin hem de çoklu doğrusal bağlantı

probleminin sıklıkla ortaya çıktığı bir alan seçilmiştir. Burada da ICOMP tipi değişken

seçim kriterlerinin çoklu doğrusal bağlantıyı da cezalandırarak değişken seçimi yapan

yapısı ile Hibrit RTFA modeli başarılı sonuçlar vermiştir. Ortaya çıkan diğer bir önemli

sonuç ise gerek benzetim çalışmasında gerekse gerçek veri üzerine yapılan çalışmada en

iyi modelin Gauss fonksiyonu ile yapılandırılmış Hibrit RTFA modeli tarafından

seçilmiş olmasıdır.

Seçilmiş olan model ile yapılan 200 işlem günlük tahminleme sonuçları, Hibrit

RTFA modeli ile yapılan tahminlere göre yatırımın yönlendirilmesi durumunda

yatırımın dolar bazında yaklaşık 2 katı değere ulaştığı gösterilmiştir. Ayrıca yapılan

çalışmada sadece uluslararası endeks değerlerini kullanılarak bu başarı elde edilmiştir.

Dolayısıyla Hibrit RTFA modeli yatırım uzmanları tarafından bir karar destek sistemi

136

olarak kullanılması durumunda daha yüksek performans gösterebilir. Yapılan uygulama

çalışmalarında model parametreleri sabit tutulmuştur. Bu bağlamda model parametreleri

değiştirilerek sonuçların geliştirilmesi mümkündür.

Oluşturulan Hibrit RTFA modelinin değişkenlerle ilgili varsayımı tek bir bağımlı

değişken ile çalışılmasıdır. Bu bağlamda modelin birden fazla bağımlı değişkenle

çalışılır hale getirilmesi ile aynı açıklayıcı değişkenlerden etkilenen farklı bağımlı

değişkenler için tek seferde analiz yapılması sağlanabilir. Diğer taraftan modelimizde ele

aldığımız bağımlı değişkenin sürekliliği varsayımı, modele regresyon ağaçları yerine

sınıflandırma ağaçlarının entegre edilmesi ile aşılabilir.

137

KAYNAKÇA

Ackley, D., Hinton, G., & Sejnowski, T. (1985). A Learning Algorithm for Boltzmann

Machines. Cognitive Science, (s. 147-169).

Akaike, H. (1974). A New Look at the Statistical Model Identification. IEEE

Transactions on Automatic Control , AC-19, 716-723.

Akaike, H. (1973). Information Theory and An Extension of The Maximum Likelihood

Principle. B. Petrox, & F. Csaki (Dü.), Second International Symposium on Information

Theory içinde (s. 267-281). Budapest: Academiai Kiado.

Akaike, H. (1981). Modern Development of Statistical Methods. P. Eykhoff içinde,

Trends and Progress in System Identification (s. 169-184). New York: Pergamon Press.

Akbilgiç, O., & Keskintürk, T. (2008, Haziran). Yapay Sinir Ağları ve Çoklu Regresyon

Analizinin Karşılaştırılması. Yönetim , 74-83.

Angelini, E., Tollo, G. d., & Roli, A. (2008). A neural network approach for credit risk

evaluation. The Quarterly Review of Economics and Finance , 48 (4), 735-755.

Baykal, N., & Timur, B. (2004). BULANIK MANTIK UZMAN SISTEMLER VE

DENETLEYICILER. Bıçaklar Kitabevi.

Bellman, R. E. (1978). An Introduction to Artificial Intelligence: Can Copmputers

Think? San Fransisco: Boyd & Fraser Pub. Co.

Berk, R. A. (2004). Regression Analysis: A Constructive Critique. USA: Sage

Publication.

138

Bhansali, R. J., & Downham, D. Y. (1977). Some Properties of the Order of

Autoregresıce Model Selected vy a Genaralization of Akaike's EPF Criterion.

Biometrica , 64 (3), 547-551.

Bjorksrtrom, A. (2001). Ridge regression and inverse problems. Sweden: Stockholm

University.

Bluman, A. G. (1998). Elemantary Statistics. USA: McGraw-Hill.

Bonate, P. L. (2006). Pharmacokinetic-Pharmacodynamic Modelling and Simulation.

San Antonio, USA: Springer.

Boyacioglu, M., & Avci, D. (2010). An Adaptive Network-BAsed Fuzzy Inference

Systems (ANFIS) for the prediciton of stock market return: The case of Istanbul Stock

Exchange. Expert Systems with Applications , 37, 7902-7912.

Boyce, D. E., Farhi, A., & Weischedel, R. (1974). Optimal Subset Selection: Multiple

Regression, Interdepedence, and Optimal Network Algorithms. New York: Springer

Verlag.

Bozdogan, H. (2000). Akaike's Information Criterion and Recent Developments in

Informational Complexity. Journal of Mathematical Psychology , 44, 62-91.

Bozdogan, H. (1988). ICOMP: A New Model-Selection Criteria. H. Bock içinde,

Classification and Related Methods of Data Analysis. North-Holland.

Bozdogan, H. (2004). Intelligent Statistical Data Mining with Information Complexity

and Genetic Algorithms. H. Bozdogan içinde, Statistical Data Mining and Knowledge

Discovery (s. 15-56). Florida: Chapman and Hall/CRC,.

Bozdogan, H. (1994). Mixture-Model Cluster Analysis Using A New Informational

Complexity and Model Selection Criteria. 2, 69-113.

139

Bozdogan, H. (1987). Model Selection and Akaike's Information Criterion (AIC): The

General Theory and It's Analytical Extension. Journal of Mathematical Psychology , 5,

345-370.

Bozdogan, H. (2007, January). Predictive Data Mining with Regression Trees and RBF

Neural Networks. Lecture Note . Tennessee.

Breiman, L., & Friedman, J. H. (1984). Classification and regression trees. Monterey,

CA: Wadsworth & Brooks/Cole Advanced Books & Software.

Breiman, L., Freidman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and

Regression Trees. Wadsworth.

Calderon, T. G., & Cheh, J. J. (2002). A roadmap for future neural networks research in

auditing and risk assessment. International Journal of Accounting Information Systems ,

3, 203-226.

Cganh, F.-J., Liang, J.-M., & Chen, Y.-C. (2001). Flood Forecasting Using Radial Basis

Function Neural Networks. IEEE Transaction on Systems, Man, and Cybernetics Part

C: Applications and Rewievs , 31 (4), 530-535.

Çinko, M., & Avcı, E. (2007). A Comparison of Neural Network and Linear Regression

Forecasts of The ISE-100 Index. Öneri , 7 (28), 301-307.

Comrie, A. C. (1997). Comparing Neural Networks and Regression Models for Ozone

Forecasting. Arizona: Air & Waste Management Association.

Conniffe, D., & Stone, J. (1973). A Critical View of Ridge Regression. Journal of the

Royal Statistical Society. Series D , 23 (3), 191-197.

Cover, T. (1965). Geometrical and statistical prpperties of system of linear inequalities

with applications in pattern recognition. IEEE Transactions on Electronic Computers ,

14, 326-334.

140

Dawson, C., Harpham, C., Wilby, R., & Chen, Y. (2002). Evaluation of artificial neural

network techniques for flow forecasting in the River Yangtze, China. Hydrology and

Earth System Sciences , 6 (4), 619-626.

Deniz, E. (2010). Regresyon Analizi. E. Çetin içinde, Hastane Yönetiminde Sayısal

Yöntemler.

Deniz, E. (2007). Yapısal Eşitlik Modellerinde Bilgi Kriterleri. İstanbul: Mimar Sinan

Güzel Sanantlar Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Ana Bilim Dalı,

Basılmamış Doktora Tezi.

Draper, N. R., & Smith, H. (1981). Applied Regression Analysis. New York: Wiley.

Engle, R. F. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the

Variance of United Kingdom Inflation. Econometrica , 50 (4), 987-1007.

Fausett, L. V. (1993). Fundamentals of Neural Networks: Architectures, Algorithms And

Applications. US: Prentıce Hall.

Feigenbaum, E. A., & McCorduck, P. (1983). The fifth generation . Reading, MA:

Addison-Wesley.

Fraser, N. (1998, 9 21). The Biological Neuron. 3 5, 2011 tarihinde Carleton University:

http://vv.carleton.ca/~neil/neural/neuron-a.html adresinden alındı

Fuller, R. (2000). Lecture Note:. Introduction to Neuro Fuzzy Systems . Abo Akademy

University.

Fuller, R. (2000). Systems, Introduction to Neuro-Fuzzy. New York: Springer Verlag.

Gibson, G. J., Siu, S., & Cowan, C. F. (1989). Multilayer Perceptoron Structures

Applied to Adaptive Equalisers for Data Communications. Acoustics, Speech, and

Signal Processing, 1989. ICASSP-89, (s. 1183-1186). Glasgow, UK.

141

Golub, G. H., Heath, M., & Wahba, G. (1979). Generalized Cross-Validation as a

Method for Choosing a Good Ridge Parameter. Technometrics , 12, 215-223.

Haan, C. T. (2002). Statistical Methods in Hydrology. Iowa State University Press.

Halıcı, U. (2001). Artificial Neural Networks. Lecture Notes on Introduction to Neural

Networks . Ankara: METU.

Hannan, E. J., & Quinn, B. G. (1979). The Determinatiom of the Order of an

Autoregression. Journal of the Royal Statistical Society B , 41, 190-195.

Harrel, F. E. (2001). Regression Modelling Strategies: with Applications to Lİnear

Models, Data Mining, Inference, and Prediction. New York: Springer-Verlag.

Haykin, S. S. (1994). Neural Networks. Macmillan.

Haykin, S. S. (1999). Neural Networks. Macmillan.

Hebb, D. (1949). The Organization of Behavior. New York: Wiley & Sons.

Hebb, D. (1949). The Organization of Behavior: A neuropsychological Theory. New

York: Wiley.

Heugeland, J. (1985). Artificial Intelligence: The Very Idea. Cambridge: MIT Press.

Hocking, R. R. (1983). Developments in Linear Regression Methodology.

Technometrics , 25, 219-230.

Hoerl, A. E., & Kennard, R. W. (1970). Ridge Regression: Biased Estimation for

Nonorthogonal Problems. Technometrics , 12, 55-67.

Hoerl, A. E., Kennard, R. W., & Baldwin, K. F. (1975). Ridge Regression: Some

Simulations. Communications in Statistics , 4, 105-123.

Holland, J. (1975). Adaptation of Natural and Artificial Systems. Ann Arbor, Michigan:

University of Michigan Press.

142

Holland, J. (1992). Genetic Algorithms. Scienti¯c American, , 66-72.

Hornik, K. (1989). Multilayer Feedforward Networks are Unıversal Approximators.

Neural Networks (2), 359-366.

Howe, J. A. (2007). A New Generaion of Mixture-Model Cluster Analysis with

Information Complexity and the Genetic Algorithm. Tennessee: The University of

Tennessee.

Huang, S.-M., Tsai, C.-F., Yen, D. C., & Cheng, Y.-L. (2008). A hybrid financial

analysis model for business failure prediction. Expert Systems with Applications: An

International Journal , 35 (3), 1034-1040.

J. L. Eastaugh, S. W. (1997). Comparison of neural networks and statistical models to

predict gestational age at birth. NEURAL COMPUTING & APPLICATIONS , 6, 156-

164.

J., M., & C., D. (1989). Fast learning in networks of locally-tunned processing units.

Neural Computation , 1, 281-294.

Johnson, R. A., & Bhattacharyya, H. K. (2006). Statistics: Principles and Methods.

USA: John Wiley & Sons.

Judge, G. G., Griffits, W. E., Hill, R. C., Lütkepohl, H., & Lee, T. C. (1985). The Theory

and Practice of Econometrics. New York: John Wiley and Sons.

Kappen, H., & Rodriguez, F. (1998). Efficient learning in Boltzmann Machines using

linear reponse. Neural Computatıon , 1137-1156.

Kasabov, N. K. (1998). Foundations of Neural Networks, Fuzzy Systems, and

Knowledge Engineering. Cambridge: MIT Press.

Kodratof, Y. (1988). Introduction to Machine Learning. Toulouse, France: Cepadues

Editions.

143

Kohonen, T. (2001). Self-Organizing Maps. Germany: Springer Verlag.

Korkmaz, T., Çevik, E. I., Birkan, E., & Özataç, N. (2011). Causality in mean and

variance between ISE 100 and S&P 500: Turkcell case. African Journal of Business

Management , 5 (5), 1673-1683.

Kotz, S., & Johnson, N. L. (1982). Encylopedia od Statistics Sciences (3 b.). John

Wiley&Sons.

Koutsoyiannis, A. (1977). Theory of Econometrics : An Introductory Exposition of

Econometric Methods. London: Macmillan.

Kröse, B., & Smagt, P. v. (1996). An Introduction to Neural Networks. The University

of Amsterdam.

Kubat, M. (1998). Decision Trees Can Initialize Radial Basis Function Networks.

Transactions on Neural Networks , 9, 818-821.

Kullback, A., & Leibler, R. (1951). On Information and Sufficiency. Annals of

Mathematical Statistics , 22, 79-86.

Kurzweil, R. (1990). The Age of Intelligent Machines. Cambridge, Mass: MIT Press.

Lawless, J. F., & Wang, P. (1975). A Simulation Study of Ridge and other Regression

Estimators. Communications in Statistics A , 4, 307-323.

Li, Q., Asma, E., Qi, J., Bading, J. R., & Leahy, R. M. (2004). Accurate Estimation of

the Fisher Information Matrix for the PET Image Reconstruction Problem. IEEE

Transactions on Medical Imaging , 23 (9), 1057-1065.

Lindley, D. V., & Smith, A. F. (1972). Bayes Esimates for The Linear Model. Journal of

Royal Statistics Society B , 34, 1-41.

Loh, W. Y., & Shih, Y. S. (1997). Split Selection Methods for Classification Trees.

Statistica Sinica , 7, 815-840.

144

Luger, G. F. (2009). Artificle İntelligence: Structures and Strategies for Complex

Problem Solving. USA: Addison Wiley.

Mantel, N. (1970). Why Stepdown Procedures in Variable Selection. Technometrics ,

12, 591-612.

Mark A. Pitt, I. J. (2002). Toward a Method of Selecting Among Computational Models

of Cognition. Psychological Review , 109 (3), 472-491.

Masters, T. (1993). Practical Neural Network Recipes in C++. USA: Academic Press.

McCulloch, W. S., & Pitts, W. (1943). A Logical Calculus of the Ideas Immanent ın

Nervous Activity. Bulletin of Mathematical Biophysics , 5, 115-133.

Mehrotra, K., Mohan, C. K., & Ranka, S. (2000). Elements of Artificial Neural

Networks. Massachusets: MIT Press.

Minksy, M., & Papert, S. (1969). Perceptrons. MIT Press.

Minsky, M. (1967). Computation: Finite and Infinite Machines. Englewood Cliffs:

Prentice-Hall.

Minsky, M. (1963). Steps Towards Artificial Intelligence. Computer Tought , 406-450.

Minsky, M. (1954). Theory of Neural-Analog Reinforcement Systems and Its

Application to the Brain Model Problem. Princeton University.

Moisen, G. G. (2008). Classification and Regression Trees. Ecological Informatics ,

582-588.

Morgan, J. N., & Messenger, R. C. (1973). THAID: a sequential search program for the

analysis of nominal scale dependent variables. Michigan: University of Michigan,

Institue for Social Research .

145

Morgan, J. N., & Sonquist, J. A. (1963). Problems in The Analysis of Survey Data, and

A Proposal. Journal of American Statistical Society , 58, 415-434.

Moses, L. E. (1986). Think and Explain with Statistics. Reading, MA: Addison-Vesley.

Munch, D., & Branson, P. (2004). Statistical Protocol for the Determination of the

Single-Laboratory Lowest Concentration Minimum Reporting Level (LCMRL) and

Validation of Laboratory Performance at or Below the Minimum Reporting Level

(MRL). Cincinnati, OH, USA: U.S. Environmental Protection Agency Office of Ground

Water and Drinking Water Standards and Risk Management Division Technical Support

Center.

Nabiyev, V. V. (2005). Yapay Zeka. Seçkin Yayıncılık.

Nascimento, C. L. (1994, February). Artificial Neural Networks in Control and

Optimization. Doctor of Philosophy . Manchester: Unıversıty of Manchester.

Newell, A., & Simon, H. A. (1961). Computer simulation of human thinking. Science ,

134, 2011-2017.

Newell, A., Shaw, J., & Simon, H. (1959). Report on a general problem-solving

program. Proceedings of the International Conference on Information Processing, (s.

256-264).

Orr, M. (2000). Combining Regression Trees and RBF's. International Journal of

Neural Systems , 10.

Orr, M., Hallam, J., Takezawa, K., Murray, A., Ninomiya, S., Oide, M., et al. (1999).

Combining Regression Trees and Radial Basis Functions. International Journal of

Neural Systems , 10 (6), 453-465.

Orr, M., Hallam, J., Takezawa, K., Murray, A., Ninomiya, S., Oide, M., et al. (2000).

Combining Regression Trees and Radial Basis Functions. International Journal of

Neural Systems , 10 (6), 453-465.

146

Ostrom, C. W. (1990). Time Series Analysis: Regression Techniques (Quantitative

Applications in the Social Sciences). Newbury Park: Sage Publications.

Özdemir, A. K., Tolun, S., & Demirci, E. (2011). Endeks Getirisi Yönünün İkili

Sınıflandırma Yöntemiyle Tahmin Edilmesi: İMKB-100 Endeksi Örneği. Niğde

Üniversitesi İİBF Dergisi (Baskıda) .

Ozun, A. (2007). Are the Reactions of Emerging Equity Markets to the Volatility in

Advanced Markets Similar? Comparative Evidence from Brazil and Turkey.

International Research Journal of Finance and Economics , 9, 220-230.

Pelaez, R. (2006). Using Neural Nets to Forecast the Unemployment Rate. Business

Economics , 41 (1), 37-44.

Poggio, T., & Girosi, F. (1989). A theory of networks for approximation and learning.

Cambridge, MA: MIT Artificle Intelleigence Laboratory.

Pop, H. F. (2004). DATA ANALYSIS WITH FUZZY SETS: A SHORT SURVEY.

INFORMATICA, , 49 (2), 111-122.

Quinn, G., & Keough, M. J. (2001). Experimental Design and Data Analysis for

Biologist. Cambridge University Press.

Rissanen, J. (1978). Modelling by Shortest Data Description. Automatica , 14, 465-471.

Rojas, R. (1996). Neural Networks: A Systematic Introduction. Berlin: Springer Verlag.

Rosenblatt., F. (1958). The perceptron: A probabilistic model for information storage

and organization in the brain. Psychological review , 65, 386-408.

Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning internal

representations by error propagation. Parallel distributed processing: explorations in the

microstructure of cognition. 1, s. 318-361. MA: MIT Press Cambridge.

147

Russell, S., & Norvig, P. (2009). Artificial Intelligence: A Modern Approach. Prentice

Hall.

Schwartz, G. (1978). Estimating The Dimension of Model. Annals of Statistics , 6, 461-

464.

Sejnowski, T. (1977). Statistical constraints on synaptic plasticity. Journal of

Theoretical Biology , 69, 385-389.

Shannon, C. E. (1951). Prediction and entropy of printed English. The Bell System

Technical Journal , 30, 50-64.

Simon, H. (1965). Understanding creativity. Carnegie Review , 8, 2.

Sokal, R. R., & Rohlf, F. J. (1981). Biometry (2 b.). New York: W.H. Freeman

Company.

Steinberg, D., & Colla, P. (1995). CART: Tree-Structured Nonparametric Data Analysis.

San Diego, CA: Salford Systems.

Sutton, C. D. (2005). Classification and Regression Trees, Bagging, and Boosting.

Handbook of Statistics , 24, 303-329.

Tikhonov, A. (1963). On solving incorrectly posed problems and method of

regularization. Doklady Akademii Nauk USSR , 151, 501-504.

Touretzky, D. S. (2006, Fall). Radial Basis Functions. Lecture Notes on Artificial Neural

Networks .

Turing, A. (1950). Computing Machinery and Intelligence. Mind , 59 (236), 433-460.

Türkşen, İ. B. (1985). Fuzzy Set Theory and Its Applications. TJOR , 4 (4), 1-15.

148

Urmanov, A. M., Bozdogan, H., Gribok, A. V., Hines, J. W., & Uhrig, R. E. (2002).

Information Complexity-Based Regularization Parameter Selection for Solution of Ill-

Conditioned Inverse Problems. Inverse Problems , 18 (3).

Van Emden, M. H. (1971). An Analysis of Complexity. Amsterdam: Mathematisch

Centrum Amsterdam.

Vose, M. (1999). The Simple Genetic Algorithm: Foundations and Theory. MIT Press.

Vuran, B. (2010). The determination of long-run relationship between ISE 100 and

international equity indices using cointegration analysis. Istanbul Unıversity Journal of

The School of Busines Administration , 39 (1), 154-168.

Walczak, S., & Sincich, T. (1999). A comparative analysis of regression and neural

networks for university admissions. Information Sciences , 119 (1-2), 1-20.

Wang, Q. A. (2008). Probability distribution and entropy as a measure of uncertainty.

Journal of Physics A: Mathematical and Theoretical , 41 (6), 1-12.

Wettschereck, D., & Dietterich, T. (1992). Improving the Performance of Radial Basis

Function Networks by Learning Center Locations. Advences in Neural Information

Processing Systems (s. 1133-1140). San Mateo, CA: Morgan Kaufmann Publıshers.

White, H. (1982). Maximum Likelihood Estimation of Misspecified Models.

Econometrica , 50, 1-25.

Widrow, B., & Hoff, M. (1960). Adaptive Switching Circuits. IRE Wescon (s. 96-104).

New York: IRE.

Wilkinson, L. (1989). SYSTAT: The System for Statistics. Evantson, IL: SYSTAT.

Williams, J. L., Bozdogan, H., & Aiman-Smith, L. (1995). Inference Problems with

Equivalent Models. (A. G. Macoulides, & R. E. Scgumaker, Dü) New Jersey: Lawrence

Erlbaum Associates.

149

Yamane, T. (1973). Statistics: An Introductory Analysis. USA: Harper&Row Publishers

.

Zadeh, L. A. (1965). Fuzzy Sets. Informatıon and Control , 8, 338-353.

Zadeh, L. (1965). Fuzzy Sets. Information and Control , 8, 338-353.

150

ÖZGEÇMĠġ

1980 İstanbul doğumlu olan yazar, 2001 yılında İstanbul Üniversitesi, Fen

Fakültesi, Matematik Bölümü‟nden lisans derecesini almış, aynı yıl Milli Eğitim

Bakanlığı‟na bağlı bir okulda matematik öğretmenliği yapmaya başlamıştır. 2002 yılında

Mimar Sinan Güzel Sanatlar Üniversitesi, Fen-Edebiyat Fakültesi, İstatistik Bölümü‟nde

araştırma görevliliği ve Mimar Sinan Güzel Sanatlar Üniversitesi, İstatistik Anabilim

Dalı‟nda yüksek lisans eğitimine başlayarak bu programdan ve 2005 yılında mezun

olmuştur. Aynı yıl İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Sayısal Yöntemler

Anabilim Dalı‟nda doktora eğitimine başlamıştır. 2009-2010 yıllarında bir yıllığına

Amerika Birleşik Devletleri, University of Tennessee‟de burslu olarak doktora tez

çalışmalarını devam ettiren Oğuz Akbilgiç, 2006 yılından beri İstanbul Üniversitesi,

İşletme Fakültesinde araştırma görevlisi olarak çalışmaktadır. Uluslararası ve ulusal

çeşitli dergilerde yayınlanmış makaleleri bulunan yazar iyi derece İngilizce ve orta

düzeyde Rusça bilmektedir.