[IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya,...

4
Sahne Sınıflandırılmada Filtre Bankası Temelli Öznitelik Seçimi (FEATURE SELECTION USING FILTER BANKS IN SCENE CLASSIFICATION Cemalettin Çiftçi 1, Emrah Ergül 2 , Nafiz Arıca 3 Bilgisayar Mühendisliği Bölümü, Deniz Harp Okulu 1 [email protected] 2 [email protected] 3 [email protected] ÖZETÇE Görsel Kelimeler Kümesi kullanılarak Sahne sınıflandırma yaklaşımında yeni bir yöntem önerilmektedir. Graf Temelli Görsel Belirginlik haritalarından faydalanılarak her bir kategorinin ayrıştırıcı öznitelik kanallarında farklı ölçeklerdeki filtrelerden oluşan bir filtre bankası yaratılmaktadır. Filtre bankası ile imgelerin işlenmesinden sonra öznitelik vektörleri yoğun SIFT yöntemi ile filtrelenmiş imgeler üzerinde düzgün grid yapısı ile çıkartılmaktadır. Ölçek değişimlerine karşı dayanıklılığı artırmak amacıyla filtreler üç farklı ölçekte uygulanmıştır. İmge sunumu aşamasında Görsel Kelimeler Kümesi yaklaşımı kullanılmış olup bu aşama öncesinde uzaysal mevki bilgisi dahil edilerek oylama aşamasında olasılıksal olarak bu bilgiden faydalanılması sağlanmaktadır. Önerilen yaklaşımın performans ölçümü literatürde yaygın olarak kullanılan 15 kategorili veri kümesi ile yapılarak mevcut yöntemlerin üzerinde bir başarı elde edilmektedir. . ABSTRACT We introduce a new approach into scene classification problem related to Bag-of-Words (BoW) representation. Category specific filter banks are generated on distinctive feature channels with varying scales by using Graph-Based Visual Saliency (GBVS) algorithm. After preprocessing each image using filtre banks, dense Scale Invariant Feature Transform (SIFT) method is applied to the filtered samples at regular spacing grids. In order to achieve scale invariency, we concatenate SIFT-like descriptors from filtered images of different scales within visual channels. In image representation stage, BoW modeling is improved by adding spatial information and a probabilistic voting scheme. We compare the proposed algorithm with the most promising methods in the literature, using a very challenging and popular 15-class-dataset. It is seen in experiments that our method noticeably outperforms the others. 1. GİRİŞ Sahne sınıflandırma süreci imgelerin işlenerek anlamlı kategorilere atanmaları olarak özetlenebilir. Sahne sınıflandırma; algılamadaki sezgisel belirsizlikler, ışık, skala ve kontrast değerlerindeki büyük değişkenlikler gibi nedenlerle bilgisayarla görme alanındaki en zor problemler arasındadır. Zor olduğu kadar ilgi çekici bir problem olarak sahne sınıflandırma, özellikle son yıllarda araştırmacılar tarafından üzerinde yoğun emek harcanan bir alan olmuştur [1,2]. Sahne sınıflandırma işleminin genel olarak yerel öznitelik vektörlerinin çıkartılması, imge sunumu ve sınıflandırıcı modellerinin geliştirilmesi aşamalarını içerdiği söylenebilir. Bu süreçlerin içerisinde en önemlisi imge sunumunun imgenin tamamını ifade edecek şekilde yapılmasıdır. Yapılan ilk çalışmalarda imge sunumu için genel renk ve yönlenme histogramları kullanılmıştır [3]. Daha sonraki çalışmalarda ise yerel öznitelik vektörlerinin nicemlendirilmesi ile oluşturulan Görsel Kelime Kümesi (Bag of Visual Words) yaklaşımı ile tatmin edici sonuçlar elde edilmiştir [2,4,5]. İmge içerisinde yer alan nesnelerin tespit ve anlamlandırılması ile gerçekleştirilen sahne sınıflandırma yaklaşımları çok fazla kaynağa ihtiyaç duymuş olup bu nedenle içerisinde sadece belli birkaç nesne bulunduran sahneler için kullanılmıştır [10]. Sahne prototiplerinin önerildiği ve ilgi bölgelerinin kullanıldığı yaklaşımlarda ise yerel ve genel ayrıştırıcı bilgiler bir araya getirilmeye çalışılmıştır [16]. Bu çalışmada imge sunumu için ilk olarak sahne kategorilerine ait imgelerin ön işlemesi filtre bankası ile gerçekleştirilmiştir. Filtre bankası Graf Temelli Görsel Belirginlik algoritması [8] ile oluşturulmuştur. Ardından SIFT [7] benzeri yerel öznitelik vektörleri çıkarılarak her bir imge uzaysal mevki bilgisini de içeren Olasılıksal Görsel Kelime Kümesi yaklaşımı ile ifade edilmiştir. Bildirininin bundan sonraki bölümünde filtre bankasının oluşturulmasından sonra yerel öznitelik çıkarımı anlatılmaktadır. Dördüncü bölümde ise Olasılıksal Görsel Kelime Kümesi yaklaşımı izah edilmektedir. Beşinci bölümde önerilen yöntemin performans sonuçları 15 kategori imge veri seti kullanılarak sunulmuştur. Altıncı bölümde ise çalışmanın önemli katkılarının altı çizilerek bildiri sonlandırılmaktadır. 2. GÖRSEL BELİRGİNLİK FİLTRE BANKASININ OLUŞTURULMASI İmge analizinde ön işleme atmosferik değişim etkilerinin yada sensor anomalilerinin giderilmesi gibi amaçlar için gerçekleştirilir. Genel olarak normalizasyon [6] ve filtre [7] kullanımı yöntemleriyle imgenin gürültü ve diğer bozulmalardan arındırılması sağlanır. Bu çalışmada ise ön işleme aşamasında sahne sınıfı bazında önemli imge bilgisinin ön plana çıkarılması hedeflemektedir. Bu maksatla yerel öznitelik vektörlerinin çıkarılma işleminden önce sahne sınıflarına özgü filtre bankaları oluşturulur. Banka içerisinde yer alan kategorilere ait filtreler; insan görme sistemi ile uyum içerisinde olan Graf Temelli Görsel Belirginlik (GTGB) algoritması ile önceden belirlenmiş boyutlarda oluşturulan filtrelerdir. İmgenin gri ton, yönelim ve ton karşıtlığı kullanılarak oluşturulan Görsel Belirginlik haritaları ile üç kanal elde 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011) 829 978-1-4577-0463-511/11/$26.00 ©2011 IEEE

Transcript of [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya,...

Page 1: [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2011.04.20-2011.04.22)] 2011 IEEE 19th Signal Processing and Communications

Sahne Sınıflandırılmada Filtre Bankası Temelli Öznitelik Seçimi

(FEATURE SELECTION USING FILTER BANKS IN SCENE CLASSIFICATION

Cemalettin Çiftçi 1, Emrah Ergül 2 , Nafiz Arıca3

Bilgisayar Mühendisliği Bölümü, Deniz Harp Okulu 1 [email protected] 2 [email protected] 3 [email protected]

ÖZETÇE

Görsel Kelimeler Kümesi kullanılarak Sahne sınıflandırma yaklaşımında yeni bir yöntem önerilmektedir. Graf Temelli Görsel Belirginlik haritalarından faydalanılarak her bir kategorinin ayrıştırıcı öznitelik kanallarında farklı ölçeklerdeki filtrelerden oluşan bir filtre bankası yaratılmaktadır. Filtre bankası ile imgelerin işlenmesinden sonra öznitelik vektörleri yoğun SIFT yöntemi ile filtrelenmiş imgeler üzerinde düzgün grid yapısı ile çıkartılmaktadır. Ölçek değişimlerine karşı dayanıklılığı artırmak amacıyla filtreler üç farklı ölçekte uygulanmıştır. İmge sunumu aşamasında Görsel Kelimeler Kümesi yaklaşımı kullanılmış olup bu aşama öncesinde uzaysal mevki bilgisi dahil edilerek oylama aşamasında olasılıksal olarak bu bilgiden faydalanılması sağlanmaktadır. Önerilen yaklaşımın performans ölçümü literatürde yaygın olarak kullanılan 15 kategorili veri kümesi ile yapılarak mevcut yöntemlerin üzerinde bir başarı elde edilmektedir. .

ABSTRACT

We introduce a new approach into scene classification problem related to Bag-of-Words (BoW) representation. Category specific filter banks are generated on distinctive feature channels with varying scales by using Graph-Based Visual Saliency (GBVS) algorithm. After preprocessing each image using filtre banks, dense Scale Invariant Feature Transform (SIFT) method is applied to the filtered samples at regular spacing grids. In order to achieve scale invariency, we concatenate SIFT-like descriptors from filtered images of different scales within visual channels. In image representation stage, BoW modeling is improved by adding spatial information and a probabilistic voting scheme. We compare the proposed algorithm with the most promising methods in the literature, using a very challenging and popular 15-class-dataset. It is seen in experiments that our method noticeably outperforms the others.

1. GİRİŞ

Sahne sınıflandırma süreci imgelerin işlenerek anlamlı kategorilere atanmaları olarak özetlenebilir. Sahne sınıflandırma; algılamadaki sezgisel belirsizlikler, ışık, skala ve kontrast değerlerindeki büyük değişkenlikler gibi nedenlerle bilgisayarla görme alanındaki en zor problemler arasındadır. Zor olduğu kadar ilgi çekici bir problem olarak sahne sınıflandırma, özellikle son yıllarda araştırmacılar tarafından üzerinde yoğun emek harcanan bir alan olmuştur [1,2].

Sahne sınıflandırma işleminin genel olarak yerel öznitelik vektörlerinin çıkartılması, imge sunumu ve sınıflandırıcı modellerinin geliştirilmesi aşamalarını içerdiği söylenebilir. Bu süreçlerin içerisinde en önemlisi imge sunumunun imgenin tamamını ifade edecek şekilde yapılmasıdır. Yapılan ilk çalışmalarda imge sunumu için genel renk ve yönlenme histogramları kullanılmıştır [3]. Daha sonraki çalışmalarda ise yerel öznitelik vektörlerinin nicemlendirilmesi ile oluşturulan Görsel Kelime Kümesi (Bag of Visual Words) yaklaşımı ile tatmin edici sonuçlar elde edilmiştir [2,4,5]. İmge içerisinde yer alan nesnelerin tespit ve anlamlandırılması ile gerçekleştirilen sahne sınıflandırma yaklaşımları çok fazla kaynağa ihtiyaç duymuş olup bu nedenle içerisinde sadece belli birkaç nesne bulunduran sahneler için kullanılmıştır [10]. Sahne prototiplerinin önerildiği ve ilgi bölgelerinin kullanıldığı yaklaşımlarda ise yerel ve genel ayrıştırıcı bilgiler bir araya getirilmeye çalışılmıştır [16]. Bu çalışmada imge sunumu için ilk olarak sahne kategorilerine ait imgelerin ön işlemesi filtre bankası ile gerçekleştirilmiştir. Filtre bankası Graf Temelli Görsel Belirginlik algoritması [8] ile oluşturulmuştur. Ardından SIFT [7] benzeri yerel öznitelik vektörleri çıkarılarak her bir imge uzaysal mevki bilgisini de içeren Olasılıksal Görsel Kelime Kümesi yaklaşımı ile ifade edilmiştir. Bildirininin bundan sonraki bölümünde filtre bankasının oluşturulmasından sonra yerel öznitelik çıkarımı anlatılmaktadır. Dördüncü bölümde ise Olasılıksal Görsel Kelime Kümesi yaklaşımı izah edilmektedir. Beşinci bölümde önerilen yöntemin performans sonuçları 15 kategori imge veri seti kullanılarak sunulmuştur. Altıncı bölümde ise çalışmanın önemli katkılarının altı çizilerek bildiri sonlandırılmaktadır.

2. GÖRSEL BELİRGİNLİK FİLTRE BANKASININ OLUŞTURULMASI

İmge analizinde ön işleme atmosferik değişim etkilerinin yada sensor anomalilerinin giderilmesi gibi amaçlar için gerçekleştirilir. Genel olarak normalizasyon [6] ve filtre [7] kullanımı yöntemleriyle imgenin gürültü ve diğer bozulmalardan arındırılması sağlanır. Bu çalışmada ise ön işleme aşamasında sahne sınıfı bazında önemli imge bilgisinin ön plana çıkarılması hedeflemektedir. Bu maksatla yerel öznitelik vektörlerinin çıkarılma işleminden önce sahne sınıflarına özgü filtre bankaları oluşturulur. Banka içerisinde yer alan kategorilere ait filtreler; insan görme sistemi ile uyum içerisinde olan Graf Temelli Görsel Belirginlik (GTGB) algoritması ile önceden belirlenmiş boyutlarda oluşturulan filtrelerdir. İmgenin gri ton, yönelim ve ton karşıtlığı kullanılarak oluşturulan Görsel Belirginlik haritaları ile üç kanal elde

2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011)

829978-1-4577-0463-511/11/$26.00 ©2011 IEEE

Page 2: [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2011.04.20-2011.04.22)] 2011 IEEE 19th Signal Processing and Communications

edilir. Her kanal için üç farklı ölçekte filtre oluşturulur. Ayrıca tüm kanalların bileşimi olan ana haritadan da olmak üzere toplam her sahne kategorisi için 12 adet filtre oluşturulur. Filtreler oluşturulurken her bir kanal ve ölçeğe ait görsel önem haritalarının kategori içinde yer alan öğrenme imgelerine ait sonuçlarının ortalama değeri alınarak filtre oluşturulmaktadır. Ardından harita ortalama değeri sıfır olacak şekilde normalizasyon yapılarak filtre formu elde edilir.

Resim-2.1. Filtre Bankasının Oluşturulması.

3. YOĞUN ÖZNİTELİK VEKTÖRLERİNİN ÇIKARTILMASI

Önceki çalışmalarda elde edilen sonuçlar paralelinde [2,6] imge içerisinde ilgi noktaları bulunarak bu noktalar etrafından öznitelik vektörü çıkartmak yerine düzgün bir grid yapısı üzerinden öznitelik vektörü çıkartılması yöntemi izlenmektedir. SIFT öznitelik vektörleri 16x16’lık imge pencerelerinde 8 piksellik aralıklarla imgenin tamamında hesaplanmaktadır. İmgenin üç farklı ölçekteki filtreler ile filtrelenmiş sonuçlarından elde edilen SIFT öznitelik vektörleri birleştirilerek her bir kanal için 384 boyutlu betimleyiciler elde edilmiştir. Ana kanaldan elde edilen betimleyici vektörleri ise görsel kelime kümesinin oluşturulmasında kullanılmıştır. Sonuçta; ana kanal ile birlikte 3 kanaldan gelen betimleyicilerle, bir imge gridi için toplamda 4 farklı betimleyici vektörü çıkartılmaktadır. Daha sonra kanallardan gelen betimleyiciler ana kanaldan oluşturulan görsel kelime kümesi ile karşılaştırılarak olasılıksal görsel kelime kümesi sunumu oluşturulur. Bir sonraki aşamada öznitelik vektörleri hem kaba bölüt etiketleriyle hem de uzaysal mevki etiketleriyle işaretlenmiştir. İnsan görme sisteminden esinlenerek geliştirilen Graf Temelli görsel Belirginlik algoritması yardımı ile imge kabaca bölütlenmektedirler. Daha sonra her imge gridine ait öznitelik vektörleri “arka plan”, “ ön plan” ve “kararsız” olmak üzere 3 ayrı bölge etiketi ile etiketlenir. İlave olarak imge 16 (4x4) hücreye bölünür ve hücre numarası bilgisi uzaysal mevki bilgisi olarak betimleyici öznitelik vektörlerine ilave edilir. Öncelikle imgenin her bir kanalının farklı ölçeğinden elde edilen 128 boyutlu SIFT vektörleri belirtildiği üzere “arka plan” ve “ön plan” olmak üzere işaretlenir. Nihai 384 boyutlu vektörün elde edilmesi aşamasında ise aynı noktanın farklı ölçeklerinden elde edilen vektörlerinin hemfikir olması

durumunda “arka plan” ve “ön plan” olmak üzere işaretlenir, mutabakat olmaması durumunda ise “kararsız” olarak işaretlenir.

4. OLASILIKSAL GÖRSEL KELİME KÜMESİ

Yerel betimleyici öznitelik vektörlerinin bulunmasını müteakip yapılacak işlem imgenin görsel kelime kümesi ile ifade edilmesi sürecidir. Bu amaçla görsel kelime histogramları oluşturulur. Belirtildiği üzere imgenin 3 ayrı bileşene ayrıştırılması neticesinde üç farklı görsel kelime kümesi elde edilir. Görsel kelimeler, ana kanaldan elde edilip aynı etiket ile etiketlenen eğitim imgesine ait öznitelik vektörlerinin her bir grup için ayrı ayrı K–means kümeleme algoritması uygulanması ile bulunur. Kelime sayısına karşılık olarak bulunan küme merkezleri görsel kelime ifadesi olarak belirlenir. Ele alınacak bir diğer husus ise görsel kelimelerin uzay mevkisel olasılıklarıdır. İmgeden çıkartılan öznitelik vektörlerine ve bunların ait olduğu hücre bilgisine sahip olduğumuzdan bir kelimenin her bir imge hücresinden bulunma olasılığını hesaplayabiliriz. Netice olarak her bir sözlük için (Görsel Kelime x Hücre Numarası) tekrar etme matrisi elde edilmiş olur. Varılmak istenen nokta, öznitelik vektörlerinin her bir kelimeye verecekleri oyun nasıl hesaplanacağıdır. Genel kabul gören yöntem olarak her bir öznitelik vektörü en yakın görsel kelime ile eşleştirilir ve her bir vektör en yakın olduğu kelimeye eşit ağırlıkla oy kullanır [2,5]. Daha anlamlı bir diğer yaklaşım ise kelimeler ile öznitelik vektörleri arasındaki hesaplanan mesafeyi dikkate alan ağırlıklı oy kullanılmasını öngörür [4, 9]. Bu yöntemlerde genel olarak en yakın k adet görsel kelime için mesafe değeri hesaplanır ve mesafe ile orantılı oy kullanması sağlanır. İmgelerden çıkartılan öznitelik vektörlerinin kümelenmesi sonucu elde edilen görsel kelimelerin doküman tanımadaki kelimelerden farklı olarak statik olmadığı düşünüldüğünde oy verme sürecinin olasılıksal bir yaklaşımla gerçekleştirilmesinin daha anlamlı ve tutarlı olacağı değerlendirilmektedir. Önerilen yaklaşımımızda tüm öznitelik vektörlerinin kelimelerin öznitelik vektörlerine şartlı olasılıkları ile dahil edilmesidir. Öznitelik vektörleri kümesi V ve görsel kelime kümesi W için ikili gözlem olasılığını “”Naive Bayes” yaklaşımından faydalanarak P(v,w)=P(w)P(w|v) şeklinde ifade edebiliriz. Bu sayede gözlemlenmemiş öznitelik vektörleri için görsel kelime şartlı olasılık değerini

1

( | )* ( )( | , ) (1)

( | )* ( )S

j jj

P v w P wP w v img

P v w P w=

=

şeklinde elde edebiliriz. Denklemde P(w|v,img) görsel kelime w’nin; imge img içinde öznitelik vektörü v ile şartlı bulunma olasılığını ifade eder. Denklemi çözmek için ilk olarak VxW mesafe matrisini oluşturmamız gerektirdiğinden bu amaçla histogram kesiştirme yönteminden faydalanılmıştır. Ardından matris içindeki her bir satır ( öznitelik vektörü ile görsel kelimeler arasındaki mesafe) [0,1] arasında 0.01 aralık değeri ile ayrık hale getirilmiştir. Bu sayede elimizdeki mesafe metriklerinden olasılıksal değere geçiş sağlamış oluyoruz. Bu işlem sonrasında tekrar etme matrisinde yer alan her bir değer v öznitelik vektörünün görsel kelime w’ye karşılık gelme olasılığını ifade eder (P(v|w)). Sonuç olarak öznitelik vektörlerinin uzaysal mevki bilgisini ve görsel kelimelerin uzaysal olasılık bilgilerini elde ettiğimize

2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011)

830

Page 3: [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2011.04.20-2011.04.22)] 2011 IEEE 19th Signal Processing and Communications

göre artık P(w) değeri hesaplanabilir. Bu formülde bölen değerinin satır bazında normalizasyon faktörü olduğu bilinmelidir. Görsel kelimelerin olasılıksal dağılımlarını ifade etmede kötümser bir yaklaşım temel alınarak hesaplama yapılmıştır. Bir önceki adımlardan öznitelik vektörü – görsel kelime tekrar etme histogramı P(w|v,img) elimizde bulunmaktadır. Bu histogramda her bir sütun verilen bir imge için bir kelimenin bir öznitelik vektörüne karşılık gelme olasılığını ifade etmektedir. Yaklaşım olarak görsel kelime w’nin imge içinde en düşük bulunma olasılığı sütun bazında görsel kelimenin olasılıksal dağılımlarının minimumu

olarak tespit edilir. İlave olarak olasılık dağılımlarının ortalaması

normal durumda elde edilmesi beklenen sonuçtur. Netice olarak önerilen yöntemde görsel kelime w’nin imgeye özel kelime kümesi histogramı için vereceği oy miktarı en kötümser yaklaşım ile bu iki beklentinin ortalama değeridir. Bu safha sonrasında her bir imge mevki bilgisi ile mesafe bilgisinin birlikte değerlendirildiği olasılıksal kelime kümesi histogramı ile ifade edilir.

5. PERFORMANS DEĞERLENDİRMESİ

Veri seti olarak 4.485 imgeden oluşan 15 kategorilik gri tonlamalı imge seti kullanılmış olup her imge sınıfından 100’er adet rastgele imge eğitim amaçlı seçilerek, geri kalan 2985 imge test amaçlı kullanılmıştır. Bu veri seti ilk olarak [2] tarafından kullanılmıştır. Literatürde en zorlayıcı veri seti olarak değerlendirildiği için sahne sınıflandırma çalışmalarında sıklıkla referans edilmekte olup kaynakça [11] adresinden erişilebilir. Görme alanındaki ışıklandırma, bakış açısı, ölçek ve algılamadaki belirsizlikler bu veri seti ile çalışmanın sahne sınıflandırma açısından ne kadar zor olduğunu ortaya koymaktadır. Sahne sınıflandırmada kaynakça [2, 6, 9] benzeri bir düzen alınarak öncelikle her bir imge kategorisinden 100’er adet imge eğitim seti için rastgele olarak belirlenir. Geri kalan 2985 imge test seti olarak kullanılır. Ön işleme aşamasında imge 256x256 boyuta çekilerek her bir sahne sınıfı için filtre bankası oluşturulur. Graf Temelli Görsel Önem algoritması kullanılarak yoğunluk, yönelme, tezat ve bunların bileşimi olan ana kanal olmak üzere 5, 9 ve 13 piksel ölçeklerinde filtreler elde edilir. Eğitim veri seti içerisinde yer alan imgelerin uygun filtre bankası elamanları ile ilişkilendirilmesi sonrasında yoğun bir şekilde imge bütününden birleştirilmiş öznitelik vektörleri çıkartılır. Rastgele olarak her bir kategoriden seçilen 40’ar adet imgenin ana kanallarından elde edilen yerel öznitelik vektörleri k-means kümeleme algoritmasına sokulur. Dikkat edilmesi gereken sadece aynı tipe ait yerel öznitelik vektörleri sırayla k-means algoritmasına sokularak her bir farklı imge bölgesi için farklı görsel kelime sözlüğü elde edilmiş olmasıdır. Arka plan bölgesi için 200 , ön plan bölgesi için 100 ve kararsız bölge için 150 kelimelik sözlükler elde edilir. İmgelerin görsel kelime kümesi ile ifadeleri bölüm 4’te anlatıldığı şekilde elde edilir. Sonuç olarak her bir imge için 3 farklı öznitelik vektörü kanalı ve 3 farklı görsel sözlük için olmak üzere toplam 9 farklı görsel kelimeler kümesi ifadesi elde edilir.

Sınıflandırma aşamasında Destek Vektör Sınıflandırıcısı (Support Vector Machine) Radyal temelli fonksiyon (Radial Based Function) ile kullanılarak bire karşı diğerleri yaklaşımı (one-versus-all) sınıflandırma işlemleri gerçekleştirilmiştir. Mesafe fonksiyonu olarak histogram kesiştirme yöntemi kullanılmıştır. Eğitim aşamasında her bir sahne kategori için kendisine ait filtre seti kullanılarak öznitelik betimleyicileri bulunmuş olup yine herbir kategori için ayrı bir destek vektör sınıflandırıcısı eğitildiğine dikkat edilmelidir. Test aşamasında her bir imge, ait olduğu kategoriye ait filtre setleri ile filtrelenerek daha önceden eğitilmiş destek vektör sınıflandırıcılarına girdi olarak verilir. Dolayısı ile test setindeki imgeler için ön işleme esnasında ait oldukları sınıfa ait filtre bankasındaki filtreler ile işlenmektedir. Her bir eğitilmiş destek vektör sınıflandırıcısının en yüksek sonucu verdiği sınıf etiketi imgeye atfedilir. Sınıflandırıcılardan elde edilen, her bir öznitelik vektör kanalı ve bunların farklı seviyeleri için toplam performans değerlerini gösteren sonuçlar içerisinde Tablo-1’de sunulmuştur. Sonuçlar incelendiğinde “arka plan” ve “karasızlar” tipine ait görsel sözlükler farklı öznitelik kanallarında yakın sonuçları vermektedir. “Ön plan” bölgesi diğer bölgelere göre 2% ile 5% arasında daha kötü sonuçlar vermiştir. Toplam değerlendirme yapıldığında “tutarsız” bölgesinden elde edilen görsel kelime kümesi “ön plan” ve “arka plan” bölgelerine göre daha iyi neticeler vermiştir. Öznitelik vektör kanalları değerlendirildiğinde ise tezat kanalından elde edilen sonuçlar tutarlı bir şekilde diğer kanallardan daha iyi netice vermiştir. Bunun nedeninin “arka plan” bölgesi ve kontrast kanalından elde edilen SIFT benzeri tanımlayıcıların dış çekim sahneler için yeterince belirleyici olmasıdır. Nihai olarak sınıflandırma sonuçları farklı görsel kelime sözlüklerinin bir araya getirilmesi ile toplam sınıflandırma soncu %9 oranında iyileştirilmiş olup bu veri seti için tarafımızca bilinen elde edilmiş en iyi değerdir. Sonuçları diğer bilinen sahne sınıflandırma yaklaşımları ile Tablo-2’de karşılaştırdığımızda elde edilen sonucun diğer çalışmaları yaklaşık %5 oranında geçtiği görülebilir.

Tablo 1: Farklı İmge Bölgeleri Ve Öznitelik Vektör Kanalları İçin Elde Edilen Test Sonuçları.

Doğruluk (%)

Öznitelik Kanalı I O C

Söz

lük

Tip

i

Arkaplan (200-D) 61.90 58.99 63.35

Ön Plan (100-D) 59.26 53.46 59.42

Kararsız (150-D) 62.57 59.45 63.85

Tüm Tipler (450-D) 73.70 67.53 77.45

Arkaplan (600-D) 76.75

Ön Plan (300-D) 74.27

Karasız (450-D) 79.73

Tüm Tip ve Kanallar (1350-D)

88.84

2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011)

831

Page 4: [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2011.04.20-2011.04.22)] 2011 IEEE 19th Signal Processing and Communications

Tablo 2: Test Sonuçlarının diğer çalışmalar ile karşılaştırılması.

Doğruluk (%)

Met

odla

r

Zheng et al., 2009, [13] 74.0

Yang et al., 2009, [14] 80.28

Lazebnik et al., 2006, [2] 81.4

Matsukava and Kurita, 2010, [12] 82.63

Wu and Rehg, 2008, [15] 83.3

Ergul and Arica, 2010, [9] 83.31

Bosch et al, 2008, [6] 83.7

Önerilen Yaklaşım 88.84

6. SONUÇ VE DEĞERLENDİRME

Bu çalışmada görsel kelime kümeleri yaklaşımını kullanan yeni bir imge sunumu yöntemi önerilmiştir. Öncelikle ön işleme aşamasında sahne tipine özel filtre bankaları Graf Temeli Belirginlik algoritması kullanılarak oluşturulmuştur. Diğer çalışmalarda filtreler öznitelik vektörü çıkartılması öncesinde normalizasyon amaçlı kullanılmış olup genelde bu amaçla klasik dağılım fonksiyonlarından faydalanmışlardır. Bu çalışmada ise filtreler, imgeyi normalize etmenin ötesinde her bir kategori için ayrıştırıcı özellik ve bölgeleri ön plana çıkartmakta kullanılmaktadır. Daha fazla ayrıştırıcılığı elde etmek amacıyla öznitelik vektörleri yoğun bir şekilde imgenin farklı kanallarından ve 3 farklı ölçekte çıkartılarak her bir kanal için birleştirilerek elde edilmiştir. Ayrıca ilave ayrıştırıcılığı elde etmek amacıyla 3 farklı imge bölgesi için 3 farklı görsel sözlük oluşturulmuştur. Diğer bir farklı yaklaşım olarak görsel kelime modeli Bayes yaklaşımı paralelinde olasılıksal bir şekilde ele alınmıştır. Önceki çalışmalarda görsel kelimelere verilen oylar eşit ağırlıklı ya da önerilen bir ağırlık algoritması ile mesafe temel alınarak belirlenmiştir. Önerilen çalışmada ise tüm öznitelik vektörleri ve görsel kelimeler model oluşturma aşamasında işleme dahil edilmiş; koşullu olasılık değerleri görsel kelimelerin bir imge içerisindeki hücresel alanlarda bulunmaları ve aralarındaki mesafe değerleri göz önüne alınarak hesaplanmıştır. Böylece klasik anlamda mevki bilgisinin kaybolduğu görsel kelime kümesi yaklaşımına ilaveten bu bilgi de olasılıksal olarak eklenmiş olmaktadır. Bu çalışmada önerilen sahne sınıflandırma algoritması literatürde yer alan en başarılı yöntemlerle aynı veri seti üzerinde karşılaştırılarak performans değerlendirmesi yapılmıştır. Ancak burada dikkat edilmesi gereken husus; çalışmanın bu aşamasında bir test imgesi için hangi filtre bankası kullanılacağının bilindiğinin varsayılmasıdır. Dolayısıyla, literatürdeki diğer çalışmalarla aynı şartlarda karşılaştırma yapılmamaktadır. Bu bildiride vurgulanmak istenen, sahne sınıflandırmada sahne bazlı ön işleme yapılarak sahne sınıfına özgü imge özelliklerinin ön plana çıkarılmasının sınıflandırma başarısını arttıracağıdır. Test imgesinde tüm filtre bankalarını ayrı ayrı kullanarak farklı özenitelik vektörleri çıkarılması, daha sonra Destek Vektör Makineleri sonuçlarını değerlendirerek sınıflandırma yapılmasına yönelik çalışmalarımız halen devam etmektedir. Önümüzdeki dönemde hangi filtre bankasının kullanılacağını belirlemeye ve öznitelik

vektör boyutunu azaltarak algoritmanın zaman karmaşıklığını düşürmeye yönelik çalışmalar planlanmıştır.

7. KAYNAKÇA

[1] Fei-Fei L. and Perona P. “A bayesian hierarchical model for learning natural scene categories,” Proc. IEEE CVPR, pp. 524-531, 2005. [2] Lazebnik S., Schmid C. and Ponce J. “Beyond bags of features: spatial pyramid matching for recognizing natural scene categories,” Proc. IEEE CVPR, vol. 2, pp. 2169-2178, 2006. [3] Szummer M. and Picard R.W. “Indoor-outdoor image classification,” Proc. Int’l Workshop on Content-Based Access of Image and Video Databases, 1998. [4] Jiang J., Ngo C.W. and Yang J. “Towards optimal bag-of-features for object categorization and semantic video retrieval,” ACM Int’l CIVR, 2007. [5] Nowak E. “Sampling strategies for bag-of-features image classification,” ECCV, 2006. [6] Bosch A., Zisserman A. and Munoz X. “Scene classification using a hybrid generative/discriminative approach,” IEEE Transections on PAMI, vol. 30, no. 4, 2008. [7] Lowe D. “Distinctive image features from scale invariant keypoints,” Int’l J. Computer Vision, vol. 60, pp. 91-110, 2004. [8] Harel J., Koch C. and Perona P. "Graph-based visual saliency,” Proceedings of Neural Information Processing Systems, 2006. [9] Ergul E. and Arica N. "Scene classification using spatial pyramid of latent topics," ICPR, pp.3603-3606, 2010. [10] Zhang J., Marszalek M., Lazebnik S. and Schmid C. “Local features and kernels for classification of texture and object categories: an in-depth study,” INRIA Technical Report RR-5737, 2005. [11] http://www.cs.unc.edu/~lazebnik/ [12] Matsukawa T. and Kurita T. “Scene classification using spatial relationship between local posterior probabilities,'' Proc. of VISAPP, Vol.2, pp.325-332, 2010. [13] Zheng Y., Lu H., Jin C. and Xue X. “Incorparating spatial correlogram into bag-of-features model for scene categorization,” ACCV, 2009. [14] Yang J., Yu K., Gong Y. and Huang T. “Linear spatial pyramid matching using sparse coding for image classification,” CVPR, 2009. [15] Wu J. and Rehg, J. “Where am i: place instance and category recognition using spatial pact,” CVPR, 2008. [16] Quattoni A. and Torralba.A. “Recognizing indoor scenes,” IEEE CVPR, pp.413-420, 2009.

2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011)

832