24 Ağustos 2010 Salı

istatistiğin faydaları



elimde soldaki grafik var. bunu anlamlandırmam gerekiyor. her satır bir özellik dağılımını ifade ediyor (bunlara "feature distribution" diyeler) . sol kolon kütüphane binalarının ortalama olarak birbirinden ne kadar farklı olduğunu gösteriyor. ortadaki kolon kütüphane binalarının ortalama olarak seçtiğim diğer tipolojilere ait binalardan ne kadar farklı olduğunu, en sağdaki de rastgele olarak üretilen binalarla benzerliğini ifade ediyor.

sondan 3 - 6 arası satırlara bakılacak olursa bazı analizler istendiği gibi kütüphane binalarının birbirine daha çok benzediği, ondan sonra diğer binalara ve en az da rastgele düzenlemelere benzediği dağılımlar üretmişler. iyi gibi.. ama iyi gibi mi? yani bu sonucu güvenle ileri sürebilir miyiz? bir seri sorun var, birincisi, bu kütüphaneler biçimsel ve işlevsel olarak farklı alt gruplara aitler ve her bir alt grubu temsil edecek yeteri kadar örnek yok. diğer binalar dediğim de hepi topu 3 bina. ayrıca ortalama değeri tek başına bir şey ifade eder mi? bakınız aşağıdaki grafiği inceleyerek iyi sonuç veren özellik analizlerinden birini anlamaya çalışalım (üstteki grafikte sondan 5. satıra karşılık geliyor):


13 bina tek tek boyanmış (rastgele üretilen 6 adet bina elle boyanmadı elbet), bunlar sayısallaştırılmış, sonra çeşitli "özellik histogramları" üretilmiş (dağılımları histogramlarla temsil ediyoruz), sonra bu histogramlar teker teker karşılaştırılmış, yandaki 19*19'luk matris bu tip bir tek özellik histogramı üzerinden her bir binanın diğerlerine uzaklığını görselleştiriyor. birbirinin aynı olunca siyah (bkz. diyagonal), en büyük uzaklık ise beyaz. mesela troyes ve usher diğerlerine bu özelliğe ilişkin dağılım açısından epiy benziyorlarmış (soldan 8. ve 10.) seattle ise hepsinden epiyce farklı, şaşırtıcı da değil. kütüphane binalarını karşılaştıran 10*10'luk alan en koyusu, sonra takip eden 3 sıra 3 kolon, en sondaki 6 sıra ve 6 kolon ise baya açık renkli görülüyor. sağ üstteki 6*6'lık alan rastgele düzenlemelerin genel olarak birbirine benzediğini anlatıyor. şimdi ilk grafikteki siyah-gri-beyaz geçişi daha anlamlı görünüyor. ama söz söylemek için yeterli mi? mesela bazı binalar birbirlerine uzak ama rastgele düzenlemeye daha fazla benziyor? bunu nasıl değerlendiricez? şimdi burada ilk başta yapabildiğim bu 10*10'luk alanın sonra 10-13 arası ve en son da 13'ten sonraki alanların ortalamasını almaktı (mayıs-temmuz arası kaldığım nokta buydu). en yukarıdaki grafik onu ifade ediyor. fakat bi de şu grafiğe bakalım, bunu bugün yaptım:

hmm.. buna "boxplot" diyorlarmış. 1-2-3 (3*i +1, 2, 3) numaralı kutular tek bir binaya ait. 10 adet kütüphane için bir üstteki çıktının başka bir görselleştirmesi oluyor bu. şimdi en sağdaki üçlüye bakarsak, 28 numara 10 numaralı binanın (usher) diğer kütüphanelerle uzaklığının dağılımını gösteriyor. "range" oldukça geniş. ama ortadaki kutu örneklemin %50'sini kapsıyor, kırmızı çizgi ise ortalama değer. 29 numara usher'in diğer tip binalarla farkının boxplot'u ve en sağda rastgele binalarla uzaklığının dağılımı (bu bağlamda fark ve uzaklık denk bir anlamda kullanılıyor). şimdi burda umutlu olmak için de sebep var fazla sevinmemek için de. görülebileceği gibi en az altı adet binada dağılımların asıl ağırlığı (kutulara denk gelen %50) rastgele binalarla örtüşmüyor. ve tam istediğimiz şekilde diğer tipolojideki 3 bina da daha benzemez imişler (istenen sonuç). yine de çoğu bina en az bir adet rastgele binaya en az bir adet normal binaya olduğu kadar uzak (tatsız sonuç).

şimdi bu çıktılar ilk sınanan tüm özellik dağılımları için bir bir üretildi. ama yorumlanacak çok konu oluyor. mesela 8 ve 10 numaralı binaların uzaklıklarının dağılımları birbirine çok benziyor. yukarıda yazdığım gibi bu iki bina birbirlerine bu özellik açısından da oldukça benziyormuş. bu ilginç bir sonuç çünkü böyle olmak durumunda değildi. iki binanın planlarını inceledim. pek de birbirine benzetemedim. hmm. bu durum binaları manuel olarak alt gruplara ayırmanın çok sağlıklı olmayabileceğine işaret ediyor. (bunu otomatik olarak yapmak için bir takım istatistiki teknikler var ama onları öğrenmeden bitirmek istiyorum artık bu doktorayı, lütfen)... altından kalkmak güç. dolayısıyla daha sınırlı bir alanda dikkatlice ilerlemek gerekiyor.

burada istatistik tekniği demeye değer bişey henüz kullanılmadı. aslında asıl iş bu görsel incelemeden sonra başlıyor. yine de bir istatistiğe giriş dersinin ardından elimdeki rastgele düzenleme sayısının az olabileceğini anladım. diğer binaların sayısı da çok az. kütüphaneler arasından da daha bilinçli bir şekilde az sayıda alt tipolojiyi düşünerek seçme yapıp örneklemimi genişletmem gerekiyor. son olarak, ilk denediğim özellik dağılımlarının hiç biri yeterli ayrımsama gücünü elime vermedi. ama.. çalışmaya devam. en azından nereye odaklanılması gerektiği ve nelerin çalışmadığı açıkça görülebiliyor.

3 yorum:

kozmonot Lar dedi ki...

bu tür bi programın tıpta hastaların röntgen filmlerini karşılaştırmada kullanıldığını okumuştum. akciğer filmleriydi sanırım... istatistiksel sonuçlar veriyomuştu program... "Doktor"a da gerek kalmıyomuştu, felan. enteresan işler... aslinda en enteresanı öğrenebilen programlar. besliyosun programı, işte mesela bu A, bu da A, bu da A; bu A değil diye... program analiz ediyo kendi ve sonradan girdiğin data A mı, %kaç A falan söylüyo... böyle bişi mi yapıyorsun?

gönülsüz dedi ki...

hah! işte ben de o makalelere bakıp bakıp içlenmekte, bu teknikleri nasıl eder de kullanırım demekteydim.. tarif ettiğin programlara (A'dır B'dir diyen) klasifikasyon uygulamaları diyeler (ve mesela yapay nöral ağlarını bu işlerde kullanmaktalar), benim durumumda sadece klasifikasyon yeterli gelmiyor, ne kadar benzer-benzemez olduğunu da söyleyebilmeliyim ki tasarım sürecinde tasarım alternatifleri istenen örneklere doğru yavaş yavaş ilerlesinler... işte o yüzden pattern recognition ve klasifikasyon mevzularından (doktorun kullandığı programlar türünden) girip shape retrieval mevzularına (google'ın yeni görsel arama motorunda kullanılan teknikler türünden) vardım. ve bu shape retrieval alanında otomasyon çalışmaları için bir hazine yatıyor!! daha anlaşılır olanlarından başlayarak bu insanların tekniklerini kullanmaya çalışıyorum... bu yüzden matematik çalışmam gerekti işte.

kozmonot Lar dedi ki...

hmm... zor iş ama güzelmiş.