Dayanıklı Korelasyon Katsayıları

dayanıklı korelasyon

 

Dayanıklı Korelasyon Katsayıları ve Kullanım Durumları

İstatistiksel analiz raporlarında korelasyon analizi sonuçları verilirken korelasyon katsayıları verilerek değişkenler arasından ilişkiler yorumlanmaktadır. Klasik korelasyon analizleri Pearson ya Spearman katsayıları üzerinden gerçekleştirilmektedir. Verilerimizde aykırı değer olduğu durumlarda ise dayanıklı korelasyon katsayılarına başvuruyoruz.

Aykırı değerler, istatistik analizi uygulamalarında büyük ölçüde göz ardı edilen bir olgudur. Ancak verilerimizde genel ölçümlerden farklı olarak aşırı ölçüde düşük ya da yüksek değerlerin var olduğu durumlarda istatistiksel analiz sonuçları hatalı çıkarımlara yol açmaktadır.

Söz konusu soruna korelasyon analizinde de rastlıyoruz. Yani verilerimizde aykırı değerler bulunuyorsa, alışık olduğumuz Pearson ya da Spearman korelasyon katsayıları hatalı sonuçlar üretebilirler.

Peki bu sonuçlar nasıl hatalı olur? Örneğin; iki nicel değişken arasında pozitif bir ilişki çıkması beklenirken negatif ilişki bulunabilir. Tam tersi de geçerli. Ayrıca istatistiksel olarak anlamlı çıkan bir katsayı anlamsız olarak hesaplanabilir.

Aykırı değerin var olduğu veri setlerinde ilişki düzeyi çok yüksek olan iki değişken arasındaki korelasyon katsayısı çok düşük hesaplanabilir. Özetle, aykırı değerler olması gereken korelasyon katsayılarının işaretlerini değiştirebilir ya da olduğundan daha düşük gösterebilir.

Bu durumda, dayanıklı korelasyon katsayılarını tercih etmek en doğru yoldur.

Verilerimizde kesin olarak aykırı değerin var olduğu saptadığımızı düşünelim. Şimdi aklımıza şu soru geliyor: Hangi dayanıklı korelasyon katsayısını kullanmalıyız?

Bunun için istatistiksel analiz literatüründe çok sayıda farklı dayanıklı korelasyon katsayısı önerilmiştir. En popüler olan iki dayanıklı korelasyon katsayısı Minimum Kovaryans Determinat (MCD) ve Minimum Hacimli Elipsoid (MVE) kovaryans matrisleri üzerinden elde edilen katsayılardır.

Bu katsayıların dışında da Winsorize korelasyon katsayısı, sıra korelasyonlarına dayalı özel dayanıklı katsayılar gibi çok sayıda farklı yöntem de mevcut.

Eğer gözlem sayımız çok yüksekse ve veri kaybından endişe duymuyorsak; olası aykırı değerleri tespit ettikten sonra onları silerek klasik korelasyon analizlerini uygulayabiliriz.

Esas olarak tüm bu yöntemlerin amacı olası aykırı gözlemleri silmek ya da veri setindeki ağırlıklarını azaltmak.

Dayanıklı korelasyon katsayısını uygulamak için istatistiksel analiz programı olarak en elverişli olanı kuşkusuz R-Project yazılımı. R yazılımının içerisinde alternatif dayanıklı yöntemlere ilişkin birçok paket var. Dayanıklı korelasyon katsayılarını SPSS gibi popüler yazılımlar ile doğrudan uygulayamıyoruz.

Sonuç olarak, nicel veriler arasındaki ilişki düzeyleri değerlendirmek istediğimizde ve gözlemlerimizde aykırı değerlerin var olduğu durumlarda dayanıklı (robust) korelasyon katsayılarını kullanalım.