Aykırı Değer Tespitinde Aritmetik Ortalama ve Medyan Değerlerinin İncelenmesi

aykırı değer ortalama medyan

Aykırı Değer ve Tanımlayıcı İstatistikler

Aykırı değer (outlier), istatistik analizi sürecinde verilerimizde bulunan aşırı uç değerlerden oluşan gözlemleri temsil etmektedir. Verilerimizin genel yapısına göre aşırı ölçüde yüksek veya düşük gözlemler aykırı değer olarak tanımlanabilir. Söz konusu aşırı değerler bazı dışsal faktörler, istisnai durumlar veya yanlış veri girişi nedeni ile gözlemlenebilmektedir.

Bu değerleri sayısal değişkenler kapsamında değerlendirdiğimizi vurgulayalım.

Verilerimizde bulunan bu tür aşırı ölçüde yüksek veya düşük değerli gözlemler, tanımlayıcı istatistik değerlerinde büyük değişimlere yol açmaktadır. Bu durumu örneklendirmek için aşağıdaki basit verilere göz atalım:

Yaş: 10, 11, 11, 12, 12, 12, 14, 14, 15, 100

Yukarıdaki satırda 10 kişiye ait yaş değerleri yer alıyor. İlk dokuz kişinin yaş ortalamasına bakıldığında, aritmetik ortalama değerinin 12.3 olduğunu görebiliyoruz. Ancak 10. sıraya 100 yaşında bir teyze dahil oluyor ve bu teyzenin yaşının aykırı değer olduğunu açıkça görebiliyoruz. Teyzenin yaşını dahil ettiğimizde, aritmetik ortalama 21.1’e yükseliyor.

Şimdi şu soruyu sormanın tam zamanı: Sizleri bir toplantı salonuna gözleriniz bağlı olarak götürsek ve bu sınıftaki kişilerin de yaş ortalamasının 12.3 olduğunu söylesek, muhtemelen bu toplantı salonundaki kişilerin ortaokul çağındaki çocuklardan oluştuğunu düşünürsünüz.

Ancak salondaki kişilerin yaş ortalamasının 21.1 olduğunu söylediğimizde, gözleriniz kapalı iken muhtemelen bu salondakilerin üniversite çağındaki gençlerden oluştuğunu öngörebilirsiniz.

Gördüğümüz gibi, tek bir gözlem genel veri düzeninden büyük ölçüde farklı olduğunda aritmetik ortalama da değişiyor.

 

Aritmetik Ortalama ve Medyan Değerlerinin Aykırı Değer Tespitindeki Rolü 

Bir önceki örnekte gördüğümüz üzere, aritmetik ortalama aykırı değerlere karşı son derece duyarlı bir tanımlayıcı istatistik. Bu durumda verilerimizdeki aşırılıkları tanımlayıcı istatistiklere yansıtmayacak, dayanıklı (robust) istatistiklerden yararlanabiliriz. Bu istatistiklerin en başında da medyan geliyor.

Peki verilerimizde aykırı değer olup olmadığını aritmetik ortalama ve medyan değerlerine bakarak söylememiz mümkün mü? Evet, mümkün, ama her zaman değil. Çünkü sadece ortalamaların değil, varyans değerlerinin de etkisi olabilir ve bu yaklaşıma varyans şerhini de koymamız gerekiyor.

Verilerimizde aritmetik ortalama ve medyan değerleri arasında çarpıcı bir farklılık oluşuyorsa, aykırı değerin varlığından şüphe duymalıyız. Ölçümlerin çarpıklık-basıklık düzeylerine göre de bu farklılık oluşabilir ama söz konusu farklılık gözle görülür ölçüde ise, aykırı değerin var olduğunu sezebiliriz.

Aritmetik ortalama ve medyan değerleri arasındaki farklılığın ne ölçüde büyük olduğunu belirlemek için mutlaka araştırma değişkenimizin doğasını tanımalıyız. Örneğin kan şekeri için 10 birimlik bir fark çok önemli değilken; Hba1c için 10 birimlik bir fark muazzam etki yaratır!

Benzer şekilde, bir önceki yaş örneğimizi anımsayalım. Bu veride medyan değeri 12’dir, aritmetik ortalama ise 21.1 olarak hesaplanmıştı. Yıl açısından bakarsak; yaklaşık 9 senelik bir yaş farkı oluşuyor.

Verilerimize dair aritmetik ortalama ve medyan değerlerini istatistik analiz yazılımları (R-Project, SPSS vb.) sayesinde kolaylıkla hesaplayabilir ve aradaki sayısal farklılığı gözlemleyebiliriz.

Son söz olarak, medyan ver aritmetik ortalama değerlerimiz gözle görülür ölçüde farklı bulunuyorsa, aykırı değerin varlığına dikkat diyoruz.