Standart sapma istatistik içerisinde araştırmalar için vazgeçilmez tanımlayıcı analiz ölçülerinden birisidir. İstatistiksel analiz raporlarımızda sıkça kullandığımız bu muhteşem ölçüyü, bu yazımızda derinlemesine inceleyeceğiz.
Standart sapma istatistikte hangi tür veriler için kullanılır? Yalnızca sayısal veriler için. Kategorik bir veri için standart sapma hesaplanamaz. Ancak sıralayıcı ölçeğe sahip olan puan türündeki veriler için kullanıldığını görüyoruz.
Bu tür veriler yabancı kaynaklarda kategorik olarak algılanmıyor ve sıra verisi olarak tanımlanıyor. Dolayısı ile skor gibi işlem görüyorlar.
Şimdi standart sapma kavramının matematiğine giriş yapalım.
Standart sapma nasıl hesaplanır?
Hesaplanması oldukça basit. Öncelikle ilgili değişkenimizin aritmetik ortalamasını hesaplıyoruz. Sonra her gözlemi aritmetik ortalamadan çıkartıyor; elde edilen farkların karesini alıyoruz.
Karesi alınan her gözlem için kareler toplamını hesaplayıp gözlem sayısına (n) bölüyoruz. Örneklem standart sapması için de (n-1)’e bölüyoruz.
Burada (n) değerine böldüğümüzde ana kütle için standart sapmayı hesaplıyoruz.
Aslında standart sapmayı, kısaca gözlemlerin ortalamadan sapmalarının kareli ortalaması olarak tanımlayabiliriz. Matematiksel açıdan en sade tanım bu.
Ancak bu tanım, anakütleye ilişkin standart sapma hesabı için baz alınabilir.
Bir pratik uygulamalarımızda anakütleye asla erişemeyiz ve örneklemler ile çalışırız. Örneklemler üzerinden çalıştığımız için, standart sapmayı da tam olarak bilemeyiz; ancak ve ancak tahmin edebiliriz ve dolayısı ile bir tahminciye ihtiyacımız var.
İstatistikte bildiğimiz üzere, tahmincilerin bazı özellikleri sağlaması gerekiyor. Bunların başında da yansızlık (ya da sistematik hatasızlık) özelliği geliyor. Standart sapma için yansız bir tahminci elde edebilmemiz için formülün payda kısmına (n-1) yazıyoruz ve artık s ile gösteriyoruz.
Paydadaki (n-1) yansızlık özelliğinin sağlanabilmesi için kullandığımız serbestlik derecesini ifade ediyor.
Matematiksel tanımların ardından pratik anlamda standart sapmanın istatistik alanında ne ifade ettiğinden bahsedelim.
Standart sapma bir değişkenlik ölçüsüdür. Verilerimizin aritmetik ortalama etrafında ne ölçüde değiştiğini ifade ediyor. Standart sapma, verilerin kendi merkezleri eksenindeki homojenliğini gsöstermesi açısından son derece faydalı.
Standart sapmanın yüksek olması verilerin genel olarak ortalamadan uzak bir şekilde konumlandığına işaret eder. Ama neye göre yüksek dediğimizde ortaya objektif bir karşılaştırma noktası koymalıyız. Cevap: aritmetik ortalamaya göre.
Eğer standart sapma istatistik analiz bulgularımızda aritmetik ortalamaya çok yakın ya da ortalamadan yüksek bir değere sahipse, homojenliğin de o ölçüde yüksek olduğunu söyleyebiliriz.
Standart sapma istatistik bilimi kapsamında yoğun olarak ekonomi ve finans uygulamalarında karşımıza çıkıyor.
Örneğin; bir hisse senedine yatırım yapacağız. Hisse senedinin risk hesabını gerçekleştirirken fiyatlara ilişkin standart sapmaları hesaplıyoruz.
Özellike portföy optimizasyonu gibi spesifik uygulamalarımızda, varyans-kovaryans matrisi üzerinden yatırımlarımızı en uygun oranlara göre gerçekleştirebiliyoruz.
Standart sapma istatistik analiz uygulamalarında da işimize çok yarıyor.
İstatistik testlerinde parametrik ortalama karşılaştırmaları amacı ile hesapladığımız tüm test istatistiklerinde standart sapma yer alıyor. İki bağımsız grubun ortalamalarını karşılaştırmak için kullandığımız t-testinde standart sapmayı kullanıyoruz. Varyans analizinde de, tekrarlı ölçüm analizinde de…
Hipotez testlerinde kimi zaman beklenmedik sonuçların alınmasına yol açan etmenlerin başında da standart sapma geliyor.
İstatistiksel analiz raporlarımızda bazı durumlarda iki grubun ortalaması arası fark sayısal olarak çok yüksek olmasına karşın fark anlamsız çıkıyor. Araştırmacılar bu durumdan hoşlanmasalar da, standart sapmanın yüksek olması test istatistiği sayısal olarak küçüldüğü için yüksek ortalama farklarını bile anlamsız hale getirebilir.
Test türünün seçimininde de araştırmacılar göz ucuyla standart sapmalara bakamadan yapamıyor. Parametrik veya non parametrik testi seçeceğimizi standart sapmaya bakarak belirleyebiliyoruz. Bu yaklaşımın içerisinde kısmen doğruluk payı olmasına rağmen, yanlışlık payı da var.
Aritmetik ortalamaya kıyasla yüksek bir standart sapma her zaman normallikten sapmayı göstermeyeceği gibi; merkezi limit teoremine dayanarak parametrik testleri kullanamayacağımızı da göstermez.
Standart sapma istatistik analiz kapsamında parametrelerimize dair güven aralıklarını hesaplamamız için de kullanılır. Örneğin; aritmetik ortalamaya ilişkin alt ve üst güven aralıklarını (belli bir hata payı ile, genelde %5) standart sapmaları da kullanarak hesaplayabiliyoruz.
Standart sapma değeri yükseldikçe güven aralıkları da genişlemektedir; bu da söz konusu parameteye ait belirsizliği artırır. Tam tersi de geçerli. Standart sapma küçüldükçe, güven sınırlarımız daralacak ve belirsizlik de azalacaktır.
Standart sapmalar çeşitli istatistiksel ölçüleri hesaplamak için kullanılabilir. Değişim katsayısını, korelasyon katsayısını (Pearson) hesaplarken standart sapmadan yararlanıyoruz. Çünkü standart sapma, değişkenliği ortadan kaldırıyor ve istatistiksel ölçülerimizin birimsiz olmasını sağlıyor. Kısacası ölçülerimizi standardize ediyor.
Bu özellik sayesinde birbirinden çok farklı değişkenler arasındaki ilişkileri ve değişkenlikleri ortak ölçüler üzerinden kıyaslayabiliyoruz.
Standart sapma istatistik içerisinde aykırı değer teşhisi için de kullanılabilir. Örneğin; basit bir kural ile 2 veya 3 standart sapma aralığının dışında kalan gözlemleri potansiyel aykırı gözlem olarak belirleyebiliriz. Ancak daha güvenilir yollar da var.
Mesela z-skorları bize aykırı değer konusunda daha net bilgi veriyor ve z-skorlarını hesaplanırken de standart sapmayı kullanıyoruz. Mahalanobis uzaklıklarının da bir köşesinde standart sapmalar var.
Şimdi de standart sapmanın hangi özelliklere sahip olduğunu inceleyelim.
Standart sapma eksi bir değer alamaz; yani standart sapma daima sıfır ya da sıfırdan büyük bir değer alır.
Eğer standart sapma sıfır çıkmışsa, bilin ki tüm gözlemlerimiz birebir aynı değere sahiptir.
Standart sapma aykırı veya uç değerlerden aşırı ölçüde etkilenir.
Verilerimizde sayısal olarak aşırı düşük ya da aşırı büyük bir gözlem varsa, standart sapma da olması gerekenden uzaklaşır. Kısacası, standart sapma aritmetik ortalama duyarlı olduğu için, aykırılıklara karşı aşırı duyarlıdır.
Standart sapma değişkene ait ölçü birimini içerir.
Standart sapma kullandığımız değişkenin ölçü birimi her ne ise (kg, km, cm vs.) kendi içerisinde o birimi de barındırır. Ölçü biriminden bağımsız olan yayılım ölçüsü, varyanstır.
Standart sapma ile standart hata aynı kavram değildir.
Standart sapma bir değişkenin değişkenliğini ölçümlemek için kullanılırken, standart hata ise parametre tahmincisinin değişkenliğini ölçümlemek için kullanılır. Özetle, standart hata parametre tahmincisinin standart sapmasıdır.
Standart sapma istatistik analiz raporlarımızda normal dağılıma uygun veriler için kullanılabilir.
İstatistik teorisi gereğince, normal dağılıma ilişkin parametre tahmincileri üzerinden hesaplanır. Ancak normal dağılıma uygun veriler için kullanılır. İstatistik branşında olmayan araştırmacıların ısrarla istatistiksel analiz raporlarında olmasında ısrar ettiği bu değişkenlik ölçüsü, yalnızca parametrik testler kapsamında kullanılır.
Merkezi limit teoremi gereği parametrik test kullanabildiğimiz durumlarda da standart sapmayı raporlarımızda kullanabiliriz.
Standart sapma istatistiksel analiz süreçlerinde birçok farklı istatistik yazılımı üzerinden hesaplanabilir. Örneğin; R programı ile sd() fonksiyonu ile hesaplayabiliriz. SPSS programı üzerinden Analyze -> Descriptive Statistics menülerini seçerek açılan pencereden kolayca elde edebiliriz.
Minitab programından da Stat -> Basic Statistics -> Display Descriptive Statistics menüleri üzerinden değişkenlerimizin standart sapma değerlerini bulabiliyoruz.
Standart sapma istatistik için son derece kıymetli bir değişkenlik ölçüsü. Bu yazımızda bu kıymetli ölçünün temel özelliklerini inceledik. İstatistiksel analiz süreçlerimizde standart sapmanın ne olduğunu, nelere yol açtığını ve hangi durumlarda kullanılabileceğini değerlendirdik.
Araştırmacıların bu muazzam ölçüyü hakettiği şekilde kullannması dileğiyle yazımıza son verelim.