Tez İstatistiklerinde Analiz Hataları

Tez İstatistiklerinde Analiz Hataları ve Çözüm Önerileri

Lisansüstü tez çalışmalarımızda istatistiksel analiz tekniklerini yoğun olarak kullanıyoruz ve kullanmaya devam edeceğiz. Araştırma sorularımızın cevaplarını, kuşkusuz istatistiksel bulgular bize sunuyor ve bu sebeple, analizlerin doğru şekilde uygulanması gerekiyor. Tez istatistiklerinde analiz hataları, çalışmamızı değersiz kılabilme potansiyeline sahip tehlikelerin başında geliyor.

Bu yazımızda, temel düzeyde, tez için istatistik süreçlerinde analiz hataları nelerdir ve nasıl çözümlenir gibi kilit sorulara yanıt arayacağız.

Tanımlayıcı İstatistik Hataları

Tez istatistiklerinde analiz hatalarının başında; tanımlayıcı istatistiklerin yanlış verilmesi geliyor.

Sayısal ölçümlerimize ait tanımlayıcı istatistikleri paylaşırken, tezlerimize ait analiz bölümlerinde halâ aynı soruları duyuyoruz:

Neden aritmetik ortalamaları paylaşmadık?
Ölçümlerin standart sapmalarını neden vermedik?
Neden sadece medyan değerini paylaştık?
Kartiller arası açıklık? O da ne!

İşte bu sorular, araştırmacıların zihninde ciddi bir yer kaplamaya devam ediyor.

Aslında yanıt son derece basit: Tanımlayıcı istatistikler, verilerin normalliğine bağlıdır.

Özellikle istatistiksel hipotez testlerine dair bulgularımızda, normal dağılan sayısal değişkenlere ait aritmetik ortalama ve standart sapma; normal dağılıma uygun olmayan sayısal değişkenlere ait medyan ve kartiller arası açıklık değerlerini veriyoruz.

Kartiller arası açıklık, verilerimizdeki yayılımı gösteren bir istatistiksel ölçüdür. Çoğu zaman da IQR olarak gösterilir. Verilerimizin 3. kartil değeri ile 1. kartil değeri arasındaki farkı alınarak hesaplanan, basit bir istatistiktir.

İstersek verilerin yayılımını göstermek için minimum-maksimum istatistiklerini de paylaşabiliriz.

Hipotez testlerinden Mann-Whitney U, Kruskal-Wallis, Friedman testi gibi teknikleri kullandığımızda aritmetik ortalama ve standart sapma kullanmak hatalı bir yaklaşımdır. Çözümü de yukarıda bahsettiğimiz gibi; medyan, kartilleri arası açıklık veya minimum-maksimum istatistiklerini raporlamaktır.

Benzer şekilde hipotez testlerinden bağımlı-bağımsız örneklemler t-testi, varyans analizi (ANOVA), tekrarlı ölçüm analizi gibi teknikleri kullandığımızda medyan ve kartiller arası açıklık kullanmak hatalı bir yaklaşımdır. Çözümü de benzer şekilde, ifade ettiğimiz gibi; aritmetik ortalama ve standart sapma istatistiklerini sunmaktır.

Tez istatistiklerimizde kimi zaman danışmanların ısrarcı tutumlarına karşın, tanımlayıcı istatistiklerde doğru ölçümleri raporlamalıyız. Tez istatistiklerinde analiz hatalarının en başında gelen bu durumu tersine çevirmek için belli başlı referansları kullanmak yeterli.

Anlamlılık Yorumu Hataları

Tez istatistiklerinde analiz hatalarından birisi de, anlamlılı değerlerinde yapılan yorumlama hatalarıdır.

Araştırmalarımızda biz çoğunlukla, %5 hata payı ile çalışmamıza başlıyoruz.

Ekonometrik çalışmalarda bu sınır %10’a kadar çekilebiliyor.

Buna göre istatistik testlerinde anlamlılık, yani diğer deyişle p-değerleri 0.05’ten küçük olduğunda, ortalamalar arası farklılıkları karşılaştırıyorsak, farkların anlamlı olduğu sonucuna varıyoruz.

Aynı şekilde ilişki testlerini uyguluyorsak, p-değerleri 0.05’ten küçük olduğunda değişkenler arası ilişkilerin anlamlı olduğunu düşünüyoruz.

Buna göre tezlerimizde 0.05’ten küçük p-değerlerini görünce, farkların ya da ilişkilerin anlamsız olduğu sonucuna varmak yanlıştır. Bunun tam tersi de geçerli; p değeri 0.05’ten büyük-eşitse, bu durumda farklar ya da ilişkiler istatistiksel olarak anlamlı olduğunu belirtmek de yanlıştır.

Normallik Testlerinde Yapılan Hatalar

Tez istatistiklerinde analiz hatalarından bir diğerine, normallik testi konusunda rastlamaktayız.

Tezlerimizin istatistiksel analiz bölümlerinde normallik testlerine ya hiç değinilmiyor, ya da yanlış durumlarda yanlış test uygulanıyor.

Bir kere şunu kabul edelim: Sayısal ölçümlerin olduğu her yerde, hipotez testlerini uygulamadan önce normallik testlerini uygulamamız gerekiyor (Yüksek örneklemler istisna).

Normallik testlerinden en popüler olan ikisi, Shapiro-Wilk ve Kolmogorov-Smirnov testidir.

Shapiro-Wilk testi, gözlem sayısı n<50 iken uygulanmalı, çünkü testin geliştiricileri, gözlem sayısı 50’den düşük olduğunda daha güçlü olduğunu açıkça belirtmiş.

Kolmogorov-Smirnov testi de gözlem sayısı 50 veya daha yüksek iken kullanılmalı. Çünkü test sürecinde örneklem istatistiklerini kullanıyor ve gözlem sayısı yüksek olduğu durumda daha güvenilir sonuçlar veriyor.

Ancak araştırmacılar, bu noktada tam tersini yaparak, gözlem sayısı 50’den düşük olduğunda Kolmogorov-Smirnov testini, diğer durumda da Shapiro-Wilk testini kullanıyor.

Bir de Shapiro-Wilk testi için normallik testlerinde gözlem sayısı için eşik değeri n=30 olarak alıyorlar. Halbuki bahsettiğimiz gibi, eşik değer 50 alınmalı.

Normalliği test ederken grafiksel sonuçları üzerinden karar vermek de, tez istatistiklerinde analiz hatalarından birisi ve bu olguya tezlerde rastlıyoruz.

Grafiksel sonuçlar, bize yalnızca sezgisel bulgular verir; normalliğe ilişkin kesin sonucu testlerden alıyoruz.

Normallik testi için doğrudan ham çarpıklık-basıklık değerlerini kullanmak da hatalıdır ve bu durumdan kaçınmamız gerekir. Biz her zaman istatistiksel hipotez testlerine güveniriz ve çarpıklık-basıklık değerleri için de aynı yolu tercih etmeliyiz.

Bunun için hem çarpılık hem de basıklık istatistiklerinin standart hatalarını hesaplayarak, çarpıklık değeri için 0, basıklık değeri için de 3 değerini test etmeliyiz.

Yanlış Hipotez Testi Seçimi

Tez istatistiklerinde analiz hatalarından bir diğeri de kullanılan hipotez testlerinin yanlış seçilmesi.

Bu hatayı özellikle ortalama karşılaştırma testlerinde yapıyoruz.

Sayısal verilerin gruplara göre normal dağılıma uygun olması durumunda parametrik testleri, normal dağılıma uygun olmadığında da non-parametrik testleri kullanmalıyız.

Çoğu tez çalışmasında normallik varsayımına değinmeden, doğrudan hipotez testlerinin uygulandığına şahit oluyoruz.

Hatta daha da ileri gidersek, verilerin normalliğine göre doğru seçilmiş hipotez testlerinin dahi danışmanlar tarafından değiştirilerek yanlış testlerin uygulanarak, yanlış bulguların raporlandığını dahi gözlemleyebiliyoruz.

Örneğin; iki grup arasında bir sayısal değişkenin bir grubunda normal dağılım varsayımının sağlandığını, diğerinde ise sağlanmadığını düşünelim. Bu durumda Mann-Whitney U testini kullanmalıyız. Israrla t-testinin uygulanmasını istemek, hatalı bir yaklaşım olacaktır.

Ancak burada istisnaların da olduğunu ilave edelim.

Bir araştırmacının elinde her grup için n=30 veya daha fazla gözlem varsa, parametrik testleri kullanabiliriz. Merkezi limit teoremi, bu durumda normallik varsayımına bakılmaksızın parametrik testlerin kullanılabileceğini açıkça kanıtlamış.

Bu durumda, ısrarla parametrik olmayan testlere başvurulmasını istemek de hatalı olmasa da, doğru bir yaklaşımı oyun dışı bırakmak anlamına gelir. Bu tutumun da doğru olduğu kuşku götürür.

İstatistikçilerin bir başka görüşü de, olabildiğinde parametrik testleri kullanmak için çaba göstermektir ve bu yaklaşım son derece doğrudur, çünkü parametrik testler daha güçlüdür.

Çoklu Karşılaştırmalarda Düzeltme Uygulamamak

Tez istatistiklerinde analiz hatalarından bir başka türü de, çoklu karşılaştırma testlerinde düzeltmelere başvurmamaktır.

Örneğin; bir veri seti için Kruskal-Wallis testi uyguladık ve gruplar arası farkın anlamlı olduğunu bulduk.

Şimdi Mann-Whitney U testi ile ikili karşılaştırmalar yaparak çoklu karşılaştırma yapmak istiyoruz. Bu durumda, tip-1 hatadan kaçınmak adına, istatistiksel düzeltmelere başvurmamız gerektiği kaçınılmazdır.

En sık kullanılan düzeltmelerin başında da Bonferroni düzeltmesi geliyor. Elbette Holm, Hommel, Hochberg gibi alternatif düzeltmeleri kullanabiliriz.

Eğer söz konusu düzeltmeleri yapmadan çoklu karşılaştırma testlerini uygularsak, hatalı bir yaklaşımda bulunmuş oluruz.

Bu olguya özellikle varyans analizi (ANOVA), Kruskal-Wallis, Friedman, tekrarlı ölçüm analizi gibi k>2 grup arasında uygulayabileceğimiz hipotez testlerinde dikkak etmemiz ve söz konusu düzeltme hatasından kaçınmamız gerekiyor.

Sonsöz

Bu yazımızda başlıca tez istatistiklerinde analiz hatalarına dikkat çektik ve çözüm önerilerine kısaca değindik.

Hiç şüphesiz, yapılan hatalar yukarıdaki cümlelerde bahsettiklerimiz ile sınırlı değil, ancak bunlar en çok karşılaşılan ve en basit hatalar bütününü oluşturuyor.

Tezlerimiz, bir ömür peşimizi bırakmayacak eserler ve bu eserlerin de en güzel şekilde hazırlanabilmesi için olası basit hatalardan kaçınmak en temel görevlerimizin başında geliyor.

Yapılacak şey son derece kolay: Doğru kaynakları okumak ve doğru istatistiksel referanslar üzerinden istatistiksel analizlerimizi uygulamak.

Tez İstatistiklerinde Analiz Hataları