İstatistiksel Bilgilendirme
Kukla değişken, kategorik olarak tanımlanmış verilerin kodlanması ile oluşturulan özel bir değişken türüdür. Özellikle regresyon analizlerinde, sayısal veri yapıları üzerinden kukla değişken oluşturulduğunu bilimsel araştırmalarda sıkça görmekteyiz.
Şimdi bu değişken türü üzerinde detaylıca duralım.
Cevabı peşinen verelim:
Kullandığımız analiz tekniğine bağlı olarak zorundayız.
Ortalama karşılaştırma testlerinde böyle bir zorunluluğumuz yok.
Örneğin; dört gruba sahip bir eğitim durumu değişkenimiz var ve eğitim gruplarına göre yaşam doyumlarını karşılaştırmak istiyoruz.
Normallik varsayımının altında, eğitim grupları arasında yaşam doyumunu puanlarını karşılaştırmak için varyans analizi (ANOVA) uyguluyoruz.
ANOVA için kukla değişken oluşturmak zorunda değiliz.
Aynı durum diğer testler için de geçerli. İster t-testi, ister Kruskal-Wallis testi, ister Friedman testi…
Aksine, kukla değişken kullanmamız bu testleri uygularken doğru da değil.
Benzer şekilde kategorik veriler arasındaki ilişki testlerinde de kukla değişken kullanmıyoruz.
Örneğin; cinsiyet grupları ile kan grupları arasında bir ilişkinin varlığını test edelim. Bu amaçla (uygun koşullarda) ki-kare bağımsızlık testi uygulayabiliriz.
Ki-kare bağımsızlık testini uygularken kukla değişken oluşturamayız.
İster ki-kare bağımsızlık testi, ister McNemar testi … Aynı durum geçerli.
Aksine, kukla değişken kullanmamız bu testleri uygularken doğru da değil.
Ancak regresyon analizlerinde durum biraz farklı.
Ancak modelimizde bağımsız değişken tarafında bu durum geçerli. Bağımlı değişken için değil.
Peki bunu nasıl gerçekleştiriyoruz?
Bunun için iki yolumuz var:
1. Kullandığımız kategorik değişken içerisinden referans bir grup seçerek gerçekleştirebiliriz.
2. Doğrudan tüm grupları kullanarak gerçekleştirebiliriz.
Birinci yolun en sık tercih edilen yol olduğunu söyleyelim.
Bu yolda, kategorik değişkenimizin bir grubunu feda etmek durumundayız.
Değişkenimizin bir grubunu referans seçiyoruz ve o referans grubu analiz dışında bırakıyoruz.
Örneğin; medeni durum değişkenini bağımsız değişken olarak regresyon modelimizde kullanacağımızı düşünelim. Medeni durumu evli, bekar ve dul şeklinde üç gruba ayıralım.
Üç grup arasından herhangi birisini referans olarak seçip, kalan yorumları da o gruba göre yapmak durumundayız.
Eğer evli grubunu referans alırsak; bu sefer tüm yorumlarımızı bekar ve dul olan katılımcıları evlilere göre kıyaslayarak yapıyoruz.
Pratikte, iki sütün şeklinde bir yapıyı kullandığımız istatistik yazılımına tanımlıyoruz.
Bu durumu genelleştirirsek, K gruplu bir değişken için K-1 adet sütuna sahip değişkenler oluşturmamız gerekmektedir.
Sütunda her gözlem, ilgili grubun var olduğu durumlada 1, olmadığı durumlarda 0 değerini alır.
Örneğin; birinci katılımcının bekar olduğunu düşünelim. Medeni durum için de yine evli grubu referans alalım.
Veri girişi için bu sefer bekar grup için oluşturulan sütundaki gözlem değeri 1, dul grup için oluşturulan sütundaki gözlem değeri de 0 olmalı.
Aşağıdaki görselde bu durumu kısaca örneklendiriyoruz.
Gördüğünüz gibi referans grup için (evli grubu) sütün veri setimizde yer almıyor. Sadece referans grup dışındaki iki değişkenş sütun halinde verimize tanımlıyoruz.
İkinci kullandığımız yaklaşımı da referans grup oluşturmadan gerçekleştiriliyor.
Bunun için yapmamız gereken bir işlem var.
O da modeldeki sabit terimi feda etmek.
Bu durumda sabit terim olmadan regresyon analizini uygulamamız gerekiyor.
Sabit terimsiz bir model oluşturmak, kullanılan istatistiksel analiz programları üzerinden mümkün.
Hepimizin bildiği ismiyle, beta sıfır değerini sıfıra sabitlediğimiz bir regresyon modeli oluşturmaktan bahsediyoruz.
Bu konuda R son derece basit bir seçenek sunuyor.
Diğer programlarda da buna uygun tahmin yöntemleri mevcut.
SPSS, Stata, Minitab gibi programlarda da sabit terimsiz regresyon analizi yapabiliriz.
İstatistik şirketlerinde bu tür kategorik verileri sayısal olarak analize katan hatalı yaklaşımların varlığını da gözlemliyoruz.
Regresyon analizi için şunu da ilave etmekte fayda var.
İster normal lineer regresyon, ister lojistik regresyon, ister Poisson regresyon analizi, ister beta regresyon analizi olsun.
Tüm regresyon analizi türlerinde bağımsız değişkenlerimiz kategorik ise kukla değişken oluşturmalıyız.
İstisnasız tüm regresyon analizlerinde bu durum söz konusu.
Literatürde regresyon analizlerinde görüldüğü kadarı ile, bilimsel makalelerin çoğunluğunda referans grup oluşturarak kukla değişkenlerin oluşturulduğunu vurgulayalım.
Az sayıda çalışma, makalemizde bahsettiğimiz ikinci yaklaşıma başvuruyor.
Bu yazımızda genel hatları ile kukla değişkenlerin nasıl oluşturulduğuna değindik. İstatistiksel analizlerde nasıl kullanacağımızı özetle anlatmaya çalıştık.
Kuşkusuz farklı veri bilimi uygulamalarında kategorik bağımsız değişkenleri tanımlarken farklı yollara başvuruyoruz.
Yine klasik istatistik tekniklerinde olduğu gibi, farklı analiz tekniklerinde kukla değişkeni kullanmamız ve kullanmamamız gereken durumlar bulunuyor. Algoritmanın çalışma prensibine göre yeni sütunlar tanımlamadan da analizlerimizi uygulayabiliyoruz.
Gelecek yazılarımızda diğer istatistik programları (SPSS, Minitab vb.) ve güncel veri bilimi algoritmalarında (makina öğrenme, veri madenciliği) bu konuya daha detaylı değineceğiz.