Lojistik Regresyon Analizi ve Iskalanan Bir Konu: Sınıf Dengesizliği

lojistik regresyon sınıf dengesizliği

 

Lojistik Regresyon Analizi ve Bağımlı Değişken Grupları

İstatistiksel analiz raporlarında kategorik bağımlı değişkenli uygulamalar için en sık kullanılan tekniklerin başında lojistik regresyon modelleri gelmektedir. Bağımlı değişkenin ölçme düzeyine göre ikili (binary), sıralı (ordinal) veya multinomial (çok terimli)  lojistik regresyon analizi tekniklerinden birini kullanıyoruz.

Bağımlı değişken gruplarımızın oransal dağılımları, model sonuçlarını büyük ölçüde etkilemektedir. Bu durumu kısaca örneklendirelim.

Güncel konulardan birisi olan koronavirüs bulaşma durumunu modelleyen bir araştırma uyguladığımızı farz edelim. Bu amaçla seçtiğimiz bağımlı değişken bulaştı=1, bulaşmadı=0 biçiminde iki grup şeklinde tanımlansın. Bu araştırma için toplam 1000 kişi ile çalıştığımızı düşünelim. Çalıştığımız 1000 kişinin 950 tanesine koronavirüs bulaşmış, 50 tanesine de bulaşmamış olsun.

Verilerimizin koronavirüs bulaşma oranlarına bakıldığında, deneklerin %95’i koronavirüs bulaşmış ve %5’i de koronavirüs bulaşmamış kişilerden oluşacaktır. Sayılara kuşbakışı bakıldığında bile aradaki oransal fark çok net bir şekilde göze çarpmaktadır.

İşte bir veya birden fazla grubun oransal dağılımı diğer grup veya gruplara kıyasla büyük ölçüde düşük veya yüksek ise, sınıf dengesizliği problemi ile karşılaşmaktayız. Bu problem esasında tüm sınıflama modelleri için ortaya çıkmaktadır. Ancak çalışmaların ezici çoğunluğunda lojistik regresyon modellerine başvurduğumuz için, bu modellere özellikle dikkat çekilmektedir. Bu konu ayrıca incelenecektir.

Sınıf Dengesizliğinin Lojistik Regresyon Modellerine Etkisi

Sınıf dengesizliği, tüm sınıflayıcılarda olduğu gibi, lojistik regresyon modellerinde de problem oluşturmaktadır. Bağımlı değişkenin bir grubu diğer gruba göre çok daha düşük oranda temsil edildiğinde, tahmin edilen model düşük frekansa sahip olan grubu tahmin etmekte zorlanmaktadır.

Sınıflama tablolarında bu durumu net şekilde görebiliyoruz. Doğru sınıflama oranı, az gözleme sahip olan grup için çok daha düşük çıkmaktadır. Bazen bu oran sıfır bile oluyor! Bu durumda çok gözlenen grup, az gözlenen gruba göre daha iyi tahmin edilebiliyor.

Sınıf dengesizliğinin lojistik regresyon modellerinde yaratacağı bir diğer sonuç da anlamlılık değerleri üzerinedir. Anlamlı olan faktörler, sınıf dengesizliği nedeni ile anlamsız olabilmektedir. Modelin ürettiği odds oranlarında da aşırı düşük veya yüksek değerler de hesaplanabilmektedir.

Son söz olarak; lojistik regresyon analizi uygulamalarımızda bağımlı değişkenin gruplarına göre bir dengesizlik gözlemlediğimizde, doğrudan ham verileri kullanmak yerine bu problemi çözmeye yönelik istatistiksel çözümlere başvurmamız gerektiğini söyleyelim.