İstatistiksel analiz uygulamalarında, bağımlı değişkenler üzerinde etkisi olduğunu düşündüğümüz bağımsız değişkenlerin istatistiksel etkilerini değerlendirmek amacı ile regresyon analizini kullanıyoruz. Regresyon analizi ve değişken seçimi, çok sayıda bağımsız değişkenimizin bulunduğu durumlarda üzerinde durmamız gereken önemli bir adım olarak karşımıza çıkıyor.
Regresyon analizi ve değişken seçimi konusuna temel bazı istatistiksel konuları aydınlatarak başlayalım.
İstatistik analizi uygulamalarında, bizler için kilit konumda olan bazı değişkenler bulunmaktadır. Sağlık alanında tıbbi parametreler (hba1c, hdl, vb.), beslenme ve diyetetik alanında bedensel indeksler (ABSI, VAI vb.), ziraat alanında ürün verimi gibi çok sayıda değişken araştırmalarımızda önemli unsurlar olarak yer almaktadır.
Araştırmacılar olarak, kendi alanımızda son derece önem arz eden bu tür kilit değişenlerimiz üzerinde hangi faktörlerin etkili olduğunu doğal olarak bilmek isteriz. Bir sonraki adımda, bu değişkenlerimizi tahminleyebilecek istatistiksel modeller oluşturmayı bekleriz.
Tüm bu işlemleri yapabilmek için, bizim için kilit konumda olan bağımlı değişkenlerimizi hangi bağımsız değişkenlerin etkilediğini bilmek isteriz. Bu amaçla bağımlı değişken üzerinde etkisi olduğunu düşündüğümüz bağımsız değişken kümesi arasından en uygun değişkenleri seçmemiz gerekir.
Peki neden bunu yapmalıyız? Tüm olası faktörlerle bir model oluştursak bizler için daha iyi olmaz mı?
İlk bakışta zihnimize mantıklı gelse de, istatistiksel analiz açısından bu soruya “Hayır” cevabını vermek zorundayız.
Regresyon analizinde amaç; en az bağımsız değişken ile en uygun istatistiksel modeli oluşturmaktır. Çünkü her değişken, regresyon modeli için bir maliyet oluşturmaktadır. Bu maliyetin oluşma sebeplerinin başında da çoklu bağlantı sorunu gelmektedir.
İstatistiksel analiz perspektifinden bakıldığında, bağımlı değişken üzerinde gerçekten anlamlı etkisi olan; ancak modelde çoklu bağlantı açısından problem oluşturmayacak değişkenler ile çalışmamız gerekiyor.
Teorik olarak bu durumu formüller üzerinden de göstermek mümkün. Ancak sizi matematiğe boğmadan durumu kısaca özetleyelim: Eklediğimiz her bağımsız değişken, formülasyon gereğince hataların varyans değerini yükseltmektedir.
Buna göre formülün paydasında yer alan (n-k-1) ibaresinde k arttıkça payda azalır ve doğal olarak varyans değeri de artar. Buradan da gördüğümüz gibi, modele her eklenen değişken bir maliyet anlamına gelir.
Elbette bunun dışında, her değişken regresyon modelinde bir boyut artışına sebep olacağı için, “The curse of dimensionality” olarak tanımlanan problem ile de karşılaşma olasılığımız var. Boyutsallık sorunu, test verilerinin hatalarında artışa yol açabilir ve modelimizin tahminsel gücünü azaltabilir.
Regresyon analizi ve değişken seçimi alanında çok sayıda istatistiksel ölçüt ve seçim algoritması bulunuyor. Değişken seçimini uygulayabilmek için R-Project, SPSS, Stata gibi istatistiksel analiz programlarını kullanabiliriz. Araştırmacılar bunun için geriye doğru (backward), ileriye doğru (forward) ve adımsal (stepwise) seçim algoritmalarından sıkça yararlanmaktadır. Yazılımlarda bulunan bu seçim yaklaşımlarının her biri farklı sonuçlar üretebilme potansiyeline sahip. Dolayısı ile, regresyon analizi ve değişken seçiminde bir değişkeni modele katarken son derece dikkatli olmamız gerekiyor.
Ayrıca kullanılan regresyon modeline göre farklı ölçütler eşliğinde söz konusu seçim algoritmalarını çalıştırabiliriz. Örneğin; lojistik regresyon analizinde Wald istatistiğine ya da olabilirlik oran değerine göre seçim yaptırabiliyoruz.
Gelecek yazılarımızda regresyon analizi ve değişken seçimi için kullanılan istatistiksel yaklaşımları derinlemesine konuşacağız.