En Küçük Kareler Varsayımlarının İncelenmesi ve Çoklu Bağlantı Varlığında Kullanılacak Alternatif Yaklaşım: Ridge Regresyon

Çoklu doğrusal regresyon analizinde temel amaç bağımsız değişkenler aracılığı ile bağımlı değişkeni tahmin etmek, bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini belirlemek ve diğer değişkenlerin varlığında katsayı kestirimlerinde bulunabilmektir. Bu amaç doğrultusunda bağımsız değişkenlere ait katsayıların tahmin edilmesi gerekmektedir.

Katsayı tahmini ise çoklu doğrusal regresyon analizinde En Küçük Kareler (EKK) yöntemi ile yapılmaktadır. EKK yöntemi, hata kareler toplamını minimum yapan parametre tahmincilerinin seçildiği bir yöntemdir.

EKK yönteminin uygulanabilmesi için birtakım varsayımların sağlanması gerekmektedir. Hata terimlerine ait dağılımın normal olması, hata terimleri arasında değişen varyans ve otokorelasyon problemlerinin bulunmaması ve bağımsız değişkenler arasında çoklu doğrusal bağlantı durumunun olmaması gibi varsayımlar örnek olarak verilebilir.

Bu varsayımların biri ya da birkaçı sağlanmadığı takdirde parametre kestirimlerinin yanlı çıkması kaçınılmazdır. Bu nedenle çoklu doğrusal regresyonun EKK yönteminin varsayımlarını yerine getirmediği veya çoklu doğrusal bağlantı sorunu varlığında EKK yöntemi yerine yanlı tahmin yöntemlerinden biri olan Ridge Regresyon yöntemi kullanılabilir. EKK yönteminde parametre kestirimlerinin etkin olmasını sağlayan varsayımlar aşağıda belirtilmiştir.

Değişen Varyans

Çoklu doğrusal regresyon analizinde elde edilen hata terimlerinin sabit bir varyansa sahip olmaması durumuna değişen varyans denir. Modelde değişen varyans probleminin varlığında, EKK yöntemi ile tahmin edilen parametre kestirimlerin standart hataları büyük olacaktır. Bu duruma etki eden sebepler arasında şu iki madde gelmektedir:

1) Bağımsız değişkenlerin değerlerinin birbirinden çok farklı olması.

2) Dışlanan değişkenlerin varlığı.

Bu sebepler neticesinde modelde değişen varyans problemi görüldüğü takdirde, bu olumsuzluğu gidermek için bazı çalışmalar yapmak gerekmektedir. Bu amaç doğrultusunda şu üç maddeden söz edebiliriz:

1) Gözlem sayısını artırmak.

2) Modele alınmayan değişkenlerin bazılarını modele dahil etmek.

3) Matematiksel modelin değiştirilmesi.

Modelde değişen varyans probleminin varlığı istatistiksel testler yardımıyla belirlenebilir. Bu testlerden bazıları Glejser testi ve Goldfield-Quandt testidir.

Otokorelasyon

Çoklu doğrusal regresyon modelinin varsayımlarından sapmalarının bir diğeri de otokorelasyondur. Otokorelasyon, çoklu doğrusal regresyon modelinde elde edilen hata terimlerinin birbirleriyle ilişkili olduğu durumlarda ortaya çıkar.

Otokorelasyon probleminin ortaya çıkmasının başlıca sebepleri; modelin yanlış seçilmesi ve bazı bağımsız değişkenlerin modele dahil edilmemesi olarak söylenebilir.

Problemin giderilmemesi sonucunda ise, parametrelerin kestirim değerleri tutarlı olmayacak ve neden-sonuç ilişkisini belirlemede hatalara sebep olacaktır.

Doğrusal modelin hata terimlerinde otokorelasyon probleminin olup olmadığı istatistiksel testler yardımıyla belirlenebilir. Bu test istatistiklerinden biri de Durbin-Watson testidir.

Çoklu Doğrusal Bağlantı Problemi

Çoklu doğrusal regresyon modelinin varsayımlarından biri de, bağımsız değişkenler arasında çoklu doğrusal bağlantı probleminin olmaması durumudur. Çoklu doğrusal bağlantı, iki ya da daha fazla bağımsız değişken arasında doğrusal bir ilişki olması anlamına gelmektedir.

Bağımsız değişkenler arasındaki ilişkinin derecesinin yüksek olması, modele aktardıkları bilgilerin aynı olduğuna işaret etmektedir. Yani çoklu doğrusal bağlantı problemi olan değişkenlerin birlikte modele katkıları anlamsız görünecektir. Bu değişkenlerin modelden çıkması durumunda ise modelin uyumu düşecektir.

Modele giren bağımsız değişkenlerin ayrı ayrı katsayıları hesaplanmadığı için çoklu bağlantı problemi modeli olumsuz etkileyecektir. Bundan dolayı çoklu doğrusal bağlantı problemine sebep olan bazı etmenleri incelemek durumundayız. Bunlardan bazıları:

1) Kukla (Dummy) değişken tuzağı.

2) Bir bağımsız değişkenin diğer bağımsız değişkenlerin doğrusal birleşimi olarak türetilmişse.

3) Bağımsız değişkenler kümesinden yalnızca bir alt kümenin örneklem olarak alınması.

4) Modelin yanlış seçilmesi.

5) Bağımsız değişken sayısının gözlem sayısından büyük olması.

Bu durumlar göz ardı edildiği takdirde de çoklu doğrusal bağlantı problemleriyle karşılaşılmaktadır.

Değişkenler arasındaki çoklu doğrusal bağlantıyı incelemek için basit korelasyon katsayılarından yararlandığımız gibi, değişkenlerin varyans şişirme (VIF) değerlerinden de yararlanabiliriz. Korelasyon katsayılarının 1’e yaklaşması çoklu doğrusal bağlantı problemini ifade etmektedir.

Diğer yandan VIF değerlerinin 5 veya 10’dan büyük olması da aynı durumu ifade etmektedir. Literatür incelendiğinde VIF değerlerinin 5’den büyük olması veya 10’dan büyük olması sonucunda değişkenler arasında çoklu bağlantı probleminin varlığına işaret etmektedir.

Bu problemin çoklu doğrusal regresyon modeli üzerine etkilerini dört maddede inceleyebiliriz:

1) EKK yöntemi ile tahmin edilen parametrelerin gerçek değerlerinden oldukça farklı olacaktır.

2) Bağımsız değişkenlere ait katsayıların varyans ve kovaryansları artmaktadır.

3) Veride ki çok küçük değişiklikler ile birlikte tahmin edilen parametrelerin işaretleri değişebilmektedir.

4) Modelin R2 değeri yüksek olmasına rağmen, bağımsız değişkenlerin hiçbiri veya birkaçı anlamlı etkiye sahip olduğu görülecektir.

Çoklu doğrusal bağlantı probleminin modele etkilerini inceledikten sonra bu probleme ilişkin çözüm önerilerini sunalım:

1) Değişkenlerin bilgi kapsamlarının artırılması için daha fazla gözlem sayısı ile çalışmak.

2) Çoklu doğrusal bağlantıya neden olan değişkenin veya değişkenlerin modelden çıkartılması.

3) Eğer çoklu bağlantı problemi örnekleme sorunundan kaynaklı değilse, aralarında yüksek ilişki bulunan değişkenlerin birleştirilerek yeni bir değişken yaratılması ve aralarında yüksek ilişki bulunan değişkenler yerine bu değişkenin konulması.

Bir diğer çözüm önerisi ise çoklu doğrusal bağlantı problemi varlığında EKK yöntemi yerine yanlı kestirim yöntemlerinden olan Ridge Regresyon yönteminin kullanılmasıdır. Ridge Regresyon modelinin temel amacı, çoklu doğrusal bağlantı probleminde en küçük varyansla parametre kestirimidir. Bu açıdan bakıldığında Ridge Regresyon tahminleri yanlı olmasına karşın çoklu doğrusal bağlantı varlığında EKK tahminlerinden daha kararlı olabilmektedir.

Ridge Regresyonun çözüm tekniği basit en küçük kareler çözüm tekniğine benzer bir yöntemdir. Aralarındaki fark ise, Ridge Regresyon, bağımsız değişkenlerin oluşturduğu matrisin köşegen elemanlarına küçük ve pozitif bir sabiti (k) eklemesinden ibarettir. Uygun k değerinin belirlenmesinde kullanılan yaklaşımlar şu şekildedir:

1) Bağımsız değişkenlerin varyans şişirme (VIF) değerlerinin 1’e en yakın olduğu durumda k’nın değeri seçilir.

2) Model performans ölçütlerinden ortalama kare hata (MSE) veya diğer performans ölçütleri için en düşük değeri veren durumda k’nın değeri.

3) Belirtme katsayısının (R2) en yüksek olduğu durumda k’nın değeri.

Makale ve tezler incelendiğinde Ridge Regresyon için bir söylem yanlış ifade edilmiştir. Bu söylem, Ridge Regresyon yönteminin değişken seçimi yapabilme kabiliyeti olduğu yönündedir.

Ancak değişken seçimi Lasso Regresyon yöntemi için mümkün olurken, Ridge Regresyon yönteminde katsayılar sıfıra yaklaşmaktadır. Ancak sıfır olmamaktadır.

Çoklu doğrusal regresyon ve çoklu doğrusal bağlantı probleminin sınanması ile birlikte Ridge Regresyon yöntemini R-Project yazılımı aracılığı ile kullanabiliyoruz.

Çoklu doğrusal regresyon modeli için R programında hazır bulunan lm() fonksiyonu aracılığı ile modeli kurabiliyoruz. Modeli kurduktan sonra bağımsız değişkenler arasında çoklu doğrusal bağlantının olup olmadığını belirlemek için car paketinin yüklenmesi ve bu paket içindeki vif() fonksiyonuna kurulan modelin belirtilmesi gerekmektedir.

Ridge Regresyon içinde glmnet paketinin yüklenmesi ve bu paket içindeki glmnet() fonksiyonun kullanılması gereklidir. Bazı fonksiyonlar veri setini data frame formatında kabul etmektedir. Ancak glmnet() fonksiyonuna bağımsız değişkenleri içeren veri kümesini matris formatında aktarmamız gereklidir.

Bununla birlikte alpha parametresi (k sabiti) belirtilir. Alpha katsayısının belirtilmediği takdirde ön tanımlı olarak 1 değerini almaktadır. Ayrıca alpha katsayısına 0 girildiği takdirde EKK yöntemi kullanılmış olmaktadır.

Bu yazımızda, bütünsel açıdan en küçük kareler tekniğinin varsayımlarına ve alternatif regresyon modellerine (ridge vb.) değindik. Gelecek yazılarımızda, regresyon analizi ile ilgili bu sorunları daha derinlemesine inceleyeceğiz.

İstatistik Uzmanı – Eyüpcan GÜVEN