Lasso Regresyon Analizi

lasso regresyon analizi

 

Lasso Regresyon Analizi ve Uygulama Amaçları

Klasik çoklu regresyon analizinde bağımsız değişken(ler)imizin bağımlı değişkenimiz üzerindeki etkisinin anlamlı olup olmadığını test ederiz. Kurulan model sonucunda bir bağımsız değişken anlamsız bile bulunsa, matematiksel açıdan modelde yine yer almaktadır. Lasso regresyon analizi ise anlamsız değişkenleri modelden dışlama özelliği olan muazzam bir yaklaşımdır.

Lasso regresyon analizine yoğunlaşmadan önce bazı önemli noktalara değinelim.

Regresyon analizi en az sayıda değişken ile en başarılı modelin kurulmasını ister. Her değişken model açısından bir maliyettir ve anlamsız olan değişkenler, modelin performansını olumsuz yönde etkilemektedir.

Peki anlamsız olma ölçütü denildiğinde ne anlıyoruz? İlk akla gelen şey, anlamsız olan değişkene ait regresyon katsayısının (ya da beta katsayısı) sıfıra eşit olmasıdır. Yani, beta katsayısı tam sıfır olursa, değişken matematik gereği modelden çıkar.

Peki lineer regresyon analizinde bu mümkün mü? Maalesef hayır. Klasik çoklu lineer regresyon modelinde regresyon katsayısını tam olarak sıfır bulamazsınız. Teorinin kendisi gereği böyle bir ihtimal yok.

Bu durum esas olan diğer regresyon modelleri için de geçerli. İster lojistik regresyon, ister Poisson regresyon analizi uygulayın; beta katsayısını asla %100 olarak sıfıra eşit bulamazsınız.

Sonuçta klasik regresyon modellerinde değişkenleri otomatik olarak gerçekleştiremiyoruz. Bunun için, lasso regresyon analizine müracat ediyoruz.

İstatistiksel analiz sürecinde lasso regresyon, log-olabilirlik fonksiyonumuza bir ceza terimi ilave ediyor. Bu ceza terimi lamda değeri ile beta katsayılarının mutlak değerce toplamından oluşuyor. Büyük ölçüde sıkıcı ve aşırı teorik bilgi sizler için sıkıcı olabilir, ama çalışma prensibi bu şekilde 🙂

Sizi daha fazla sıkmadan kısaca şundan bahsedelim: Ceza içerisinde bulunan lamda terimi, tüm süreci belirliyor. Yüksek bir lamda seçildiğinde tüm beta katsayıları aşırı ceza sebebi ile sıfıra eşit olabilir! (Ortada model diye bir şey kalmaz.)

Çok düşük bir lamda seçildiğinde de tüm gereksiz değişkenler modelde kalır. Lamda sıfır olursa sonuçlar klasik lineer regresyon ile birebir aynı olur.

Lasso regresyon ayrıca n<p olduğunda, yani yüksek boyutlu modellerde de kullanılabiliyor. Örneğin; 20 gözlem ve 50 bağımsız değişkenden oluşan bir modele sahipsiniz. Bu durumda lineer regresyon analizi kullanılamazken, lasso regresyon analizi uygulanabilmektedir.

Lasso regresyon analizinin bu bilgiler ışığında şu iki temel avantaja sahip olduğunu söyleyebiliriz:

1)  Beta katsayılarına sıfır değeri atayarak değişken seçimi yapabilmek

2)  Yüksek boyutlu verilerde sonuç verebilmek

Lasso regresyon analizini pratikte uygulayabilmek için R-Project ya da Stata yazılımlarını kullanmamız gerekiyor. Ama en elverişli araç kuşkusuz ücretsiz bir şekilde kullanılan R programıdır. Maalesef SPSS’te bu muhteşem yöntem şimdilik yok.

Bu muhteşem regresyon yöntemi yabancı literatürde sıkça kullanılırken Türkçe literatürde maalesef hakettiği yeri bulamıyor. İstatistik analizi uygulamalarında araştırmacıların kullanımı için harika bir seçenek sunuyor.

Lasso regresyon analizinin kendi içerisinde de çok sayıda farklı problemi var. En büyük problem de lamda, yani düzenleme parametresinin nasıl seçileceğidir. Gelecek yazılarımızda bu problemi farklı açılardan inceleyeceğiz.