İstatistiksel analiz sürecinde özellikle modelleme çalışmalarında çoklu bağlantı sorunu ile karşılaşıyoruz. Çoklu bağlantı sorunu, kısaca bağımsız değişkenler arasındaki güçlü ilişkilerden dolayı ortaya çıkan istatistiksel bir olgudur. Bağımsız değişkenler arasında yüksek korelasyon değerleri bulunuyorsa, çoklu bağlantı ile karşılaşabiliyoruz. Konu elbette bu kadar basit değil. Sorunu derinlemesine inceleyelim.
Modelleme sürecinin başlıca amaçlarından birisi, bağımsız değişkenlerin bağımlı değişken üzerindeki etkisini değerlendirmektir. Orta yaşlı bireylerin trigliserid değerlerine etki eden faktörleri araştırdığımızı varsayalım. Söz konusu trigliserid değişkenini etkileyen vücut kitle indeksi, yaş ve haftalık ortalama spor yapma süresi gibi üç faktörü de bağımsız değişken olarak alalım. Trigliserid ve seçtiğimiz üç bağımsız değişken ile istatistiksel bir model kuralım.
Kurduğumuz istatistiksel model içerisinde amacımız vücut kitle indeksinin de, yaş faktörünün de ve haftalık ortalama spor yapma süresinin de trigliserid üzerindeki etkilerini ayrı ayrı değerlendirmek isteriz. Ancak seçilen üç bağımsız değişken arasındaki ilişkiler sebebiyle tekil etkileri elde edemeyiz. Amacımız bağımsız değişkenlerin bireysel etkisini ölçmek iken; bağımsız değişkenler arasındaki ilişkiler sebebi ile her şey karmakarışık bir hale bürünebilir!
Amacımız trigliserid üzerinde etkili olan üç bağımsız değişkenin etkilerini incelemek; ama kendi aralarındaki ilişkiler sebebiyle doğru etkileri gözlemlemek mümkün olmayabilir.
İşte bağımsız değişkenler arasındaki ilişkilerin güçlü olması, ayrı ayrı etkilerin ortaya çıkmasını müthiş ölçüde engelleyebiliyor. Bu durumun oluşmasının sebebi de çoklu bağlantı sorunun ortaya çıkmasıdır.
Regresyon analizi içerisinde çoklu bağlantı sorunu çok daha belirgin bir şekilde gözlenmektedir. Pratikte regresyon analizi yoğun olarak kullanıldığı için, çoklu bağlantı sebebi ile aşağıdaki problemler ile karşılaşabiliriz:
Yukarıda bahsedilen problemlerin örneklendirilmesi ve derinlemesine incelenmesi gerekiyor.
Bu problemlerin yanı sıra, en çok merak edebileceğimiz soru şu olabilir: Çoklu bağlantı sorunu nasıl tespit edilebilir?
Regresyon analizinde bunun için VIF adı verilen varyans şişirme faktörü kullanılıyor. VIF değerinin 5 veya 10’dan büyük olması çoklu bağlantı sorununa işaret edebiliyor. Sınırlar farklı kaynaklarda farklı şekillerde ifade edilebiliyor. Bunun yanında koşul indeksi gibi farklı ölçütler de var. Bu ölçüleri R-Project, SPSS vb. yazılımlar ile elde edebiliyoruz.
Gelecek yazılarımızda bu olguları çok daha yoğun olarak değerlendireceğiz.