Yüksek Boyutlu Veriler ile İstatistiksel Analiz

yüksek boyutlu veriler

Yüksek Boyutlu Veriler ile İstatistiksel Analiz Uygulamaları

İstatistiksel analiz uygulamalarında çalıştığımız veriler gözlem ve değişken sayılarına göre tanımlanmaktadır. Verilerimizde bulunan gözlem sayısı değişken sayısına eşit ya da daha düşükse, bu durumda yüksek boyutlu veriler ile çalışmış oluyoruz.

Bu durumda değişen nedir? Yani yüksek boyutlu veriler ile istatistiksel analiz metotlarını uygularken nelere dikkat etmeliyiz? Şimdi bu soruların cevabını arayalım.

Öncelikle şu ayrımı belirtmemiz lazım: Yüksek boyutlu veri ile büyük veri aynı şey değil. Yüksek boyutlu veri tam olarak High Dimensional Data olarak tanımlanırken, büyük veriler Big Data olarak tanımlanıyor.

Genellikle istatistik analizi uygulamalarımızda kullandığımız verilerde gözlem sayımız değişken sayısından daha yüksektir. Ancak bazı durumlarda gözlem sayımız olduğundan daha düşük olabilmektedir.

Katılımcılardan yeterli yanıt alınamadığı ya da maliyet gibi sebepler yüzüden gerekli ölçümlerin yapılamadığı koşullarda yüksek boyutlu veriler ile çalışmak durumunda kalıyoruz.

Bazı özel uygulamalarda da veriler kendi doğası gereği yüksek boyutlu olarak toplanmaktadır. Örneğin; metin madenciliği uygulamalarında çok sayıda kelimeye ait sütun vektörleri (yani değişken) elde edildiği için veriler doğal olarak yüksek boyutludur.

İşte bu tarz veriler için klasik istatistiksel analiz teknikleri yerine bazı özel yöntemler kullanmamız gerekiyor. Yüksek boyutlu veriler için özellikle aşağıdaki teknikleri uygularken özel yaklaşımlar gerekiyor:

  • İstatistiksel hipotez testleri
  • Regresyon analizleri
  • Faktör analizleri
  • Kümeleme teknikleri

İstatistiksel analiz literatüründe yüksek boyutlu verilere yönelik çok sayıda alternatif yaklaşım var.

Klasik regresyon analizini ele alalım. Klasik lineer regresyon analizini yüksek boyutlu bir veri seti üzerinden uygulamaya çalıştığımızda, beta katsayılarını elde edemeyiz. Çünkü parametre tahmini yapılırken X’X matrisi tekil olmaktadır. Bu durumda alternatif olarak lasso regresyon tekniği kullanılabilir.

Peki neden X’X matrisi tekil olmamalı? Sebebi tamamen regresyon katsayılarını tahminleme sürecine dayanıyor. Tekil olduğu durumda bu matrisin tersini alamıyor ve regresyon katsayılarını da dolayısı ile hesaplayamıyoruz.

Teorik detaya fazla girip de sizleri sıkmak niyetinde değiliz ancak bu tür sorunlar diğer istatistik analizi uygulamalarında da görülmektedir.

Benzer şekilde hipotez testlerinde de yüksek boyutlu veri setleri için özel istatistik testleri geliştirilmiştir.

Açıklayıcı ve doğrulayıcı faktör analizleri için de özel istatistiksel teknikler kullanılmaktadır.

Pratikte yüksek boyutlu veri analizi için klasik yazılımları da kullanamıyoruz. Hepimizin bildiği SPSS programı bu tür özel durumlar için uygun değil. Yüksek boyutlu veri analizi için en uygun istatistiksel analiz programı R-Project’tir.

Alternatif olarak Matlab, Python gibi veri bilimi yazılımlarından yararlanılabilir. Ancak içerdiği paketler ve fonksiyonlar açısından R-Project’te yüksek boyutlu verilerin istatistiklerine yönelik onlarca çözüm var.

Yüksek boyutlu veriler üzerinden istatistik analizi uygulamaları gerçekleştirmek isteyen tüm araştırmacılara içerisinde tamamen ücretsiz olarak değerlendirebileceğimiz ve bünyesinde çok sayıda özel paket bulunan R-Project yazılımını kullanmayı şiddetle öneriyoruz.