Veri Analizi Nedir? 3 Başlıkta İnceliyoruz

veri analizi nedir

Veri Analizi Nedir? Çeşitlerini İnceleme Zamanı

Veri analizi dediğimizde tüm araştırmacıların zihninde onlarca farklı teknik ve çözümleme beliriyor. Veri analizi nedir sorusunun yanıtını verebilmek adına gerek istatistik bilimi, gerek bilgisayar bilimleri açısından kapsamlı bir değerlendirme yapmamız gerekiyor.

Bu yazımızda işte bu kilit soruyu, “Veri Analizi Nedir?” sorusunu derinlemesine işleyeceğiz.

Teknolojinin bize sunduğu sonsuz imkanlar sayesinde artık kolayca veri toplayabiliriz. Geçmişte yalnızca kalem-kağıt üzerinden yaptığımız anketler ya da veri formları üzerinden analiz yapmaya çalışırdık. Artık durum öyle değil.

Bilgisayarlarımız aracılığı ile anket formları oluşturabiliyor, verilerimizi bilgisayar ortamına kolayca aktarabiliyoruz. Anket formlarından elde ettiğimiz araştırma verilerimizi, bilgisayarlarımızda kolayca saklayabiliyoruz. Hatta büyük hacimli verileri dahi bulut teknolojisi sayesinde farklı mecralarda barındırabiliyoruz.

Sakladığımız tüm bu veriler son derece kıymetli. Bazı kaynaklarda “Data is the new oil!”, yani veri yeni petroldür sloganına rastlayabiliyoruz.

Ancak hepimizin arzusu, bu son derece kıymetli verilerimizi işleyip anlamlı sonuçlar çıkarabilmek. Tıpkı ham elması işleyip birbirinden güzel mücevherler oluşturmak gibi…

İşte veri analizi bize bu imkanı sunuyor.

Veri analizi nedir dediğimizde en kısa yoldan şu tanımı sunabiliriz:

Veri analizi, araştırma sorularımıza yönelik karar verme aşamalarında, anlamlı ve yararlı bilgiler keşfetmek için verilerimizi temizleme, dönüştürme, test etme ve modelleme süreci olarak tanımlanabilir.

Bu kısa tanımı detaylandıracağız ama şimdilik kısa bir mola verelim.

Veri analizi nedir sorusunun hemen ardından “Nasıl uygulanır?” sorusunu kendimize yöneltebiliriz. Bu sorunun cevabı oldukça basit: Veri analizi yazılımlarını kullanarak. Bunun için R, SPSS, Minitab, Stata, JMP, SAS gibi çok sayıda programı kullanabiliriz. Nasıl uygulanır sorusunun yanıtını verebilmek için onlarca yazı bile az kalır.

Konumuza geri dönelim.

Veri analiz nedir dediğimizde söz konusu teknikleri üç genel başlık altında toplayabiliriz:

  • Tanımlayıcı veri analizi teknikleri
  • Keşfedici veri analizi teknikleri
  • Tahminsel veri analizi teknikleri

Tanımlayıcı Veri Analizi Nedir?

Tanımlayıcı veri analizi değişkenlerimizin genel durumunu ortaya koymak için kullanılan tekniklerdir. Bu tekniklerin içerisine tanısal (diagnostic) analiz yaklaşımlarını da dahi edebiliriz.

Tanımlayıcı veri analizi özellikle istatistiksel analiz raporlarımızın vazgeçilmez bölümlerini oluşturur.

Bu bağlamda neler uygulayabiliriz?

veri analizi nedir

Sayısal ya da sıralı değişkenlerimizin aritmetik ortalama, medyan, standart sapma, standart hata, varyans, minimum, maksimum, değişim aralığı, değişim katsayısı, çarpıklık, basıklık, kartiller arası açıklık istatistiklerini hesaplayabiliriz.

Özellikle istatistik testlerimizde bu tanımlayıcı ölçüleri istatistik raporlarımıza ekliyoruz.

Normal dağılmayan verilerimiz için sıra ortalaması gibi ekstra istatistikleri de ilave edebiliriz.

Bu bölüm kapsamında değerlendireceğimiz tanısal analiz teknikleri kapsamında da verilerimizde bulunan aykırı değerleri tespit edebiliriz. Ayrıca kayıp verilerin dağılımını inceleyebilir; farklı kayıp veri tahmin teknikleri ile eksik gözlemlerimizi tamamlayabiliriz.

Bunların dışında verilerimizde bulunan etkili gözlemleri ya da uç değerleri de tespit edebiliriz.

Söz konusu veri analizi süreci için aykırı değer tespit aşamasında Mahalanobis uzaklıklarını, kayıp veri analizi aşamasında beklenti maksimizasyonu (EM) algoritmasını, etkili gözlemleri belirleme aşamasında  Cook uzaklıklarını kullanabiliriz.

Tanımlayıcı analiz sürecinde özellikle kategorik ya da tamsayılı verilerimizin dağılımlarını değerlendirmek için frekans analizinden yararlanabiliriz. Değişkenlerimizin grupları üzerinden frekans değerleri, yüzdelik değerleri veya kümülatif frekans-yüzdelik değerleri hesaplayabiliriz.

İki ya da daha fazla kategorik değişkenin dağılımlarını bir arada değerlendirmek için de çapraz tablo analizlerinden faydalanabiliriz. Esas olarak bu aşamada satır ya da sütun değişkenlerimizin gruplarına göre yüzdelik dağılımları bularak oransal çıkarımlarda bulunabiliyoruz.

Ayrıca söz konusu analizlerimizi veri görselleştirme teknikleri aracılığı ile de değerlendirebiliriz. Bu noktada kök-gövde grafikleri, histogramlar, kutu grafikleri, bar grafikleri, pasta grafikleri gibi görseller son derece yararlı. Tanımlayıcı veri analizi nedir sorusuna hem istatistiksel ölçüler, hem de veri görselleştirme perspektifinden bakmamız isabetli olacaktır.

Keşfedici Veri Analizi Nedir?

Keşfedici veri analizi tek bir tanım ile açıklanamayacak kadar geniş bir kavram. İçerisinde neler var? Kullandığımız pek çok farklı analiz tekniği bu kapsama giriyor.

Kısaca keşfedici veri analizini verilerimiz üzerinden yeni sonuçlar edinmemizi, değişkenler arasındaki farklı örüntüleri keşfetmemizi sağlayan bir yöntemsel süreç olarak tanımlıyoruz.

Şimdi ne tür yaklaşımları kullanabileceğimizi inceleyelim.

veri analizi nedir

Bilimsel araştırmalarda daima başvurduğumuz istatistiksel hipotez testlerini kullanabiliriz. ANOVA, t-testleri, Friedman testi gibi istatistik testleri sayesinde değişkenler arasındaki ilişkilerin istatistiksel olarak anlamlı olup olmadığını ortaya koyabiliriz.

Bu testler sayesinde araştırmamız için önemli rol üstlenen değişkenlerin üzerinde hangi faktörlerin anlamlı etkiye sahip olduğunu keşfedebiliriz. Hatta çoklu karşılaştırma testleri (post-hoc testleri) aracılığı ile gruplar arası farklılıklar üzerinden yeni çıkarımlarda bulunabiliriz.

Çok değişkenli istatistiksel analiz teknikleri de yeni bilgiler edinmemizi sağladığı için bu konu başlığı altında değerlendirilmektedir.

Örneğin; açıklayıcı faktör analizi uyguladığımızda değişkenlerimizin kaç alt boyutta nasıl toplanacağına karar verebiliyoruz. Doğrulayıcı faktör analizi ile alt boyutlarımızın geçerliliğini test edebiliriz. Yapısal eşitlik modeli ile gizil faktörler arasındaki ilişkilerimizi keşfedebiliriz.

Kümeleme analizi sayesinde gözlemlerimizin kaç küme altında gruplanabileceğini belirleyebiliriz. Hatta elde ettiğimiz kümeler üzerinden de gruplarımıza dair çıkarımlarda bulunuabiliriz.

Korelasyon analizleri ile birlikte çok sayıdaki değişkenimiz arasındaki ilişkilerin yönünü ve derecesini belirleyebiliriz.

Veri madenciliği teknikleri kapsamında uyguladığımız kural tabanlı algoritmalar bizlere yeni sonuçlar sunabilir. Karar ağaçları sayesinde verilerimiz üzerinden faydalı kurallar ortaya koyabilir ve bu kurallara göre araştırmamız hakkında tutum belirleyebiliriz.

Market-sepet analizi ile en sık tekrar eden alışveriş alışkanlıklarını belirleyebiliriz. Güven ve destek düzeyleri, bize yeni ufuklar açabilir.

Bayesci ağ algoritmaları bize muhteşem senaryolar üzerinden farklı olasılıksal çıkarımlar sunar.

Klasik tekniklerin yanı sıra dayanıklı (robust), bulanık (fuzzy), Bayesci teknikler de emrimize amade…

Tüm bu bilgileri bir arada değerlendirdiğimizde yeni sonuçları keşfedebileceğimizi görebiliriz. Keşfedici veri analizi nedir dediğimizde, devasa sayıda algoritma ile karşılaşmaya hazır olalım.

Tahminsel Veri Analizi Nedir?

Tahminsel veri analizi, geleceğe ilişkin öngörüler gerçekleştirebileceğimiz teknikler bütününü kapsamaktadır. Bu kapsamda regresyon analizi teknikleri ve öngörü modelleri kullanılmaktadır.

veri analizi nedir

Araştırmalarımızda kullandığımız bağımlı değişkenin türüne, değer aralığına ve dağılımlarına göre farklı tahminsel tekniklere başvurabiliriz. Nicel bağımlı değişkenlerimiz için regresyon tekniklerini, kategorik bağımlı değişkenlerimiz için de sınıflandırma tekniklerini kullanıyoruz.

Lojistik regresyon analizi gibi teknikler sınıflandırma tekniklerinin altında yer alır.

Klasik lineer regresyon analizinden ARIMA modellerine, bulanık zaman serisi analizlerinden yapay sinir ağlarına uzanan onlarca yöntem, tahminsel veri analizi başlığı altında ustalıkla uygulanabilmektedir.

Peki tahminsel veri analizi için nasıl bir yol izleyebiliriz?

Temelde iki yolumuz var. Ya tahmin edeceğimiz bağımlı değişkenin kendi değerleri (ham veriler, hata değerleri vs.) üzerinden hareket ederiz, ya da bağımlı değişkenimizi etkileyen farklı bağımsız değişkenler üzerinden öngörülerde bulunabiliriz.

Hemen bu süreci örneklendirelim.

Örneğin; ülkelerin işsizlik oranlarını tahmin etmek istiyoruz. Gelecek döneme ait işsizlik oranlarını tahmin edebilmemiz için geçmişteki işsizlik oranlarına bakarak tahmin gerçekleştirebiliriz.

Alternatif bir yol olarak, işsizlik oranlarını ülkelerin enflasyon, büyüme oranı, yatırım miktarı gibi göstergeleri üzerinden de tahmin edebiliriz. Yatırımları artıran bir ülkede işsizliğin düşebileceğini; enflasyonun yükseldiği bir ülkede ise işsizlik oranının yükselebileceğini öngörebiliriz.

İşte bu yaklaşımdan hareketle bağımsız değişkenlerin gecikmeli değerleri üzerinden yapay sinir ağı, destek vektör makineleri gibi non-lineer teknikler ile mükemmel tahminlerde bulunabiliriz.

veri analizi nedir

Hatta tahminsel veri analizi teknikleri sonucunda elde ettiğimiz öngörülere yönelik bir alt-üst sınır değerleri de elde edebiliriz. İstatistik yazılımlarının etkin kullanımı sayesinde öngörülerimize dair muhteşem görseller de üretebiliriz.

Son Söz

Bu yazımızda sorgularda en sık aratılan konu başlıklarından birisi üzerinde durmaya çalıştık. Veri analizi nedir? sorusuna olabildiğinde istatistik-veri biliminin sınırları dahilinde yanıt vermeye çabaladık. Ancak veri analizi nedir denildiğinde bu soruya verebileceğimiz bir değil, çok sayıda farklı yanıt olduğunu yukarıdaki satırlardan anlayabiliriz.

Bilimsel gelişmelerin ışığında ortaya çıkan onlarca veri analizi tekniğini kullanma şansına sahibiz ve bu algoritma denizinde boğulmamak için hangi durumda hangi veri analizi tekniğini seçmemiz gerektiğini çok iyi bilmemiz gerekir. Gelecek yazılarımızda veri analizine ilişkin yeni paylaşımlarda görüşmek üzere!