Merhaba! Bugün sizlere veri analizi sürecinde sıkça karşılaştığımız bir sorundan, eksik veriden bahsedeceğim. İlgili kavramları açıklayarak temelden başlayalım.
Eksik Veri Nedir?
Eksik veri, bir veri setinde belirli gözlemler için değerlerin bulunmaması durumudur. Örneğin, bir anket çalışmasında bazı katılımcıların belirli soruları cevaplamadığını düşünün. İşte bu cevaplanmayan sorular, o veri setinde eksik veri olarak karşımıza çıkar. Eksik veri, sayısal veya kategorik (örneğin, cinsiyet, şehir, renk gibi) değişkenlerde olabilir.
Eksik Veri Ne Tür Sorunlara Neden Olur?
Eksik veri, veri analizi sürecinde ciddi sorunlara yol açabilir. İşte birkaç örnek:
- Eksik veri, istatistiksel analizlerinizi çarpıtabilir. Örneğin, eksik değerlerin bulunduğu bir veri setinde ortalamalara dayalı karşılaştırmalar yaparken, elde ettiğimiz sonucun gerçeği yansıtmamasına neden olabilir.
- Eksik veriyi tamamen silmek, veri setinizin boyutunu küçültebilir ve bu da analizlerinizde kullanabileceğiniz değerli bilgilerin kaybolması anlamına gelir.
- Eksik veri, rastgele olmayabilir. Örneğin, belirli bir grup insan bazı soruları yanıtlamaktan kaçınıyorsa, bu durum analizlerde yanlılığa neden olabilir. Eğer yaşlı katılımcılar ölçme aracındaki öğrenim durumuyla ilgili bir soruyu belirli bir nedenden dolayı atlıyorsa (doldurmuyorsa), analiz sonucunda yaş ve öğrenim durumu arasındaki ilişki yanlış tahmin edilir.
Kısacası, eksik veri yanlış sonuçlara ve kararlara yol açabilir. Peki, bu sorunu nasıl çözebiliriz? Eksik verinin rastgele dağılıp dağılmadığını inceleyerek başlarız. Önce eksik verinin rastgele dağılmasının ne anlama geldiğini açıklayalım. Eksik verinin rastgele dağılımı, veri setindeki eksikliklerin herhangi bir sistematik nedene bağlı olmadan, tamamen şansa bağlı olarak ortaya çıkması durumudur. Yani, eksik verilerin nerede ve nasıl oluştuğu, veri setindeki diğer değişkenlerle veya gözlemlerle ilişkili değildir. Bir ölçme aracını belirli bir gruba uyguladığınızı düşünün. Katılımcıların bazı soruları cevaplamayı unutması veya rastgele atlaması, eksik verinin rastgele dağılımına örnek olabilir. Bu durumda, eksik verilerin oluşması, katılımcının yaşı, cinsiyeti, öğrenim düzeyi gibi diğer faktörlerle ilişkili değildir; tamamen şansa bağlıdır.
Eksik verinin rastgele dağılımı, istatistiksel analizler için en sorunsuz durumdur. Çünkü bu durumda, eksik veriyi silmek veya doldurmak, analiz sonuçlarını çarpıtmaz. Ancak, eksik veri rastgele değilse (örneğin, belirli bir grup katılımcı soruları bilerek atlıyorsa), bu durum analizlerde yanlılığa neden olabilir.
Eksik verilerin sistematik (yanlı) dağılımı, eksikliklerin rastgele olmadığı ve belirli bir nedene veya örüntüye bağlı olarak ortaya çıktığı durumu ifade eder. Bu tür eksik veriler, veri setindeki diğer değişkenlerle veya gözlemlerle ilişkili olabilir. Bunu bir örnekle açıklayalım.
Bir seçim öncesi anket kullanarak veri topladığınızı düşünün. Ankette, katılımcılara hangi partiye oy verecekleri ve hükümetin ekonomi politikaları hakkında ne düşündükleri soruluyor. Muhalefet partisine oy verecek katılımcıların, hükümetin ekonomi politikaları hakkında olumsuz görüşlere sahip olduğunu, ancak bu görüşlerini paylaşmaktan çekindiğini varsayalım. Bu durumda “Bu konuda yorum yapmak istemiyorum” diyerek soruyu atlayabilirler. İktidar partisine oy verecek katılımcılar ise ekonomi politikaları hakkında daha açık ve olumlu görüşlerini paylaşabilir. Bu durumda, eksik veriler (hükümetin ekonomi politikalarıyla ilgili görüşler) sistematik olarak dağılmıştır çünkü eksiklikler, katılımcıların siyasi tercihleriyle ilişkilidir. Yani, muhalefet taraftarları bu soruları boş bırakırken, iktidar taraftarları bu soruları cevaplamıştır. Eksik verileri silerseniz veya göz ardı ederseniz, analizlerinizde muhalefet taraftarlarının görüşleri yeterince temsil edilmez. Bu durum, hükümetin ekonomi politikalarına ilişkin genel kamuoyu algısının olduğundan daha olumlu çıkmasına neden olabilir. Yani, sonuçlarda yanlılık ortaya çıkar ve sonuçlar gerçeği yansıtmaz.
Temel kavramları açıkladığımıza göre eksik veriyle nasıl başa çıkabileceğimizi konuşalım. Devamı diğer yazılarda 🙂
Doç. Dr. Fatma Betül KURNAZ
“Gözden geçirilmemiş, V0”