Orta ölçekli bir perakende firmasının BT yöneticisi düşünün: her gece çalışan ETL süreçleri, sabah raporları düzgün üretiyor, satış analistleri memnun. Ancak aynı yönetici son altı ayda giderek büyüyen bir soruyla karşı karşıya: müşterilerin web sitesindeki tıklama davranışları, çağrı merkezi kayıtları ve Facebook sayfasındaki yorumlar mevcut veri ambarına nasıl girecek? Klasik yapılandırılmış veri ambarı mimarisi bu soruyu yanıtlamakta zorlanıyor ve bu zorluk, ‘big data’ kavramının iş dünyası gündemine taşınmasının temel nedeni.
Veri ambarı mimarisi, ilişkisel veritabanı mantığı üzerine kurulu; önceden tanımlanmış şemalar, temizlenmiş ve dönüştürülmüş veriler, boyut ve olgu tabloları. Bu yapı, işlem verilerini analiz etmek için on yılı aşkın süredir güvenilir biçimde çalışıyor. Satış rakamları, stok hareketleri, fatura toplamları gibi sayısal ve kategorik veriler bu mimariye mükemmel uyuyor. Ancak yapının temel varsayımı şu: veriyi yüklemeden önce ne arayacağını biliyorsun. Şemayı önceden tasarlıyorsun, ETL sürecini buna göre kuruyorsun, raporları bu çerçevede üretiyorsun. Veri ambarı, bilinen soruların yanıtını verimli biçimde bulan bir sistem.
Sorun şuradan çıkıyor: son birkaç yılda kurumların ürettiği ve dışarıdan aldığı veri türleri hem hacim hem yapı açısından köklü biçimde değişti. Web sunucu logları her tıklamayı kaydediyor; bir e-ticaret sitesinin günlük log hacmi, o sitenin yıllık satış verisinin çok katına ulaşabiliyor. Sosyal medya platformları metin, bağlantı, beğeni ve yorum verisi üretiyor; bunların hiçbiri önceden tanımlanmış sütunlara kolayca sığmıyor. Sensör verileri, özellikle lojistik ve üretim sektörlerinde, saniyeler içinde binlerce kayıt oluşturabiliyor. Geleneksel ETL süreci bu veriyi işlemek için tasarlanmamış; şema zorunluluğu, temizleme adımları ve yükleme pencereleri bu hızı kaldırmıyor.
Teknik açıdan bakıldığında, ‘big data’ tartışması esas olarak üç boyutu kapsıyor: hacim, hız ve çeşitlilik. Hacim, tek bir sunucunun veya klasik veri ambarı kümesinin işleyebileceği sınırları aşıyor. Hız, verinin gerçek zamanlı veya gerçek zamana yakın işlenmesi gerektiğini söylüyor; gece yarısı çalışan ETL yeterli değil. Çeşitlilik ise yapılandırılmamış veya yarı yapılandırılmış verinin sisteme alınması anlamına geliyor. Bu üç boyutun kesiştiği noktada, ilişkisel veritabanı paradigmasının dışında çözümler aranıyor: dağıtık dosya sistemleri, sütun bazlı depolama, MapReduce gibi paralel işleme modelleri bu tartışmanın teknik altyapısını oluşturuyor.
Türkiye’deki kurumlar açısından bu tartışma henüz erken aşamada. Büyük bankalar ve telekom şirketleri log analizi ve müşteri davranış verisi konusunda pilot çalışmalar yürütüyor. Orta ölçekli işletmelerin büyük çoğunluğu için ise mevcut veri ambarı yatırımı hâlâ birincil öncelik; klasik iş zekâsı araçlarından tam verim alınmadan yeni mimari tartışmasına girmek erken. Ancak karar vericilerin bu kavramı izlemesi gerekiyor, çünkü iki-üç yıl içinde müşteri verisi, web analitiği ve sosyal medya entegrasyonu talepleri orta ölçekli firmaların da gündemine girecek. Bekleme maliyeti, hazırlıksız yakalanma riskiyle birlikte değerlendirilmeli.
Pratik zorluklar küçümsenmemeli. Dağıtık işleme altyapısı kurmak ciddi teknik uzmanlık gerektiriyor; Türkiye’de bu alanda deneyimli mühendis sayısı henüz sınırlı. Açık kaynak araçlar maliyet avantajı sunuyor ama kurulum, yapılandırma ve bakım yükü göz ardı edilemez. Toplam sahip olma maliyeti hesaplanırken yalnızca lisans değil, insan kaynağı ve öğrenme eğrisi de tabloya girmelidir. Bunun yanı sıra, veri yönetişimi ve veri kalitesi sorunları yeni mimarilerde daha da karmaşık bir hal alıyor; yapılandırılmamış verinin güvenilir analize dönüştürülmesi, iyi tanımlanmış süreçler olmadan mümkün değil.
Bir yönetici olarak bu tartışmadan çıkarılacak pratik sonuç şu: mevcut veri ambarı yatırımını hemen terk etmek değil, mimarinin sınırlarını anlamak ve yeni veri kaynaklarının önümüzdeki dönemde hangi ihtiyaçları doğuracağını şimdiden haritalamak gerekiyor. Web analitiği, müşteri geri bildirimi ve operasyonel log verisinin hacmi artıyorsa, bu verinin nereye gideceğini ve nasıl analiz edileceğini bugünden düşünmek, yarın pahalı bir acil çözüm aramaktan çok daha verimli bir yol.