Büyük Veri ve Veri Bilimi 4 dk okuma

Büyük Veri ve Veri Gölü: Her Veriyi Saklamak Akıllıca mı?

Bir lojistik firmasının BT müdürü geçen ay şunu söyledi: ‘Depolama artık o kadar ucuzladı ki her şeyi saklıyoruz — ileride işe yarar diye.’ Bu cümle, bugün pek çok orta ölçekli işletmenin veri stratejisini özetliyor. Hadoop tabanlı veri gölü çözümleri yaygınlaşıyor, bulut depolama birim maliyetleri hızla düşüyor ve bu ortamda ‘her veriyi sakla’ refleksi giderek güçleniyor. Ancak bu refleks, yöneticilerin sandığından çok daha pahalıya mal olabilir.

Veri gölü kavramı özünde cazip: yapılandırılmış ya da yapılandırılmamış her türlü veriyi ham haliyle merkezi bir depoya aktar, ihtiyaç duyduğunda işle. Geleneksel veri ambarının aksine, veriyi depoya almadan önce dönüştürmen gerekmiyor. Bu esneklik, özellikle büyük ölçekli işlem verisi, makine günlükleri veya müşteri davranış kayıtları gibi hacimli ve heterojen veri setleriyle çalışan firmalar için gerçek bir avantaj sunuyor. Ancak bu mimari, kendi başına bir strateji değil; bir araç. Ve her araç gibi, amacı net tanımlanmadan kullanıldığında sorun üretiyor.

Toplam sahip olma maliyeti (TCO) hesabı yapıldığında tablo değişiyor. Ham depolama maliyeti düşük görünebilir; ancak bu verinin yönetimi, kataloglanması, güvenliğinin sağlanması ve zaman içinde erişilebilir tutulması ek maliyet kalemleri doğuruyor. Veri gölüne akan her gigabayt, potansiyel olarak bir güvenlik açığı, bir uyumluluk yükümlülüğü ve bir gürültü kaynağı. Özellikle e-Fatura ve e-Defter kapsamındaki finansal verilerin uzun süreli saklanması yasal zorunluluk taşıyor; ancak bu zorunluluğun ötesinde, operasyonel log dosyaları veya geçici raporlama verileri için aynı mantığı uygulamak yöneticinin sezgisine değil, net bir politikaya dayanmalı.

Veri kalitesi meselesi ise genellikle göz ardı ediliyor. Amacı tanımlanmamış veriyi depoya almak, zamanla ‘veri bataklığı’ olarak adlandırılan durumu doğuruyor: depo büyüyor, içindeki verinin ne olduğu belirsizleşiyor ve analist ekibi doğru veriyi bulmak için giderek daha fazla zaman harcıyor. Bu noktada büyük verinin temel vaadi olan hızlı içgörü tersine dönüyor; depo büyüdükçe analitik kapasitesi azalıyor. Bir perakende firmasının satış verisi üç yıl önce düzenli temizlenmeden biriktirilmişse, bugün o veriyle yapılacak müşteri segmentasyonu analizinin güvenilirliği tartışmalı hale geliyor.

Yatırım getirisi (ROI) perspektifinden bakıldığında, veri gölü projesinin değer üretmesi için iki koşul birlikte sağlanmalı: verinin kullanım amacının önceden tanımlanmış olması ve bu veriyi işleyecek analitik kapasitenin kurumda mevcut olması. Bu iki koşuldan biri eksikse, depolama yatırımı değer üretmez; yalnızca maliyet üretir. Türkiye’deki orta ölçekli firmaların önemli bir kısmı henüz bu analitik kapasiteyi inşa etme aşamasında. Veri bilimi ekibi kurmadan ya da dışarıdan bu hizmeti almadan önce veri gölü mimarisine yatırım yapmak, temeli olmayan bir bina inşa etmeye benziyor.

Pratik zorluk şu: veri yaşam döngüsü politikası oluşturmak, teknik bir karardan çok kurumsal bir karar. Hangi verinin ne kadar süre saklanacağını, hangi verinin arşivleneceğini, hangisinin silineceğini belirlemek; BT departmanının tek başına veremeyeceği kararlar. Finans, hukuk ve operasyon birimlerinin bu sürece dahil edilmesi gerekiyor. Bu koordinasyonu sağlamak, özellikle hiyerarşik yapıların güçlü olduğu Türk iş ortamında zaman alıyor ve proje takvimlerini uzatabiliyor. Üstelik bulut depolama altyapısının ölçeklenebilirliği, bu kararı ertelemeyi kolaylaştırıyor — ki bu erteleme en büyük risk.

Veri gölü yatırımı yapmayı düşünen bir yönetici olarak şu üç soruyu yanıtlamadan depoya bir gigabayt bile eklememeni öneririm: Bu veriyi kim, hangi kararı almak için kullanacak? Bu veriyi işleyecek teknik ve analitik kapasite kurumda var mı? Bu verinin saklanmaması durumunda ne kaybederiz? Eğer bu sorulara net yanıt veremiyorsan, öncelik veri gölü kurmak değil, mevcut verinden değer üretecek analitik süreci tasarlamak olmalı. Depolama ucuzladı diye her veriyi saklamak, rafları doldurmak için market alışverişi yapmak kadar verimsiz bir strateji.

Gökhan MERCANOĞLU

Gökhan MERCANOĞLU

Teknoloji Danışmanı & Yazar

ERP, CRM, otomasyon, yapay zekâ ve kurumsal teknoloji stratejisi üzerine yazan bağımsız teknoloji danışmanı.

Büyük Veri ve Veri Bilimi — Tüm Yazılar Büyük Veri ve Veri Bilimi kategorisindeki yazıları gör →