Bir üretim firmasının BT yöneticisini düşünün: ERP sisteminden gelen yapılandırılmış satış verileri, tedarikçilerden gelen e-posta ekleri, makine sensörlerinden dökülen günlük log dosyaları ve müşteri şikâyet formlarından oluşan yarı yapılandırılmış metin yığınları. Bunların tamamını mevcut veri ambarına aktarmak için önce her birini temizlemek, dönüştürmek ve önceden tanımlanmış bir şemaya uydurmak gerekiyor. Bu süreç bazen veriyi toplamaktan daha uzun sürüyor. İşte ‘büyük veri’ tartışmasının özünde bu operasyonel tıkanıklık yatıyor.
Veri gölü kavramı, tam da bu noktada devreye giriyor. Geleneksel veri ambarı mimarisi ‘yazma anında şema’ ilkesiyle çalışır: veri sisteme girmeden önce yapısı tanımlanır, tablolar oluşturulur, ilişkiler kurulur. Veri gölü ise tersini önerir — ‘okuma anında şema.’ Ham veri, herhangi bir dönüşüm yapılmadan merkezi bir depo alanına düşürülür; yapı, ancak analiz sırasında ihtiyaca göre belirlenir. HDFS (Hadoop Distributed File System) gibi dağıtık dosya sistemleri bu yaklaşımın teknik omurgasını oluşturuyor. Teorik olarak bu mimari, BT ekibinin veriyi önceden ‘anlaması’ gerekmeksizin depolamasına olanak tanıyor.
Esneklik vaadi somut bir operasyonel karşılık buluyor. Veri ambarında yeni bir veri kaynağı eklemek, genellikle şema değişikliği, ETL (extract-transform-load) sürecinin yeniden yazılması ve test döngüsü anlamına geliyor. Bu süreç haftalarca sürebiliyor. Veri gölünde aynı işlem, yeni veri akışını depo alanına yönlendirmekle başlayıp orada bitiyor. Analitik ekip, veriyi kendi ihtiyaçlarına göre daha sonra şekillendiriyor. Büyük ölçekli e-ticaret ve medya şirketlerinin bu modele yönelmesinin arkasında yatan pratik neden de bu hız avantajı.
Ancak bu esneklik, beraberinde ciddi bir yönetim yükü getiriyor. Veri ambarının katı şeması aynı zamanda bir kalite güvencesiydi: sisteme giren veri, tanımlı kurallara uymak zorundaydı. Veri gölünde bu güvence ortadan kalkıyor. Ham veri yığılmaya devam ettikçe hangi dosyanın ne anlama geldiği, hangi versiyonun güncel olduğu, kimin hangi veriyi oluşturduğu giderek belirsizleşiyor. Sektörde bu duruma verilen ad son derece yerinde: ‘veri bataklığı.’ Depo dolup taşıyor ama içindeki veriye güvenerek karar almak mümkün olmuyor. Meta veri yönetimi, veri kataloğu ve erişim kontrolü mekanizmaları kurulmadan hayata geçirilen veri gölü projeleri, başladıklarından daha karmaşık bir tabloya dönüşüyor.
TCO açısından değerlendirildiğinde tablo daha da karmaşık. İlk yatırım maliyeti açısından veri gölü mimarisi, ticari veri ambarı yazılımlarına kıyasla daha düşük lisans gideri sunuyor — açık kaynak Hadoop ekosistemi bu farkın temel nedeni. Ancak toplam sahip olma maliyeti hesabına işletme giderleri eklendiğinde denge değişiyor. Dağıtık sistemleri yönetecek, MapReduce veya Hive ile çalışabilecek mühendis profili, Türkiye’de henüz oldukça sınırlı. Bu uzmanlık açığı, dışarıdan danışmanlık maliyetine ya da uzun iç eğitim süreçlerine dönüşüyor. Orta ölçekli bir şirket için bu gizli maliyet kalemleri, başlangıçtaki lisans tasarrufunu hızla eritebiliyor.
Pratik uygulama deneyimi gösteriyor ki veri gölü ile veri ambarı arasındaki seçim çoğu zaman yanlış kurulmuş bir soru. İki mimari rakip değil, tamamlayıcı. Ham ve keşifsel analizler için veri gölü; operasyonel raporlama ve KPI takibi için veri ambarı — ikisini bir arada kullanan hibrit yapılar, tek başına her iki yaklaşımın da üzerinde performans gösteriyor. Sorun, şirketlerin veri gölünü tek başına yeterli bir çözüm olarak konumlandırmasında yatıyor. Yönetim katmanı kurulmadan hayata geçirilen her veri gölü projesi, kaçınılmaz olarak bataklığa dönüşüyor.
Bir KOBİ yöneticisi bu tartışmadan ne çıkarmalı? Önce şu soruyu sormak gerekiyor: mevcut veri ambarı gerçekten yetersiz mi kaldı, yoksa ETL süreçleri mi kötü tasarlanmış? Çoğu durumda sorun mimari değil, süreç kalitesi. Eğer gerçekten çok sayıda farklı formatta ve kaynaktan akan ham veriyi analiz etme ihtiyacı varsa, veri gölü mimarisi ciddi bir seçenek. Ama bu kararla birlikte meta veri yönetimi, veri sahipliği ve erişim politikası için bütçe ve insan kaynağı da planlanmalı. Teknolojiyi satın almak kolay; onu yönetebilecek yapıyı kurmak asıl yatırım.