Büyük Veri ve Veri Bilimi 5 dk okuma

Büyük Veri, Veri Bilimi ve Makine Öğrenimi: Yöneticinin Kavramsal Haritası

Bir perakende zincirinin IT müdürü, geçen ay yapılan yönetim kurulu toplantısında üç ayrı sunum izledi. Birincisi ‘büyük veri stratejisi’ başlığını taşıyordu, ikincisi ‘veri bilimi altyapısı’ diyordu, üçüncüsü ise ‘makine öğrenimi ile müşteri segmentasyonu’ öneriyordu. Üç sunum da farklı bütçe kalemleri, farklı ekip yapıları ve farklı yazılım lisansları gerektiriyordu. Müdür toplantı sonunda şu soruyu sordu: ‘Bunların hangisi hangisinin içinde?’ Sorunun cevabı net değilse, yatırım kararı da net olmaz.

Kavramsal haritayı kurmak için en sağlıklı yaklaşım, hammadde-disiplin-yöntem çerçevesini kullanmaktır. Büyük veri bir hammaddedir; işletmenin sunucularında, log dosyalarında, satış kayıtlarında ve giderek yaygınlaşan sensör çıktılarında biriken ham veri kütlesini tanımlar. Bu verinin ‘büyük’ sayılması için üç özelliğin bir arada bulunması gerekir: hacim (terabayt düzeyinde), hız (gerçek zamanlı veya yüksek frekanslı üretim) ve çeşitlilik (yapılandırılmış tablo verisi yanında metin, görüntü, log gibi yapılandırılmamış türler). Büyük veri tek başına bir çözüm değil, çözülmesi gereken bir lojistik sorundur: bu veriyi depolamak, taşımak ve sorgulanabilir hale getirmek ciddi altyapı yatırımı ister.

Veri bilimi ise bu hammaddeyi işleyen disiplinin adıdır. İstatistik, bilgisayar bilimi ve alan uzmanlığını birleştiren veri bilimi, ham veriden anlamlı örüntüler ve eyleme dönüştürülebilir içgörüler çıkarmayı amaçlar. Bir veri bilimcisi, büyük veri altyapısının ürettiği ham kütleyi sorgular, temizler, modeller ve yorumlar. Bu disiplinin çıktısı bir rapor, bir tahmin modeli veya bir karar destek aracı olabilir. Veri bilimini klasik iş zekasından ayıran şey, sadece geçmişe bakmaması; örüntüleri kullanarak geleceğe dair olasılıksal çıkarımlar üretmesidir. Bu nedenle veri bilimi ekibi kurmak, yalnızca bir yazılım satın almakla çözülmüyor; istatistik ve programlama bilen, aynı zamanda iş süreçlerini anlayan insan profilini bulmayı gerektiriyor.

Makine öğrenimi ise veri biliminin kullandığı yöntemlerden biridir; disiplinin kendisi değil, araç kutusu içindeki belirli bir yaklaşım setidir. Klasik programlamada kural insan tarafından yazılır: ‘Eğer müşteri 30 gün içinde sipariş vermemişse, riskli say.’ Makine öğreniminde ise kural veriden öğrenilir: sistem geçmiş verilere bakarak hangi örüntünün ‘riskli müşteri’ ile örtüştüğünü kendi hesaplar. Bu yaklaşım özellikle değişken ve çok boyutlu verilerde klasik kural tabanlı sistemlerin üzerinde performans gösterir. Ancak makine öğrenimi modeli kurmak için önce yeterli miktarda temiz ve etiketlenmiş veri gerekir; bu da büyük veri altyapısına ve veri bilimi disiplinine olan bağımlılığı ortaya koyar.

Hiyerarşi şu şekilde okunabilir: büyük veri altyapısı kurulmadan veri bilimi disiplini çalışacak ham maddeyi bulamaz; veri bilimi disiplini olmadan makine öğrenimi yöntemleri doğru uygulanamaz. Bu sıra aynı zamanda yatırım önceliğini de belirler. Altyapı olmadan model kurmaya çalışmak, fabrika kurmadan üretim planı yapmak gibidir. Türkiye’deki pek çok orta ölçekli işletme şu anda bu hatayı yapıyor: bir makine öğrenimi aracı satın alıyor, ancak besleyecek temiz veri tabanı ve bu veriyi yorumlayacak yetkinlik henüz oluşmamış.

Pratik zorluk ise yetkinlik açığıdır. Veri bilimcisi profili Türkiye’de henüz yeni şekilleniyor; üniversiteler bu alanda mezun vermeye yeni başlıyor. Şirketler bu boşluğu genellikle iki yoldan kapatmaya çalışıyor: ya yurt dışından danışman getiriyorlar ya da mevcut istatistikçi ve yazılım geliştiricilerini bu alana yönlendiriyorlar. Her iki yolun da maliyeti ve zaman gereksinimi yüksek. Öte yandan büyük veri altyapısı için gereken depolama ve işlem gücü, bulut bilişim seçenekleri sayesinde eskiye kıyasla daha erişilebilir hale geliyor; ancak bu altyapıyı kurmak ve yönetmek hâlâ ciddi teknik kapasite istiyor. Toplam sahip olma maliyeti hesaplanırken lisans ve donanım kalemlerinin yanına insan kaynağı ve eğitim maliyetlerini de eklemek gerekiyor.

Yönetici için somut karar kriteri şudur: ‘Büyük veri’ başlığı altında gelen her teklifi önce altyapı, disiplin ve yöntem katmanlarına ayırın. Hangi katmanda ne satın alıyorsunuz, hangi katman hâlâ eksik? Altyapı sağlam değilse veri bilimi yatırımı havada kalır; veri bilimi yetkinliği yoksa makine öğrenimi aracı kullanılmaz hale gelir. Bu üç katmanı eş zamanlı ve koordineli kurmayı planlayan, pilot projeyle küçük başlayıp ölçeklendiren işletmeler, büyük bütçe harcayıp sonuç alamayan rakiplerine karşı gerçek bir operasyonel avantaj elde eder.

Gökhan MERCANOĞLU

Gökhan MERCANOĞLU

Teknoloji Danışmanı & Yazar

ERP, CRM, otomasyon, yapay zekâ ve kurumsal teknoloji stratejisi üzerine yazan bağımsız teknoloji danışmanı.

Büyük Veri ve Veri Bilimi — Tüm Yazılar Büyük Veri ve Veri Bilimi kategorisindeki yazıları gör →