Makine Öğrenimi Modeli Doğruysa İş Sonucu Neden Yanlış Olabilir?

Bir perakende zincirinin stok yönetimi ekibi, altı ay süren bir proje sonunda hangi ürünlerin satmayacağını yüzde seksen beş doğrulukla tahmin eden bir model geliştiriyor. Teknik ekip sonuçtan memnun; model doğrulama metrikleri güçlü, test verisi üzerindeki performans tatmin edici. Ancak model devreye alındıktan üç ay sonra depo doluluk oranı düşmüyor, fire maliyeti azalmıyor. Yöneticiler modelin neden işe yaramadığını anlamaya çalışırken asıl sorunun modelin kendisinde değil, modelin etrafında kurgulandığı sistemde olduğunu fark ediyorlar. Bu senaryo, makine öğrenimi projelerinde tekrar eden bir başarısızlık örüntüsünü temsil ediyor.

Makine öğrenimi modellerinin değerlendirilmesinde kullanılan doğruluk, kesinlik ve geri çağırma gibi metrikler, modelin istatistiksel performansını ölçer. Ancak bu metrikler, modelin iş süreçleriyle ne kadar iyi entegre edildiğini, ürettiği tahminlerin doğru karar mekanizmalarına bağlanıp bağlanmadığını ya da çözdüğü problemin gerçekten çözülmesi gereken problem olup olmadığını ölçmez. Bir modelin yüzde doksanın üzerinde doğrulukla çalışması, o modelin iş değeri ürettiği anlamına gelmez. İstatistiksel performans ile iş sonucu arasındaki bu kopukluk, veri analitiği projelerinin en sık gözden kaçan risk alanını oluşturuyor.

Başarısızlığın ilk ve en temel kaynağı yanlış problem tanımıdır. Bir model, kendisine sorulan soruyu doğru yanıtlayabilir; ancak bu soru, işletmenin gerçek ihtiyacına karşılık gelmiyorsa sonuç anlamsız kalır. Stok örneğine dönelim: model ‘hangi ürünler satmaz’ sorusunu yanıtlıyor, oysa operasyonel karar için gereken soru ‘hangi ürünleri ne zaman, ne kadar sipariş etmemeliyiz’ sorusudur. İkisi birbiriyle ilişkili ama özdeş değil. Problem tanımı aşamasında veri bilimcileri ile operasyon yöneticileri aynı masada yeterince zaman geçirmediğinde, model teknik açıdan mükemmel ama iş açısından yanlış bir soruyu yanıtlıyor olabilir. Bu hata proje başında yapılır ve ilerleyen aşamalarda düzeltilmesi giderek pahalılaşır.

İkinci başarısızlık kaynağı, tahminlerin aksiyona dönüştürülememesidir. Bir model, müşterinin önümüzdeki ay hizmeti iptal edeceğini yüzde yetmiş güvenle tahmin ediyor olabilir. Bu tahmin değerli bir bilgidir; ancak bu bilginin müşteri temsilcisine zamanında ulaşması, temsilcinin ne yapacağını bilmesi ve müşteriyle kurduğu temastan geri bildirim toplanması gerekir. Tahmin sistemden çıktıktan sonra bir sürecin içine girmiyorsa, bir kişinin masasına düşmüyorsa ve o kişi ne yapacağını bilmiyorsa tahmin havada kalır. Pek çok şirkette model çıktıları Excel dosyasına aktarılıyor, dosya haftalık toplantıda açılıyor ama toplantıda alınan kararlar tutanağa geçmiyor. Bu, modelin değil süreç tasarımının başarısızlığıdır.

Üçüncü sorun, modelin eğitildiği koşulların değişmesidir. Makine öğrenimi modelleri geçmiş veriden öğrenir ve öğrendiklerini geleceğe uygular. Ancak pazar koşulları, müşteri davranışları veya operasyonel parametreler değiştiğinde model eski örüntüleri kullanmaya devam eder. Türkiye gibi ekonomik oynaklığın yüksek olduğu bir ortamda bu risk daha belirgindir: döviz kuru dalgalanmaları, tüketici güven endeksindeki ani değişimler veya tedarik zincirindeki kırılmalar modelin eğitildiği dünyayı kısa sürede geçersiz kılabilir. Model ‘bozulmaz’ ama eskir. Performans izleme mekanizması kurulmadan devreye alınan modeller, zamanla sessizce yanlış tahminler üretmeye başlar ve bu durum fark edilmeden aylarca sürebilir.

Dördüncü ve daha az görünür bir sorun, modelin doğru metrikle değerlendirilmemiş olmasıdır. Doğruluk oranı dengeli olmayan veri kümelerinde yanıltıcıdır: yüzde beş oranında gerçekleşen bir olayı hiç tahmin etmeyen model, yüzde doksan beş doğrulukla ‘çalışıyor’ görünür. Bir bankacılık ürününün satışını tahmin eden model, nadiren satılan ürünler için yanlış metrikle optimize edilmişse gerçek iş değerini üretmez. Teknik ekip modeli doğruluk üzerinden değerlendirirken iş birimi onu gelir etkisi üzerinden değerlendiriyorsa iki taraf farklı gerçeklikleri konuşuyor demektir. Bu uyumsuzluk, projenin başında netleştirilmesi gereken bir yönetim sorunudur.

Makine öğrenimi projesine yatırım yapan bir yöneticinin teknik metriklerle birlikte şu dört soruyu sormadan kararını vermemesi gerekir: Model gerçekten doğru problemi çözüyor mu? Tahmin çıktısı hangi sürecin içine giriyor ve kim ne yapıyor? Model devreye alındıktan sonra performansı kim, hangi sıklıkla izleyecek? Başarı, iş sonucu üzerinden nasıl ölçülecek? Bu sorulara net yanıt verilemeyen projelerde istatistiksel doğruluk yüksek olsa bile iş değeri üretmek tesadüfe kalır. Modelin doğruluğu gerekli koşuldur; yeterli koşul değildir.