Generative AI’da Pilot-Değer Açığı: 2024’te Ölçülemeyen Şey Yönetilemez

2023’te başlatılan generative AI pilotlarının büyük çoğunluğu kurumsal raporlarda ‘başarılı’ olarak işaretlendi. Bu iddia doğrulanabilir mi? Sahada gördüğüm tablo başka bir şey anlatıyor: o pilotların ancak küçük bir kısmı 2024 başında üretim ortamında çalışıyor. Geri kalanlar hâlâ sunum klasöründe ya da yönetim kurulu için hazırlanmış bir demo kaydında. Asıl mesele şu değil: şirketler denemedi. Asıl mesele şu: çoğu şirket AI başarısını ERP go-live metriğiyle ölçtü — sistem ayakta mı, kullanıcılar giriş yapıyor mu? Bu iki sorunun yanıtı ‘evet’ olunca pilot ‘başarılı’ sayıldı. Oysa üretken yapay zekânın değeri, sistemin ayakta olmasında değil, iş çıktısında yatar. 2024’ün yönetim görevi, bu açığı kapatmak.Kayseri’de 312 çalışanıyla metal aksam üreten ve beş ülkeye ihracat yapan orta ölçekli bir imalat firmasının 2023 ortasında başlattığı RAG tabanlı teknik dokümantasyon asistanını ele alalım. Temsili değil, bu sektörde sık karşılaştığım bir vaka tipi. Pilot sekiz haftada tamamlandı; demo eksiksiz çalıştı; IT müdürü yönetim kuruluna sistemi tanıttı. Fakat üç ay sonra sahaya indiğimde mühendislerin yarısından fazlasının sistemi düzenli kullanmadığını gördüm. Neden? Çünkü teknik dokümanların yüzde kırkından fazlası sisteme giren veri tabanıyla eşleşmiyordu — kağıt arşiv henüz dijitalleştirilmemişti. RAG mimarisi veriyi doğru biçimde indekslemişti; ancak verinin kendisi eksikti. Demo başarılıydı çünkü demo verisi özenle seçilmişti. Prodüksiyon farklı bir şeydi.Bu örneğin öğrettikleri, generative AI yönetiminin 2024’teki iki temel sorusunu doğuruyor. Birincisi: doğru veriyi sisteme soktunuz mu? İkincisi: başarıyı neyle ölçüyorsunuz? Bu iki soruya net yanıt verilmeden başlatılan her pilot, bütçe tüketir ama değer üretmez. RAG mimarisi son derece güçlü bir araçtır — kurumun kendi bilgi tabanını LLM’e bağlar, halüsinasyon riskini düşürür, KVKK kapsamındaki verilerin dışarı çıkma riskini azaltır. Ama bu araç yalnızca altındaki verinin kalitesiyle orantılı sonuç verir. Veri kalitesini ölçmeden RAG kuran şirket, temelsiz bir binanın üst katını inşa ediyor demektir.Ölçüm sorunu burada başlıyor. Aynı Kayseri vakasında, doğru soruları sorsaydık şunu ölçerdik: mühendis başına teknik doküman arama süresi haftada kaç saat? Bu süre altı hafta sonra değişti mi? Yanlış parçayla üretim hatası oranı düştü mü? Bu soruları sormadıklarında ellerinde tek bir veri vardı: sistem çalışıyor. Sistem çalışmasıyla değer yaratılması arasındaki mesafe tam da pilot-değer açığının genişlediği yerdir. 2024’te bu açığı kapatmak için her AI girişiminin başında üç şeyin yazılı olması gerekiyor: hangi iş metriği değişmeli, ne kadar değişmeli ve sekiz haftada değişmezse ne yapılacak. Bu üç maddeyi yazamıyorsanız pilot henüz hazır değil.Türkiye’nin özgün dinamikleri bu tabloyu daha da karmaşıklaştırıyor. Nisan 2024’te kabul edilen AB AI Yasası, 2025’ten itibaren aşamalı yürürlüğe girecek. AB pazarına ihracat yapan Türk şirketleri — özellikle tekstil, otomotiv yan sanayi ve gıda ihracatçıları — bu uyum süreciyle ilk kez yüz yüze gelecek. Ankara merkezli bir finans yazılımı firması bu riski erken fark etti ve müşterilerine yönelik AI özelliklerini risk sınıflandırması yaparak geliştiriyor; AB müşterileri için yüksek riskli sayılan karar destek modülleri ayrı onay süreçlerinden geçiyor. Bu karar salt uyum zorunluluğundan değil, müşteri güvenini yönetme ihtiyacından doğdu — ki bu ikisi aynı şey değil. Öte yandan KVKK ile AI eğitim verisi kullanımı arasındaki gerilim hâlâ netlik kazanmış değil; Kişisel Verileri Koruma Kurumu’nun sektöre özgü kılavuzları 2024 içinde bekleniyor. Bu belirsizlik, müşteri verisiyle fine-tuning yapacak şirketlerin planlarını bekle-gör modunda tutmasına yol açıyor.SLM’ler — küçük dil modelleri — bu bağlamda pratik bir çözüm olarak öne çıkıyor, ama dikkatli bir değerlendirme gerektiriyor. 7B veya 13B parametreli modeller şirket içi sunucularda çalışabilir, buluta veri göndermez, KVKK açısından daha savunulabilir bir pozisyon sunar. Fakat kapasiteleri sınırlı: çok adımlı akıl yürütme, uzun bağlam gerektiren hukuki veya teknik analiz, karmaşık çok dilli çıktı — bu görevler için büyük modellere ihtiyaç var. Sanayi ihracatçısının teknik doküman asistanı için SLM yeterliydi; ancak aynı firmanın müşteri sözleşmelerini analiz etmesi için GPT-4 sınıfı bir model gerekiyor. Bu ayrımı ‘en iyisini alalım’ mantığıyla değil, her görev için hangi model yeterli sorusuyla yapmak, hem maliyet hem de veri güvenliği açısından doğru yoldur. Kur baskısı göz önüne alındığında — büyük model API maliyetleri dolar bazlı — bu ayrım 2024’te stratejik değil, finansal bir zorunluluk haline geliyor.AI ajanları konusunda ise daha temkinli olmak gerekiyor. Piyasada ajan çözümleri iddialı biçimde pazarlanıyor; bazı satıcılar ‘tamamen otomatik süreç’ vaadi sunuyor. Gerçekte, bir AI ajanının ne yapabileceği, hangi sistemlere ne yetki düzeyinde bağlandığına ve hata durumunda devreye girecek insan denetim katmanına bağlı. 2024’te doğru soru şu: bu ajan neyi tek başına yapabilir, nerede mutlaka insan onayı gerekli ve hata durumu nasıl kayıt altına alınıyor? Bu üç soruya yanıt verilmeden kurulan ajan sistemi, denetim boşluğu yaratır. Denetim boşluğu ise AB AI Yasası kapsamında yüksek riskli kategori anlamına gelebilir. Deneysel dönem bitti; şimdi her sistemin hesap verebilirlik hattı net çizilmiş olmak zorunda. Pilottan ölçülebilir değere giden yol, iyi niyetle değil, iyi tasarlanmış ölçüm çerçevesiyle döşeniyor.