Chatbotların 3 Başarı Kriteri: Anlama, Çözme ve Öğrenme

Bir müşteri hizmetleri yöneticisi, yeni devreye aldığı chatbotun ilk ayda 40.000 konuşma yürüttüğünü raporladığında yönetim kurulu memnuniyetle başını sallıyor. Oysa o 40.000 konuşmanın kaçında müşteri gerçekten cevabını buldu, kaçı insan temsilciye devredildi, kaçı yarıda bırakıldı — bu sorular çoğunlukla raporun dışında kalıyor. Türkiye’deki chatbot projelerinde de aynı tablo sık karşılaşılan bir sorun: hacim metrikleri ön planda, iş sonucu metrikleri arka planda. Bu yazı, chatbot başarısını ölçmek için kullanılması gereken üç temel kriteri — anlama doğruluğu, çözüm oranı ve öğrenme döngüsü — saha gözlemleri ışığında ele alıyor. Üç kriter birbirinden bağımsız değil; biri zayıfladığında diğerleri de bozuluyor. Dolayısıyla bu üçlü, bir ölçüm çerçevesi olduğu kadar bir tasarım rehberi işlevi de görüyor.

Anlama doğruluğu (intent recognition accuracy), botun kullanıcının ne söylediğini değil ne demek istediğini ne ölçüde kavradığını gösteriyor. Doğal dil işleme (NLP) altyapısı ne kadar güçlü olursa olsun, eğitim verisi yetersiz ya da yanlış etiketlenmişse doğruluk düşüyor. Türkçe için bu sorun daha keskin: Türkçenin çekimli yapısı, bölgesel ifade farklılıkları ve müşteri yazışmalarındaki kısaltmalar çoğu hazır NLP motorunu zorluyor. Bir e-ticaret firmasının botunu düşünün — müşteri ‘kargom nerede’ yerine ‘paket gelmedi’, ‘teslimat yok’, ‘niye gelmedi hala’ gibi onlarca farklı ifade kullanıyor. Bot bu varyasyonları aynı niyet altında toplayamazsa her seferinde ‘anlamadım, lütfen tekrar yazar mısınız’ yanıtı veriyor ve müşteri sabırsızlanıyor. Anlama doğruluğunu ölçmek için en sağlıklı yöntem, gerçek konuşma loglarından rastgele örneklem alıp botun atadığı niyeti insan gözüyle doğrulamak. Hedef eşik sektöre göre değişse de müşteri hizmetleri bağlamında yüzde seksenin altı ciddi operasyonel yük yaratıyor.

Çözüm oranı (containment rate veya resolution rate), botun bir konuşmayı insan müdahalesi olmadan tamamlama başarısını gösteriyor. Bu metrik, anlama doğruluğundan daha stratejik çünkü doğrudan operasyonel maliyet ve müşteri memnuniyetiyle bağlantılı. Ancak burada iki farklı çözüm oranını birbirinden ayırt etmek gerekiyor: botun konuşmayı kapattığı oran ile müşterinin sorununu gerçekten çözdüğü oran. Bir banka botunun ‘başka bir sorunuz var mı?’ sorusuna müşterinin ‘hayır’ deyip ayrılması teknik olarak çözüm sayılabilir; ama müşteri aynı soruyla ertesi gün geri dönüyorsa o konuşma aslında çözümsüz kapanmış demektir. Bu nedenle çözüm oranını müşteri geri dönüş oranıyla (repeat contact rate) birlikte izlemek gerekiyor. Türkiye’deki finans ve telekom sektöründe chatbot projelerinde bu iki metriği birlikte raporlayan ekip sayısı hâlâ sınırlı — çoğu zaman sadece devir oranı (escalation rate) izleniyor ve bu da eksik bir tablo sunuyor.

Öğrenme döngüsü (feedback loop), chatbotun zamanla iyileşip iyileşmediğini gösteren üçüncü ve en sık ihmal edilen kriter. Bir bot canlıya alındıktan sonra eğitim verisi güncellenmezse, yeni ürünler, değişen kampanyalar veya müşteri alışkanlıklarındaki kayma karşısında doğruluk oranı kaçınılmaz biçimde düşüyor. Öğrenme döngüsü iki bileşenden oluşuyor: aktif geri bildirim (müşterinin ‘bu yanıt işime yaramadı’ demesi) ve pasif geri bildirim (konuşmanın insan temsilciye devredilmesi, müşterinin aynı soruyu tekrarlaması, konuşmayı yarıda bırakması). Pasif sinyaller çoğunlukla daha zengin bir veri kaynağı çünkü müşterilerin büyük çoğunluğu geri bildirim butonuna basmıyor. Türkiye’de bir sigorta şirketinin chatbot projesinde, devir loglarının aylık analizi sayesinde botun karşılayamadığı üç yeni niyet kategorisi tespit edildi ve modele eklendi; bu güncellemenin ardından devir oranı belirgin biçimde geriledi. Bu tür bir döngü kurmak için insan kaynağı gerekiyor — bot kendi kendine öğrenmiyor, birinin logları inceleyip etiketlemesi gerekiyor.

Üç kriterin birlikte çalışması için ölçüm altyapısının baştan doğru kurulması gerekiyor. Konuşma logları ham halde tutulmalı, her konuşmaya oturum kimliği atanmalı ve bu kimlik CRM veya çağrı merkezi sistemindeki müşteri kaydıyla eşleştirilmeli. Bu eşleştirme olmadan çözüm oranını gerçek anlamda hesaplamak mümkün değil. Türkiye’de birçok chatbot projesinde bu entegrasyon eksik kalıyor: bot kendi platformunda konuşuyor, çağrı merkezi kendi sisteminde kayıt tutuyor, ikisi arasında köprü yok. Sonuç olarak ekipler yalnızca botun kendi ürettiği metriklere bakıyor — bu da ölçümü önyargılı hale getiriyor. Veri altyapısını kurmak için büyük bütçe şart değil; öncelikle hangi veriyi nerede sakladığınızı ve bu veriyi nasıl birleştireceğinizi netleştirmek yeterli. Kur baskısı ve bütçe kısıtlarının hâkim olduğu 2019 Türkiye ortamında, pahalı analitik araçlara yatırım yapmadan önce mevcut log verilerini düzenli inceleme alışkanlığı kazanmak daha gerçekçi bir başlangıç noktası.

Gösteriş metriklerinden iş sonucu metriklerine geçiş, yalnızca bir raporlama tercihi değil; aynı zamanda bir organizasyonel olgunluk sorusu. Chatbot projesinin sahibi kim — pazarlama mı, müşteri hizmetleri mi, dijital dönüşüm birimi mi? Bu sahiplik belirsizliği, hangi metriğin öncelikli olduğunu da bulanıklaştırıyor. Pazarlama etkileşim sayısını, müşteri hizmetleri devir oranını, dijital dönüşüm birimi ise teknik çalışma süresini izliyorsa üç farklı ‘başarı’ tanımı ortaya çıkıyor ve bunlar çelişebiliyor. Chatbot başarısını kurumsal düzeyde tanımlamak için tüm paydaşların üzerinde uzlaştığı iki ya da üç temel metrik belirlemek ve bu metrikleri en az altı ayda bir yönetim raporuna taşımak gerekiyor. Anlama doğruluğu, çözüm oranı ve öğrenme döngüsü bu üçlüyü oluşturmak için sağlam bir başlangıç noktası sunuyor. Hacim rakamları bağlamı anlatmak için kullanılabilir, ama başarıyı tanımlamak için değil.