Büyük Veri Analitik, verilerin veya istatistiklerin bilgisayarla sistematik analizi ve bu analizden elde edilen bilgiler olarak tanımlanabilir. Üretilen verilerin hacminin ve çeşitliğinin artışı ve bunları işleme yöntemlerinin gelişmesine paralel olarak önemi artmaktadır.
Örneğin, veri analitiği uygulanmadan bir süpermarket zincirinin satın alma bölümü hangi ürünlerin hangi miktarlarda satın alması gerektiğine karar verirken zorlanacaktır.
Web trafiği analizi veya müşteri memnuniyet analizi gibi veri analitiğinin birçok farklı türü bulunmaktadır. Her veri analitiği türünün ürettiği değer farklı olmakla birlikte ortak hedef gelirleri arttırmaktır.
Özellikle internetin gelişimiyle birlikte büyük veri analitiği kavramı da giderek daha fazla duyulmaya başlanmıştır. Büyük veri analitiği geleneksel veri analitiğinin yerini almaz ancak onu destekler. Büyük veri geleneksel veri depolarının yerini almak yerine daha zengin raporlama, analiz ve tamamlayıcı işlevlerle onu zenginleştirir[1].
Büyük veri tek bir inovasyonun değil farklı alanlardaki birçok değişim ve inovasyonun sonucudur.
Bu durumu büyük veri hacim, çeşitlilik ve hız açılarından ele alabiliriz.
Hacim
Kurumların ve bireylerin ürettiği verilerin hacmi hızla artmaktadır. Üretilen tüm verileri depolamak her zaman gerekli olmasa da bu veriler müşteriler, pazarlar ve süreçler hakkında değerli bilgiler sunabilir. Büyük veri analitiği bu noktada geleneksel veri analitiğinden ayrılmaktadır.
Geleneksel veri analitiğinin kullandığı sınırlı düzeyde seçilmiş ve örneklendirilmiş veriler (genellikle sütunlar ve satırlar şeklinde düzenlenmiş yapısal veriler şeklindedir) tüm verilerin sunacağı büyük resme göre daha zayıf analize yol açacaktır. Yeni yönetmelikler, arşivleme ve güvenlik uygulamaları ve internetin yükselişi nedeniyle işletmelerin ürettiği veri miktarındaki artış genel veri miktarındaki artıştan daha fazladır.
Sosyal medya, nesnelerin interneti gibi gelişmeler önümüzdeki dönemde üretilen veri miktarındaki artışı daha da hızlandıracaktır.
Çeşitlilik
Veri hacmi büyük verinin ana itici gücü olmasına rağmen veri çeşitliliği de büyük veri konusunda önemli bir rol oynamaktadır.
Geleneksel veri analitiğinin temel olarak odaklandığı yapısal veriler genellikle yapılandırılmış biçimdeki verileri içeren ilişkisel veritabanları kullanmakta olup bu durum önceden tanımlanmış yapılara uymayan verilerin analizine izin vermemektedir.
Ancak, verilerin yüzde 80-90’lara kadar ulaşan kısmı yapılsan olmayan verilerden oluşmaya başlamıştır. Yapısal olmayan veri en basit haliyle önceden tanımlanmış bir veri modeline göre tamamen yapılandırılmayan veriler olarak tanımlanabilir.
Yapısal olmayan verilerin miktar ve çeşitliliğindeki artışa web sayfaları, sosyal ağlar, mesajlaşma uygulamaları, e-posta gibi yeni veri kaynakları yanında ses, video ve resim gibi yeni veri biçimleri de yol açmaktadır[3].
Özellikle video (güvenlik kamerası görüntüleri gibi) ve ses (yardım hattı ses kayıtları gibi) biçimindeki veriler toplam veriler içinde önemli bir pay almaya başlamıştır. Geleneksel veri analitiği yöntemleri bu tür verilerin analizi için yeterli değildir.
Hız
İş dünyasının bir kuralı olarak, bir fırsatı ilk keşfeden öne geçecektir. Bu nedenle verilerin mümkün olduğu kadar hızlı analiz edilmesi büyük önem taşımaktadır.
Hızlı analiz verilerin üretilme hızına uygun şekilde işlenmesi ve bunlardan belirli bir süre içinde değer elde edilebilmesi anlamındadır. Veri analitiğinde önce analiz et sonra depola ve önce depola sonra analiz et şeklinde iki yaklaşım vardır.
İlk yaklaşımda süreçlerden, ağlardan ve sistemlerden akan veriler çoğu durumda gerçek zamanlı analiz edilir ve sadece önemli sonuçlar depolanır[4].
Bu yaklaşım gecikmelerin azaltılması ve önemli veriler yapısal bir şekilde kaydedilirken önemsiz verilerin ayıklanması avantajlarını sunar. Daha çok geleneksel veri analitiğinin kullandığı önce depola sonra analiz et yaklaşımı ise örneğin belirli bir süre zarfında neler olduğunu tanımlamak üzere raporlar hazırlamak gibi işlevler için kullanılır.
Bu yaklaşımın geleceğe ilişkin tahminler için kullanılması da mümkün olmakla birlikte çoğu durumda yetersiz kalmaktadır. Yarın neler olacak sorusu dün neler oldu sorusundan daha önemli hale gelmektedir.
Geliştirilen yeni teknolojiler büyük veri uygulamalarını desteklemektedir. Bulut bu teknolojilerin öne çıkanlarından birisidir ve gelecekte daha çok sayıda kurum tarafından benimsendikçe önemli artmaya devam edecektir. En önemli avantajları büyük veri uygulamaları için gerekli depolama ve işlemci kapasitesini neredeyse sınırsız şekilde sunması, işe küçük ölçekte başlayıp ihtiyaca göre artışa izin vermesi ve önemli maliyet avantajları ve kaynakların daha verimli kullanılmasını sağlamasıdır. Diğer bir teknoloji olarak miktarı hızla artan veriler karşısında geleneksel veritabanı yaklaşımlarının yetersiz kalmasına yanıt olarak yeni veritabanı türleri geliştirilmektedir. İleride bu konulara da değinmekte fayda olacaktır.
[1] Adrian, M., & Chamberlin, D. (2012). Orbitz Worldwide Uses Hadoop to Unlock the Business Value of “Big Data.” Gartner: https://www.zotero.org/groups/leapforward/items/itemKey/BSHHXBHN
[2] Gantz, J. F., Mcarthur, J., & Minton, S. (2007). The Expanding Digital Universe. Director, 285(6). doi:10.1002/humu.21252
[3] Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., & Byers, A. (2011). Big data: The next frontier for innovation, competition, and productivity.
[4] White, C. (2011). Using Big Data for Smarter Decision Making. BI research.