Akıllı telefonunuzu her kullandığınızda, Facebook’ta aileniz ve arkadaşlarınızla sohbet ettiğinizde ve alışveriş yaptığınızda veri üretilir. Tüm bu veriler çok karmaşıktır ve gerçek zamanlı olarak hızlı bir şekilde gelir. Bu veri kümelerinin hepsine “büyük veri” denir.
Big Data ya da büyük veri, veri işleme yazılımları tarafından işleme alınamayacak kadar büyük veya karmaşık veri kümelerini analiz etme ve sistematik bir şekilde ele alma yöntemidir. Geleneksel yöntemleri kullanarak işlemenin zor veya imkansız olduğu büyük veya karmaşık olan verileri ifade eder. Büyük verilerin belirli bir hacmi olmasa da veri dağıtımları genellikle terabayt (TB), petabayt (PB) ve exabyte (EB) olarak yapılır.
İçindekiler
Büyük Verinin Önemi
Firmalar sistemlerinde biriken verileri daha iyi müşteri hizmeti sunmak, müşteri tercihlerine göre kişiselleştirilmiş teklifler oluşturmak ve sonuç olarak karlılıklarını artırmak için büyük veri kullanırlar. Büyük veri kullanan firmalar sistemlerinde biriken verileri daha etkin bir şekilde kullanır ve atacakları adımları daha bilinçli ve hızlı bir şekilde verebilirler. Böylece büyük veri, müşteri katılımını ve dönüşüm oranlarını artırmaya yardımcı olur.
Büyük verilerin kullanılması firmaların müşteri merkezli ve odaklı çalışmasını sağlar. Gerçek zamanlı veriler, müşterilerin gelişen tercihlerini değerlendirmek için kullanılabilir. Sonuç olarak işletmelerin pazarlama stratejilerini güncellemeleri, geliştirmeleri ve müşteri ihtiyaçlarına daha duyarlı hale gelmeleri sağlanır.
Büyük veri (Big Data), enerji endüstrisinde petrol ve gaz şirketlerinin potansiyel sondaj yerlerini belirlemelerine ve boru hattı operasyonlarını izlemelerine de yardımcı olur. Finansal hizmet sağlayan firmalar, risk yönetimi ve piyasa verilerinin gerçek zamanlı analizi için büyük veri sistemleri kullanır. Üreticiler ve nakliye şirketleri tedarik zincirlerini yönetmek ve teslimat rotalarını optimize etmek için büyük veriye güvenir. Diğer kullanımlar arasında acil müdahale, suç önleme ve akıllı şehir girişimleri de yer alıyor.
Müşteri verileri kullanılarak, Büyük veri kümelerinde bulunan bilgilerle yapılabilecek analitik dallar şunları içerir:
- Karşılaştırmalı Analiz: Bir şirketin ürünlerini, hizmetlerini ve marka otoritesini rakipleriyle karşılaştırmak için kullanılır. Kullanıcı davranışı incelenmesi ve gerçek zamanlı müşteri katılımının gözlemlenmesi ile gerçekleşir.
- Sosyal Medya İncelemesi: Belirli bir işletme veya ürün hakkında insanların sosyal medyada ne söylediğiyle ilgili bilgilerin analiz edildiği bölümdür. Alınan veriler, pazarlama kampanyaları için hedef müşteri kitlesinin tanımlanmasına yardımcı olmak için kullanılabilir.
- Pazarlama Analizi: Yeni ürünlerin, hizmetlerin ve girişimlerin tanıtımını daha yenilikçi hale getirmek için kullanılabilecek bilgilerin elde edilmesi için pazarlama analizi yapılmalıdır.
- Müşteri Memnuniyeti ve Duyarlılık Analizi: Toplanan tüm bilgiler, müşterilerin bir şirket veya marka hakkında ne hissettiğini, herhangi bir potansiyel sorun ortaya çıkıp çıkmayacağını, marka sadakatinin nasıl korunabileceğini ve müşteri hizmetleri çabalarının nasıl iyileştirilebileceğinin ele alındığı bölümdür.
Büyük veri genellikle 3V ile karakterize edilir. 3V, Doug Laney tarafından Volume (hacim), Velocity (hız) ve Variety (çeşitlilik) olarak tanımlanmıştır. Zamanla popülerleşen büyük veriye yeni V’ler eklenmiştir.
Büyük Veri V’leri:
- Hacim (Volume): Hacim büyük verilerin en yaygın olarak belirtilen özelliğidir. Hacim, ne kadar veriye sahip olduğumuzu tanımlar.
- Hız (Velocity): Hız, verinin erişilebilir olduğu hızı temsil eder. Nesnelerin İnterneti’ndeki büyüme ile veriler firmalara büyük bir hızla akar ve zamanında ele alınmalıdır. Büyük veri kümeleri, birçok geleneksel veri deposunda yapılan günlük, haftalık veya aylık güncellemeler yerine, gerçek veya neredeyse gerçek zamanlı olarak güncellenir. Büyük veri analizi uygulamaları, gelen verileri alır, ilişkilendirir ve analiz eder ve ardından kapsayıcı bir sorguyu temel alarak bir yanıt veya sonuç oluşturur. Veri bilimcileri ve diğer veri analistlerinin mevcut verileri ayrıntılı bir şekilde anlaması gerekir. Büyük veri analizi, makine öğrenimi ve yapay zeka (AI) gibi alanlara genişlediğinden, analitik işlemlerin toplanan verilerdeki desenleri otomatik olarak bulduğu ve içgörüler oluşturmak için kullandığından veri hızını yönetmek de önemlidir.
- Çeşitlilik (Variety): Çeşitlilik, büyük verilerin en büyük zorluklarından birini tanımlar. Genellikle geleneksel işlem verilerinden daha az tutarlı olan, birden çok anlama sahip olabilen veya bir veri kaynağından diğerine farklı şekillerde biçimlendirilebilen büyük veri kümeleri için geçerlidir.
- Gerçeklik (Veracity): Veri doğruluğu, veri kümelerindeki verilerin ne kadar doğru olduğunu ifade eder. Sosyal medya platformları ve web sayfaları gibi birden çok kaynaktan toplanan ham veriler tespit edilmesi zor olabilecek ciddi veri kalitesi sorunlarına neden olabilir. Verilerin doğru olduğundan emin olmalısınız. Doğrulama olmadan düşük kaliteli veriler sorunlara neden olabilir. Belirsiz veriler yanlış analize yol açabilir ve kötü kararlar verilmesine neden olabilir. Sonuç olarak, verilerinizi her zaman doğrulamanız ve geçerli ve anlamlı sonuçlar elde etmek için yeterli sayıda doğru veriye sahip olduğunuzdan emin olmanız gerekir.
- Değer (Value): Hacim, hız, çeşitlilik, değişkenlik, gerçeklik ve çok fazla zaman, çaba ve kaynak gerektiren görselleştirmeyi ele aldıktan sonra, kuruluşunuzun verilerden değer aldığından emin olmak gerekir.
Veri Türleri:
Üç tür veri vardır; Yapılandırılmış, Yarı yapılandırılmış ve Yapılandırılmamış veriler. Her tipte, farklı projelerde kullanılır.
- Yapılandırılmış veriler: Sabit formatlıdır ve genellikle sayısaldır. Çoğu durumda, insanlar tarafından değil makineler tarafından ele alınır. Bu veri türü, SQL veritabanlarında ve elektronik tablolarda yönetilen bilgilerden oluşur.
- Yapılandırılmamış veriler: Önceden belirlenmiş bir biçime girmeyen verilerdir.
- Yarı yapılandırılmış veriler: Web sunucusu günlükleri gibi veri formlarını veya ayarladığınız sensörlerden gelen verileri içerir. Belirli bir veritabanı altında sınıflandırılmamış olmasına rağmen, veriler içinde ayrı ayrı ögeleri ayıran önemli bilgiler içerir.
Kullanabileceğiniz Araçlar:
Büyük Veri her zaman büyüyen bir kaynak olduğundan, onunla birlikte kullanılması amaçlanan araçlar da her zaman gelişmelidir. Kuruluşun gereksinimine bağlı olarak Hadoop, Pig, Hive, Cassandra, Spark, Kafka gibi araçlar sıkça tercih edilir.
Büyük Veriyi analiz etmek için belki de en köklü olanlardan biri, büyük veri kümelerini depolamak ve işlemek için kullanılan açık kaynaklı Apache Hadoop‘tur.
Bir diğer araç ise Apache Spark’dır. Spark’ın güçlü yanlarından biri, işleme verilerinin büyük bir bölümünü bellekte ve diskte depolayabilmesidir. Spark, Hadoop, Cassandra, OpenStack Swift ve diğer birçok veri depolama çözümü ile çalışabilir. Spark’ın en iyi özelliklerinden biri, bir yerel makinede çalışabilmesidir.
Apache Kafka, kullanıcıların gerçek zamanlı veri akışlarını yayınlamalarına ve abone olmalarına izin verir. Kafka’nın ana görevi diğer mesajlaşma sistemlerinin güvenilirliğini veri akışına getirmektir.
Diğer büyük veri araçları:
- Apache Lucene, tam metin indeksleme ve arama yazılımı kütüphaneleri kullandığı için herhangi bir öneri motoru için kullanılabilir.
- Apache Zeppelin, SQL ve diğer programlama dilleri ile etkileşimli veri analizi sağlayan bir inkübasyon projesidir.
- Elasticsearch, daha çok bir kurumsal arama motorudur.
- TensorFlow, makine öğrenimi için kullanıldığından giderek daha fazla dikkat çeken bir yazılım kütüphanesidir.