Bu yazımızda veri madenciliği nedir sorusunu ele alacağız.
Veri madenciliği, büyük veri kümelerinde anormallikleri, modelleri ve bağıntıları bulma sürecidir. Veritabanlarında bulunan büyük miktardaki veriyi analiz edip faydalı bilgiye ulaşma veya bilgiyi elde etmenize yardımcı olur. Genel amaç: eğilimleri öngörmek için görünüşte farklı olgular arasındaki bağlantıları ortaya koymaktır. Veri madenciliği ile gelirinizi artırabilir, maliyetinizi azaltabilir veya müşteri ilişkilerinizi geliştirebilirsiniz. Çeşitli teknikler kullanarak elde ettiğiniz bilgileri hayal gücünüzün izin verdiği şekilde istediğiniz alanda kullanabilirsiniz.
Şirketler gün geçtikçe daha karmaşık bir ortamda faaliyet göstermeye başladı. Dijitalleşmenin başarısı ve her gün büyümeye devam eden ve veri deposu haline gelen internet ile şirketler Büyük Veri yığınları arasında kayboluyor. Her saklanan veri ile şirketlerin işi daha da zorlaşıyor. Bu nedenle şirketler veri madenciliği tekniklerine ihtiyaç duymaktadır. Şirketler, yaptıkları işlemlerin performansını en üst düzeye çıkarmak, bir müşterinin profiline bakarak vereceği teklifi kişiselleştirmek, rekabeti ayarlamak, iletişim kanallarının kullanımını düzenlemek, risk altındaki müşterileri tanımlamak, finansal gidişatı incelemek ve banka kartlarının hileli kullanımı ile mücadele etmek için Veri Madenciliğini kullanırlar.
Ayrıca, bilim de Veri Madenciliği kullanarak insan davranışını veya bir genin ifadesini karakterize etmek söz konusu olduğunda bundan faydalanabilir. Böylece, genetikte Veri Madenciliği bir DNA sekansındaki değişikliklerin hastalık geliştirme riskini nasıl etkilediğini anlayarak DNA ve hastalıklar arasındaki yazışma ilişkisini anlamaya da yardımcı olur.
Bir Veri Madenciliği projesini başarıyla tamamlayabilmek için öncelikle incelenecek problemi açıkça tanımlamak gerekir. Ardından, kullanılabilen veriler kümesinden seçim yapmak çok önemlidir. Yani kalitesi şüpheye yer bırakmayan bir veri seçilmeli. Tüm bunlar kullanılan verilerin sayısının, ele alınan sorunun karmaşıklığı ile ilişkili kalmasını sağlar. Sorun ne kadar karmaşık olursa o kadar fazla veri gerekecektir. Ardından istatistiksel yöntemler, veri analizi ve bilgisayar programları kullanılarak oluşturulan modeli yapılandırma adımı gelir. Amaç, bir veritabanındaki yeni verileri tahmin etmek, kütleye gömülü mevcut verileri vurgulamak veya veri kütlesini azaltmak olabilir. Son olarak, sonuçlar dikkatle incelenmelidir.
Birleşik bir disiplin olarak veri madenciliği, farklı analitik yeteneklerde kullanılan organizasyonel ihtiyaçları baştan sona ele alır. Farklı türde sorular sorar ve bir karara varabilmek için farklı seviyelerde insanların girdiği verileri çeşitli tekniklerle süzer.
İçindekiler
Veri Madenciliği Modelleme Teknikleri
Descriptive (Tanımlayıcı) Modelleme:
Descriptive modelleme, müşterileri ürün tercihlerine veya duyarlılığına göre kategorize etmeye yarar. Başarı veya başarısızlığın arkasındaki nedenleri belirlemek için geçmiş verilerde paylaşılan bilgileri ortaya çıkarır.
Kullanılan teknikler;
Kümeleme | Benzer kayıtlar birlikte gruplanır |
Anomali Tespiti | Çok boyutlu aykırı değerlerin tanımlanması yapılır |
İlişkilendirme yapma | Kayıtlar arasındaki ilişkiler algılanır |
Temel bileşen analizi | Değişkenler arasındaki ilişkileri algılanır |
Yakın ilgi alanı gruplandırması | Ortak ilgi alanlarına veya benzer hedeflere sahip insanların gruplandırması yapılır |
Predictive (Tahmin Edici) Modelleme:
Predictive modelleme, gelecekteki olayları sınıflandırmak veya bilinmeyen sonuçları tahmin etmek için daha derine inme yöntemidir. Örneğin, bir bireyin krediyi geri ödeme olasılığını belirlemek için kredi puanlamasını kullanmak. Öngörülü modelleme ayrıca müşteri karmaşası, kampanya yanıtı veya kredi varsayılanları gibi şeyler için öngörüler ortaya çıkarmaya yardımcı olur.
Predictive Modelleme Teknikleri;
Regresyon | Bir bağımlı değişken ile bir dizi bağımsız değişken arasındaki ilişkinin gücünü ölçer. |
Nöral Ağlar | Örüntüleri tespit eden, tahminlerde bulunan ve öğrenen bilgisayar programları kullanılır. |
Karar Ağaçları | Her dalın olası bir olayı temsil ettiği ağaç şeklindeki diyagramlar kullanılır. |
Vektör Makineler | İlişkili öğrenme algoritmaları ile denetimli öğrenme modelleri. |
Prescriptive Modelleme:
İnternette yapılandırılmamış verilerden, kitaplardan, e-postalardan ve diğer metin kaynaklarından gelen veri artışıyla, veri madenciliğiyle ilgili bir disiplin olarak metin madenciliğinin de benimsenmesi önemli ölçüde artmıştır.
Veri madenciliğine ayrı, bağımsız bir varlık olarak bakmamalısınız, çünkü veri hazırlama, veri keşfi, model doğrulama, puanlama ve model performans izleme eşit derecede önemlidir. Prescriptive modelleme, bir veya daha fazla eylem planı önermek için iç ve dış değişkenlere ve kısıtlamalara bakar. Örneğin, her müşteriye gönderilecek en iyi fiyat teklifini belirlemenizi sağlar.
Kullanılan teknikler;
Predictive kurallar | Kalıplardan kurallar alıp almayacaklarını geliştirme ve sonuçları tahmin etme. |
Pazarlama optimizasyonu | Mümkün olan en yüksek yatırım getirisi için gerçek zamanlı olarak en avantajlı ortam karışımını simüle eder. |
Veri Madenciliğinde Kullanılan Teknikler
1. İzleme Modelleri (Tracking Patterns):
Veri madenciliğinin en temel tekniklerinden biridir. Veri kümelerindeki kalıpların tanımlanması bu süreçte yapılır. Bu genellikle verilerinizde düzenli aralıklarla meydana gelen bazı sapmaların tanınmasıdır. Örneğin, belirli bir ürüne olan talebin tatilden hemen önce yükseldiğini veya hafta içi sitenize daha fazla kullanıcı çektiğinizi bu teknikle öğrenebilirsiniz.
2. Sınıflandırma (Classification):
Daha fazla sonuç elde etmenize veya çeşitlilik nitelikleri belirli bir kategoride toplamanıza yardımcı olan bir veri madenciliği tekniğidir. Örneğin, müşterilerin finansal arka planlarına ve satın alma geçmişlerine ilişkin verilere ulaşmak istiyorsanız, bunları “düşük”, “orta” veya “yüksek” kredi riskleri olarak sınıflandırabilirsiniz. Daha sonra, bu müşteriler hakkında daha fazla bilgi edinmek için bu sınıflandırmalar üzerinden rahatlıkla veri toplayabilirsiniz.
3. Birliktelik (Association):
Birliktelik, izleme kalıplarıyla ilgilidir. Veriler arasındaki bağlantıları tespit etmenize yardımcı olur. Örneğin, bir müşteri ayakkabı aldıktan sonra genellikle ikinci ürün olarak çorap aldığını fark etmenizi sağlar. Bu yöntem ile ürünleri raflara nasıl dizeceğinize karar verebilirsiniz. Bu yöntem için belirli algoritmalar kullanılır.
4. Aykırı algılama (Outlier Detection):
Verinizdeki anormallikleri veya aykırı değerleri tanımlamanız gerekir. Aykırı algılama tekniği ile verideki aykırı durumları tespit edebilirsiniz. Örneğin, müşterileriniz sadece erkek, ancak Temmuz ayında kadın müşterilerinizde bir artış meydana geliyor ve bu ani artışın sebebini araştırmak istiyorsanız bu yöntemi kullanmalısınız. Aykırı algılama algoritmaları ile satışlarınızdaki verimi en üst seviyelere çıkarabilirsiniz.
5. Kümeleme (Clustering):
Kümeleme, verilerin özelliklerine göre bir grup haline getirilmesidir. Örneğin, müşterilerinizin ne kadar harcanabilir gelire sahip olduklarına veya mağazanızda ne sıklıkta alışveriş yapma eğilimlerine sahip olduklarını farklı gruplar halinde kümeleyebilirsiniz.
6. Regresyon (Regression):
Regresyon bir planlama ve modelleme biçimi olarak kullanılır. Regresyon, belirli bir veri kümesindeki iki veya daha fazla değişken arasındaki tam ilişkiyi ortaya çıkarmaya yarar.
7. Tahmin (Prediction):
Tahmin, karşılaşabileceğiniz veri türlerini yansıtmak için kullanılır ve en değerli veri madenciliği tekniklerinden biridir. Tarihsel eğilimleri tanımak ve anlamak gelecekte ne olacağına dair doğru bir tahminde bulunabilmek için kullanılır.
Veri madenciliği nedir sorusuna elimizden geldiğince cevap vermeye çalıştık. Her gün artan bilgi yığınları arasında kaybolmamak için her şirketin bu konuda bir uzman barındırması elzem bir konu haline geldi. Teknolojinin gelişmesi durmadığı sürece veri madenciliği nedir sorusu her gün sorulmaya devam edecektir.