Yeni Başlayanlar İçin En İyi 6 Makine Öğrenimi Konsepti

Makine öğrenimi, veri kümelerinde bulunan kalıpları öğrenmek için geleneksel matematiği modern ve güçlü hesaplama işlemiyle birleştiren bir tekniktir. Makine öğreniminde amaç, belirli bir görevi gerçekleştirmek için bu kalıpları kullanabilen bir algoritma üretmektir. Denetimli makine öğrenimi durumunda amaç ise kümenin hangi kategoriye veya sınıfa ait olduğunu belirleyen, evin fiyatı gibi sabit bir değeri tahmin eden bir model geliştirmektir. Bu yazımızda ise, bu alana yeni başlayanlar için en iyi 6 makine öğrenimi konsepti listeledik.

Öznitelik

Bir makine öğrenimi problemindeki girdilere öznitelik diyoruz. Örneğin, yeni başlayanlar için oldukça sık kullanılan bir örnek olarak bilinen “Boston konut fiyatları” veri seti üzerinden konuyu ele alabiliriz. Bir evin fiyatını belirleyen birden çok öznitelik vardır. Bunlar; oda sayısı, konumu, bina yaşı vs. olabilir. Bir makine öğrenmesi modelindeki temel amaç ise, evin fiyatı ile bu öznitelikler arasında istatistiksel bir ilişki çıkarmaktır.

Öznitelik Seçimi ve Mühendisliği

makine-öğrenmesi-konsepti-öznitelik-secimi

Bir makine öğrenimi modeli geliştirmenin en önemli adımlarından birisi optimizasyondur. Geliştirilen makine öğrenmesi modelinin en optimal şekilde çalıştırılması gerekmektedir. Bunu yapmanın yolu ise modeli en iyi öznitelikler ile eğitmekten geçer.

Her özniteliği dahil etmek her zaman iyi bir fikir olmayabilir. Bazı özniteliklerin, tahmin etmeye çalıştığımız değişken ile istatistiksel bir ilişkisi olmayabilir. Bu tarz özniteliklerin makine öğrenmesi modelinde eğitim için kullanılması birçok problemi beraberinde getirir. Öznitelik seçimi, eğitim aşamasına dahil edilecek en uygun öznitelikleri seçme işlemidir.

Benzer şekilde ham biçimlerdeki öznitelikler, bir modeli eğitmek için yeterli miktarda anlamlı veri sağlamayabilir. Ayrıca bazı özellikler ham haliyle kullanılamaz, bunun güzel bir örneği tarih / saat tabanlı öznitelikler olabilir. Bir makine öğrenimi modeli tarih veya zaman damgası kullanamaz, bu bilgileri dahil edebilmek için öncelikle anlamlı öznitelikler türetmemiz gerekir.

Tarihlerin bölümlerini ay, gün veya hafta sayısı gibi tam sayı formlarında kullanabilir veya iki tarih arasındaki farkı hesaplayarak algoritmanın anlaşılmasını sağlayabiliriz. Bu, öznitelik mühendisliği olarak bilinir.

Etiketler

makine-öğrenmesi-konsepti-etiketler

Denetimli makine öğrenmesi, etiketli veri olarak bilinir. Bu, her kümenin bir etiketi olduğu anlamına gelir. Bu etiketler, bir hayvan sınıflandırma problemindeki kedi, köpek, tavşan olabilirken aynı zamanda ev fiyatı gibi sürekli bir değer de olabilir.

Makine öğrenimi modelleri geliştirirken, öznitelikler genellikle X ve etiketler ise Y olarak adlandırılır.

Eğitim

makine-öğrenmesi-konsepti-egitim

Denetimli makine öğrenmesinde etiketli veriler gereklidir, çünkü makine öğrenmesi algoritmaları bu özniteliklere karşılık gelen etiketleri kullanarak kendini eğitir. Eğer bu eğitim işlemi başarılı bir şekilde gerçekleşirse modelin daha önce hiç görmediği etiketleri doğru bir şekilde tahmin eder.

Makine öğrenimi sürecindeki öğrenmenin bu aşaması, eğitim aşaması olarak bilinir. Bu adımın sonunda artık, yeni sınırsız verinin etiketini veya değerini tahmin etmek için kullanılabilecek bir modeliniz vardır.

Tuning (Ayarlama)

tuning

Daha önce öznitelik seçimini açıklarken bir optimizasyon sürecinden bahsetmiştik. Bu işlemin bir başka kısmı da ayarlama olarak bilinir ve belirli veri kümeniz için en iyi kombinasyonu bulmak için bir algoritmanın parametrelerini optimize etmeyi içerir.

Tüm makine öğrenimi modellerinin birden çok seçeneği olan parametreleri vardır. Örneğin, rastgele orman modelinin birçok ayarlanabilir parametresi vardır. Bir ormandaki ağaçların sayısını belirleyen n_estimators buna bir örnektir.

Genellikle, ağaç sayısı ne kadar çok olursa sonuç o kadar iyi olur ancak siz daha fazla ağaç ekledikçe belirli bir noktaya kadar modeliniz iyileşir. Veri kümeniz için en uygun ağaç sayısını bulmak, rastgele orman algoritması için parametreleri ayarlamanın bir yoludur.

Her algoritmanın birkaç ayarlanabilir parametresi vardır ve her parametrenin potansiyel olarak çok sayıda seçeneği vardır. Neyse ki bu parametrelerin optimum kombinasyonunu bulmak için otomatik yöntemler vardır ve bu hiperparametre optimizasyonu olarak bilinir.

Validation (Onaylama)

Makine öğrenimi konsepti listesinin son maddesi onaylamadır. Bir model oluşturulduktan sonra, verilen görevi ne kadar iyi yerine getirdiğini belirlememiz gerekir. Örnek verilerimizde, modelin bir evin fiyatını doğru bir şekilde tahmin edebileceğini anlamak istiyoruz. Makine öğreniminde, en iyi performans metriğini oluşturmak önemlidir ve çözmekte olduğumuz probleme bağlı olarak değişecektir.

Genellikle bir makine öğrenimi projesine başlarken, önce çalıştığımız veri setlerini iki bölüme ayırırız. Biri modeli eğitmek için kullanılırken diğeri ise test aşaması için kullanılır.

Makine öğreniminde test, genellikle doğrulama olarak adlandırılır. Modeli, öngörülen test veri seti üzerinde tahminler yapmak ve modelin verilen görevi ne kadar iyi yerine getirebileceğini belirlemek için seçilen performans ölçütlerini ölçmek için kullanırız.

Bir makine öğrenmesi problemini çözmek için bu 6 konsepti bilmek bu alanda hayati derecede önem taşımaktadır.

Teknoloji'den geri kalmamak için e-posta listemize abone olun!

Muğla Sıtkı Koçman Üniversitesi Bilgisayar Mühendisliği 3.sınıf öğrencisi.