Facebook, günlük milyonlarca ziyaret alan platformlardan birisidir. Facebook gibi büyük platformlarda en büyük sorunlardan birisi de aldıkları trafiğin tek bir ülke yerine Dünya’nın her bir yerinden geliyor olması. Bu nedenle yaşanan sıkıntıların başında dil bariyeri gelmekte. Kullanıcılar kendi dillerinin dışındaki içerikleri anlamakta büyük sorunlar yaşamakta. Bu konuda şirketler hayatımızın çok fazla yerinde kullandığımız yapay zekadan yardım almaktalar. İster ABD, Çin ya da Türkiye’den oturum açıyor olun, Facebook, gerekli doğal dil işleme metotları ve makine öğrenmesi ile platformunda yayınlanan hemen hemen tüm yazılı içeriği yerel dile çevirebilir. Fakat çoğu durumda dillerin yapılarının farklılık göstermesi nedeniyle bu çeviriler, düşük doğruluk oranları ile gerçekleşmekte. Bu soruna çözüm olarak Facebook AI’in yeni geliştirdiği dil modeli 100 dilde, klasik modellere kıyasla daha yüksek doğrulukta çeviri yapabiliyor.
Facebook AI’in Yeni Dil Modeli Çevirilerde İngilizce’yi Kullanmıyor
Facebook, yalnızca haber kaynağı için her gün yaklaşık olarak 20 milyar çeviri yapmakta. Fakat bu çevirilerde İngilizce’yi bir ara adım olarak kullanmakta. Yani Çince’den Fransızca’ya bir metni çevirirken ilk olarak İngilizce’ye, ardından Fransızca’ya çevirmekte. Bunun sebebi ise İngilizce verilerinin çok büyük olması ve yaygın olarak kullanılması. Fakat bu zahmetli olay hem daha yavaş bir model oluşturmakta hem de modelin doğruluğu azalmakta. Facebook AI ekibi ise İngilizce’yi aracı olarak kullanmayan yeni modeli ile klasik modellerden daha fazla doğruluk yakaladı.
Facebook, 100 dilden oluşan ve herhangi iki dil arasında doğrudan ileri ve geri çeviri yapabilen M2M-100’ün ilk çok dilli makine çeviri modeli (MMT) olduğunu iddia ediyor. Ekip 100 dil için yaklaşık olarak 7,5 milyar cümleden oluşan muazzam bir veri seti oluşturdu. Bunu yapmak için ekip, çeşitli yeni teknikler kullanarak dünyanın dört bir yanından halka açık veriler topladı.
Başlangıç olarak ekip, web’den metin örnekleri toplamak için web tarama verilerini bir havuzda tutan CommonCrawl’ı kullandı. Ardından, Facebook’un birkaç yıl önce geliştirdiği ve açık kaynaklı bir metin sınıflandırma sistemi olan FastText’i kullanarak metnin bulunduğu dili belirlediler. Facebook AI’da araştırma görevlisi olan Angela Fan açıklamasında “Temel olarak metne bazı testler uygulayıp hangi dilde yazıldığını anlamaya çalışıyor. Metinleri farklı dillere ayırıp çeviri olup olamayacağını kontrol ediyoruz” ifadelerini kullandı.
Gerekli verileri geniş ölçekte çıkarmak için ekip, LASER sistemine güvendi. Bu konuda Fan “Cümleleri okur, metni alır ve bu metnin matematiksel bir temsilini oluşturur. Ardından aynı anlama sahip olan cümleler aynı düşünceye eşlenir. Çince ve Fransızca olarak bir cümle varsa ve aynı şeyi söylüyorlarsa, bir tür Venn diyagramı gibi üst üste binmekteler.” ifadelerini kullandı.
İleride modelin daha da gelişeceğini açıklayan Facebook, veri setini ve modeli daha fazla ilerlemeyi teşvik etmek adına açık kaynak olarak yayımladı.