Facebook AI Kayıttaki 5 Kişinin Sesini Ayırabiliyor

Facebook AI (Yapay Zeka) ekibi yapay zekayı hayatımızın bir parçası haline getirme hedefleri doğrultusunda çalışmalar yapmakta. Ekip geçtiğimiz haftalarda Reinforcement Learning (pekiştirmeli öğrenme) algoritmalarını geliştirebileceğimiz NetHack Öğrenme ortamını duyurmuştu. Uluslararası Makine Öğrenme Konferansı’na (ICML) kabul görülen bir makalede ekip tek mikrofondan kaydedilmiş bir ses kaydından 5’e kadar kişinin sesini ayırabilecek modelini duyurdu. Facebook AI ekibi bu teknoloji ile gürültülü ve yankılanmaların bulunduğu karışık kayıtların temizlenebileceğini belirtti.

Belirli konuşmaları birbirinden ayırmak, sesli mesajlaşma ve video kayıt araçları gibi çeşitli uygulamalarda iletişimi iyileştirmek adına atılmış çok önemli bir adımdır. Bunun da ötesinde, araştırmacılar tarafından önerilen bir diğer benzer teknoloji ise müzik esnasında müzik enstrümanlarını birbirinden ayırmak. Ekip teknolojinin ilerleyen dönemlerde iletişime büyük katkıda bulunacağını belirtti. Bu nedenle teknolojiye önem vermek ve daha da ileriye taşıma niyetindeler.

Ekip üzerinde testler yaptığı ses kayıtlarının internet ortamından yayımladı. Ekibin test çalışması yaptığı 2 kişinin karışık sesi şu şekilde:

2 Kişinin Bulunduğu Karışık Ses Dosyası

Modelin birbirinden başarılı bir şekilde ayırdığı iki konuşma ise aşağıdaki gibidir :

Birinci Kişi
İkinci Kişi

Model iki kişinin sesini içeren tek ses dosyasından bu sesleri yüksek doğruluk oranı ile ayırmakta.

Ekip, modellerini eğitmek için yeni bir Recurrent Neural Network’u (yinelenen sinir ağı) kullandı. Model, ses dalga formlarını gizli bir biçimde gösteren bir kodlayıcı ağından yararlanmakta. Fakat bu kodlayıcının ses kaydındaki kişi sayısını önceden bilmesi gerekir. Yani modele ses kaydını ayırması için vermeden önce kaç kişinin sesinin kaydedildiğini girdi olarak vermeniz gerekir. Model ses dalgalarına ve kişi sayısına göre tahminlerde bulunur.

Facebook AI Tarafından Geliştirilen Model 5 Kişiye Kadar Destekliyor

facebook-ai-result
Facebook AI’in Modelinin Diğer Modeller İle Karşılaştırılması

Ekip modeli iki, üç, dört ve beş konuşmacının bulunduğu ses kayıtları üzerinde denedi. Model şu an için en fazla 5 kişinin sesini ayırabilmekte. İlerleyen dönemlerde hem Facebook AI ekibinin hem de diğer geliştiricilerin bu model üzerinde yapacağı değişiklikler bu üst sınırı değiştirecektir.

Ekip bu bu projenin işitme sorunu çeken insanlar için sesleri daha anlaşılır hale getireceğine inanmakta. Ayrıca kafe, restoran ve partiler gibi yerlerde kullanıcılar gürültüyü azaltıp iletişimlerini daha kuvvetli hale getirebilecekler.

Teknoloji'den geri kalmamak için e-posta listemize abone olun!

Özgür Doğan (Okunuşu: Özgür Do:an) : Teknoloji içerikleri yazmayı ve okumayı seven kişi, kimse, topluluk.