Google araştırmacılarının sunduğu yeni bir makine öğrenimi yaklaşımı, İnternetteki fotoğrafları inanılmaz derecede ayrıntılı 3D sahnelere dönüştürebilir.
Projenin GitHub sayfasında araştırmacılar, Berlin’deki Brandenburg Kapısı, Paris’teki Sacré-Cœur ve Roma’daki Trevi Çeşmesi’nin 3 boyutlu görüntülerini paylaştı. Sonuçlar, kameradan gelen görüntünün hareket ettirilebildiği ve sahne görünümünün farklı ışık efektleriyle değiştirilebildiği etkileyici 3D görüntüler oldu.
Araştırmacılar kısa süre önce yöntemlerini arXiv sunucusunda “NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections“ başlıklı bir makalede paylaştılar. NeRf-W adını verdikleri bu yöntem, bir fotoğraf koleksiyonundan 3D sahneleri yeniden oluşturan Sinirsel Parlaklık Alanları’na (NeRF) bağlı bir yöntemdir.
Sinirsel Parlaklık Alanları (NeRF) yaklaşımı, bir sahnenin parlaklık alanını ve yoğunluğunu bir sinir ağının ağırlıkları içinde modeller. Araştırmacılar makalelerinde yazdığı gibi; NeRF, doğrudan hacimsel işleme daha sonra yeni görünümleri sentezlemek için kullanılır ve şimdiye kadar görülmemiş düzeyde aslına uygunluk gösterir.
“Bununla birlikte, NeRF’in yalnızca kontrollü ortamlarda iyi çalıştığı kanıtlandı: sahne, ışık efektlerinin sabit kaldığı ve sahnedeki tüm içeriğin statik olduğu kısa bir zaman çerçevesi içinde çekildi.” ifadesi makalede geçmektedir.
Birtakım Zorlukları da Bulunmakta
Araştırmacılar, NeRF’in bu parametrelerin dışında kalan görüntüleri kullanırken zorluk yaşayabileceğini açıkladı. Örneğin, Trevi Çeşmesi’nin farklı kişiler tarafından çekilen ve Flickr’a gönderilen turist fotoğraflarından oluşan bir koleksiyon birtakım zorluklar barındırır. Bunun nedeni ise, ışığın değişmesi, görüntü pozlama gibi teknik detayların neden olduğu farklılıklardır. Buna ek olarak, internet üzerindeki fotoğraflar genellikle insan ve araba gibi hareketli nesneleri içerir.
“İki fotoğrafçı, aynı mekanda aynı yapıyı fotoğraflayabilir, ancak iki fotoğraf arasındaki zaman farkı içinde dünya önemli ölçüde değişebilir. Arabalar ve yayalar hareket edebilir, fotoğrafladıkları yapı yıkılabilir, mevsimler değişebilir, güneş gökyüzünde hareket edebilir.” ifadesi de makalede geçmektedir.
Ortaya çıkan model gölgelenme, yumuşatma ve diğer işlemleri içerebilir. NeRF-W bu sorunu; NeRF-W’nin dünyadaki şeylerin statik kaldığı varsayımına ilişkin uzantılar sunarak ele alıyor. Ve yazarlar bunun iyi sonuç verdiğini iddia etti:
NeRF-W sonuç olarak İnternetteki fotoğrafları kullanarak oluşturulan artırılmış gerçeklik ve sanal gerçeklik uygulamaları için sıklıkla ihtiyaç duyulan gerçekçi 3D yapılandırma türüdür.