
Karmaşık ortamlarda, insanlar konuşmanın anlamını yapay zekadan daha iyi anlayabilirler, çünkü sadece kulaklarımızı değil gözlerimizi de kullanırız.
Örneğin, birinin ağzının hareket ettiğini gördüğümüzde, duyduğumuz sesin o kişiden geldiğini sezgisel olarak bilebiliriz.
Meta AI, yapay zekaya bir konuşmada gördükleri ve duydukları arasındaki ince ilişkileri tanımayı da öğretmeyi amaçlayan yeni bir yapay zeka diyalog sistemi üzerinde çalışıyor.
VisualVoice, insanların yeni becerilerde ustalaşmayı öğrenmelerine benzer bir şekilde öğrenir ve etiketlenmemiş videolardan görsel ve işitsel ipuçlarını öğrenerek görsel-işitsel konuşma ayrımını mümkün kılar.
Makineler için bu durum daha iyi bir algı yaratırken, insan algısı da gelişiyor.
Dünyanın dört bir yanındaki meslektaşlarınızla metaverse'de grup toplantılarına katılabildiğinizi, sanal alanda hareket ederken daha küçük grup toplantılarına katılabildiğinizi, sahnedeki sesin yankılandığını ve tınılarının ortama göre ayarlandığını hayal edin.
Yani ses, görüntü ve metin bilgisini aynı anda alabiliyor ve daha zengin bir çevresel anlayış modeline sahip olduğundan kullanıcılarına "çok vay canına" tadında bir ses deneyimi yaşatabiliyor.
Gönderi zamanı: 20-Tem-2022