Karmaşık ortamlarda insanlar konuşmanın anlamını yapay zekadan daha iyi anlayabilir çünkü sadece kulaklarımızı değil gözlerimizi de kullanıyoruz.
Örneğin, birinin ağzının hareket ettiğini görürüz ve duyduğumuz sesin o kişiden geldiğini sezgisel olarak biliriz.
Meta AI, AI'ya bir konuşmada gördükleri ve duydukları arasındaki ince korelasyonları tanımayı da öğrenmeyi öğretecek yeni bir AI diyalog sistemi üzerinde çalışıyor.
VisualVoice, insanların yeni becerilerde ustalaşmayı öğrenmesine benzer bir şekilde öğrenir ve etiketlenmemiş videolardan görsel ve işitsel ipuçlarını öğrenerek görsel-işitsel konuşma ayrımını mümkün kılar.
Makineler için bu daha iyi bir algı yaratırken, insan algısı da gelişiyor.
Dünyanın her yerinden meslektaşlarınızla metaevrendeki grup toplantılarına katılabildiğinizi, sanal alanda hareket ederken daha küçük grup toplantılarına katılabildiğinizi, bu sırada sahnedeki ses yankılarının ve tınılarının ortama göre ayarlandığını hayal edin.
Yani, ses, video ve metin bilgilerini aynı anda alabiliyor ve daha zengin bir çevresel anlayış modeline sahip olup, kullanıcıların "çok harika" bir ses deneyimi yaşamasına olanak tanıyor.
Gönderim zamanı: Temmuz-20-2022