У сложеним окружењима, људи могу да разумеју значење говора боље од вештачке интелигенције, јер користимо не само уши већ и очи.
На пример, видимо да се нечија уста померају и можда интуитивно знамо да звук који чујемо мора да долази од те особе.
Мета АИ ради на новом АИ систему дијалога, који треба да научи АИ да такође научи да препозна суптилне корелације између онога што види и чује у разговору.
ВисуалВоице учи на сличан начин као што људи уче да овладају новим вештинама, омогућавајући аудио-визуелно раздвајање говора учењем визуелних и слушних знакова из неозначених видео записа.
За машине ово ствара бољу перцепцију, док се људска перцепција побољшава.
Замислите да можете да учествујете на групним састанцима у метаверзуму са колегама из целог света, придружујете се мањим групним састанцима док се крећу кроз виртуелни простор, током којих се звучни одјеци и темброви у сцени прилагођавају у складу са окружењем.
Односно, може да добије аудио, видео и текстуалне информације у исто време, и има богатији модел разумевања животне средине, омогућавајући корисницима да имају „веома вау“ звучно искуство.
Време поста: 20.07.2022