Използване на звук за моделиране на света

Нашата среда е изпълнена с богата и динамична звукова информация. Докато последните разработки в придобитите имплицитни функции доведоха до все по-висококачествени представяния на визуалния свят, няма съизмерим напредък в придобиването на пространствени слухови представяния.

Наскоро учени в с Лабораторията MIT-IBM Watson AI разработи модел за машинно обучение, който може да улови как звукът в стаята се разпространява в пространството. Това позволява на модела да симулира това, което слушателят може да чуе на различни места.

Моделът точно моделира акустиката на сцената и определя основната 3D геометрия на помещението от аудио записи. Както хората използват звука, за да направят извод за характеристиките на своята физическа среда, учените могат да създават точни визуални представяния на пространството, използвайки акустични данни, събрани от тяхната система.

Илон До, завършил студент в катедрата по електротехника и компютърни науки (EECS) и съавтор на документ, описващ модела, каза: В допълнение към потенциалните си приложения във виртуалната и разширената реалност, тази технология може да помогне Изкуствен интелект Агентите развиват по-добри разбирания за света около тях. Например, чрез моделиране на акустичните свойства на звука в неговата среда, роботът за подводно изследване може да усети неща далеч отвъд това, което може да усети само чрез зрение.

Повечето изследователи досега са се фокусирали само върху моделирането на зрението. Но като хора ние имаме мултимодално възприятие. Важно е не само зрението, но и звукът. Тази работа открива една вълнуваща изследователска посока за по-доброто използване на звука за моделиране на света.

Когато учените използваха модела, за да уловят как звукът преминава през сцена, те откриха, че визуалните модели се възползват от свойство, известно като оптична консистенция, което не се отнася за звука. Едно и също нещо изглежда почти същото, когато се гледа от два различни ъгъла. Въпреки това, когато става въпрос за звук, други места могат да доведат до напълно различни звуци поради препятствия, разстояние и т.н. В резултат на това акустичното прогнозиране е доста предизвикателно.

Учените преодоляха този проблем, като включиха две свойства на звука в своя модел: взаимната природа на звука и влиянието на локалните геометрични характеристики.

Той подобрява невронна мрежа С мрежа, която записва обекти и архитектурни характеристики в изображението, като врати или стени, за да интегрира тези два фактора в техния модел, известен като невронно акустично поле (NAF). За да открие характеристиките на определени места, моделът произволно взема проби от точки от тази мрежа.

Луо каза, “Ако си представите, че стоите близо до вход, това, което чувате, най-силно влияе върху това, което чувате, е присъствието на този вход, а не непременно геометричните елементи, които са по-далеч от вас от другата страна на стаята. Открихме, че тази информация позволява по-добро обобщение от обикновена напълно свързана мрежа.

Учените могат да предоставят на NAF визуални данни за сцена и някои спектри, които показват как може да изглежда аудиозапис, когато излъчвателят и слушателят присъстват в определени точки в стаята. След това алгоритъмът предвижда как може да изглежда звукът навсякъде в сценария, където слушателят може да се движи.

NAF произвежда импулсен отговор, който изобразява как a Изглежда Той трябва да се промени, докато се разпространява в околната среда. За да определят как различните звуци трябва да се променят, когато някой минава из стаята, учените прилагат тази импулсна реакция към различни шумове.

Учените откриха, че тяхната стратегия постоянно създава по-точни акустични модели в сравнение с други техники, които моделират акустични данни. В допълнение, техният модел превъзхожда различните методи в способността си да обобщава към други места в пейзажа, защото е научил местна инженерна информация.

Освен това те откриха, че прилагането на акустичната информация, която техният модел научава към модел на компютърно зрение, може да доведе до по-добра визуална реконструкция на сцената.

Ти каза, “Когато имате само няколко изобразявания, използването на тези аудио функции ви позволява да уловите границите по-рязко, например. Това вероятно е така, защото за да изобразите точно акустиката на сцена, трябва да заснемете основната 3D геометрия на тази сцена .”

Изследователите ще работят върху подобряването на модела, така че да може да се прилага към нови сцени. Освен това те се стремят да използват този метод за по-импулсивни реакции и по-големи сценарии, като цели сгради или дори цял град или град.

Ган каза, „Тази нова технология може да отвори нови възможности за създаване на завладяващо мултимедийно изживяване в метавселената.“

Динеш Мануча, Пол Кресман Ирибе, професор по компютърни науки, електротехника и компютърно инженерство в Университета на Мериленд, Той казаИ на “Моята група е свършила много работа по използването на методи за машинно обучение за ускоряване на ономатопеята или моделиране на акустиката на сцени от реалния свят. Този документ от Chuang Gan и колеги е огромна стъпка напред в тази посока. По-специално, този документ предоставя хубаво имплицитно представяне, което може да улови как звукът може да се разпространява в сцени от реалния свят, като моделира това с помощта на линейна система с постоянна време. Тази работа може да има много приложения в AR/VR и разбирането на сцени от реалния свят.

Справка в списанието:

  1. Андрю Ло и др. Научете невронни гласови полета. arXiv: 2204.00628