A Meta jobb AI-vezérelt hangot épít a virtuális valósághoz

0
A Meta jobb AI-vezérelt hangot épít a virtuális valósághoz

Ami a virtuális valóságot illeti, a magával ragadó világok létrehozása több, mint vizuálisan tökéletes környezet létrehozása. A hangzás módja élményt teremthet vagy megtörhet.

A Meta Platforms Inc. kutatói ma nyílt forráskódúak, hogy megbirkózzanak az audio kihívással három mesterséges intelligencia modell amelyek a metaverzum hangját új szintre emelik.

„A megfelelő térbeli hangzás kulcsfontosságú a metaverzumban való jelenlét valósághű érzetének megteremtésében” – mondta Mark Zuckerberg, a Meta alapítója és vezérigazgatója. “Ha egy koncerten vagy csak beszélgetsz a barátaiddal egy virtuális asztal mellett, a hangok reális érzése azt kelti, hogy valóban ott vagy.”

A dolgok eltérően hangzanak a különböző környezetekben. Például mindenkinek van olyan élménye, amikor zárt térben énekel, például a zuhany alatt, vagy beszélget a parkban. Az élmény teljesen más. Az is előfordul, hogy a barátok hangja visszaverődik a falakról egy ház nappalijában vagy a halk moraj egy étteremben.

Ez a lényege az első modellnek, az úgynevezett Vizuális akusztikus illeszkedés modell, amely a tér képét használja a hangok beállításához, hogy azok megfeleljenek a célkörnyezetnek. Például egy hangfelvételt készíthet egy nyílt terepen beszélő személyről, és hozzáillesztheti valami hangulatos és meghitt helyre, így a hang közelebbről szól, és visszhangzik a közeli falakról.

„Az emberi hallgatók – anélkül, hogy észrevennénk – azt várják, hogy bizonyos módon hallják a hangokat attól függően, hogy milyen fizikai környezetben vagyunk” – mondta Kristen Garuman, a Meta AI kutatási igazgatója. “Ez azért van, mert a hangot az a környezet alakítja, amelyben vagyunk.”

Ez hasznos lehet a metaverzumban lévő barátokkal való találkozókhoz, mert bár amikor VR headsetet veszünk fel, elvisznek minket egy erdei kempingbe beszélgetni a barátainkkal, valójában nem hagyjuk el a nappalinkat vagy az otthoni irodát. A hangfelvételeink továbbra is megtartják azokat a hangokat, amelyeket azokban a terekben generálnak, amelyekben tartózkodunk, így az AI-modell képes megváltoztatni ezt a hangot, hogy megfeleljen a fénylő, megvilágított erdőnek, amelyben vagyunk, és sokkal magával ragadóbbá teheti.

A következő modell az ellenkezőjét teszi. Ismerteti a környezetet, és eltünteti a visszhangokat, amelyeket a felületek által visszaverődő hangok kelthetnek, amelyeket visszhangoknak neveznek, hogy tisztább, élesebb hangot hozzon létre. Az Vizuálisan informált dereverberáció A modell segítségével egy hegedűs előadását egy hatalmas pályaudvaron el lehet vinni, és olyasmivé alakítani, mintha egy stúdióban játszották volna.

Az eredmény általában jobb hangzást eredményezhet az otthoni és otthoni irodai fejhallgatókról beszédjavítás, hangszóró azonosítás és beszédfelismerés céljából. Ha kevesebb visszhang fér bele a hangba, az intelligens ügynökök – és még a másik oldalon hallgatók is – jobban megértik a beszédet.

Végül a metaverzumban a dolgok valószínűleg kissé zajosak lesznek, amikor sok ember beszélget a közelben, esetleg egymás fölött. Vizuális hang elkap egy oldalt az emberektől, akik nem csak a fülükkel tudnak hallgatni – a szemüket is használják a szájmozgások és az arckifejezések nyomára.

A VisualVoice célja, hogy megkülönböztesse az egyes hangokat a háttérzajoktól és más olyan hangoktól, amelyek esetleg egyidejűleg beszélnek, és azonosítsa az egyes hangszórókat. Az eredmény az, hogy az AI-modell jobb hozzáférést biztosít, és potenciálisan akár feliratokat is létrehozhat, amelyek ezekhez a hangszórókhoz kapcsolódnak. Akár arra is használható, hogy az intelligens ügynökök a tömegben lévő személyekre összpontosítsanak és azonosítsák őket.

Ezekkel az új mesterséges intelligencia modellekkel a Meta azt reméli, hogy a jövőben kiváló hangzást biztosít a magával ragadó AR és VR élményekhez. A virtuális valóság már most is mélyreható élményeket nyújt a terek vizuális megjelenítésével, ezért fontos, hogy a hang minősége lépést tartson vele.

Garuman olyan jövőt lát, ahol ez a mesterséges intelligencia-hangkutatás valóban egyedülálló élményeket fog nyújtani a metaverzumban élő emberek számára, például egy koncertlátogatás.

“Amint felveszi a fejhallgatót, az otthonából származó hangok elhalnak, és a hang valósághűen igazodik, ahogy a folyosóról a koncertterembe, és közelebb kerül a színpadhoz” – mondta. „És ha akarod, a mesterséges intelligencia fokozhatja az élményt, így élvezheted az élményt, és még mindig hallhatod magad mellett a barátodat.”

Kép: Meta

Mutassa támogatását küldetésünk iránt, ha csatlakozik a Cube Club és a Cube Event Community szakértőiből. Csatlakozzon ahhoz a közösséghez, amelyben az Amazon Web Services és az Amazon.com vezérigazgatója, Andy Jassy, ​​a Dell Technologies alapítója és vezérigazgatója, Michael Dell, az Intel vezérigazgatója, Pat Gelsinger és még sok más fényes és szakértő található.

hasonló hozzászólások

Leave a Reply