Doteraz sme hovorili o zvuku ako fenoméne, ktorý je v závislosti od času a miesta jedinečný. Je to pravda. Človek má však dve uši, preto počujeme akoby dva vnemy naraz. Ich porovnávaním mozog zisťuje, z akého smeru zvuk prichádza. V úvode tejto časti práce si spomenieme základné indície pre priestorový vnem, nasledujúce tri odseky nesú názvy 2.5.1 Problémy monofonického záznamu a reprodukcie, 2.5.2 Stereofonický záznam zvuku a 2.5.3 Súčasné trendy.
Prvotným aspektom pomáhajúcim lokalizovať zvuk je rozdiel v hlasitosti medzi vnemom zachyteným oboma ušami. Tento aspekt je však sám osebe nedostatočným ukazovateľom umiestnenia zdroja, preto sa kombinuje s ostatnými aspektmi.
Ďalšou indíciou pre ľudský mozog je časové oneskorenie zvukov. Ak zvuk (najlepšie impulzného charakteru) vznikol vpravo od poslucháča, dorazí najprv do pravého ucha, do ľavého (vzdialeného asi 15 cm vzdušnou čiarou – v skutočnosti musí prejsť asi 23 cm okolo hlavy) dorazí o 0,68 ms neskôr. Podobná situácia nastáva, ak je zdroj zvuku vľavo. Ak sa zdroj nachádza priamo pred (za) poslucháčom, nedochádza k oneskoreniu. Obmedzenia ľudského sluchu spôsobujú, že ak dorazí do uší najprv zvuk z jedného smeru a potom ten istý zvuk (z iného zdroja – alebo len napr. ozveny pôvodného) zo smeru iného, ak sa to všetko odohrá za čas kratší než 15 ms, sú poslucháčom vnímané ako jednoliaty celok prichádzajúci zo smeru prvého zvukuPozn. 1, a to takmer bez ohľadu na intenzitu druhého (a ďalších) zvukov, ktorá môže byť i vyššia ako v prípade prvého zvuku (tzv. Haasov efekt). (Niektorí autoriPozn. 2 uvádzajú, časový odstup aj 50 ms až 100 ms; musí však byť väčší ako 2 ms až 10 ms, ináč sluch zachytí ako zdroj zvuku bod na spojnici oboch zdrojov zvukov.) Vo všeobecnosti je človek citlivejší na čas zachytenia vyšších frekvencií, pri nízkych kmitočtoch vníma čas s istým fyziologickým oneskorením. Inými slovami: človek vykazuje väčšiu časovú toleranciu pri nízkych tónoch.
Tretím aspektom je fázový posun. Kvôli časovému oneskoreniu je ľubovoľný konštantne znejúci tón vnímaný oboma ušami korektne, aktuálna fáza zvuku je však odlišná. Keďže za normálnych okolností obe uši počujú zvuk z toho istého zdroja (len neskôr alebo s fázovým posunutím), je mozog na základe spomenutých odchýlok schopný veľmi presne lokalizovať zdroj zvuku. Táto indícia však podlieha tzv.efektu hrebeňového filtraPozn. 3. Ako dôsledok ľudský sluch slabo lokalizuje zdroj veľmi hlbokých tónov (prichádzajú v takmer totožnej fáze). pri vysokých tónoch (nad 2 kHzPozn. 4) je zas fázový rozdiel priveľký, preto ho ľudský sluch ignoruje (a do hry vstupuje najmä rozdiel v hlasitosti).
Ak nastáva zmena vzájomnej polohy poslucháča a zdroja zvuku, dochádza k frekvenčnému posunu, ako dôsledku známeho Dopplerovho efektu.
Nakoniec, vďaka zmene frekvenčnej charakteristiky (zapríčinenej najmä ušnými boltcami, ale aj nesúrodým tvarom ľudskej hlavy) je mozog schopný odlíšiť od seba zvuky prichádzajúce spredu alebo zozadu, zhora či zdola.
Všetky tieto aspekty sa dajú odborne vyjadriť v tvare „prenosovej funkcie súvisiacej s hlavou“ (head related transfer function, HRTF). Vedci z mnohých oblastí neustále pracujú na jej upresňovaní a zdokonaľovaní.
Poznámka 1: SIBBALD, Alastair (Sensaura). An Introduction to Sound and Hearing. 2001. s. 11.
Poznámka 2: Napríklad v článku Wikipédie na stránke: http://de.wikipedia.org/wiki/Präzedenz-Effekt.
Poznámka 3: P. odsek 2.5.2 Stereofonický záznam zvuku.
Poznámka 4: P. napr. http://www.chiariglione.org/MPEG/tutorials/papers/icj-mpeg4-si/09-natural_audio_paper/gacoding.html.
Pri porovnaní ľudského sluchu a techniky na záznam zvuku stojíme pred dilemou: ak sa snažíme zaznamenávať zvuk mikrofónom, strácame jeho priestorovú hodnotu. Poznáme akustické zmeny „tu a teraz“, ale nezachytíme informácie o priestore (tie sa však čiastočne prejavia v čase dozvuku miestnosti). Nakoniec získa zvuk priestorovú informáciu pri reprodukcii – lokalizácia jeho zdroja poslucháčom bude totožná s polohou reproduktora.
Vhodné by bolo mať dva zvukové záznamy a dva reproduktory. aby sme mohli dosiahnuť stereofonický vnem. Pravdou však je, že bez ďalších úprav by sme zrejme dosiahli lokalizáciu zdroja zvuku len na spojnici medzi oboma reproduktormi (v tomto prípade určenú najmä pomerom hlasitostí daného zvuku v oboch reproduktoroch).
Ponúka sa riešenie: Vytvoriť model hlavy a do jej vnútra, na miesta, kde sa nachádzajú ušné bubienky, umiestniť mikrofóny. Záznam by mal byť dokonalý. Problém je s reprodukciou. Ak by sme použili dva reproduktory, dostali by sme nezvyčajný a ťažko lokalizovateľný zvuk – záznam a reprodukcia sú na celkom odlišných miestach. Nutne by bolo treba zvuk reprodukovať dvoma vysokokvalitnými reproduktormi zasunutými do zvukovodov uší. Okrem cenovej náročnosti a nízkeho pohodlia poslucháča má tento prístup ďalšiu nevýhodu: ignoruje rozdielnosť poslucháčov čo do vzdialenosti uší medzi sebou a tvaru ušného boltca.
Pri zvukovej nahrávke (kapely, zboru) sa vo väčšine prípadov nevie, akým spôsobom bude poslucháč zvuk reprodukovať. Môže použiť pár vysokokvalitných reproduktorov, malé reproduktory so slabou reprodukciou basov, slúchadlá, … Alebo môže mať k dispozícii len monofonickú reprodukciu (napr. tranzistorové rádio), prípadne je vzájomná vzdialenosť reproduktorov v porovnaní so vzdialenosťou od poslucháča taká malá, že sa správajú takmer ako jeden reproduktor.
Pri posledných dvoch prípadoch vzniká problém. Ak chceme zaznamenať zvuk na dvoch miestach, vznikajú dva rôzne záznamy. Reprodukovaný je však ich súčet. Vzhľadom na fázový posun nahrávok môže dôjsť k fenoménu nazývanému efekt hrebeňového filtra. Predstavme si, že zdroj zvuku je v jednej línii s oboma mikrofónmi, na ktorý je zaznamenávaný. Tie nech sú vzdialené od seba 1 m. Tóny s vlnovou dĺžkou 1 m (343 Hz) budú tak reprodukované dvojnásobne vyšším signálom (súčet vlnení vo fáze), tóny s vlnovou dĺžkou 2 m však vôbec nebude počuť (stretnú sa v opačnej fáze – dôjde k vynulovaniu). Podobne pre tóny frekvencie 343×n Hz, resp. 171,5+343×n Hz. Dôsledkom je silné skreslenie frekvenčnej charakteristiky zaznamenaných zvukov. Podľa možností je vhodné poradiť si s týmto problémom už pri nahrávaní.
Predstavíme si tri rôzne spôsoby stereofonického záznamu zvuku, ako ich predstavuje VlachýPozn. 1:
Systém XY (koincidenčný pár mikrofónov). V tomto prípade sú použité dva kardioidné (možno použiť i osmičkové) mikrofóny umiestnené v tesnej blízkosti, pričom vzájomné vychýlenie osí ich snímania je 90°. Jeden sníma pravú polovicu miestnosti, druhý ľavú (stred leží medzi osami mikrofónov). Vďaka veľmi blízkej polohe mikrofónov nenastáva problém s efektom hrebeňového filtra. Nevýhodou je najmä skreslené podanie zvuku zo stredu – útlm kardioidných mikrofónov je závislý nielen od uhla, ale aj od frekvencie, preto majú zvuky zo stredu stlmené výšky (čo čiastočne simuluje útlm pri prirodzenom posluchu zvukov, spôsobený ľudskou hlavou). Pre blízke umiestnenie mikrofónov tiež zaniká všetka fázová informácia, ktorá by vznikla pri prirodzenom posluchu vďaka vzájomnej vzdialenosti uší. Tieto nevýhody sú však mierne, preto je systém XY najčastejším druhom snímania.
Systém MS (middle & side, teda stred a strana). Vychádza z predpokladu, že stereofonickú informáciu tvorí najmä rozdiel medzi „ľavým“ a „pravým“ záznamom. Použije sa pár mikrofónov v tesnej blízkosti, pričom jeden (guľový) sníma stred miestnosti, druhý (osmičkový) je namierený na strany (teda osi sú kolmé na seba). Výsledné dva kanály sa získajú ako súčet zvuku zo stredu a zvuku zo strán v pôvodnej fáze (ľavý kanál) alebo protifáze (pravý kanál), resp. naopak. Výhodou je úplná kompatibilita s mono reprodukciou (odlišné fázy sa vynulujú a ostane len stred) a verný záznam zvuku zo stredu miestnosti. Čím je však zdroj zvuku bližšie k stranám, tým znie neprirodzenejšie. Ak však odchýlky od stredu nie sú príliš veľké, možno meniť šírku stereofonického vnemu i dodatočne (zvýšením váhy z postranného mikrofónu).
Systém AB. Použijú sa dva mikrofóny, ktoré sú od seba dostatočne vzdialené. Vzniká verný a silný stereofonický vnem, s ním však aj zreteľný efekt hrebeňového filtra. Používa sa skôr pri zázname väčších priestorov (orchester) na dodanie „celkového dojmu“, v kombinácii s ďalšími „bodovými“ mikrofónmi, ktoré zaznamenávajú jednotlivé hudobné nástroje.
Poznámka 1: VLACHÝ, Václav. Praxe zvukové techniky. 2000. s. 46-50.
Do skúmania trojrozmerného vnímania zvuku sa investuje množstvo peňazí, keďže ide o komerčne zaujímavú tému. Faktom je, že v súčasnosti existujú systémy (čisto softvérovéPozn. 1 i softvérovo-hardvérovéPozn. 2), ktoré dokážu vytvoriť veľmi hodnovernú ilúziu skutočného zvuku (tzv. 3D audio efekt), pričom sú schopné pracovať nielen so slúchadlami, ale aj s reproduktormi, dokonca umožňujú nakonfigurovať systém podľa tvaru ušnice poslucháča. V prípade reproduktorového posluchu sa používajú rôzne proprietárne technológie na odstránenie presluchu, teda duplicitného počutia zvuku z jedného reproduktora v oboch ušiach (angl. transaural acoustic crosstalk cancellation).
Popri viacerých reproduktoroch a slúchadlách so psychoakustickým modelom jestvuje i tretia metóda vytvárania dojmu priestorového zvuku. Využíva sa Huygensov princíp, ktorý hovorí, že každý bod média, do ktorého dorazí vlna, môže byť považovaný za nový zdroj vlnenia. S použitím výpočtovo náročných postupov a množiny reproduktorov možno zostrojiť dva efekty, akési analógie hologramu, len vo svete zvuku. Prvým je ambisonický zvuk, ktorý na určenom mieste v priestore vytvára miesto dokonalého priestorového posluchu (angl. sweet point – poslucháč na tom mieste počuje dokonalý trojrozmerný zvuk; zmenou polohy sa zhoršuje lokalizácia domnelého zdroja). Druhým je syntéza vlnového poľa (angl. Wave Field Synthesis), pri ktorom sa vytvára dojem z trojrozmerného zvuku v celom zvolenom priestore (nedosahuje však takú presvedčivosť ako prvá metóda). Prvý prístup je menej náročný na hardvér, softvér a výpočtovú kapacitu a existuje mnoho produktov (hardvérových i softvérových, komerčných i voľne dostupných), ktoré ho realizujú. Druhý prístup rozvíjajú napr. komerčné riešenia firiem Sonic Emotions a Iosono. Aj v tejto oblasti je výskum stále aktívny.
Poznámka 1: Jedna z firiem, ktorá sa tejto oblasti profesionálne venuje, je Sensaura (http://www.sensaura.co.uk). Na ich stránke možno nájsť množstvo materiálov z oblasti trojrozmerného vnímania zvuku. Kedysi hrala dôležitú úlohu aj firma Aureal so svojou technológiou A3D, po finančných problémoch však bola odkúpená firmou Creative.
Poznámka 2: Príkladom môže byť zvuková karta s ovládačmi X-Fi od firmy Creative (http://www.creative.com), založená práve na výskumoch firiem Sensaura a Aureal.