Časť 3.3: Princípy stratovej kompresie zvuku

Ako sme si spomínali na začiatku predošlej časti práce (3.2 Digitálne kódovanie čísel), existuje viacero algoritmov na kompresiu zvukového záznamu v PCM formáte. Tieto algoritmy sa delia na stratové a bezstratovéPozn. 1. Vedomosti zo psychoakustiky priam vnukajú možnosť zapisovať zvukové dáta takým spôsobom, aby sme síce zachovali subjektívnu kvalitu výsledného zvukového záznamu, predsa však zanedbaním precíznosti hodnôt získali významnú úsporu úložného priestoru (resp. dátového toku). Možno hovoriť o psychoakustickej redundancii pôvodných dát. Vďaka vysokej kompresii (ktorú možno zvoliť ľubovoľne podľa potreby) a v súčasnej dobe už zanedbateľnej výpočtovej náročnosti sú práve stratové kompresné formáty v centre záujmu používateľov i firiem.

V tejto časti práce si objasníme spoločné črty stratovej kompresie zvuku a prístupy k nej. Pozostáva z piatich odsekov: 3.3.1 Diskrétne ortogonálne transformácie, 3.3.2 Fourierova transformácia, kosínusová transformácia, 3.3.3 Ortogonálne transformácie v praxi, 3.3.4 Vektorové kvantovanie (VQ) a 3.3.5 Kompresia stereofonického záznamu.

Poznámka 1: Porov. odsek 3.2.1 Kompresia a kompakcia, redundancia a irelevancia.

Odsek 3.3.1: Diskrétne ortogonálne transformácie

Úlohou ortogonálnych transformácií je zmenšiť korelovanosť dát. Z praktických dôvodov ide o bloky dát určitej veľkosti, ktoré možno chápať aj ako vektory (napr. dĺžky n). Vzájomné závislosti v hodnotách ich prvkov sa dajú vyjadriť matematicky, a to použitím báz, ktoré tieto závislosti budú odzrkadľovať. Ak vektory nebudeme vyjadrovať v jednotkovej báze, teda v báze e₁, e₂, …, e_n (kde e_i={0,...,0,1,0,...,0} s jednotkou na i-tom mieste), čo je princíp PCM, ale v báze obsahujúcej napr. sinusoidy rozličných frekvencií (ktoré viac odzrkadľujú štruktúru zvuku), môže dôjsť k značnej redukcii medzisymbolovej redundancie. Táto zmena vyjadrenia vektorov je vlastne zmenou súradníc, známou z algebry, ktorú možno vyjadriť maticou prechodu A obsahujúcou zápis pôvodnej (jednotkovej) bázy vyjadrenej v novej báze. Keďže ide o bázu, jej jednotlivé vektory sú kolmé, transformácia súradníc je teda špeciálnym prípadom ortogonálnej transformácie.

Presnejšie, pre vstupný signál vyjadrený n-rozmerným (stĺpcovým) vektorom x a transformačnú maticu A_n×n (ide o maticu prechodu medzi jednotkovou bázou a novou bázou) vypočítame dekorelovaný vektor ako t=Ax . Ak je matica A ortonormálna (jej vektory majú jednotkovú veľkosť a platí A⁻¹=A^T ), nedochádza k zmene energie vektorov, teda t^T⋅t=x^T⋅x . Prvky vektora t možno vyjadriť aj z jednotlivých riadkov a₀ ,a₁ ,... ,a_n−1 matice A ako
t_k=Sum(j=0..n-1: x_j a_k,j) pre k=1..n
Inverzná transformácia je potom x=A⁻¹t.

Odsek 3.3.2: Fourierova transformácia, kosínusová transformácia

Fourierova transformácia je špeciálny prípad ortogonálnej transformácie. Nesie meno po francúzskom matematikovi a fyzikovi menom Jean Baptiste Joseph Fourier, ktorý na začiatku 19. storočia ukázal, že každú funkciu periodickú s istou frekvenciou možno vyjadriť ako súčet sínusových vĺn harmonických násobkov tejto frekvencie s rôznymi amplitúdami a počiatočnými fázami. V diskrétnej doméne času (teda nespojitej, čo je náš prípad) sa využíva diskrétna Fourierova transformácia, ktorou možno dekomponovať vstupný signál na frekvenčné zložky. Tieto sú vyjadrené komplexnými číslami, ktoré zachytávajú nielen amplitúdu (veľkosť prvku), ale aj fázu vlnenia danej frekvencie (vyjadrenej ako arkus tangens podielu reálnej a imaginárnej zložky prvku) . Dopredná a inverzná transformácia majú tvar:
t_k=Sum(j=0..n-1: x_j e^(-2 Pi i j k / n)), resp. x_k=1/n Sum(j=0..n-1: t_j e^(2 Pi i j k / n))
(pričom podľa Eulerovej formuly e^is=cos(s)+isin(s) ). Táto transformácia má zjavne výpočtovú náročnosť O(n²). Existuje však mnoho algoritmov patriacich do skupiny FFT (fast Fourier transform), ktoré ju redukujú na O(n log n). Ich presný popis prekračuje rámec tejto práce.

Vstup je v našom prípade podmnožinou oboru reálnych (nie komplexných) čísel. Pozornému čitateľovi preto neušlo, že najvyššia frekvencia skúmaná algoritmami FFT je zhodná s frekvenciou vzorkovania, teda dvojnásobne prekračuje Nyqistovu frekvenciuPozn. 1. Ak vieme, že v zdroji nie sú takéto vysoké frekvencie prítomné, dochádzame k záveru, že merané veličiny sú prejavom aliasingu. Inými slovami, aspoň polovica výsledných dát je (pre reálny vstup) redundantná. Jedným so spôsobov, ako túto redundanciu odstrániť, je miesto sínusu a kosínusu (ktoré majú rovnaký tvar a líšia sa len fázou) pracovať len s jedným z nich, a to tiež v obore reálnych čísel (čím stratíme informáciu o fáze frekvenčných zložiek). Aby sme docielili postupný rast skúmaných frekvencií od najnižšej po Nyquistovu frekvenciu, rozšírime vstupný blok údajov na dvojnásobnú veľkosť.

Diskrétna kosínusová transformácia (DCT, angl. discrete cosine transform) je špeciálny prípad diskrétnej Fourierovej transformácie; keďže kosínus je párna funkcia, DCT je vhodné predovšetkým na frekvenčný rozklad párnych funkcií. Existuje niekoľko rozšírených druhov definícií DCT (najznámejšie sú označované DCT I, DCT II, DCT III, DCT IV). V kompresii obrazu je najpoužívanejšia DCT II (označovaná často len ako „DCT“), ktorej inverzná funkcia je DCT III prenásobená vhodným číslom (často len „IDCT“). Pri kompresii zvuku sa však viac osvedčila modifikovaná DCT (MDCT), založená na DCT IV. Tá funguje na princípe prekrývania okien (skúmaných blokov vzoriek) – každá vzorka patrí do dvoch okien, pričom druhá polovica predchádzajúceho okna sa prekrýva s prvou polovicou nasledujúceho okna. Počet koeficientov je však oproti veľkosti okná polovičná, čo toto zdvojnásobenie dát kompenzuje. Výpočet sa realizuje nasledovne:
MDCT: t_k=Sum(j=0..2n-1: a_j x_j cos(Pi/n (j+1/2+n/2) (k+1/2)), IMDCT: y_k=1/a_k 2/n Sum(j=0..n-1: t_j cos(Pi/n (k+1/2+n/2) (j+1/2))
V prípade IMDCT získame dva výsledky pre každú vzorku – tie jednoducho sčítame a získame želané xj. Táto technika prekrývania sa tiež nazýva TDAC (angl. time domain aliasing cancellation, teda anulovanie aliasingu v časovej doméne). Zmysel škálovacieho vektora a={a₀, a₁, ... , a_2n−1} je práve v prekrývaní okien – tieto faktory upravujú výsledky po aplikovaní MDCT tak, aby výsledná energia súčtu oboch výsledkov z IMDCT bola jednotková (presnejšie pre konštantnú veľkosť bloku n platí a_i²+a_i+n²=1 – Princenova-Bradleyho podmienka).

V praxi sa používa symetrický škálovací vektor (teda párna funkcia), ktorý sa líši od formátu k formátu. Nižšie uvedené príklady používajú formáty MP3 a MPEG-2 AAC (a_i) a Vorbis (b_i). AC-3 používa tzv. Kaiser-Besselovo derivované okno (s netriviálnym výpočtom), rovnako ho môže použiť i MPEG-4 AAC.Pozn. 2.
a_i=sin(Pi/2n (i+1/2)), b_i=sin(Pi/2 sin^2(Pi/n (i+1/2)))

Prvky výsledného vektora t získané z IMDCT (korešpondujúce s amplitúdami skúmaných frekvenciíPozn. 3) sa nazývajú koeficienty.

Poznámka 1: P. odsek 3.1.1 Vzorkovanie.

Poznámka 2: Obšírnejší rozbor podmienok, ktoré musí každý škálovací vektor spĺňať, možno nájsť napr. v SPORER, Th. et al. The Use of Multirate Filter Banks… 1992.

Poznámka 3: Koeficienty nevyjadrujú priamo amplitúdu sinusoidy danej frekvencie, ale reprezentujú intenzitu, s ktorou je signál daného kmitočtu v zázname „prítomný“, vzhľadom na konkrétnu metódu skúmania (v tomto prípade DCT).

Odsek 3.3.3: Ortogonálne transformácie v praxi

Treba si uvedomiť, že aj keď sú vstupné dáta ortogonálnych transformácií (v tomto prípade hovoríme najmä o MDCT) celočíselné, výsledné koeficienty budú vo všeobecnosti reálne. Ak teda chceme pracovať s frekvenčnými zložkami, musíme ich zaokrúhliť, kvantovať. Možnosť presnej rekonštrukcie pôvodných signálov teda nepripadá do úvahy. Koeficienty možno kvantovať s rôznou presnosťou, v závislosti od frekvencie, vzhľadom na psychoakustiku a želaný dátový tok. V praxi sa používa logaritmické kvantovanie – rozlíšenie hodnôt blízko malých čísel je presnejšie než v prípade vyšších hodnôt. Ortogonálne transformácie sú teda viac než vhodné na stratovú kompresiu signálu.

Ďalším aspektom je „statický čas“ riešenia. Zatiaľ sme hovorili o jednom spracúvanom bloku dát, problémom je však sekvenčnosť zvukových dát; tie vo všeobecnosti nevykazujú periodickosť zhodnú s veľkosťou bloku. Riešením je napr. prekrývanie okien, ako sme si ho spomenuli vyššie. Objavuje sa problém zachovania fázovej informácie (ktorá v koeficientoch nie je vyjadrená) – možnosťou je napr. stanoviť počiatočnú fázu v „čase 0“, zabezpečiac tak súvislosť fázy pri prechode oknami pre ľubovoľnú frekvenciu. Zvolenie veľkosti okna tiež nie je jednoduché. Malé okno znamená dobré rozlíšenie v čase (ľahko sa vyjadrí presný čas, kedy sa v zázname vyskytol daný zvuk), ale slabý frekvenčný rozsah (frekvencie s menšou vlnovou dĺžkou než veľkosť okna sa vo výpočte MDCT nezohľadňujú). Veľké okno naopak zvyšuje frekvenčný rozsah za cenu straty časovej informácie. Riešenia sú rôzne, napr. meniť adaptívne veľkosť okna vzhľadom na prevažujúce kmitočty, alebo rozdeliť frekvenčné pásmo na viac častí a každé spracúvať osve, s osobitnými veľkosťami okna. Výsledkom je lepšia presnosť výsledku vo frekvencii i čase, transformácia však ostáva naďalej silno stratová. Medzi známe prejavy tejto stratovosti patrí jav nazývaný zvlnenie (angl. ringing). Frekvenčnou charakteristikou signálu s náhlou zmenou priebehu je impulz so širokým frekvenčným spektrom a amplitúdou. Pri spätnej rekonštrukcii z frekvenčných zložiek sa v signáli objavia predtým neprítomné zvlnenia pred a za impulzom (tzv. Gibbsov fenomén – znemožňuje napr. presnú rekonštrukciu štvorcovej vlny). Keďže okná pokrývajú istý časový úsek, frekvenčná dekompozícia a spätná kompozícia spôsobia utlmenie impulznej charakteristiky pôvodného signálu a jeho rozloženie na tento časový úsek. Príbuzným negatívnym fenoménom je aj tzv. predozvena (angl. pre-echo). Tiež sa prejavuje pri výskyte signálu s vysokou energiou. Kodér, v snahe udržať vyrovnaný dátový tok, zväčša znižuje kvalitu kvantovania pre celý korešpondujúci rámec. Výsledkom je šum prítomný v celom rámci; signál s vysokou energiou, ktorý by ho maskoval, sa však objaví až od istého časového okamihu. Obe spomenuté deformácie teda vznikajú časovo pred i za impulzom – hovorí sa však len o „predozvene“. Dôvodom je nižšia citlivosť sluchu na skreslenie za hlasným zvukom (impulzom), tzv. dopredné maskovaniePozn. 1. Oba fenomény sa prejavujú najmä pri nízkych dátových tokoch a impulzných zvukoch, ako sú potlesk, bubny, výbuchy, kastanety ap.

Najväčší problém je náročnosť výpočtu ortogonálnych transformácií. Je vhodné počítať ich pomocou matíc (podobne ako pri kompresii obrazu), pri relevantných veľkostiach okien (napr. MP2 používa 512 vzoriek, čo je pri 44,1 kHz len 11,6 ms!) je to však veľmi náročné. Riešením môže byť subpásmové kódovanie. Pomocou vhodne zvolených digitálnych filtrov, zoskupených do tzv. banky filtrov, možno rozdeliť pôvodné skúmané okno na frekvenčné pásma (napr. 32 frekvenčných pásiem rovnomerne deliacich počuteľný frekvenčný rozsah zdroja – subpásmová analýza). Subpásma sú následne kriticky podvzorkované (ak je 32 subpásiem, tak faktorom 32 – pri veľkosti oknaPozn. 2 512 vzoriek sa tak subpásmo podvzorkuje na 16 vzoriek), čo umožní odstrániť zbytočnú redundanciu: všetky pôvodné frekvencie v subpásme ostanú po podvzorkovaní zachované vďaka aliasingu, v nepárnych subpásmach však budú „prevrátené“ – najmenšia frekvencia sa stane najvyššou a naopak. Na subpásma, vďaka malej veľkosti, možno neskôr efektívne aplikovať ortogonálnu transformáciu. Subpásmová analýza a syntéza (zloženie pôvodného zvuku zo subpásiem) vnáša do zvuku skreslenie spôsobené nedokonalosťou použitých filtrov. Navyše, rovnomerné rozdelenie frekvenčného rozsahu nekorešponduje s vnímaním frekvenčných rozdielov ľudským sluchomPozn. 3. Výhodou je možnosť osobitného spracovania signálu podľa jeho frekvenčných zložiek, a to bez transformácie z časovej do frekvenčnej domény. Najčastejšie používanými filtrami na subpásmovú dekompozíciu signálu sú kvadratúrny zrkadlový filter, deliaci frekvenčné spektrum pôvodného signálu na dva podvzorkované signály (kriticky, teda na polovicu, pričom v prvom subpásme sa nachádza nižšia polovica frekvenčného spektra, v druhom vyššia), a všeobecnejší polyfázový kvadratúrny filter, deliaci spektrum na niekoľko uniformne rozdelených subpásiem. Ich presnejší popis a konštrukcia prekračujú rámec tejto práce.

Po frekvenčnej analýze nasleduje rozbor rámca. Identifikujú sa dominantné frekvenčné zložky, na základe psychoakustického modelu sa vytvorí krivka – prah maskovania (akoby maskovací signál prítomný v zázname) pre rôzne frekvencie. Frekvenčné zložky s intenzitami pod prahom maskovania (preto „nepočuteľné“, aspoň podľa rozhodnutia psychoakustického modelu toho-ktorého algoritmu) možno celkom zanedbať. Zložkám len mierne prekračujúcim prah maskovania (majú nízky odstup signálu od maskovacieho signálu – signal to mask ratio, SMR) možno priradiť nižšie rozlíšenie pri kvantovaní (snaha udržať nízky odstup šumu od maskovacieho signálu – noise to mask ratio, NMR). Prah maskovania z predošlého rámca sa po miernom utlmení zvykne použiť pri spracúvaní ďalšieho rámca, simulujúc tak časové maskovanie. Kvantované hodnoty sa kódujú vhodným kódovaním, od nízkych frekvencií k vysokýmPozn. 4.

Ak má byť želaný dátový tok nízky, zmenšuje sa presnosť kvantovania koeficientov, resp. postupne sa úplne potláčajú frekvencie na okraji psychoakustického pásma vnímania (najmä vysoké frekvencie). Niektoré formáty umožňujú umelo zvýšiť amplitúdu skupiny frekvenčných zložiek alebo subpásma – toto zhlasnenie (angl. gain) sa prenáša ako dodatočná informácia. Keďže kvantovanie zväčša prebieha podľa logaritmickej mierky (teda vysoká presnosť pre malé čísla, nižšie rozlíšenie pre veľké čísla), výsledkom je zníženie dátového toku.

Zvyšovať „kvalitu“ zaznamenaného zvuku zas možno presnejším kvantovaním koeficientov, použitím viacerých okien pre rôzne frekvenčné pásma, osobitným kódovaním jednotlivých kanálov atď. Treba si uvedomiť, že nemožno zvyšovaním dátového toku dosiahnuť bezstratovosť riešenia, aj keď, vzhľadom na návrh algoritmu, možno ľubovoľne zvyšovať psychoakustickú kvalitu, posluchovú „zhodnosť“ s originálom, tzv. priesvitnosť záznamu (v angličtine sa používa termín transparency, ak už je skomprimovaný záznam sluchom neodlíšiteľný od pôvodného, z ktorého stratovou kompresiou vznikol).

Medzi rôznymi ortogonálnymi transformáciami sa ujala predovšetkým DCT. Prax ukázala, že napriek svojej jednoduchosti ponúka najlepšie psychoakustické vlastnosti (i psychovizuálne, ak ide o kompresiu obrazu, kde sa tiež používa).

Schéma stratovej kompresie zvuku teda väčšinou vyzerá nasledovne (zjednodušený nákres):

Obr. 3.1 – Schéma stratovej kompresie zvuku – po transformácii (A) nasleduje kvantovanie (Q), výsledné čísla sa kódujú entropickým kódom (EC)
Zvuk vo forme PCM (občas rozdelený na subpásma) je vstupným vektorom pre ortogonálnu transformáciu A. Na výstupné koeficienty sa aplikuje kvantovanie podľa potreby (na základe frekvenčnej a psychoakustickej analýza zvuku), výsledok sa zakóduje entropickým kódom a pošle na výstup. Dekompresia funguje presne naopak: dekódovanie koeficientov, naškálovanie na pôvodné (reálne) hodnoty (so stratou presnosti), spätná transformácia (maticou A^-1) (prípadne nasleduje subpásmová syntéza) – na konci získavame dáta vo forme PCM.

S ortogonálnymi transformáciami a subpásmovým kódovaním úzko súvisí i tzv. gapless playback (dalo by sa preložiť ako súvislá, nepretržitá reprodukcia, záznam bez medzier). Veľkosť rámcov tej-ktorej kompresnej schémy nutne určuje najmenšiu časovú jednotku skomprimovaného záznamu. Riešením je doplnenie ticha („vypchatie“, angl. padding) na začiatku alebo konci zvukového záznamu, s cieľom dosiahnuť dĺžku deliteľnú veľkosťou rámca. Prehrávanie sledu záznamov, ktoré predtým tvorili súvislý celok (napr. skladby na niektorých CDPozn. 5 s plynulým prechodom z jednej skladby do druhej), je tak zrazu prerušovaný tichom – preto je vo výsledných súboroch často uložená informácia o trvaní doplneného ticha, zaručujúc tak gapless playback.

Na dôvažok treba spomenúť, že zvuk sa „neodohráva“ len v časovej (PCM) alebo frekvenčnej doméne (MDCT), ale v oboch súčasne. Použitie okien znamená skombinovanie oboch domén. Svojou prirodzenosťou by však waveletyPozn. 6 omnoho lepšie vystihovali charakteristiku skutočného signálu. V praxi sa však (zatiaľ) s waveletovými kompresnými postupmi na kódovanie zvuku nestretávame.

Poznámka 1: Angl. post-masking. P. odsek 2.2.4 Maskovanie zvukov.

Poznámka 2: O oknách má zmysel hovoriť najmä pri psychoakustickej analýze záznamu. Samotné kódovanie však prebieha po rámcoch získaných z týchto okien – v prípade MP2 je to 384 vzoriek, teda kódované subpásmo zaberá 12 vzoriek.

Poznámka 3: P. odsek 2.2.5 Vnímanie frekvencie.

Poznámka 4: Vysokofrekvenčné zložky majú vzhľadom na povahu zvuku (p. časť 2.3 Charakteristiky zvuku) redšiu distribúciu a nižšie amplitúdy (po kvantovaní často zaokrúhlené k nule alebo veľmi nízkym číslam). Navyše je ľudský sluch háklivejší na zachovanie hlbokých fundamentálnych frekvencií.

Poznámka 5: CD však majú tiež najmenšiu jednotku – sektor dĺžky 588 vzoriek (1/75 sekundy).

Poznámka 6: Jednotky signálu nesúce informáciu o frekvencii i čase signálu – teoreticky sú teda vhodnejšie na dekompozíciu zvuku.

Odsek 3.3.4: Vektorové kvantovanie (VQ)

Najjednoduchším spôsobom zápisu vektorovej informácie je vymenovanie jednotlivých prvkov vektoraPozn. 1. Ak je však signál zmysluplná informácia, obsahuje nejaké charakteristické prvky. V predošlom texte sme považovali signál za kompozíciu základných tónov, sinusoíd. Transformáciou sme získali súbor koeficientov, ktoré vyjadrovali „mieru“ zastúpenia tej-ktorej frekvenčnej zložky. Keďže sa pohybujeme v diskrétnej doméne, možno sa na jednotlivé frekvenčné zložky (sinusoidy) pozerať ako na vektory. Výsledný signál je kompozíciou týchto vektorov vynásobených príslušnými „mierami“ (koeficientmi). Na ortogonálne transformácie (aj MDCT) sa teda dá pozerať ako na špeciálny prípad vektorového kvantovania (v skratke budeme označovať VQ z anglického vector quantisation).

Vo všeobecnosti sa na princíp VQ dá pozerať nasledovne: majme kódový slovník – súbor vektorov, ktorými aproximujeme vstupný vektor (signál). Rozmer vektorov je n, preto ich možno chápať ako body v n-rozmernom priestore. Skonštruujme Voronoiove diagramy z kódových vektorov. Vstupný vektor spadá do jedného z diagramov, prislúchajúceho konkrétnemu kódovému vektoru. Preto mu je (vzhľadom na zvolenú metriku) najviac podobný (v danom priestore je tento kódový vektor vstupnému vektoru zo všetkých najbližší).

Pri kompresii zvuku metódou VQ sa obyčajne tento postup aplikuje na vektor koeficientovPozn. 2, teda vyjadrenie signálu vo frekvenčnej doméne (kde je oproti časovej doméne signálu ľahšie badať štruktúru a korelovanosť). Z kódového slovníka sa vyberie vektor, ktorý najlepšie reprezentuje vektor koeficientov. Keďže slovník oproti pôvodnému vektorovému priestoru obsahuje len obmedzený počet vektorov (vďaka čomu nastáva samotná kompresia, teda úspora v popise pôvodných dát), vzniká skreslenie (akási forma kvantovacieho šumu) – reziduálny signál, teda rozdiel medzi vstupným vektorom a vybraným kódovým vektorom. V prípade potreby možno ďalším krokom (tzv. prechodom) toto skreslenie zmenšiť, ak reziduálny signál znova podrobíme vektorovému kvantovaniu.

Poznámka 1: Ak uvažujeme o vektore ako o výsledku vzorkovania (spojitého) signálu, ide vlastne o PCM reprezentáciu.

Poznámka 2: Vektor koeficientov sa zvykne normalizovať, aby jeho špičková hodnota bola zhodná s úplným rozsahom (najvyššou vyjadriteľnou hodnotu). Ak je tak, sú tomu prispôsobené i vektory v kódovom slovníku – každý z nich je normalizovaný. Informácia o potrebnom zosilnení signálu, samozrejme, tiež tvorí informáciu potrebnú na spätnú rekonštrukciu pôvodného vektora.

Odsek 3.3.5: Kompresia stereofonického záznamu

V predošlom texte sme uvažovali o zvuku ako o monofonickom zázname. V praxi však používame stereofonický záznam, teda záznam dvoch (resp. viacerých) kanálov. Na podobnosť signálov v jednotlivých kanáloch sa dá pozerať ako na (tzv. medzikanálovú) redundanciu, čo sa dá využiť pri kompresii. Máme na výber štyri prístupy:

Kanály môžeme podrobiť nezávislému kódovaniu kanálov (angl. independent stereo coding), teda medzikanálovú redundanciu vôbec nevyužijeme.
Vzhľadom na podobnosť zvukov v jednotlivých kanáloch sú koeficienty (intenzity frekvenčných zložiek vstupu) po nezávislom kódovaní kanálov zväčša silne korelované. To možno zúžitkovať technikou menom združené kódovanie kanálov (angl. coupled channel coding) a zefektívniť kódovanie (napr. koeficienty prvého kanála sa prenesú normálne, koeficienty druhého budú rozdielom hodnôt oproti prvému kanálu – dekorelácia vo frekvenčnej doméne). Výhodou je okamžité vyhodnotenie efektívnosti tohto postupu (v prípade že by sa zvýšil výstupný dátový tok, nevykoná sa žiadne odpočítavanie koeficientov). Problémom je však to, že už mierna rozdielnosť v PCM vyjadrení jednotlivých kanálov môže spôsobiť silné zmeny v koeficientoch, teda frekvenčnej charakteristike kanálov, čo znamená, že korelácia sa nie vždy dá nájsť. Mierne zlepšenie môže priniesť rozdelenie frekvenčného pásma na časti a osobitné rozhodovanie o efektívnosti dekorelácie každej z nich.
Ďalšou alternatívou je využitie vzájomnej korelovanosti jednotlivých kanálov zvuku ešte pred aplikovaním ortogonálnej transformácie – spojené kódovanie kanálov (angl. joint stereo coding). Vtedy sa zvyčajne osobitne transformuje priemer (súčet) kanálov (resp. jeden z kanálov) a ich rozdiel (resp. rozdiel od priemeru; akási analógia so systémom nahrávania MS, občas sa preto označuje M/S stereo coding). Či takáto dekorelácia v časovej doméne priniesla ušetrenie dátového toku, možno zistiť len porovnaním s výsledkami nezávislého kódovania kanálov. Navyše, kanál vyjadrujúci rozdiel pôvodných kanálov často nemá štandardné charakteristiky zvukového záznamu (a žiadnu podobnosť so súčtovým kanálom), preto nemusí byť vôbec vhodné použiť naň rovnaký algoritmus stratovej kompresie ako na súčtový kanál. Veľkou výhodou tohto postupu je však to, že na rozdiel od prvej metódy nie sme nútení voliť rovnako veľké okná pre oba kanály.
Pri starších stratových formátoch (napr. MP1, MP2, MP3, DTS) sa možno stretnúť aj so stereofonickým kódovaním intenzity (angl. intensity stereo coding). Využíva sa len na vysokofrekvenčné subpásma. Kóduje sa priemer oboch kanálov a jediná zaznamenaná informácia je pomer hlasitostí medzi kanálmi v danom frekvenčnom subpásme. Výsledkom je zníženie dátového toku i výslednej kvality stereofonického dojmu.

Konkrétna realizácia sa líši od formátu k formátu. Často je výber medzi týmito technikami závislý od želaného dátového toku (napr. pri nižšom sa volí spojené alebo združené kódovanie kanálov, pri vyššom nezávislé kódovanie kanálov za účelom dosiahnutia vyššej vernosti záznamu). Jednotlivé kanály zväčša prenášajú tie isté tóny, len s odlišnou amplitúdou, fázovým posunom a časovým oneskorením. Tieto faktory, ktoré silno vplývajú na lokalizáciu zvuku a priestorový dojem z hudby, treba zvážiť už pri návrhu kompresného algoritmu. Vo väčšine prípadov sa využíva amplitúdová korelácia najmä vo vyšších frekvenciách (kde človek nie je taký citlivý na fázový posun medzi kanálmi), pre stredné a nižšie frekvencie sa používajú techniky na zaznamenanie fázového rozdielu medzi združenými kanálmi.

<< Späť - Časť 3.2: Digitálne kódovanie čísel <<

^^ Hore - Kapitola 3: Digitálny svet zvuku ^^

>> Ďalej - Časť 3.4: Princípy bezstratovej kompresie zvuku >>