Kapitola 3: Digitálny svet zvuku

V predošlej kapitole sme si predstavili zvuk v jeho prirodzenom, spojitom prostredí. Je to forma, v ktorej ho môžeme počuť, zaznamenávať, reprodukovať. Dokonca aj uchovávať.

Je niekoľko analógových spôsobov archivácie zvuku. Napríklad gramofónová LP platňa alebo magnetická páska. Tým, že sú analógové, dokážu v ideálnom prípade zo svojej podstaty zachytiť zvyčajnú zvukovú informáciu ako celok, tzn. bez nutnej straty dynamiky, frekvenčného spektra atď. To je však len teória.

V praxi sa stretávame s obmedzením na technologickej úrovni. Kvantové javy nám diktujú nutnosť existencie najmenšieho zaznamenateľného signálu, konštrukcia úložného zariadenia zas obmedzuje maximálny signál. Použitá elektronika, ktorá upravuje signál, aby bol vhodný na záznam, má svoju frekvenčnú charakteristiku, harmonické skreslenie, odstup signálu od šumu, medzikanálový presluch, nelineárny útlm signálu, … Dôsledkom je, že aj keď sa snažíme o „dokonalý“ prenos, vždy vznikajú chyby, skreslenia. Každé viacnásobné spracovanie (napr. mixáž zvukov v štúdiu) skreslenie len zvyšuje, odchýlka od originálu sa „hromadí“, je stále viac počuteľná. Prirodzenou snahou je teda používať čím kvalitnejšie zariadenia, aby bolo skreslenie minimálne – to však znamená predraženie celkového riešenia.

Druhým nepriateľom je šum, ktorý vzniká na (analógových) záznamových médiách nielen používaním, ale aj samovoľne, časom. Znova platí, čím kvalitnejšie (a drahšie) zariadenia, tým sú starosti so šumom menšie, no celkom sa mu vyhnúť nedá.

Hľadané riešenie musí uchovávať údaje o zvuku bez zmeny, teda zvuk musí byť presne popísateľný, nesmie byť len „javom“. Navyše, zariadenia, ktoré s ním pracujú, musia mať „kontrolovateľnú“ kvalitu, ktorú možno pri ich návrhu jednoducho podľa potreby zvyšovať, bez nutnosti predraženia riešenia. Práca s ním by mala byť jednoduchá, takmer bezplatná, bez využitia ďalších a ďalších obvodov. Riešenie musí byť univerzálne, číslicové, digitálne.

V časti 3.1 Problematika vzorkovania zvuku rozoberieme spôsoby, ktorými meníme analógový zvuk na digitálny, načrtneme problémy a technologické aspekty digitalizácie zvuku.

Keď sme už zvuk zmenili na sled číslic, musíme sa naučiť tieto číslice zapísať. S niekoľkými spôsobmi a metódami čitateľa oboznámime v časti 3.2 Digitálne kódovanie čísel.

V častiach 3.3 Princípy stratovej kompresie zvuku a 3.4 Princípy bezstratovej kompresie zvuku sa bližšie oboznámime s metódami, ktoré používajú tieto dva odlišné postupy, ktoré nie sú natoľko konkurenčné, ako sa môže zdať.

Zvuk, hudba či hovorené slovo – v súčasnosti rozšírenejšie ako kedysi, najmä však celkom inou formou. Na trhu je nepreberné množstvo rôznych elektronických zariadení a počítačov, ktoré umožňujú zvuk v digitálnej podobe zaznamenávať, reprodukovať, spracúvať. V časti 3.5 Zvuk v súčasnom svete elektroniky objasníme základnú stavbu a použitie zvukového systému vo svete PC, popíšeme jednotlivé rozšírené spôsoby záznamu, prenosu a „použitia“ zvuku v praxi, čitateľa oboznámime s trendmi a inováciami nielen v minulosti, ale načrtneme aj vývoj v blízkej budúcnosti.

Kvôli zrozumiteľnosti je však namieste definovať niektoré pojmy z digitálneho sveta zvuku.

Odsek 3.0.1: Definícia pojmov

V súčasnej dobe sa používateľ pri práci so zvukovými formátmi môže stretnúť s mnohými termínmi, ktoré mu nemusia byť jasné. Niektoré, spomínané tiež v tejto práci, si zasluhujú bližší výklad.

Kompresný algoritmus (resp. len algoritmus) je program, ktorý (zvukové) dáta v nekomprimovanom formátePozn. 1 nejakým matematickým postupom prevádza do menšieho objemu, teda upravuje zápis dát tak, aby potrebovali menší priestor. Keďže sa dopĺňa s dekompresným algoritmom, často s ním tvorí jeden program (alebo súbor programov), laicky tiež nazývaný kodek (z angl. compress-decompress).

Pod zvukovým formátom (resp. len formátom) budeme rozumieť tok (sekvenciu) dát a / alebo špecifikáciu, na základe ktorej tieto dáta vznikajú (resp. na základe ktorej ich treba interpretovať), pričom pôvod týchto dát bude vo výstupe kompresného algoritmuPozn. 2. Dáta sú zväčša združené do atomických jednotiek – rámcov – blokov dát tvoriacich menší časový rozsah zvukového záznamuPozn. 3.

Spomínané dáta sú však zriedka uložené ako sekvencia čísel, skôr sú súčasťou kontajnera, čo je súbor počítačového systému (resp. jeho špecifikácia), ktorého úlohou je poskytnúť možnosť operovania nad pôvodným „surovým“ tokom dát zvukového formátu. Kontajner je zvyčajne navrhnutý priamo pre potreby daného formátu. Kontajner môže obsahovať (a zvyčajne aj obsahuje) viac tokov dát, ktoré po častiach (tzv. paketoch) zmiešava (angl. mux) dokopy, aby boli uložené synchrónne (príkladom môže byť zvuk a obraz uložené v kontajneri AVI, ktoré sú nezávislými tokmi dát, predsa však musí byť zabezpečená ich synchrónnosť). (Poznámka: je aj mnoho zvukových súborov – napr. súbory typu .mp3 – ktoré sú v skutočnosti pôvodným tokom dát, často s pridanou identifikačnou značkou, nejde teda o kontajnery v pôvodnom zmysle slova.)

Jednoduchým príkladom kontajnera môže byť súbor podľa špecifikácie RIFF (angl. Resource Interchange File Format). Ide o tzv. metaformát: umožňuje vložiť do jedného súboru niekoľko nezávislých blokov dát (v angl. sa používa termín chunk), ktoré sú uvedené hlavičkou obsahujúcou názov bloku (4 bajty – v praxi 4 písmená) a jeho veľkosť (tiež štvorbajtové číslo). Pre svoju jednoduchosť je hojne používaný (napr. MIDI súbory), označenie blokov sa zas stalo inšpiráciou na označovanie jednotlivých formátov v iných súboroch - napr. dvojbajtové číslo v kontajneri .wav, (ktoré je samo osebe RIFF súborom) identifikujúce použitý kodek (aj keď sa zväčša používa PCMPozn. 4), alebo štvorbajtový „FOURCC“ kód označujúci obrazový kodek v súboroch typu .avi atď.

Kontajner často vsúva medzi dáta, ktoré obsahuje, rôzne ďalšie dátové „značky“ na ochranu pred stratou signálu (pokračuje sa od najbližšej značky), resp. na umožnenie pretáčania (náhodného prístupu, angl. seek) v súbore (v kombinácii s tabuľkami ukazovateľov na rôzne časti súboru uľahčujúcimi náhodný prístup, tzv. seek tables).

Súčasťou zvukových súborov (najmä ak sú použité na archiváciu či prenos hudby) býva aj identifikačná značka (angl. ID tag). Umiestňuje sa spravidla na koniec alebo začiatok súboru. Jej úlohou je v prvom rade sprostredkovať bližšie metaúdaje o zvukovom zázname – číslo piesne, album, autora hudby, speváka, atď., aby uľahčila archiváciu, vyhľadávanie a získavanie informácií o nahrávke. Môže obsahovať aj informácie štatistického rázu – napr. najvyššia hodnota signálu v zázname a priemerná hlasitosť nahrávky, čo umožňuje zhlasnenie pri reprodukcii (angl. replay gain) – úpravou hlasitosti reprodukcie tej-ktorej skladby možno docieliť vyrovnanie priemernej hlasitosti vybranej množiny piesní, odstrániac tak disproporcie v dynamikách rozličných skladieb. Medzi najrozšírenejšie identifikačné značky patria:

ID3 (ID3 tag). Jeho prvú verziu (teraz označovanú ID3v1) stvoril roku 1996 programátor menom Eric Kemp. Mala umožniť zaznamenať jednoduché informácie o skladbe v súboroch typu .mp3. Jednotlivé polia majú obmedzenú veľkosť (napr. 30 znakov názov piesne, 30 znakov na autora atď.), celková veľkosť bloku identifikačnej značky je 128 bajtov, podporuje len ASCII. O značné rozšírenie tohto „štandardu“ sa postaral Martin Nilsson s ďalšími ľuďmi z internetovej komunity, ktorý definovali konvenciu pre ID3v2. Ide o samostatný kontajner umiestnený v súbore (zväčša .mp3), v ktorom môžu byť zaznamenané rozličné polia, texty so špeciálnymi znakovými sadami (UTF-8), dokonca sprievodné binárne dáta ako obrázky a iné. ID3v2 pre svoju striktnú štruktúru nemôže byť uložená v štandardných kontajneroch (Ogg, Matroska, WMA, …), keďže bola od začiatku navrhovaná ako súčasť formátu MP3. Viac informácií možno nájsť na oficiálnej stránke http://www.id3.org.
Vorbis comment. Vyvinutý organizáciou Xiph.org Foundation pre formát Vorbis, neskôr používaný aj pre ďalšie formáty z ich dielne (FLAC, Speex). Umožňuje voľné používanie ľubovoľných textových položiek (dvojíc “identifikátor=hodnota“), pričom definuje len konvenciu ich zápisu, nie ich vnútornú štruktúru a reprezentáciu. Spolieha sa teda na zahrnutie do kontajnera (zväčša Ogg). Povoľuje viacnásobné použitie toho istého identifikátora (napr. pri dvoch spevákoch, dvoch skladateľoch atď.). Oficiálna špecifikácia je dostupná na http://www.xiph.org/vorbis/doc/v-comment.html.
APEv2. Vznikol ako rozšírenie pôvodnej identifikačnej značky formátu Monkey's Audio programátorom Frankom Klemmom, ktorý ju navrhol pre svoj formát Musepack. Má striktnejšiu štruktúru ako Vorbis comment, umožňuje skladovať viac hodnôt pre jeden identifikátor, binárne údaje, texty k piesňam atď. Okrem Monkey's Audio (do ktorého bola neskôr tiež začlenená) ju používajú formáty Musepack, OptimFROG a WavPack. Špecifikácia je napr. na stránke http://wiki.hydrogenaudio.org/index.php?title=APEv2_specification.

Vyššie spomínané rozlišovanie medzi algoritmom, formátom a kontajnerom je nutné, keďže nie vždy bude z kontextu jasné, o čom hovoríme. Príkladom môže byť skratka MP3, ktorá môže označovať kompresný algoritmus podľa špecifikácie konzorcia MPEG, alebo zvukový formát (tok dát), ktorý táto špecifikácia tiež podrobne opisuje, alebo známy rozšírený súbor typu .mp3 (ktorý síce nie je kontajner, môže sa v ňom však nachádzať napríklad identifikačná značka), alebo všetky tri možnosti naraz (keďže algoritmus, formát a kontajner tvoria spolu organický celok).

Rýchlosť toku dát, na základe ktorého možno rekonštruovať istý časový úsek zvuku, budeme označovať dátový tok (angl. bitrate, bitová prenosová rýchlosť) a počítať v tisíckach bitov potrebných na rekonštrukciu jednej sekundy zvukového záznamu (jednotka kbpsPozn. 5 – z angl. kilobits per second).

Predovšetkým stratové kompresné algoritmy sú obyčajne navrhnuté s úmyslom dosiahnutia istého (tzv. typického) dátového toku, ktorý vyplýva z ich návrhu a určenia. Ak dátový tok potrebný na zápis jedného rámca je konštantný, resp. možno ho vybrať z diskrétnej množiny hodnôt, hovoríme, že formát dosahuje (resp. má, umožňuje atď.) konštantný dátový tok (angl. constant bitrate) a označovať skratkou CBR. Ak návrh algoritmu umožňuje ľubovoľný dátový tok, budeme hovoriť o variabilnom dátovom toku (angl. variable bitrate, VBR). Úloha VBR je jasná – kým pri CBR musí kompresný algoritmus vyprodukovať pre jednoduché a tiché pasáže kódovaného zvuku rovnaké množstvo dát ako pre náročné, frekvenčne či informačne bohaté signály, s VBR môže jednotlivým rámcom prideliť taký dátový tok, ktorý je potrebný na zachovanie danej „kvality“, zväčša vyjadrenej odstupom maskovacieho signálu od šumu, signálu od maskovacieho signáluPozn. 6, presnosťou kvantovania atď.

Mnohé zvukové formáty (napr. WMA) sú schopné zaručiťPozn. 7 priemerný dátový tok (angl. average bitrate, ABR) vzhľadom na celý kódovaný záznam napriek premenlivosti aktuálneho dátového toku v danej časti záznamu (zachovávajúc tak výhody VBR).

Na dôvažok treba spomenúť filtre, presnejšie ich digitálnuPozn. 8 konštrukciu. Rozšíreným riešením ich konštrukcie je použiť filter s konečnou impulzovou charakteristikou. Ide o matematickú konštrukciu, pri ktorej novú hodnotu vzorkyPozn. 9 vypočítame ako súčet súčinov hodnôt niekoľkých predošlých vzoriek s vhodne zvolenými koeficientmiPozn. 10. Počet použitých vzoriek určuje rád filtra. Ak sumáciu obohatíme aj o súčin hodnôt novovypočítaných vzoriek s vhodne zvolenými koeficientmi, hovoríme o filtri s nekonečnou impulzovou charakteristikou. Bližší popis metód konštrukcie filtrov prekračuje rámec tejto práce. Poznámka: v prípade frekvenčných filtrov sa ponúka aj iné, triviálne riešenie: vykonať frekvenčnú dekompozíciu (analýzu) signáluPozn. 11, úpravu vo frekvenčnej doméne a následnú syntézu.

Poznámka 1: Teda vo forme PCM – p. časť 3.1 Problematika vzorkovania zvuku.

Poznámka 2: Teda pojem „formát“ vystihuje aj samotný kompresný algoritmus v kontexte toku dát, ktoré prijíma ako vstup, alebo vytvára ako výstup, alebo v kontexte vlastností tohto toku dát.

Poznámka 3: Obsah rámcov, predovšetkým pri stratovej kompresii zvuku, sa extrahuje z tzv. okien, ktoré sa môžu navzájom prelínať – p. odsek 3.3.2 Fourierova transformácia, kosínusová transformácia.

Poznámka 4: Kontajner .wav je vo svete MS Windows štandardne používaný práve na ukladanie zvuku vo formáte PCM, podobne ako .aiff, .au/.snd v prípade iných platforiem.

Poznámka 5: Správne by sme mali písať kbit/s a Mbit/s (v prípade miliónov bitov), prikloníme sa však k zaužívanému a viac rozšírenému označeniu kbps a Mbps.

Poznámka 6: P. odsek 3.3.3 Ortogonálne transformácie v praxi.

Poznámka 7: Záruka však vyplýva z dvojprechodového spracovania zvuku – prvý raz sa zhodnotí náročnosť vstupného signálu, vypočíta sa potrebná úroveň kvantovania, v druhom prechode prebieha samotná kompresia.

Poznámka 8: Možno ich realizovať i analógovo – p. odsek 2.3.4 Úprava a zmena zvuku.

Poznámka 9: P. nasledujúcu časť o vzorkovaní zvuku.

Poznámka 10: Ide teda o konvolúciu hodnôt predošlých vzoriek s číselným vektorom reprezentujúcim charakteristiku filtra. To je konštrukčne zhodné s lineárnou predikciou – p. odsek 3.4.2 Kódovanie lineárnou predikciou.

Poznámka 11: Napr. použitím ortogonálnych transformácií, p. odsek 3.3.2 Fourierova transformácia, kosínusová transformácia.

<< Späť - Časť 2.5: Priestor vo zvuku <<

>> Ďalej - Časť 3.1: Problematika vzorkovania zvuku >>