Úvod do metód spracovania zvuku v súčasnom multimediálnom prostredí

<< Späť - Časť 4.1: ADPCM <<
^^ Hore - Kapitola 4: Prehľad stratových zvukových formátovu ^^
>> Ďalej - Časť 4.3: MPEG-2/4 Audio (AAC) >>

Časť 4.2: MPEG-1/2 Audio (MP3)

V tejto časti práce sa oboznámime s formátom MP3, ktorý je v súčasnosti najúspešnejším spôsobom psychoakustickej kompresie zvuku. Oboznámime sa tiež s jeho modifikáciami (MP3pro, MP3surround) a spomenieme i formáty MP2 a MP1. (Pre bližšie informácie týkajúce sa štandardov MPEG čitateľa odporúčame na odsek 3.5.10 MPEG.)

MP3 je populárna skratka pre tretiu zvukovú „vrstvu“ štandardu MPEG-1 (po angl. MPEG-1 layer 3), MP2 a MP1 označujú druhú a prvú vrstvu (nižšie číslo indikuje nižšiu výpočtovú náročnosť). Na požiadavku MPEGu vyvinúť kvalitný stratový zvukový formát pre trh reagovali viaceré zoskupenia návrhmi algoritmov, pričom najúspešnejšie z nich boli MUSICAM a ASPECPozn. 1. Vedci združení v konzorciu MPEG z nich vyvinuli jednotlivé vrstvy (MP1, MP2, MP3), štandardizované v rokoch 1990-1992 (rozšírenia sa dočkali so štandardom MPEG-2 v r. 1994). Skratka MP3 (resp. MP2, MP1) označuje algoritmus, formát, v slangu však najmä súbory (.mp3), ktoré sa stali asi najznámejším spôsobom ukladania a šírenia hudby, skratkou známou aj medzi počítačovými laikmi.


Poznámka 1: Skratky z „Masking pattern adapted Universal Subband Integrated Coding And Multiplexing“ (MUSICAM) a „Adaptive Spectral Perceptual Entropy Coding“ (ASPEC).

Odsek 4.2.1: MP1, MP2

MP1 je zjednodušením MP2. Bol určený na dátové toky okolo 192 kbps na kanál. Keďže sa s ním v praxi nestretávame, budeme sa mu venovať len okrajovo.

Formát MP2 (prípona .mp2) bol štandardizovaný na základe návrhu firmy Philips – algoritmu menom MUSICAM z r. 1990 (medzi používateľmi PC sa s ním dalo stretnúť od októbra 1993 vďaka kodeku firmy Xing). Jeho úlohou je kódovať zvuky s vysokým dátovým tokom (128 kbps na kanál) poskytujúc nízku výpočtovú náročnosť a vysokú odolnosť voči chybám pri prenose dát. Veľkosť okna je 1024 (MP1) alebo 2048 vzoriek (MP2), okno sa delí na symetrické „granuly“ rovnakej dĺžky. Algoritmus MP1 a MP2 je založený na subpásmovej kódovacej schéme, celý frekvenčný rozsah jednej granuly sa delí na 32 subpásiem. Veľkosť výsledného rámca je 384 (MP1) alebo 1152 vzoriek (MP2), prenášané subpásmo má teda dĺžku 12 alebo 36 vzoriek. Na základe jednoduchého psychoakustického modelu sa vypočíta odstup signálu od maskovacieho signálu a určia sa vhodné kvantovacie kroky (rovnomerne, nie logaritmicky pokrývajúce celý rozsah) pre jednotlivé subpásma, ktoré sa neskôr prenášajú (bez frekvenčnej analýzy – kvantovanie teda prebieha v časovej, nie frekvenčnej doméne). Používa stereofonické kódovanie intenzity a rôzne preddefinované tabuľky pre Huffmanovo kódovanie výstupu. Formát MP2 je pre svoju nízku výpočtovú náročnosť a jednoduchú implementovateľnosť používaný v televíznom i rozhlasovom digitálnom terestriálnom vysielaní (DAB, DVB), stretnúť (aj keď zriedka) sa s ním možno na diskoch DVD-Video, používal sa na diskoch VCD a SVCD.

Odsek 4.2.2: MP3

Formát MP3 (prípona .mp3) bol štandardizovaný v r. 1992 (aj keď hlavný podiel na jeho rozšírení mal až šervérový kodek l3enc od nemeckého Fraunhofer Institut für Integrierte Schaltungen, vydaný 7. júla 1994 – od roku 1995 začal úspešne vytláčať MP2). Bol vyvinutý francúzkym zoskupením Thomson a nemeckým Fraunhofer IIS so zámerom poskytnúť kvalitnú kompresiu pri nízkom dátovom toku (najmä na účely digitálneho vysielania) okolo 64 kbps na kanál. Pri jeho návrhu sa čerpalo z najlepších vlastností algoritmov MUSICAM a ASPEC. Veľkosť okna je 1152 vzoriek, to sa rozkladá na dve granuly, ktoré sa následne delia na 32 subpásiem (dĺžky 18 vzoriek). Subpásma z oboch granúl sa spoja, aby na ne bola aplikovaná MDCT, poskytujúca presnejšie frekvenčné rozlíšenie, bližšie ľudskému vnímaniu. V subpásme možno MDCT aplikovať nielen raz na 36 vzoriek (dlhý blok), ale aj trikrát na 12 vzoriek (krátky blok). Toto menšie frekvenčné a lepšie časové rozlíšenie sa používa pri výskyte zvukov s veľmi krátkym trvaním (bubny ap.). (Pozn.: existuje i tzv. „zmiešaný blok“, keď prvé dve subpásma používajú 36 vzoriek, ostatné 3×12 vzoriek.) Využíva sa všetkých 576 koeficientov z MDCT. Kodéry (ako v prípade takmer všetkých stratových kompresných schém) iteratívne menia koeficienty a nanovo skúmajú odstup šumu od maskovacieho signálu, snažiac sa ho pre daný dátový tok dostať na minimálnu úroveň.

MP3 oproti MP2 dodáva technológiu spojeného kódovania kanálov (joint stereo, M/S). Nízke vzorkovacie frekvencie (16, 22,05 a 24 kHz), dodané štandardom MPEG-2, používajú len jednu granulu.

MP3 našlo rýchlo svoje uplatnenie a doteraz je najrozšírenejším spôsobom psychoakustickej kompresie zvuku.

Odsek 4.2.3: MP3pro

Fraunhofer IIS a Thomson uviedli rozšírenie formátu MP3 menom MP3pro v r. 2001. Je založené na technológii švédskej firmy Coding Technologies – replikácii spektrálneho pásma (angl. Spectral band replication, SBR). Vychádza z dovtedajších obmedzení formátu MP3 pri nízkych dátových tokoch (64 kbps a nižšie). Jediný spôsob, ako efektívne kódovať za takýchto podmienok, bolo orezanie frekvenčného spektra – zo vstupu na strane kodéra sa odstránili vysoké frekvencie (napr. nad 8 kHz) a informácie o vyšších zložkách nebolo treba prenášať, čo značne ušetrilo dátový tok. Dôsledkom bol neprirodzený, zastretý zvuk. Pri snahe preniesť aj vysokofrekvenčné spektrum by však výsledkom bol veľmi nekvalitný záznam, spôsobený šumom z nízkeho rozsahu kvantovacej stupnice.

Návrhári SBR si uvedomili, že väčšina zvuku prítomná vo vyššom spektrálnom pásme sú len alikvotné tóny, ktoré možno odvodiť z nízkych frekvencií prítomných v zázname, alebo majú charakter šumu. Jednoduché „zdvojenie“ spektra samo osebe prinášalo dobré výsledky. Kodér MP3pro funguje na princípe analýzy vysokofrekvenčných zložiek prítomných v zázname a ich následnom odstránení. Štandardný kodér MP3 zakóduje frekvenčne obmedzený záznam. Do toku dát sa následne pridajú „postranné informácie“ (ignorované prehrávačmi bez podpory MP3pro) o postupe „reštaurovania“ vysokých frekvencií v zázname (nie skutočnej rekonštrukcie ich pôvodných charakteristík). Táto technika prináša úžasné výsledky pre dátové toky okolo 64 kbps („postranná informácia“ tvorí len čosi vyše 4 kbps), pre vyššie dátové toky je SBR, samozrejme, nevýhodou. Opodstatnenie má teda pri on-line vysielaní alebo prenosných prehrávačoch, kde je požiadavkou nízky dátový tok, nie vysoká kvalita.

Odsek 4.2.4: MP3 Surround

Fraunhofer IIS a Thomson vytvorili v spolupráci s firmou Agere Systems a ich technológiou Binaural Cue Coding v r. 2004 jednoduché rozšírenie formátu MP3 o priestorový dojem. Špeciálny kodér vytvára downmix 5.1 zvuku na obyčajný stereo záznam (maticovo kódovaný, podobne ako Dolby Pro Logic), pričom dbá, aby v dôsledku stratovej kompresie nezanikli informácie o dôležitých rozdieloch vo fáze, oneskorení a intenzite frekvenčných zložiek – pre poslucháča natoľko potrebných indícií na dosiahnutie priestorového dojmu zo zvukuPozn. 1. Údaje potrebné na ich rekonštrukciu sa prenášajú ako prídavok k zvyčajnému toku dát – ako „postranné informácie“, ignorované prehrávačmi bez podpory MP3 Surround. Tie potom prehrávajú súbory kódované algoritmom MP3 Surround ako obyčajné stereofonické súbory. Postranný dátový tok tvorí zvyčajne 16 kbpsPozn. 2, veľkosťou sú teda nové súbory porovnateľné s pôvodným formátom MP3.

Podporu novému formátu vyslovilo DivXNetworks, tvorca známeho formátu DivX. Faktom však ostáva, že MP3 Surround nie je veľmi rozšírený – priestorový zvukový záznam sa viaže skôr s filmovými záznamami, kde sa používajú iné druhy kódovania (na ktoré si používatelia už zvykli). Prípadná úspora dátového priestoru, ktorú nový formát ponúka, nie je pri súčasných veľkostiach médií dostatočným dôvodom na zmenu. Bližšie informácie možno nájsť napríklad v dokumente http://www.iis.fraunhofer.de/amm/download/flyer/dl.html?f=mp3_surround.pdf.


Poznámka 1: Súčasťou štandardu MPEG-2 je aj postup pri maticovom kódovaní priestorového zvuku, tento sa však pre nízku kvalitu (chýbajú práve spomínané „indície“) a malú podporu na trhu nikdy neujal.

Poznámka 2: Zdroj: http://www.mp3licensing.com/mp3/mp3surround.html.

Odsek 4.2.5: Zhrnutie

Medzi výhody formátu MP3 patrí najmä jeho definícia – štandard zahrnuje popis formátu (toku dát) a dekodéra, implementácia kodéra je však ponechaná na tvorcovi. To spôsobilo, že miesto jedného „štandardného“ kodeku si používateľ môže vyberať z nepreberného množstva rôznych implementácií. Za najkvalitnejší sa vo všeobecnosti považuje algoritmus LAMEPozn. 1, ktorý je navyše bezplatný. Výhoda sa však môže zmeniť na nevýhodu – mnohí komprimujú zvuk do formátu MP3 použijúc nekvalitné algoritmy, spôsobujúc, že dátový tok, ktorý je s LAME pre danú oblasť postačujúci, môže náhle poskytovať úplne neuspokojivé výsledky.

Medzi nevýhody formátov MP1, MP2 a MP3 (podľa štandardu MPEG-1) patrí obmedzenie dátového toku – pre každý rámec musí tento byť z presne stanovenej množiny hodnôt 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 alebo 320 kbps. MPEG-2 dodáva hodnoty 8, 16, 24, 32, 48 a 144 kbps. Aby sa čo najlepšie využil dátový tok, možno v prípade, že ešte v aktuálnom rámci ostane priestor, uložiť doň dáta z nasledujúceho rámca (najviac 511 bajtov) – táto črta sa nazýva bitová rezerva (angl. bit reservoir). Variabilný dátový tok, ktorý podporujú mnohé kodéry (a našťastie väčšina MP1/MP2 dekodérov, ba všetky MP3 dekodéry) nie je ničím iným ako vhodným výberom dátového toku pre každý rámec záznamu osobitne, podľa potreby (napr. stanovená hodnota NMR). Obmedzený dátový tok (najmä horná hranica 320 kbps) však neumožňuje úplne flexibilne reagovať na rôznorodé vstupné signály.

Ďalšou nevýhodou je nezabezpečenie podpory pre gapless playback – časové oneskorenie (teda veľkosť medzier pridaných do záznamu) sa do výstupného toku dát nezaznamenáva. Existuje však neoficiálna podpora – LAME tieto informácie dodáva do prídavných značiek súborov .mp3 a závisí od prehrávača, či ich podporuje.

Do tretice treba spomenúť zaťaženosť formátu patentmi. Za licencovanie je zodpovedná firma ThomsonPozn. 2, ktorá už viackrát hrozila výrobcom a programátorom komerčných MP3 kodekov v USA žalobami pre neodvádzanie poplatkov. Nie je však známy prípad žaloby vývojárov opensource kodekov. Navyše, patentové právo v EÚ, ako je známe, v súčasnosti nepodporuje vymáhanie patentu z programovacích postupov, čo umožňuje používať programy ako LAME bez problémov. Pôvodné patenty od Fraunhofer IIS vypršia v apríli roku 2010, čím sa MP3 stane verejným vlastníctvom.

V prospech MP3 oproti MP2 hovorí najmä vyššia kvalita pri nízkych dátových tokoch. Pre vysoké dátové toky (128 kbps na kanál a viac) však MP2 poskytuje vyššiu kvalitu než MP3 (vďaka neprítomnosti stratovej frekvenčnej dekompozície), čo v prípade DAB a DVB, spolu s menšou výpočtovou náročnosťou a vyššou odolnosťou voči chybám pri prenose dát, rozhodlo v prospech tohto staršieho formátu. (Navyše, zakomponovanie technológie SBR umožňuje MP2 konkurovať s MP3 aj pri nižších dátových tokoch.)

V skratke možno povedať, že formát MP3 je a ostáva (napriek svojej zastaranosti) najpopulárnejší formát. Veľké množstvo hudby archivovanej ako MP3 na strane používateľov (často z čias, keď bol ešte najlepšou alternatívou), ohromná podpora na trhu (nielen softvérová, ale i prenosné prehrávače, veže, DVD prehrávače, …) a dobré meno (ktoré sa stalo súčasťou slovníka väčšiny mladých ľudí, bez ohľadu na ich vzťah k výpočtovej technike) z neho robia prakticky univerzálne médium na dátovo nenáročný prenos a archiváciu hudby. Chýbajúca podpora DRM schém imponuje jednoduchým používateľom, rozumná výpočtová náročnosť pomáha tvorcom hardvérových dekodérov. Aj keď je AAC už mnohé roky vybratý ako nástupca MP3, v rozšírenosti ho tak skoro neprekoná – priemerný používatelia si zvykli na osvedčený formát a nepotrebujú ho meniť za nový, ktorý len mierne zmenší veľkosť už i tak malých súborov .mp3.

Oficiálna stránka Fraunhofer IIS venovaná technológii MP3 sa nachádza na http://www.iis.fraunhofer.de/amm/techinf/layer3, ďalšie podklady možno nájsť aj na stránkach http://www.mp3licensing.com, http://www.digital-audio.net/res/docs/pdf/mpegaud.pdf a iných.


Poznámka 1: Aspoň pri dátových tokoch 128 kbps a vyššie, p. http://www.rjamorim.com/test/mp3-128/results.html. Stránku projektu LAME možno nájsť na http://lame.sourceforge.net.

Poznámka 2: http://www.mp3licensing.com.


<< Späť - Časť 4.1: ADPCM <<
^^ Hore - Kapitola 4: Prehľad stratových zvukových formátovu ^^
>> Ďalej - Časť 4.3: MPEG-2/4 Audio (AAC) >>

(c) 2006 Pavol Adam
kontakt
Powered by:
ATRIP software