Teorie digitálního audia

Uvodem

Digitální audio je v komerční sféře již přes 35 let, avšak jeho bezchybnému zpracování rozumí stále jen profesionálové. Mnoho současných zařízení se snaží, ať už při přehrávání, nebo záznamu, od celé problematiky uživatele odstínit a poskytnout mu vyhovující výsledek, ale opravdu kvalitní přehrávání a záznam digitálního audia vyžaduje hlubší znalosti.

Tento materiál uvádí přehled vybraných aspektů kvality zvuku tak, jak jimi prochází v jednotlivých stádiích, než dospěje do digitální podoby:

  1. Zvuk šířený klasickou (mechanickou) cestou.
  2. Zvuk šířený elektrickou (analogovou) cestou.
  3. Zvuk reprezentovaný digitálními daty.

Následující informace jsou uvedeny spíše formou poznámek a je na každém čtenáři, aby využil internetový vyhledávač dle svého gusta a dohledal si pojmy, které nezná a nerozumí jim, nebo které zná a chtěl by je pochopit hlouběji, než je zde uvedeno.

Demo nahrávka

Níže je pro demonstraci některých artefaktů používána nahrávka, jejíž původní podoba je následující:

Demo nahrávka v původní nezměněné kvalitě.

Nahrávka má tři části, kde každá z nich má demonstrovat jiný typ zvuku:

  1. Úvodní signál tvořený jen jednoduchým sinusovým tónem.
  2. Mluvené slovo se vší svou dynamikou a frekvenčním rozsahem.
  3. Závěrečná znělka tvořená souzvuky vždy dvou tónů, které mají dynamický pilový průběh.

Zvuk

  • Zvuk ve vzduchu má podobu mechanického podélného vlnění nebo též tlakového vlnění s rovnoběžným šířením kmitů od zdroje.
  • Zvukové vlny, které může zachytit naše ucho, se šíří stlačováním a rozpínáním vzduchu.
  • Zvuk se přenáší i v kapalinách a pevných látkách. Absolutním izolantem je vákuum.
  • Rychlost a úbytek hlasitosti ovlivňuje teplota, resp. hustota vzduchové masy.
  • Narazí-li vlna na pevnou překážku, část energie je překážkou vstřebána, čímž se rozechvěje.
  • Zbytek energie zvukové vlny se odrazí zpět a interferuje s dalšími přicházejícími vlnami. Takový odraz vnímáme jako ozvěnu.
  • Předmět periodicky kmitající šíří jednoduchou zvukovou vlnu, kterou slyšíme jako tzv. základní (jednoduchý) tón.

Frekvence

  • Periodické jednoduché vlnění má svou frekvenci v Hertzích, počet kmitů za sekundu. Např. komorní A: 440 Hz
  • Vlna má svou délku, která odpovídá rychlosti šíření zvuku vydělené frekvencí. Např. pro komorní A šířící se rychlostí 345 m/s: 345 / 440 = 0,784 (78,4 centimetrů)
  • Jeden kmit nebo též perioda má svou délku v sekundách. Např. komorní A: 1/440 = 0,0023 s (2,3 milisekund)

Slyšitelné frekvence můžeme rozdělit mimojiné do čtyř pásem:

1. Hluboké tóny
Ukázka proladění pásma hlubokých tónů od 20 do 160 Hz.
2. Středové tóny
Ukázka proladění pásma středových tónů od 160 do 1280 Hz.
3. Vysoké tóny
Ukázka proladění pásma vysokých tónů od 1280 do 10240 Hz.
4. Nejvyšší tóny
Ukázka proladění pásma nejvyšších tónů od 10240 do 20000 Hz.

Fáze

  • Okamžitá výchylka vlny se udává v úhlových stupních (º) v rámci jedné periody.

Perioda jednoduché zvukové vlny má při šíření vzduchem 4 signifikantní fáze:

1. Vývin přetlaku (0-90 º)
Růst tlaku z klidového stavu k maximální hodnotě – nejprve rychle, poté čím dále pomaleji.
2. Uvolnění do střední polohy (90-180 º)
Klesání tlaku z maximální hodnoty do klidového stavu – nejprve pomalu, poté čím dále rychleji.
3. Vývin podtlaku (180-270 º)
Klesání tlaku z klidového stavu k minimální hodnotě – nejprve rychle, poté čím dále pomaleji.
4. Uvolnění do střední polohy (270-360 º)
Růst tlaku z minimální hodnoty do klidového stavu – nejprve pomalu, poté čím dále rychleji.

Vlnu ve všech jejích fázích lze prostorově zachytit:

  1. Mějme vlnu komorního A s délkou vlny 78,4 cm.
  2. Reproduktor vyzáří dvě vlny tohoto komorního A.
  3. Ihned potom imaginárním fotoaparátem vyfotografujeme prostor, do kterého vlny byly vyzářeny.
  4. Místo s vyšším tlakem se na imaginární fotografii zobrazí tmavší šedou a místo s nižším tlakem světlejší šedou.
  • Je vidět, že vzduch ve vzdálenostech 0 cm, 39,2, 78,4, 117,6 a 156,8 cm je v klidovém stavu, tedy vždy po délce půl periody.
  • Ve vzdálenostech 19,6 a 98 cm je tlak nejvyšší, tedy po délce čtvrt periody a dále po délce celé periody.
  • Ve vzdálenostech 58,8 a 137,2 cm je tlak nejnižší, tedy po délce tří čtvrtin periody a dále po délce celé periody.

Amplituda

  • Jednoduchá vlna se ve své periodě symetricky vlní od střední polohy na obě strany.
  • O kolik tlak v první polovině periody vzroste ze střední polohy, o tolik v druhé polovině klesne ze střední polohy.
  • Absolutní výchylka tlaku představitelná jako výška vlny se nazývá amplitudou a je vnímaná jako hlasitost.

Graf zvuku

Zvuk zobrazujeme v kartézské soustavě souřadnic:

  1. Osa x znázorňuje časovou doménu, kde x je z oboru kladných reálných čísel.
  2. Osa y znázorňuje amplitudovou doménu, kde x(t) je z oboru reálných čísel v otevřeném intervalu -1..1.
  • Jednoduché periodické kmitání odpovídá funkci sinus, která udává okamžitou výchylku v dané fázi: x(t) = sin(2 * pi * x)
  • Fázi danou v radiánech (vyžadováno funkcí sinus) můžeme nahradit součinem frekvence a okamžitého času.

Obecně jakýkoli základní tón můžeme potom vyjádřit funkcí: x(t) = v * sin(2 * pi * f *x), kde:

  • v – faktor zeslabení hlasitosti v rozsahu 0..1.
  • f – Frekvence tónu, kde f > 0.
  • x – Okamžitý čas, kde x > 0.

Abychom graf zobrazili, musíme postupně dosadit do funkce všechny hodnoty x z časového intervalu, který chceme zobrazit, a vynést je na osu y.

Tvary vln

  • Málokterý z tónů vydávaných hudebními nástroji je jen základním tónem.

Barvu tónu určují kromě základní frekvence i frekvence vyšší harmonické. Vyšší harmonická:

  • Je násobkem frekvence základní.
  • Má daný poměr hlasitosti vůči hlasitosti frekvence základní.

Sečtením vlny základní frekvence a vln vyšších harmonických, které mají tvar sinusoidy, vzniká vlna se zcela novým tvarem. např.:

Čtverec (square)
  • V první půlperiodě se konstantně drží na 1 a v druhé se konstantně drží na -1. I když se jedná o graf nespojitý, musí fyzikálně vždy k nějakému přechodu mezi těmito dvěma stavy dojít.
  • Rozměry čtverců, resp. obdélníků, závisí na amplitudě a frekvenci.
  • Obsahuje základní frekvenci a všechny sudé harmonické. např. pro základních 100 Hz obsahuje 100,200,400,600,800,… Hz.
Trojúhelník (triangle)
  • V první půlperiodě lineárně klesá z 1 do -1 a v druhé podobně stoupá.
  • Strmost lomené přímky závisí na amplitudě a frekvenci.
  • Obsahuje základní frekvenci a všechny liché harmonické. např. pro základních 100 Hz obsahuje 100,300,500,700,900,… Hz.
Pila (sawtooth)
  • Během jedné periody lineárně klesá z 1 do -1. Jedná se o graf nespojitý.
  • Strmost lomené přímky závisí na amplitudě a frekvenci.
  • Obsahuje základní frekvenci a všechny harmonické. např. pro základních 100 Hz obsahuje 100,200,300,400,500,… Hz.
Ukázka skládání pilového signálu postupným přidáváním harmonických frekvencí k tónu základnímu.

Postupně se přidávají frekvence:

  • f1 = 220 Hz
  • f2 = 440 Hz
  • f3 = 660 Hz
  • f18 = 3960 Hz

Lze si všimnout, že postupným přidáváním dalších frekvencí výsledný tón “hrubne” a graf zvuku se stává svým tvarem více špičatý.

Komplexní zvuky

Ač to tak nevypadá, každý zvuk se skládá z jednoduchých vln ze sinusovým průběhem:

  • Nemusí být přítomny jen vyšší harmonické – široko spektrální zvuky.
  • Souznějící frekvence a jejich hlasitosti se mohou dynamicky v čase měnit, čímž se porušuje periodicita vnímaná jako tón.
  • Extrémem oproti periodicitě je náhodné chvění vnímané jako šum. Ovšem i ten lze frekvenčně analyzovat a říci, které frekvence jsou v daném okamžiku přítomny.
Ukázka, jak postupně docílit komplexního zvuku pomocí proměny frekvence základního sinusového tónu.

Úder do bubnu vyvolá tón o vysoké frekvenci, avšak energie se poměrně rychle ztrácí. Setrvačné dochvívání probíhá na řádově nižších frekvencích, než ihned po úderu. Této znalosti lze využít a namodulovat základní sinusový tón, aby zněl jako úder do bubnu.

  1. Nejprve slyšíme základní tón.
  2. Změníme jej na tón klouzavý z vyšších frekvencí k nižším.
  3. Strmost klesání stále zvyšujeme od vyšších k nižším frekvencím.
  4. Nakonec průběh frekvence upravíme tak, aby nejprve prudce klesla a poté se měnila jen pozvolna.

Analogové audio

  • Pod pojmem analogové audio máme na mysli v dnešní době téměř výhradně zvuk přenášený a uchovávaný elektronicky.
  • Analogové elektronické obvody nahrazují změnu tlaku hmotného prostředí změnou elektrického napětí.
  • Zvuk se po vodiči šíří jako nízkofrekvenční elektromagnetické vlnění, z čehož plyne, že se vlny šíří rychlostí světla.

Zvuk skrze elektronická zařízení a kabely prochází často touto cestou:

  1. Mikrofon převádí mechanické chvění na elektrický signál.
  2. Slabý signál z mikrofonu předzesilovač zesílí na linkový signál.
  3. Linkový signál může být přenášen mezi zařízeními.
  4. Linkový signál výkonový zesilovač zesílí na signál, který je schopen pohánět reproduktor.
  5. Reproduktor převádí elektrický signál na mechanické chvění.

Přenos analogového audia

Tak jako u jiných elektrických aplikací, i zde potřebujeme k přenosu signálu alespoň 2 vodiče:

Nebalancované spojení
  • Používá 2 vodiče: G (uzemění), H (normální signál).
  • Pro mono signál používá nejčastěji kabely s konektory Cinch (RCA) nebo 2-pólové konektory Jack s průměrem 6,35 mm (TS 1/4) či 3,5 mm (TS 1/8).
  • Pro stereo signál používá nejčastěji kabely s párem konektorů Cinch (RCA) nebo 3-pólové konektory Jack s průměrem 6,35 mm (TRS 1/4) či 3,5 mm (TRS 1/8). Někdy se též používají vícepólové konektory Jack pro kombinované vedení audio signálu a řídících signálů – např. sluchátka s ovládáním přehrávání.
Balancované spojení
  • Používá 3 vodiče: G (uzemění), H (normální signál), C (invertovaný signál).
  • Pro výhradní mono signál používá nejčastěji kabely s 3-pinovými konektory XLR nebo 3-pólové konektory Jack s průměrem 6,35 mm (TRS 1/4).
  • Výhoda balancovaného spojení je v odolnosti proti vnějším vlivům, neboť po smíšení signálu H a C se cizí indukovaný signál na vodičích vyruší.

Úrovně signálu

Každý obvod (slabý, linkový, výkonový) má své standardy určující referenční napětí a impedanci vodiče, proto úrovně signálu jsou vždy uváděny v relativních jednotkách.

Napětí
Klidový stav (tzv. DC offset) by měl být při správném zapojení 0 voltů, tedy bez jakéhokoli stejnosměrného napětí.
Reálná čísla
Desetiná čísla s danou přesností v otevřeném intervalu -1..1, kde:

  • y = 0 – Klidový stav (ticho).
  • y = 1 – Kladné špičkové napětí (= referenční napětí ).
  • y = -1 – Záporné špičkové napětí (= invertované referenční napětí).
Procenta
  • y = 0 > 0% – klidový stav.
  • y = +-1 > 100% – Kladné a záporné špičkové napětí.

V procentech možno vyjádřit i zeslabení (např. 50% = poloviční) či zesílení (např. 200% = dvojnásobné).

Decibely
  • y = 0 > -∞ Db – klidový stav.
  • y = +-1 > 0 Db – Kladné a záporné špičkové napětí.
  • V Decibelech možno vyjádřit i zeslabení (např. -6 Db = poloviční, -12 Db = čtvrtinové) či zesílení (např. +6 Db = dvojnásobné, +12 Db čtyřnásobné).
  • Decibel je logaritmická veličina s logaritmem o základu 2: 6,02 * log2(x)

Užitečný signál

Teorie informací praví, že pro dekódování informace musí být poměr šumu a signálu 1:2. Pod tímto prahem může být informace přítomna, avšak je v šumu utopena.

Žádný analogový obvod není dokonalý, neboť jeho součástky generují šum určité úrovně a na vodičích se vlivem vnějšího elektromagnetického vlnění indukuje napětí, byť slabé.

Odstup signálu od šumu (noise ratio) se udává v Decibelech z poměru mezi maximálními úrovněmi šumu a signálu. Např. odstup v poměru 1:200: 6,02 * log2(0.005) = -46.016 Db – Odpovídá šumu záznamu snímaného z magnetofonové kazety.

Ukázka demo nahrávky s přidaným šumem na úrovni -45 Db.
Žádný analogový obvod není neutrální, neboť vlny, které se v něm šíří, mohou vlivem použitých součástek a vodičů měnit svůj tvar a generovat k základní frekvenci vyšší harmonické. Odezva na každou frekvenci a napětí může být trochu odlišná – mluvíme o nelinearitě obvodů.
Celkové harmonické zkreslení (THD) se udává v procentech jako poměr mezi součtem hlasitostí všech přidaných harmonických frekvencí a čistým signálem. např. zkreslení 0,01%: 6,02 * log2(0.0001) = -79.992 Db – Odpovídá zkreslení výkonového zesilovače spotřební kvality.
  • Tak, jak vyšší harmonické dávají tónu barvu, "barví" i analogové obvody nežádoucími harmonickými složkami vždy čistý signál. V ideálním případě by takové zkreslení mělo být na stejné nebo nižší úrovni než práh šumu.
  • Šum je sice nežádoucí, protože snižuje dynamický rozsah zvuku, ale více nežádoucí je zkreslení, které mění, byť nepatrně, charakter zvuku.
  • Ve speciálních případech se zkreslení cíleně využívá pro vytváření různých efektů. Takové zkreslení je již zřejmé a na první poslech slyšitelné, jak tomu je např. u kytarových efektů.
Ukázka zkreslení demo nahrávky vybuzením vyšších harmonických.

K původnímu zvuku jsou ke každé frekvenci přidány druhá, třetí, čtvrtá a pátá harmonická v příslušném poměru. Výsledkem je lehké zkreslení typické např. pro elektronkové zesilovače s asymetrickou transformací zesilovaného signálu.

  • Ponecháním původního zvuku a přidáním dalších vyšších harmonických se stává zvuk teplejší a plnější, a tak získává charakteristickou barvu přebuzených signálů.
  • Výsledek není agresivní, neboť jsou přidávány jen frekvence harmonické z omezeného spektra.
  • Z úvodního sinusového signálu dema je zřejmé, o jakou míru zkreslení se jedná.
Ukázka přidaných vyšších harmonických, které do demo nahrávky vlivem zkreslení přibyly.

Digitální audio

  • Nejpřirozenější by bylo v každé chvíli provádět frekvenční analýzu zaznamenávaného zvuku, jak tomu činí ucho. Pro slyšitelné spektrum bychom potřebovali tisíce detekčních obvodů, což je nereálné.
  • Nejběžněji provádíme vzorkování analogového signálu a vytváříme tok bitů, tzv. PCM signál.
  • Datový proud digitálního signálu se vysílá přes přenosové médium (elektrický vodič či optické vlákno) nebo je zaznamenán na úložiště (paměť, disk) s určitým tokem bitů za sekundu (bps) či kilobitů za sekundu (kBit/s).
  • Bitový tok má přímý vliv na kvalitu digitálního audia.
  • Při přehrávání rekonstruujeme analogový signál z datového proudu s daným bitovým tokem, z kterého jsme schopni analogový signál vygenerovat.
  • Porovnáme-li původní analogový signál s tím, který jsme digitalizovali a opět převedli na analogový, nikdy nebudou identické. Zatímco původní analogový signál je spojitý, je ten digitální vlivem vzorkování nespojitý.

Záznam digitálního audia

Vzorkovací frekvence

  • Sample rate (v Hz) udává počet sejmutých vzorků z analogového zdroje za sekundu.
  • Pro danou vzorkovací frekvenci lze zachytit nezkresleně frekvence od 0 do poloviny sample rate (tzv. Nyquistova frekvence). Např. na CD můžeme zachytit frekvence do 22050 Hz, neboť jeho vzorkovací frekvence je 44100 Hz.
  • Digitální telefonní linka je schopna přenést frekvence do 4 kHz, zatímco DVD a SACD do 48 kHz.
  • Vyšší frekvence musí být před vzorkováním analogového signálu odfiltrovány tzv. antialiasingovými filtry.
  • Čím vyšší vzorkovací frekvence, tím nespojitý navzorkovaný signál se blíží původnímu analogovému spojitému.
Klouzavý tón, který budeme chtít digitalizovat.
Ukázka klouzavého tónu, který jsme zaznamenali vzorkovací frekvencí 8000 Hz se zařazením antialiasingového filtru.

Aplikace antialiasingu spočívá v tom, že všechny frekvence nad Nyquistovou frekvencí 4 kHz zmizí, tedy ve zvuku klouzavého tónu je po překročení 4 kHz prostě ticho.

Ukázka frekvencí nad 4 kHz, které musely být odfiltrovány z demo nahrávky, aby mohla být zaznamenána se vzorkovací frekvencí 8 kHz.
Ukázka klouzavého tónu, který jsme zaznamenali vzorkovací frekvencí 8000 Hz bez antialiasingového filtru.

Aliasing spočívá v tom, že tón po překročení Nyquistovy frekvence 4 Khz nadále nestoupá, ale klesá.

  • Z frekvence 5 kHz se stává frekvence 3 kHz, z 8 kHz se stává 0 Hz atd., což je nežádoucí.
  • Od dvojnásobku Nyquistovy frekvence by opět frekvence rostla, což je kriticky nežádoucí. Např. z 9 kHz se stává 1 kHz.
  • Od trojnásobku Nyquistovy frekvence by opět frekvence klesala. Např. z 13 kHz se stává 3 kHz atd.
Ukázka demo nahrávky, kterou jsme zaznamenali vzorkovací frekvencí 8000 Hz bez antialiasingového filtru.

Charakteristickým projevem aliasingu u řeči je nápadné zkreslení u vyšších frekvencí, tedy jakési zbytnění sykavek.

Bitová hloubka

  • Sejmutí jednoho vzorku znamená odečíst aktuální úroveň napětí z analogového zdroje.
  • Každý sejmutý vzorek musí být digitalizován nebo též převeden na číslo reprezentované nulami a jedničkami.
  • Převedené číslo musí být v daném rozsahu, resp. musí být dána jeho přesnost vůči původní analogové úrovni, čímž je dán počet rozlišitelných úrovní.
  • Rozlišení digitalizované úrovně je závislé na tom, kolik bitů použijeme k jejímu zaznamenání, tzv. kvantizace na n bitů neboli bitová hloubka (bit depth).
  • Čím víc bitů použijeme, tím víc úrovní jsme schopni rozlišit a tím větší detaily (tišší zvuky) zůstanou zachovány.

Co jeden další bit kvantizace, to dvojnásobný počet zaznamenatelných úrovní a o 6 Db větší dynamický rozsah:

  • 2 bity – Jsme schopni rozlišit 4 úrovně snímaného napětí s dynamickým rozsahem pouhých 12 Db. Např. napětí v rozsahu +-2 v jsme schopni dvěma bity rozlišit takto:
    1. Napětí < -1 v zaznamenáme jako -2.
    2. Napětí >= -1 a < 0 v zaznamenáme jako -1.
    3. Napětí >= 0 a < 1 v zaznamenáme jako 0.
    4. Napětí >= 1 v zaznamenáme jako 1.
  • 8 bitů – Jsme schopni rozlišit 256 úrovní snímaného napětí (128 kladných, 128 záporných) s dynamickým rozsahem 48 Db. Např. odpovídá digitální telefonní lince.
  • 16 bitů – Jsme schopni rozlišit 65536 úrovní snímaného napětí (32768 kladných, 32768 záporných) s dynamickým rozsahem 96 Db. Např. odpovídá audio CD, pro které takový dynamický rozsah je plně dostačující.
  • Zvuky tišší, než je úroveň dynamického rozsahu, jsou znehodnoceny šumem či zkreslením.
  • Šum či zkreslení vzniká vlivem kvantizační chyby během zaokrouhlování digitalizované úrovně na n bitů.

Mějme pro příklad výše uvedený rozsah +-2 v s rozlišením na 2 bity, tedy 4 úrovně, a na vstupu -0,1 v:

  • 0,1 v se digitalizuje jako úroveň -1.
  • Úroveň -1 se rekonstruuje jako napětí -1 v.
  • Rozdíl před a po digitalizaci je 0,9 v, což v rozsahu +-2 v činí odchylku 22,5%.
  • Použijeme-li 3 bity (8 úrovní) snížila by se odchylka na polovinu, tedy 10% ve snímaném rozsahu.
Zkreslení se do zvuku zanáší při pravidelném zaokrouhlování digitalizovaných úrovní jedním směrem bez použití tzv. ditheringu.
Ukázka demo nahrávky navzorkované s rozlišením 6 bitů se zaokrouhlováním dolů.

Projevem nepoužití ditheringu při digitalizaci je přidaný zkreslený obraz původního zvuku, který při kvantizaci na 6 bitů má úroveň -36 DB a který ovlivňuje přímo užitečný signál, což je nežádoucí.

Šum se do zvuku zanáší při zaokrouhlování digitalizovaných úrovní náhodným směrem, tzv. dithering.
Ukázka demo nahrávky navzorkované s rozlišením 6 bitů s náhodným zaokrouhlováním.

Projevem ditheringu je konstantní (digitální) šum, který nijak neovlivňuje užitečný signál, jen snižuje jeho dynamický rozsah. Profil šumu lze ovlivnit vhodnou distribuční funkcí pravděpodobnosti. U každého vzorku se tedy náhodně, resp. nezávisle, rozhodne, zaokrouhlí-li se nahoru či dolů bez ohledu na to, které celé číslo je blíže.

  • Tím, že použijeme vhodnou distribuční funkci a odsuneme šum mimo určité frekvenční spektrum, jsme schopni výrazně zvětšit dynamický rozsah tohoto spektra, ale i dynamický rozsah jiného spektra snížit, což ale nemusí vadit, jedná-li se např. o velmi vysoké frekvence.
  • Aby bylo možné provádět sofistikovanější dithering, je nejprve nutné vzorek sejmout s vyšší přesností a tu poté s využitím ditheringu snížit, např. z 18 bitů na 16.

Analogově-digitální převodník

  • Analogově-digitální převodník (ADC) je zařízení převádějící analogový signál na digitální.
  • Při digitalizaci pracuje na dané vzorkovací frekvenci s danou bitovou hloubkou.
  • Hardwarově či softwarově může být schopen pracovat na několika vzorkovacích frekvencích s různou bitovou hloubkou.
  • Existuje mnoho možností, jak ADC převodník zkonstruovat. Je nutno najít vhodný kompromis pro koncového zákazníka mezi cenou použitých součástek a kvalitou převodu.

Příkladem může být převodník s postupnou aproximací:

  • Postupně se zapínají jednotlivé bity, což interně z referenčního napětí generuje čím dál vyšší úroveň. Každý další vyšší bit generuje dvojnásobné napětí než ten předchozí.
  • Toto napětí se porovnává s napětím na vstupu a pokud interní napětí překročí to vstupní, bit se vypne.
  • Až jsou vyzkoušeny všechny bity, výsledná digitalizovaná úroveň se z převodníku odešle a podle nastavené vzorkovací frekvence se vyčká do doby, kdy se má sejmout další vzorek.

Např. mějme 4 bitový převodník s referenčním napětím 1,6 v a na vstupu napětí 1 v:

  • Bit 4 je znaménkový bit – 0 značí kladnou úroveň a 1 zápornou. Napětí je >= 0, nastaví se tedy 0.
  • Bit 3 odpovídá napětí 0,8 v. 0,8 není > 1, ponechá se tedy 1.
  • Bit 2 odpovídá napětí 0,4 v. 0,8 + 0,4 = 1,2 je > 1, nastaví se tedy 0.
  • Bit 1 odpovídá napětí 0,2 v. 0,8 + 0,2 = 1 není > 1, ponechá se tedy 1.
  • 1 v se tedy převede na binární kód 0101, tedy číslo 5.

Přehrávání digitálního audia

  • Digitálně-analogový převodník (DAC) je zařízení převádějící bitový tok zvukových dat na analogový signál.
  • Při rekonstrukci signálu pracuje na dané vzorkovací frekvenci s danou bitovou hloubkou.
  • Hardwarově či softwarově může být schopen pracovat na několika vzorkovacích frekvencích s různou bitovou hloubkou.
  • Existuje mnoho možností, jak DAC převodník zkonstruovat. Je nutno najít vhodný kompromis pro koncového zákazníka mezi cenou použitých součástek a kvalitou převodu.
  • Za analogový výstup převodníku musí být zařazen filtr, který odfiltruje všechny frekvence nad Nyquistovou frekvencí, tedy nad polovinou vzorkovací frekvence. Filtr vyhladí "schodky" nebo též zahodí všechny vyšší harmonické, které v generovaném analogovém signálu vznikají kvůli nespojitosti digitálního signálu.
Ukázka demo nahrávky, kterou jsme přehráli vzorkovací frekvencí 8 kHz bez zařazení vyhlazovacího filtru.

Produktem nevyhlazeného, nespojitého signálu je charakteristické zkreslení, které do signálu přidává vyšší harmonické frekvence nad Nyquistovou frekvencí a výše. Ty ve výsledku znějí jako drnčení, což je vlastně signál obdélníkového tvaru, jenž je modulovaný původním zvukem.

Příkladem může být převodník realizovaný sítí rezistorů R-2R:

  • Do převodníku vstupuje referenční napětí, které je následně distribuováno tolika cestami, kolik bitů má jeden generovaný vzorek.
  • Čím nižší bit, tím na cestě je více rezistorů a taková cesta generuje nižší napětí, konkrétně o polovinu nižší napětí než bit vyšší.
  • Pro každý vzorek se sepnou jen ty cesty, u kterých je daný bit nastaven na 1.
  • Na výstupu se napětí se sepnutých cest sečte, čímž se vygeneruje daná analogová úroveň. Ta setrvává na výstupu podle nastavené vzorkovací frekvence tak dlouho, dokud není doba pro vygenerování dalšího vzorku.

Např. mějme 4 bitový převodník s referenčním napětím 1,6 v a na vstupu binární kód 1010, tedy číslo -2:

  • Bit 4 je znaménkový bit – 0 značí kladnou úroveň a 1 zápornou. Na vstupu je 1, otočí se tedy polarita referenčního napětí.
  • Bit 3 odpovídá napětí 0,8 v. Na vstupu je 0, na výstupu tedy zůstává 0 v.
  • Bit 2 odpovídá napětí 0,4 v. Na vstupu je 1, na výstupu se objeví tedy 0,4 v..
  • Bit 1 odpovídá napětí 0,2 v. Na vstupu je 0, na výstupu tedy zůstává 0,4 v.
  • Binární kód 1010 tedy vygeneruje vzorek s napětím -0,4 v.

Přenos digitálního audia v reálném čase

  • Digitální audio můžeme přenášet mezi zařízeními pomocí dedikovaných rozhraní S/PDIF (pro běžné použití) či AES/EBU (pro profesionální použití).
  • V případě S/PDIF máme možnost si vybrat mezi přenosem elektrickou cestou přes konektory RCA, nebo optickou přes konektory TOSLINK.
  • Dnes spíše ale převažuje přenos digitálního audia s využitím aplikačních protokolů, které pracují nad internetovými protokoly TCP a UDP.

Kvalitu přenášeného audia ovlivňují kromě bitového toku i další parametry:

Zpoždění (delay)
Vzniká při přenosu skrze aktivní prvky nebo u přijjímajícího při čekání na minimální blok dat, který lze použít.
Rozptyl (jitter)
Vzniká při přenosu skrze nekvalitní médium nebo při přetížení vysílajícího či přijímajícího, kdy data přichází příliš pozdě či příliš brzy.

Problém jitteru lze řešit vyrovnávacím bufferem, ten ale způsobuje větší zpoždění, neboť je nutno vyčkat do jeho naplnění, kdy z něj začnou proudit nejstarší přijatá data.

Uchovávání digitálního audia

  • Můžeme použít k tomu určená záznamová média – např. Audio CD.
  • Dnes spíše ale převažuje ukládání do souborů, které počítačové systémy můžou uchovávat na libovolném médiu nebo k nim přistupovat vzdáleně přes Internet.

Soubor má daný formát a skládá se většinou ze tří částí:

Hlavičky
Obsahují informace identifikující formát souboru a parametry zvukových dat (vzorkovací frekvence, bitová hloubka, počet kanálů).
Meta data
Obsahují informace o autorovi, v případě hudební stopy ještě např. název skladby, alba apod.
Zvuková data
Jedná se o data reprezentující samotný zvukový záznam.

Surové formáty

  • Nejjednodušší reprezentací zvukových dat je surová podoba PCM modulace, tedy v souboru následují jeden vzorek za druhým tak, jak by je nasnímal ADC převodník. Např. formáty WAV či AIFF.
  • Pokud známe parametry zvukových dat, lze jednoduše vypočítat bitový tok a náročnost zvuku na volné místo. Vynásobíme vzorkovací frekvenci bitovou hloubkou a počtem kanálů. Např. pro audio CD: 44100 (vzorkovací frekvence) * 16 (bitová hloubka) * 2 (stereo) = 1411200 (1,42 MBit/s nebo též 172,3 kilobajtů za sekundu)
  • Pouhá minuta záznamu na CD zabírá 10,1 MB, což ukazuje, že surová data jsou velmi náročná na místo.

Komprimované formáty

  • Komprimované formáty, resp. jejich enkodéry, nejčastěji pracují na principu převodu zvukových dat do frekvenční domény, z nichž po analýze následně mohou být vyřazeny nepotřebné informace. Např. formáty MP3, OGG Vorbis, AAC apod.
  • Zvuk se rozdělí na mnoho rámců (krátké časové úseky v řádu milisekund), které se překrývají. Např. MP3 rámec obsahuje 1152 PCM vzorků.
  • V každém rámci se frekvenční spektrum rozdělí na několik pásem od nejnižších až k nejvyšším frekvencím. Např. MP3 používá 32 pásem.
  • V každém pásmu se provede frekvenční analýza některou z odvozených metod FFT transformace. Např. MP3 si pro každé pásmo vytvoří 36 frekvenčních vzorků pomocí metody MDCT.
Ukázka skladby Heaven’s Open od Mika Oldfielda, kterou chceme komprimovat do formátu MP3.

Originální ukázka z CD nepostrádá kvalit profesionálně odvedené práce studiových inženýrů – prostorová hloubka, dobrá čitelnost nástrojů, dostatečná dynamika náběhů bicích a basů, to vše i přes poměrně hlučné prostředí nahrávky.

Dále se zpracování liší formát od formátu. Vezměme si pro příklad formát MP3:

  • MP3 má definovaný psychoakustický model, podle kterého se zahazují nepotřebné informace.
  • Čím nižší je zvolený bitový tok, tím více informací se zahodí.
  • Výsledné bloky dat se ještě komprimují s využitím Huffmanova kódování, kde nejčastější sekvence mají přiřazeny nejkratší kódová slova.
Ukázka toho, co MP3 kodek odstranil ze skladby, kterou jsme zkomprimovali na bitový tok 128 kBit/s.

Pro formát MP3 s bitovým tokem 128 kBit/s (komprimační poměr CCA 1:11) je charakteristické, že zvuk je evidentně rozmazaný se ztrátou méně intenzivních vyšších frekvencí. Rovněž se zde projevuje typické bublání, které je projevem nutně úsporného převodu do frekvenční domény a kterým utrpí nejvíce rychlé dynamické zvuky.

Odpad enkódování je tak velký, že je poměrně dobře slyšet, jak zněl původní nekomprimovaný soubor. Lze tedy říci, že je zahazován i užitečný signál, který ucho umí rozpoznat.

Ukázka toho, co MP3 kodek odstranil ze skladby, kterou jsme zkomprimovali na bitový tok 320 kBit/s.

Rozdíl mezi originální skladbou a její verzí ve formátu MP3 s bitovým tokem 320 kBit/s (komprimační poměr CCA 1:4) je prakticky nepostřehnutelný. Ve specifické situaci by mohl být slyšitelný úbytek dynamiky, který vzniknul snížením odstupu signálu od šumu.

v odpadu enkódování jsou slyšitelné chyby, které vznikají segmentací zvuku na jednotlivé rámce, které se potom převádějí do frekvenční domény. Dále jsou zde přítomny nejmarkantnější případy zvuků, u kterých nemá šanci ucho rozpoznat jejich absenci v takovém komplexním zvuku, jako je hudba.

Jednou z nejdůležitějších vlastností, kterou psychoakustické modely řeší, je frekvenční a časové
maskování.

  • Na každou frekvenci je ucho jinak citlivé, a tak pro každou z nich existuje práh hlasitosti, pod nímž ji ucho neumí vnímat.
  • Uslyší-li ucho určitou dostatečně hlasitou frekvenci, trvá v definovaném rozsahu kolem ní období ohlušení, proto pokud ihned po ní, nebo dokonce před ní, zazní blízká řádově tišší frekvence, ucho ji nevnímá. Tento jev se nazývá pre/post masking.
  • Zazní-li zároveň dvě blízké frekvence a jedna z nich je řádově tišší, ucho vnímá jen tu hlasitější z nich.
Ukázka maskovacího efektu na dvou blízkých frekvencích.
  1. Nejdříve zazní samostatně hlasitější tón.
  2. Poté zazní hlasitější a tišší blízký tón současně.
  3. Nakonec zazní samostatně tišší blízký tón.

Vícekanálové audio

  • Vícekanálové audio, ať už stereo (dva kanály), nebo prostorové (5 kanálů), má v souboru většinou pro každý kanál vyhrazené příslušné místo. Toto uspořádání pro stereo nazýváme l/r.
  • U surových PCM formátů jsou vždy pro daný okamžik vzorky všech kanálů zapsány za sebou. Např. u sterea se vzorky střídají: vzorek 1 levý, vzorek 1 pravý, vzorek 2 levý, vzorek 2 pravý atd.
  • U komprimovaných formátů je ovšem někdy výhodnější použít tzv. m/s stereo, které je známé i z analogového audia (gramofonové desky, FM rádio).
Ukázka původní stereo mixáže skladby Strawberry Fields Forever od The Beatles.

V m/s a l/r konfiguracích máme tyto kanály, které lze libovolně mezi sebou konvertovat:

Middle (m)
Ukázka středového kanálu ze skladby Strawberry Fields Forever od The Beatles.

Středový kanál: m = (l + r) / 2 (smísíme levý a pravý)

Side (s)
Ukázka postranního kanálu ze skladby Strawberry Fields Forever od The Beatles.

Postranní kanál: s = (l -r) / 2 (smísíme levý s invertovaným pravým)

Left (l)
Ukázka levého kanálu ze skladby Strawberry Fields Forever od The Beatles.

Levý kanál: l = m + s (smísíme středový s postranním)

Right (r)
Ukázka pravého kanálu ze skladby Strawberry Fields Forever od The Beatles.

Pravý kanál: r = m - s (smísíme středový s invertovaným postranním)

Konfigurace m/s má své výhody:

  • V analogovém audiu se uplatňuje z důvodu mono kompatibility. Mono zařízení použije jen kanál m.
  • V digitálním audiu se uplatňuje z důvodu, že postranní kanál obsahuje mnohem méně informací, tudíž může být u něj dosaženo vyšší komprese a menšího bitového toku.


AgoraAudio


Roman Kabelka
Roman Kabelka pracuje jako web administrátor ve společnosti Master Internet, s.r.o. Vystudoval Fakultu informatiky Masarykovy univerzity a téměř 10 let pracoval jako lektor náročných kompenzačních pomůcek na bázi IT v TyfloCentru Brno, o.p.s. Dlouhodobě se věnuje vývoji webových stránek a...