Digitális hangkódolás Az adatcsökkentés

Az audio kompaktlemez (CD) bevezetése és a digitális hangszalag (DAT) megjelenése óta a digitális technológia egyre népszerűbbé vált az audio szektorban. A CD és a DAT is a Pulse Code Modulation (PCM) funkciót használja alapvető digitalizálási folyamatként. Ez a technológia mintavételezéssel, kvantálással és kódolással fordítja le az eredeti analóg audio jelet a digitális világba. Mivel a PCM nem használja az adatcsökkentést, kiváló hangminőséget érnek el - de magas memóriaigény árán vásárolják meg. A PCM-ben egy CD legfeljebb 80 perc audioadatot tartalmazhat.

Miért kell csökkenteni a hangadatokat?

Különösen a PCM magas memóriaigénye tette hatékonnyá, drágává vagy lehetetlenné ezt a technológiát a digitális rádióban vagy multimédia rendszerekben. Ezek a rendszerek az audiojelek radikális fogyókúrás diétáját követelik meg. Ennek oka a műsorszórás elégtelen átviteli kapacitása, a mai buszrendszerek (PCI, IDE, SCSI) korlátozott átviteli sebessége és mindenekelőtt a tárhely hiánya. A merevlemezen nem csak kevés a hely, hanem a mai PC-rendszerek fő memóriája is elegendő tartalékot kínál ahhoz, hogy ésszerű munkát lehessen végezni a PCM audio adatokkal. Ha úgy gondolja, hogy egy 6 perces zene PCM-ben legfeljebb 60 MB memóriát igényel (WAV fájl), könnyen elképzelhető, hogy például ennek a darabnak az interneten keresztüli továbbítása bármi más, csak nem jövedelmező, nem beszélve a több órás klasszikus művekről . Rendkívül hosszú letöltési idő lenne az eredmény.

Másrészt a digitális technológiának verhetetlen előnyei vannak az analóg technológiával szemben. A nagyon jó hangminőség, az interferenciával szembeni immunitás és a viszonylag könnyű technikai kezelhetőség elegendő ok volt arra, hogy a különböző kutatóintézetek az utóbbi években egyre inkább olyan módszereket fejlesszenek ki, amelyek lehetővé teszik a digitális audiojelek tárolási követelményeinek csökkentését, és ezáltal új területeken, például a digitális műsorszórás terén történő felhasználását. Az elsődleges cél a hangminőség fenntartása volt, referenciaként a CD-t. Az eredmény egy teljes kodek sorozat, amelyek közül néhány jelentős mennyiségű adatot takarít meg. Jelenleg a Mozgóképek Szakértői Csoportja (MPEG) által kifejlesztett, az interneten széles körben elterjedt MP3 kodek valószínűleg a legismertebb, de az MPEG 2, AC-3, ATRAC és mások is a digitális audiokódolás ismert technikái.

A digitális audiojel által igényelt memória mennyiségét elsősorban a bitsebesség és a mintavételezési sebesség határozza meg. Mindkét paraméter beállítható a jel kódolása közben. A következő szakasz a mintavételezési sebesség és a bitsebesség változásának hatásait vizsgálja a jelek feldolgozása során.

Tárolási követelmények a mintavételtől és a bitsebességtől függően

Az analóg jel digitális egyenértékűvé alakításához az eredeti funkcióból mintát kell venni. A mintavételi folyamat más néven mintavétel. A mintavétel, a kvantálás és a kódolás közötti pontos kapcsolat megtalálható a "Digitális adattárolás és az audio kompaktlemez előállítása" cikkünkben, a technológiai területen a http://www.burosch.de oldalon.

Alacsony memóriaigényű digitális audio adatok kódolásának második lehetősége az alacsony bitsebesség használata. A mintavétel és a kvantálás az eredeti analóg jel diszkrét értékeit eredményezi. Míg a mintavétel diszkretizálja az eredetit az időtartományban, a kvantálás korlátozza a mintavételi időpontokban mért feszültségértékeket egy rögzített számú értékre. Ha egy feszültségértéket egy bizonyos időpontban mintavétellel mérünk, akkor ezt a feszültségértéket a kvantálás során a legközelebbi elérhető értékre kerekítjük. Ha csak néhány értékre lehet kerekíteni, akkor az eredmény csak néhány különböző digitális érték lesz az eredeti analóg funkció leírására. Maroknyi bit elegendő ezen értékek bináris kódolásához.

Az eredeti függvényt azonban csak kevés kvantálási értékkel közelítjük elégtelenül. A mért feszültségértékek erőteljes kerekítése miatt kerekítési hibák lépnek fel, amelyek lágy zenei átjárásokkal is hallhatóak. A fellépő zajokat kvantálási zajnak is nevezik. Vannak azonban olyan frekvenciatartományok, amelyek biztonságosan tárolhatók kevesebb adat mellett. Ezeket a területeket elsősorban az emberi fül érzékenysége határozza meg. További információkat a következő szakaszban talál.

Az emberi hallás - a hangadatok tömörítésének megközelítése

Az emberi fül orvosi és fizikai vizsgálata, valamint az agyban zajló zaj feldolgozása megmutatta, hogy a hallókészüléknek megvan a maga érzékelési jellemzői. Bizonyos körülmények között a hangokat az agy nem, vagy csak részben regisztrálja. Az akusztikus jelben jelenlévő jelkomponensek közül sok embert nem is érzékeli. Az úgynevezett pszichoakusztika ezen kérdések kutatásával foglalkozik. Az emberi fül észlelésében eddig a következő hiányosságokat fedezték fel:

A hallás érzékenységi tartománya:
A hullámok széles frekvenciatartományban bocsáthatók ki. Az emberi fül azonban ennek a frekvenciatartománynak, az audio frekvenciatartománynak csak egy kis részét képes érzékelni. Elméletileg az emberek 20Hz és 20kHz közötti frekvenciájú hangokat hallhatnak. A gyakorlatban azonban bebizonyosodott, hogy a fül érzékenysége jelentősen csökken az alacsony és a magas frekvenciák felé. A fenti képen az amplitúdót, azaz a hangnyomást ábrázoljuk a frekvenciával szemben. A mérések azt mutatták, hogy az összes olyan jel, amely teljesen a nyugalmi hallási küszöb (piros vonal) alatt van, nem hallható. Ezeknek a hangoknak az amplitúdója (a képen zöld csúcsok) túl alacsony, ezért hangerejük túl kicsi ahhoz, hogy észlelhetők legyenek. Érdekes látni, hogy a csendes hallási küszöb nem állandó egy bizonyos amplitúdóértéknél, hanem a frekvenciával változik. Nagyon alacsony (50 Hz alatti) hangok csak nagyon nagy amplitúdókból hallhatók, csakúgy, mint a 15 kHz körüli hangok. Azt is meg kell jegyezni, hogy nem mindenkinek ugyanaz a csendes hallásküszöbe. A gyermekek sokkal jobban hallják a magas frekvenciákat, mint az idős emberek.
Maszkolás:
Az emberi hallókészülék másik hiányossága az, hogy képtelen megkülönböztetni a nagyon hasonló frekvenciájú és nagyon eltérő hangerővel rendelkező hangokat. Ezt a hatást is nevezik hallási maszkolás vagy német egyidejű maszkolás. A nagy amplitúdójú jel (a fenti képen sötétkék), más néven álarc, elhallgatja a halkabb, hasonló frekvenciájú jeleket. A képen ezek mind olyan jelek, amelyek a sárga színnel kiemelt területen belül vannak. Néhány türkiz csúcs látható példaként. A sárga területet a maszkoló narancssárga színű egyedi maszkolási küszöbe határolja. Az egyéni maszkolási küszöb és a csendes hallási küszöb kombinálható az úgynevezett globális maszkolási küszöbérték kialakításához. Ezért minden olyan jel, amely a globális maszkolási küszöb alatt van, nem hallható. A gyakorlatban a hallási maszkolás nem jelent mást, mint hogy a hangos zenei jelek elfedik a csendes részeket és hallhatatlanná teszik azokat.
Egy másik maszkoló hatás akkor jelentkezik, amikor két hang nagyon rövid időn belül követi egymást. E két hang közül csak azt érzékeljük, amelynek nagyobb az amplitúdója, vagyis nagyobb a hangereje. Érdekes módon még akkor is, ha a halk hang először a fülig ér, csak az a később érkező hangos jel kerül regisztrálásra az agyban. Ezt a második fontos maszkoló hatást technikai szakzsargonban is nevezik időbeli maszkolás (időbeli maszkolás).
Hiány az alacsony frekvenciák lokalizálásában:
Míg az emberi fül jól képes lokalizálni a közepes és magas frekvenciájú hangok eredetét egy szobában, az alacsonyabb frekvenciák területén problémák merülnek fel. Az agy a bal és a jobb fül közötti jel átmeneti idejének különbségeiből számítja ki a hangforrás helyét. Ha van egy hangforrás a jobb oldalon, akkor az e forrás által kibocsátott hullámokat a jobb fül korábban érzékeli, mint a bal. Ezután a hangok eredetét kiszámítják a bal és a jobb fül észlelése közötti időintervallumból. A nagyon alacsony frekvenciájú hangjelek azonban nagyon hosszú hullámhosszúságúak, ami lehetetlenné teszi az egyértelmű lokalizációt. Ezért gyakorlatilag nincs hangszínbeli különbség az alacsony frekvenciájú jelek mono hangforrása és a nagyon alacsony frekvenciájú hangok sztereo hangforrása között. Ez más néven közös sztereo effektus. Például a mélynyomó műholdas rendszerek építésénél használják, és ez az audio tömörítés kiindulópontja az alacsony hangok területén.

Az emberi fül tehát csak elégtelenül, vagy egyáltalán nem érzékeli a frekvenciatartományok egész sorozatát. Az elektrotechnikában a digitális jelfeldolgozás területe foglalkozik (digitális jelfeldolgozás, DSP), többek között matematikai folyamatokkal, amelyek a hallókészülék pszichoakusztikus modelljével együtt az adatok csökkenéséhez vezetnek. Az ilyen folyamatokra a pszichoakusztikus kódolás vagy perceptuális kódolás összegezve.

Matematikai módszerek az adatok csökkentésére:

Az ebben a szakaszban tárgyalt adatcsökkentési matematikai módszerek célja vagy a redundancia eltávolítása a tömörítendő adatokból, vagyis az ismétlődő részek átrendezése úgy, hogy csak egyszer kelljen elmenteni őket, vagy a pszichoakusztikus modell szerint felesleges adatok eltávolítása. alapvetően veszteségmentes és veszteséges technikákban. Meg kell említeni, hogy a veszteségmentes technikák csak bizonyos feltételek mellett vezetnek az adatok csökkenéséhez. Ezekkel a módszerekkel a tömörítési nyereség gyakran meglehetősen korlátozott. A veszteségmentes technikák előnye egyértelműen az, hogy nem változtatják meg az eredeti minőségét.

Először azonban meg kell határozni, hogy az egyes szimbólumok milyen gyakran jelennek meg az adatsorban. Az egyik lehetőség az egyes adatok kódolása egy adott gyakorisági statisztika szerint. Például egy német szöveget kódolni lehet ezzel a módszerrel, ha egyértelmű, hogy az egyes betűk átlagosan milyen gyakran fordulnak elő német nyelven. Az ilyen típusú frekvencia-meghatározás problémája, hogy a gyakorlatban eltérések vannak a statisztikák szerint várható eseménytől. Ez eredménytelen kódoláshoz vezethet, ha az adatmennyiség a kódolási folyamat előtt és után állandó marad, vagy szélsőséges esetekben (helytelen statisztika) az algoritmus akár olyan helyzethez is vezet, ahol a kódolás után megnőtt a memóriaigény. Az egyes szimbólumok gyakoriságának ilyen módon történő meghatározása lehetetlen az ismeretlen információk kódolása szempontjából, például például az audiojelekben. Itt egy másik utat kell választani.

Az egyes frekvenciasávokra történő felosztás előnye, hogy az adattömörítési módszerek hatékonyabban támadhatnak. Ha egy teljes sorozatban a teljes frekvenciatartományt csökkentenék adatokkal, akkor a tömörítés a lehető legnagyobb lehet, hallható veszteségek nélkül, amilyen lehetséges a kritikus tartományokban (különösen a 2 kHz és 5 kHz közötti frekvenciákon). Ez azonban azt jelentené, hogy a ténylegesen szükségesnél nagyobb memóriaigényű, kevésbé érzékelhető (15 kHz-nél nagyobb és 50 Hz alatti) frekvenciasegmenseket kell menteni. Ezért a frekvenciatartományt külön szakaszokra osztják, és csak ezután tömörítik és kódolják az egyes tartományokat a maximális hatékonyság érdekében.

Az alsávos kódoláshoz használt dekóder (lásd az alábbi képet) nagyon hasonló felépítésű, mint a kódoló. Először is, a bejövő bitfolyam (Y (n)) átmegy egy demultiplexeren, amely az adatsort az egyes részsávokra bontja. Ezután egy dekódolási szakasz következik be. A következő interpolációs szűrőben néhány kiszámított mintát visszaállítanak, mielőtt egy szintézisszűrő bank összeadja a Z (n) kimeneti jelet az alsávokból.