Kompresja dynamiki

Ten artykuł należy dopracować:

→ poprawić styl – powinien być encyklopedyczny.
Dokładniejsze informacje o tym, co należy poprawić, być może znajdują się w dyskusji tego artykułu.
Po wyeliminowaniu niedoskonałości należy usunąć szablon {{Dopracować}} z tego artykułu.

Kompresja dynamiki – proces polegający na zmniejszeniu dynamiki sygnału. Polega na konwersji sygnału elektrycznego tak, by każdemu poziomowi sygnału z zakresu dynamiki sygnału wejściowego przyporządkować poziom sygnału z zakresu dynamiki sygnału wyjściowego (docelowego). Działaniem odwrotnym jest ekspansja dynamiki.

Proces kompresji sygnału

Kompresja analogowa

Proces kompresji analogowego sygnału elektrycznego^[1] polega na zastosowaniu układu elektronicznego realizującego względem sygnału następującą funkcję matematyczną:

U_{wyj}=\operatorname {sgn} U_{wej}*{\frac {A*|U_{wej}|}{1+\log A}},

dla

0\leqslant |U_{wej}|\leqslant {\frac {1}{A}}

oraz

U_{wyj}=\operatorname {sgn} U_{wej}*{\frac {1+\log(A*|U_{wej}|)}{1+\log A}},

dla

{\frac {1}{A}}\leqslant |U_{wej}|\leqslant 1.

Tego rodzaju kompresja nazwana jest kompresją według krzywej typu A (ze względu na współczynnik A), a jej teoretyczne podstawy służą do kompresji sygnałów mowy w telekomunikacji (współczynnik A przyjmowany jest na poziomie A=87,6).

Istnieje również inny sposób przedstawienia zagadnienia kompresji dynamiki za pomocą wzoru:

U_{wyj}={\frac {\log(1+\mu *U_{wej})}{\log(1+\mu )}},

dla

0\leqslant U_{wej}\leqslant 1

nazywany kompresją według krzywej typu μ (współczynnik μ przyjmowany jest w telekomunikacji na poziomie μ=255).

Kompresja cyfrowa

Proces kompresji dynamiki sygnału analogowego zakodowanego cyfrowo polega na przekształceniu sygnału cyfrowego o większej liczbie stopni kwantowania na sygnał cyfrowy o mniejszej liczbie stopni kwantowania przy zastosowaniu algorytmu kompresowania dynamiki. Podstawy teoretyczne opierają się na ustaleniu większej liczby poziomów kodowania sygnału w zakresie niskich wartości sygnału i mniejszej liczby poziomów przy sygnale o wyższej wartości, a co za tym idzie na podziale na segmenty o większej lub mniejszej liczbie poziomów kwantyzacji. Przykładowy sposób kompresji dynamiki sygnału wymagającego zakodowania w 12 bitach na sygnał 8-bitowy przedstawia tabelka:

Przykładowa krzywa kompresji cyfrowej zgodna z algorytmem przedstawionym w tabelce

Segment	Kod przed kompresją	Kod po kompresji
7	S1WXYZ000000	S111WXYZ
6	S01WXYZ00000	S110WXYZ
5	S001WXYZ0000	S101WXYZ
4	S0001WXYZ000	S100WXYZ
3	S00001WXYZ00	S011WXYZ
2	S000001WXYZ0	S010WXYZ
1	S0000001WXYZ	S001WXYZ

Oznaczenia:

S – bit określający znak +(1) lub – (0) zakodowanego sygnału,
WXYZ – bity danych.

Ośmiobitowy kod wyjściowy ma postać:

1 bit (S) – znak sygnału,
3 bity – zakodowany numer segmentu 1-7,
4 bity (WXYZ) – bity danych (w zakresie segmentu).

Szczegółowe zalecenia w zakresie kompresji dynamiki sygnałów występujących w telekomunikacji określa rekomendacja G.711 wydana przez ITU-T^[2].

Przykład z samochodem

Kompresja ma sens tam, gdzie duża dynamika sygnału utrudniałaby odbiór, np. w samochodzie. Silnik samochodu jest stosunkowo głośny, co utrudnia ustalenie komfortowej głośności dźwięku. Gdyby muzyka miała dużą dynamikę (czyli była momentami bardzo głośna, a momentami bardzo cicha), to albo byłoby słychać jedynie głośne momenty a poza tym muzyka ginęłaby w huku silnika, albo byłaby słyszalna, ale wtedy głośne momenty byłyby za głośne. Kompresja dynamiki powoduje, że muzyka ma cały czas mniej więcej tę samą głośność i to umożliwia słuchanie jej w samochodzie. Nie tłumaczy to jednak dlaczego poddawane temu procesowi są praktycznie wszystkie dostępne obecnie w sklepach płyty muzyczne. Z nadużywaniem kompresji dynamiki wiąże się problem wojny głośności^[3].

Kompresja dynamiki na płytach CD w powszechnym mniemaniu wynika z parametrów urządzeń domowego audio oraz z typowych warunków odsłuchowych. Wynika też niestety ze swoistej mody (rozwiniętej do przesady przez wytwórnie muzyczne i stacje radiowe) na coraz głośniejszą w odbiorze muzykę (im głośniej zagramy od konkurencji, tym lepiej). Argument, że większość sprzętu (wzmacniacze i głośniki) nie zapewnia dynamiki na poziomie płyty CD (ponad 96 dB) nie jest tu najważniejszy. Jeśli chodzi o warunki odsłuchowe to musimy wziąć pod uwagę, że większość użytkowników nie słucha muzyki z naturalnym poziomem głośności (lecz ciszej), a samemu dźwiękowi towarzyszą odgłosy otoczenia (np. pracująca pralka czy sokowirówka, przy których obsłudze słuchający postanowił włączyć muzykę). Brak kompresji uniemożliwiałby poprawny odbiór dźwięku w niesprzyjających warunkach lub na sprzęcie niższej jakości. Czyli mamy tu do czynienia z sytuacją, gdzie teoretyczne możliwości nośnika CD (dynamika) celowo nie zostają wykorzystane (obniżono walory jakościowe nagrań w celu dopasowania się do przeciętnych warunków odsłuchowych i sprzętu najniższej jakości, np. przenośnych radioodbiorników). Stacje radiowe skompresowaną muzykę z CD, jeszcze bardziej kompresują, aby dostosować się również do technicznych aspektów transmisji FM (im głośniejsza muzyka, tym mniej słyszalne zakłócenia)^[4].

Głównie to (oraz brak ostrego ograniczenia pasma przenoszenia częstotliwości od góry) powoduje, że płyty winylowe w porównaniu z CD brzmią bardziej naturalnie lub mówiąc wprost: lepiej. Materiału muzycznego na płytę gramofonową, gdzie zapis i odczyt jest procesem czysto mechanicznym, nie można w dowolny sposób modyfikować elektronicznie, kompresować dynamiki (tak bardzo jak na CD), nagrania są więc bardziej naturalne w odsłuchu pod tym względem (muzyka z winyli nie męczy tak szybko słuchu jak z CD).^{[potrzebny przypis]}

Parametry kompresji

Istnieje wiele urządzeń i programów komputerowych umożliwiających kompresję na różne sposoby. Najczęstsze parametry kompresji, które można dostosować to:

Threshold – próg głośności powyżej którego ograniczana jest dynamika dźwięku. Sygnał o mniejszej głośności jest pozostawiany bez zmian.
Ratio – poziom kompresji, wyrażany stosunkiem n:1. Jeżeli sygnał wejściowy ma głośność o x decybeli wyższą od poziomu threshold, sygnał wyjściowy będzie miał głośność o x/n wyższą od threshold. Kompresory o ratio 10:1 lub większym nazywane są limiterami.
Attack – minimalny czas trwania dźwięku powyżej poziomu threshold, który powoduje zadziałanie kompresji (stłumienie głośności).
Release – czas po opadnięciu głośności poniżej poziomu threshold, po którym dźwięk przestaje być kompresowany^[5].

Typowe nieporozumienie

Kompresja dynamiki jest czymś zupełnie innym niż kompresja dźwięku (danych) taka jak np. mp3. Kompresja dynamiki odnosi się do dynamiki (miejsc cichych i głośnych) w sygnale, natomiast cyfrowa kompresja dźwięku (danych) jest bezstratną lub stratną kompresją zgodną z definicją kompresji danych.

Przypisy

↑ Opis kompresji według A-law i μ-law. en.voipforo.com. [zarchiwizowane z tego adresu (2011-11-05)]..
↑ Rekomendacja G.711 na stronach ITU.
↑ Sarah Jones: The Big Squeeze. Mix Magazine, 2005-12-01. [dostęp 2012-01-06]. [zarchiwizowane z tego adresu (2010-08-25)]. (ang.).
↑ Frank Foti, Robert Orban: What Happens to My Recording When it’s Played on the Radio?. Omnia Audio, 2001-06. [dostęp 2012-01-06]. [zarchiwizowane z tego adresu (2012-10-21)]. (ang.).
↑ Kompresja w Masteringu, Część 1. Zakamarki audio, 2011-07-25. [dostęp 2012-01-06]. (pol.).

[1] Opis kompresji według A-law i μ-law. en.voipforo.com. [zarchiwizowane z tego adresu (2011-11-05)]..

[2] Rekomendacja G.711 na stronach ITU.

[3] Sarah Jones: The Big Squeeze. Mix Magazine, 2005-12-01. [dostęp 2012-01-06]. [zarchiwizowane z tego adresu (2010-08-25)]. (ang.).

[omn1-4] Frank Foti, Robert Orban: What Happens to My Recording When it’s Played on the Radio?. Omnia Audio, 2001-06. [dostęp 2012-01-06]. [zarchiwizowane z tego adresu (2012-10-21)]. (ang.).

[zak1-5] Kompresja w Masteringu, Część 1. Zakamarki audio, 2011-07-25. [dostęp 2012-01-06]. (pol.).

[1]

[2]

[3]

[4]

[5]