publikacje


Technologiczne uwarunkowania definicji obrazu w technologiach video.


    Wydaje się, iż na skutek gwałtownego rozpowszechnienia się "krzyżowych" technologii realizacji filmów, sytuacja wymknęła się całkowicie spod kontroli władzy rozumu. Wiedza o uwarunkowaniach technologicznych przy konwersji formatów i transferach pomiędzy nośnikami, ze względu na stopień ich komplikacji, wydaje się być całkowicie pomijana na rzecz opierania się na sądach wrażeniowych, doraźnie formułowanych po projekcji. Firmy oferujące usługi i sprzęt oraz software obsługujący konieczne operacje nie ułatwiają nam zadania, publikując niepełne, niekompatybilne, bądź uzyskane według własnych metod badań dane. Tekst niniejszy jest próbą powrotu do źródeł, przypomnieniem podstawowej wiedzy o technologii obrazu tv w kontekście parametrów warunkujących jego jakość.

* * *
   
Część I Obraz analogowy

    Próbując określić zakres pojęcia definicja obrazu w perspektywie operatorskiej, najważniejszym parametrem jaki od razu wydaje się nam oczywistym, jest ilość i stopień czytelności szczegółów jakie dostrzegamy w obrazie. Jest to jednak bardzo ogólne spostrzeżenie i szybko dochodzimy do wniosku, że absolutnie niewystarczające. Ilość szczegółów wymaga dookreślenia, bowiem ważne jest również zagadnienie minimalnej różnicy progowej pomiędzy tymi szczegółami, aby ich rejestracja, a potem projekcja była możliwa, a w jej trakcie oko obserwatora miało szanse je zauważyć. Zastanawiając się nad problemem, łatwo dostrzeżemy, że definicję kształtują zarówno techniczne warunki procesu zdjęciowego i system zapisu, jak też technologia postprodukcji i techniczne warunki dystrybucji, a finalnie samej projekcji. W perspektywie założeń niniejszego tekstu, nas interesuje tylko system zapisu.
    Aby zrozumieć dobrze tę problematykę nie jest - wbrew pozorom - potrzebna wiedza dostępna tylko wtajemniczonym. Dla większości zagadnień, ich podstawę stanowi fizyka na poziomie licealnym, problem może stanowić tylko przypomnienie sobie odpowiednich lekcji. Rzeczą najważniejszą jest konieczność uświadomienia sobie podstawowej różnicy pomiędzy zapisem na taśmie światłoczułej, gdzie informacja obrazowa rejestrowana jest poprzez - w tym samym momencie następujące - naświetlenie wszystkich punktów na całej powierzchni klatki, a zapisem elektronicznym, w którym dane opisujące każdy punkt są zczytywane i zapisywane kolejno jedne po drugich. Powstaje więc konieczność uwzględnienia nie tylko ilości informacji wizualnej możliwej do zarejestrowania na danej powierzchni (co np. jest oczywiste dla stwierdzenia przewagi 35mm w stosunku do 16mm), lecz - co jest właśnie specyfiką obrazów elektronicznych - również czasu w jakim dana ilość informacji (nazywana też strumieniem danych) może być odebrana, przesłana, zapisana, itd. Łatwo tu zauważyć podstawową zależność wzrostu strumienia informacji proporcjonalną do zwiększania ilości szczegółów zapisywanego obrazu w tej samej jednostce czasu. W praktyce obrazu telewizyjnego istotne są różnice pomiędzy kolejnymi punktami, czyli ilość zmian na jednostkę czasu. Przyjęto ilość takich zmian w danych o szczegółach określać jako tzw. szerokość pasma częstotliwości sygnału wizyjnego, konieczną do przeniesienia informacji o tychże szczegółach. Pozostaje tylko zdefiniować pojęcie punktu, czyli najmniejszego elementu obrazu, u którego różnice w danych w stosunku do punktów sąsiednich chcemy zarejestrować. Sprawa jest prostsza niż się wydaje, wielkość takiego punktu, przyjmijmy wyjściowo i jest to oczywiste, że równa jest grubości linii telewizyjnej. Rozdzielczość obrazu więc, wyznaczana jest przez ilość poziomych linii telewizyjnych w danym systemie - co zarazem stanowi ograniczenie rozdzielczości w pionie, oraz przez ilość punktów wzdłuż linii telewizyjnej, jaka wynika z przemnożenia ilości linii przez współczynnik proporcji boków kadru - stanowiąc tym samym ograniczenie rozdzielczości w poziomie.
    Modelowy przykład na bazie systemu tv. czarno białej: jeżeli system ten ma 625 linii poziomych, a proporcje kadru są 4:3, to ilość punktów wzdłuż linii będzie 625 x 4/3 = 833. Tak więc ilość punktów na jednej klatce wynosi 833 x 625=520625 i stanowi teoretyczną rozdzielczość maksymalną. Jeżeli informacje o takiej ilości punktów zmieniają się w każdej kolejnej klatce, a jest ich 25 na sekundę, to musimy przesłać: 25 x 520625 - czyli 13015625 zmiennych wartości w ciągu sekundy. W rzeczywistości (nieco upraszczając) wystarczy przesłać jeden impuls elektryczny będący informacją o różnicy pomiędzy dwoma kolejnymi punktami, tak więc ilość danych na sekundę spada o połowę. W przykładzie powyższym, szerokość pasma częstotliwości dla sygnału, jaka musi zostać zagwarantowana dla maksymalnej rozdzielczości teoretycznie wynosi 6,5 MHz. Dla klatki o jednorodnej powierzchni, np.: całej czarnej, szarej lub białej konieczna szerokość pasma - możemy przyjąć, iż wynosić będzie teoretycznie "zero". Aby uzmysłowić sobie jaka jest to olbrzymia szerokość - od 0 do 6,5 MHz i jakie to rodzi w praktyce trudności, wystarczy, że porównamy ją z szerokość pasma audio, które od dawna jest obowiązujące dla standardu Hi - Fi i wynosi 20 - 20000 Hz, a niewiele urządzeń z tzw. segmentu konsumerskiego, nawet dziś może tym wymaganiom sprostać.
    W praktyce ilość tzw. aktywnych punktów obrazowych jest mniejsza, ze względu na m.in. tzw. czasy powrotów linii i ramki (są to czasy trwania impulsów synchronizacji i wygaszania) i można przyjąć, iż wynosi 576 x 720, czyli 414720 punktów na jedną klatkę, mnożąc przez 25 klatek na 1 sek. otrzymujemy 10368000 odmiennych wartości, dla przesłania których potrzebna jest szerokość pasma ok. 5 MHz (np.: tzw. PAL B/G).
    Jeśli w jakimkolwiek z elementów ciągu technologicznego, od obiektywu kamery poczynając, poprzez rodzaj stosowanego okablowania, a na "ziarnach" luminoforu ekranu Tv kończąc, nie jesteśmy w stanie zapewnić koniecznej szerokości pasma, to powoduje to spadek rozdzielczości, czyli brak różnic wizualnych pomiędzy punktami. Następuje jakby "powiększanie rastra obrazu", czyli pozorne powiększanie punktu, co jest skutkiem właśnie braku różnic pomiędzy punktami - wobec tego sąsiednie dwa i więcej punktów wyglądają tak samo, "zlewając się" w jedno pole o takich samych danych. W sumie obraz posiada mniej szczegółów, jest mniej kontrastowy, mniej ostry, o mniejszej szerokości fotograficznej i rozdzielczości kolorystycznej.
    Dla obrazu barwnego, będącego rezultatem "złożenia" z trzech składowych RGB oznaczałoby to trzykrotne zwiększenie szerokości pasma. Tak jednak - na szczęście - nie jest, strumień danych, dzięki wykorzystaniu specyfiki percepcji ludzkiego oka, jest znacznie ograniczony. Ustalono, iż rozdzielczość barwna oka ludzkiego jest mniejsza niż zdolność rozróżniania szczegółów czano-białych (m.in. z powodów innej ilości czopków i pręcików na siatkówce oka). Czyli, dla wrażenia poprawności reprodukcji, jeśli zapewnimy odpowiednią ilość informacji o "skali walorowej" - czyli czarno białej fotografowanego obiektu, to wystarczy je później tylko "zakolorować", ale można to zrobić już z o wiele mniejszą precyzją odwzorowania. Oznacza to w naszym modelu, że dwa sąsiednie punkty (leżące na tej samej linii, lub na dwu sąsiednich liniach), o ile mają różny walor, to mogą mieć ten sam kolor co nie będzie miało wpływu na wrażenie poprawności odwzorowania. W praktyce liczba takich punktów o tej samej kolorowości może - bez strat dla wrażenia realności - wynosić 3 do 4. Zjawiska te - w praktyce "są podstawą zawężenia szerokości pasma sygnału zawierającego informację o kolorze (czyli ograniczenie ilości szczegółów barwnych) do 1,3 MHz (w praktyce standardu PAL B/G), czyli prawie czterokrotnie w porównaniu z sygnałem luminancji. Zależność ta została także jako podstawa, wykorzystywana przy opracowaniu metody digitalizacji sygnału analogowego.
    W czasach gdy ustalano standardy tv barwnej, zaważył warunek koniecznej kompatybilności urządzeń dla sygnałów cz-b. i barwnych, zarówno po stronie studyjnej, jak i użytkownika. O ile obraz analizowany jest w trzech barwach podstawowych RGB, to składane one są - wg. następującej zależności - w zaokrągleniu: luminancja 100% (biel) = 30%R + 60%G + 10%B - w jeden sygnał zawierający dane o jasności, tzw. sygnał luminancji (wystarczający dla potrzeb tv cz-b), oraz również z tych samych składowych RGB uzyskuje się, sygnał zawierający dane o kolorze, tzw. sygnał chrominancji (potrzebny do "zakolorowania" obrazu cz-b dla potrzeb tv barwnej.). Sygnał chrominancji zawiera informacje o dwu kolorach R i B, kolor G regenerowany jest w oparciu o powyższą zależność matematyczną (100% (biel) = 30%R + 60%G + 10%B), jako różnica sygnału luminancji i sumy dwu składowych R i B. Możliwe to jest na skutek skomplikowanych zabiegów elektronicznego przetwarzania sygnału RGB (kodowanie i dekodowanie). W systemie PAL na przykład, ich istotą jest amplitudowa modulacja kwadraturowa dwu takich samych, specjalnie generowanych, tzw. częstotliwości podnośnych koloru (4.43 MHz), przesuniętych w fazie względem siebie o 90 stopni, dwoma sygnałami R i B, w rezultacie czego powstaje jeden sygnał chrominancji, którego faza odpowiada za barwę (hue - czyli długość fali), a amplituda za nasycenie, czyli czystość koloru (saturation - tzn. % skażenia bielą).
    Tak więc sygnał tv barwnej nazywany kompozytowym, zawiera dwa odmienne w swojej strukturze, różne co do amplitudy, fazy, i ograniczonej szerokości pasma, sygnały analogowo odpowiadające za informację o jasności i o kolorze. Jednoprzewodowe przesyłanie takiego sygnału obciążone jest różnymi negatywnymi zjawiskami (m.in. interferencje, zdudnienia, itp.), jakie zachodzą zawsze pomiędzy różnymi przebiegami elektrycznymi o zmiennych częstotliwościach i amplitudach, co wymusza stosowanie szeregu zabezpieczeń typu elektronicznego (różnego typu filtry). Samo zjawisko, jak i też nie do końca doskonałe próby przeciwstawiania się jemu, powodują obniżenie definicji obrazu, silnie odczuwalne zwłaszcza przy zapisie magnetycznym sygnałów kompozytowych i późniejszym ich odtwarzaniu i co potęguje się przy przekopiowaniu obrazów.
    Jak dotychczas, praktycznie wszystkie urządzenia tv analogowej, po stronie nadawczo-odbiorczej (emisja naziemna, lecz nie platformy satelitarne!) operują sygnałem kompozytowym czyli zawierającym równocześnie dwie informacje o kolorze i o jasności. Po stronie produkcyjnej tv analogowej, (w studiach i montażowniach) dzięki rozwojowi elektroniki - powszechnie od około 20 lat, operuje się głównie innym typem sygnału, tzw. sygnałem komponentowym, w którym następuje rozdzielenie na niezależne tory informacji o jasności i o kolorach, bądź też przesyłanie niezmieszanych składowych RGB. Łatwo zauważyć, że w praktyce operowania tym typem sygnału kompletnej informacji o obrazie, już nie można przesłać go jednoprzewodowo - jak kompozytu, a potrzebna jest (w zależności o rodzaju komponentu - są różne!) większa liczba przewodów. Oznacza to, że w zapisie magnetycznym, również każdy tor rejestrowany jest jako oddzielny ślad magnetyczny. Przysparza to wielu kłopotów wynikających z konieczności synchronizacji czasowej tych oddzielnie przesyłanych, rejestrowanych i odczytywanych sygnałów, których wartości analogowo opisujące kolor i jasność danego punktu, muszą się w trakcie wyświetlenia "spotkać" na ekranie kineskopu (zawsze jako RGB) w tym samym miejscu i momencie. Zyskuje się jednak wówczas redukcję różnorodnych zakłóceń występujących w sygnale kompozytowym (jednoprzewodowym) i przy obecnym stanie rozwoju elektroniki, komplikacja ta nie stanowi już żadnego problemu.
    Istnieją dwa, a praktycznie trzy rodzaje standardów sygnałów komponentowych. Najbardziej rozpowszechnionym jest tzw. komponent różnicowy - standard N 10 EBU, w którym trzy odrębne tory są konieczne do przesyłania: 1- sygnału luminancji, 2- sygnału koloru różnicowego R-Y i 3- sygnału koloru różnicowego B-Y. Drugi - standard N 20 EBU, rzadziej stosowany w węższej grupie urządzeń studyjnych (jego wersję spotykamy np. także przy podłączaniu monitorów do komputerów), nie zawiera on sygnału luminancji, a każdym z trzech jego kanałów przesyłane są oddzielnie informacje o trzech składowych R, G i B. Trzeci standard - Y/C, ma odmienny charakter, bowiem wymaga tylko dwu przewodów, aby przesłać kompletną informację o obrazie barwnym. Jeden jego kanał przeznaczony jest dla sygnału luminancji, drugi dla sygnału chrominancji.
    Przewaga jakościowa sygnału komponentowego nad kompozytowym jest wyraźnie dostrzegalna przy zapisie na nośniku magnetycznym, gdzie ze względów technologicznych dokonuje się przekształceń sygnału, aby proces rejestracji mógł mieć w ogóle miejsce, co w konsekwencji stanowi dość poważne dodatkowe źródło degradacji definicji obrazu. Wszyscy znamy jakość obrazu dostępną z kasety VHS (kompozyt), a zwłaszcza gdy oglądamy jej kopię, i "na oko" widzimy różnicę w stosunku do zapisu S-VHS (komponent Y/C). Trudniej jednak dostrzec wizualnie, różnice pomiędzy niestosowanym już profesjonalnym systemem U-matic (kompozyt), a jego następcą operującym już komponentem różnicowym - systemem BETACAM SP. Dzieje się tak ponieważ poziom definicji obrazu jaki zapewnia w powyższym przykładzie U-matic, jest "na oko" zadowalający i dopiero dokładna analiza szczegółów, np. punktów wzdłuż pionowej linii rozgraniczającej "na ostro" dwa obszary: czerwony od niebieskiego, pozwala bez wątpliwości rozstrzygnąć na korzyść BETACAM-u. Wynika stąd ważny wniosek, iż jeżeli wiemy na co patrzeć, tzn. w czym różnice w definicji obrazu się ujawniają, to poziom oceny "na oko" wydaje się zadowalający. Jest to jednak wniosek nie do końca prawdziwy. Po zapewnieniu pewnego poziomu definicji obrazu, jego realna jakość możliwa jest do oceny tylko obiektywnymi metodami, z zastosowaniem odpowiednich przyrządów i metod pomiarów, co w praktyce, z poziomu operatora obrazu, nie jest możliwe. Pozostaje więc zaufanie do informacji dostępnych w prospektach i instrukcjach obsługi stosowanego sprzętu, oraz co uważam za najważniejsze, posiadanie odpowiednich kompetencji koniecznych do ich rozumienia. Przy spełnieniu tego drugiego warunku wystarczy krótkie spojrzenie w tabelkę z zestawieniem liczb opisujących odpowiednie parametry, aby sformułować stosowne wnioski wyjściowe, których obiektywności nie zagrożą nawet silne wrażenia wizualne. Tym bardziej, że często formułowane są tylko na podstawie podglądu monitorowego on line z kamery, nawet nie w podglądzie po zapisie (tj. w odtwarzaniu), a powinny - jeżeli już się chcemy do nich odwołać - uwzględniać całość procesu technologicznego, czyli być rezultatem oglądania kasety z ostateczną wersją; po montażu, udźwiękowieniu, wgraniu napisów, itd. Pamiętać należy, że dla sygnałów analogowych, każde przegranie zawsze wprowadza degradację definicji obrazu, i im większym jej "zapasem" dysponujemy na wyjściu, tym proporcjonalnie tracąc przy każdej kopii, końcowy rezultat będzie lepszy. To przecież stało się główną przyczyną wyparcia w telewizjach profesjonalnych, po stosunkowo krótkim czasie od momentu wdrożenia, systemu U-matic (zmodernizowanego w międzyczasie jako wersja SP) i stosowania od połowy lat 80 dużo droższego i bardziej skomplikowanego, lecz lepszego systemu BETACAM, który w zmodernizowanej wersji - BETACAM SP, jest stosowany dotychczas.
    Powyższa uwaga nie jest próbą dyskredytowania sądów wrażeniowych, jest raczej apelem o uświadomienie tym, którzy się tylko do nich ograniczają, konieczności uwzględnienia już w punkcie wyjścia, obiektywnych parametrów technicznych, co pozwoli im uniknąć często niezręcznych sytuacji.

Dodatek: zestawianie porównawcze formatów analogowych.

Format zapisu Szerokość taśmy Typ nośnika Rodzaj sygnału **Dynamika S/N luminancja **Dynamika S/N chrominancjaRozdzielczość pozioma
VHS1/2 calaTlenkowaKompozyt46 dB45 dB240 linii
SVHS1/2 calaTlenkowaY/C47 dB46 dB400 linii
*Video 88 mmMetalKompozyt46 dB45 dB260 linii
*Hi 88 mmMetalY/C47 dB46 dB400 linii
* U- matic3/4 calaTlenkowaKompozyt46 dB46 dB280 linii
* U- matic SP3/4 calaMetalKompozyt47 dB48 dB340 linii
* Betacam1/2 calaTlenkowaKomponent48 dB50 dB300 linii
* Betacam SP1/2 calaMetalKomponent51 dB53 dB344 linii

*formaty te, już nie są używane, dane przytoczone dla porównania
**w tym zestawieniu jest to parametr odnoszący się do zapisu - skrótowo wyjaśniając: im większa liczba, tym lepiej.
Komentarz do tabelki:
1) Przedstawione dane ujawniają konieczność "zespolonego" traktowania rozdzielczości i dynamiki sygnału w odczycie z taśmy.
2) Sam problem rozdzielczości wymaga jednak krótkiego komentarza. Ilość linii ją określającą należy rozumieć w sposób następujący: w tabeli podana liczba określa ilość linii pionowych, a więc - jest to faktyczna ilość różnic pomiędzy punktami wzdłuż linii poziomej, jakie można odczytać! Oznacza to jednocześnie, że przy proporcjach ekranu Tv - 1,33, przez taki właśnie współczynnik należałoby podzielić daną wartość, aby otrzymać rozdzielczość pionową. Np. dla Betacam SP - 344:1,33=(w zaokrągleniu)260, czyli tyle różnic pomiędzy punktami wzdłuż linii pionowej jest w stanie przenieść ten format. Pamiętając o 576 "widocznych" liniach systemowych (dla PAL), tzw. telewizyjnych, należy sformułować wniosek, że co najmniej dwie kolejne linie telewizyjne odtwarzają takie same dane. Cały zaś kadr, zamiast zawierać informację obrazową z rastra 576x720, czyli z 414720 punktów (patrz wyżej w niniejszym tekście), odtwarza informacje obrazową zubożoną do 260x344, czyli z 89440 punktów! Tak więc najlepszy, pozastudyjny format zapisu sygnału analogowego wykorzystuje możliwości systemu niewiele ponad 20%!
   

Łódź, styczeń 2004