publikacje


Technologiczne uwarunkowania definicji obrazu w technologiach video.


    Poniższy tekst jest kontynuacją prezentowanych w poprzednim numerze "Film & Tv Kamera" (1/2004) podstawowych wiadomości o parametrach technicznych obrazu telewizyjnego decydujących o jego jakości w zapisie analogowym. Tym razem są to uwarunkowania dotyczące obrazu w zapisie cyfrowym. Profil pisma, jak też ilość miejsca dla niniejszego tekstu nie pozwala na szczegółowe przedstawienie skomplikowanej problematyki. Jednak zastosowane skróty i uproszczenia, nie powinny - jak sądzę - zbytnio przeszkadzać w zrozumieniu podstawowych uwarunkowań definicji obrazu w technologii cyfrowej.

* * *
   
Część II Obraz cyfrowy

    Na wstępie jedna uwaga porządkująca: każdy obraz na ekranie telewizyjnym lub komputerowym będący "reprezentantem" realności - jest i zawsze był, obrazem analogowym! (Za wyjątkiem efektów specjalnych, np.: typu "high contrast" - tylko czerń i biel, lub innych o charakterze solaryzacji, itp.). Zawiera bowiem szereg zróżnicowań odcieni kolorystycznych, których całkowita liczba - znamy ją z np. prospektów monitorów komputerowych - powinna osiągnąć jako minimum niewyobrażalny poziom 16.777.216, aby zapewnić zgodność reprodukcyjną w stosunku do rzeczywistości. Warto przypomnieć wszystkim używającym nazwy "obraz cyfrowy", że odnosząc się do tego, co wyświetlone na ekranie, mówią o obrazie analogowym, stosując skrót pojęcia "obraz w zapisie cyfrowym" - o czym nie zawsze się pamięta, a co powoduje bardzo często wiele nieporozumień. Zmysły człowieka są w stanie odbierać pobudzenia na olbrzymiej ilości poziomów zróżnicowań i nie reagują "digitalnie" na impuls pobudzenia lub jego brak, co jest przecież istotą przesyłania informacji zakodowanych binarnie. Dla uproszczenia, używane również w niniejszym tekście pojęcie "obraz cyfrowy" oznaczać będzie "obraz w zapisie cyfrowym".
    Powyższe uwagi należy odbierać jako wstęp ułatwiający zrozumienie istoty zapisu cyfrowego i towarzyszących mu problemów technologicznych. W punkcie wyjścia należy mieć na uwadze właśnie obraz na ekranie, który powinien zawierać składniki wizualne reprodukowanej rzeczywistości i poprzez to przezroczyście do niej odsyłać, powodując u widza odczucie realności, a nie ma absolutnie znaczenia, w jakiej technologii obraz ten jest pozyskiwany, zapisywany i w końcu wyświetlany. Ważna jest tylko owa zgodność z rzeczywistością jako kryterium widza aprobującego efekt ekranowy. Oznacza to konieczność dostarczenia widzowi w finalnym obrazie takiej samej ilości informacji, niezależnie od metody jego zapisu. Jeżeli dla obrazu telewizyjnego ilość tych informacji została ustalona w czasach obrazu analogowego na minimalnym poziomie gwarantującym poczucie realizmu, to przechodząc do epoki cyfrowej należy zapewnić finalną zgodność, obu analogowych przecież na ekranie obrazów, jednego rejestrowanego analogowo i drugiego rejestrowanego cyfrowo.
    Modelowy przykład na bazie systemu tv. czarno białej: jeżeli system ten ma 625 linii poziomych, a proporcje kadru są 4:3, to ilość punktów wzdłuż linii będzie 625 x 4/3 = 833. Tak więc ilość punktów na jednej klatce wynosi 833 x 625=520625 i stanowi teoretyczną rozdzielczość maksymalną. Jeżeli informacje o takiej ilości punktów zmieniają się w każdej kolejnej klatce, a jest ich 25 na sekundę, to musimy przesłać: 25 x 520625 - czyli 13015625 zmiennych wartości w ciągu sekundy. W rzeczywistości (nieco upraszczając) wystarczy przesłać jeden impuls elektryczny będący informacją o różnicy pomiędzy dwoma kolejnymi punktami, tak więc ilość danych na sekundę spada o połowę. W przykładzie powyższym, szerokość pasma częstotliwości dla sygnału, jaka musi zostać zagwarantowana dla maksymalnej rozdzielczości teoretycznie wynosi 6,5 MHz. Dla klatki o jednorodnej powierzchni, np.: całej czarnej, szarej lub białej konieczna szerokość pasma - możemy przyjąć, iż wynosić będzie teoretycznie "zero". Aby uzmysłowić sobie jaka jest to olbrzymia szerokość - od 0 do 6,5 MHz i jakie to rodzi w praktyce trudności, wystarczy, że porównamy ją z szerokość pasma audio, które od dawna jest obowiązujące dla standardu Hi - Fi i wynosi 20 - 20000 Hz, a niewiele urządzeń z tzw. segmentu konsumerskiego, nawet dziś może tym wymaganiom sprostać.
    Dane o różnicach pomiędzy dwoma kolejnymi punktami obrazu analogowego mogą w dowolnym momencie pomiędzy dwiema kolejnymi klatkami, zmieniać się od zera (ten sam punkt ekranu ma te same dane, czyli na dwu kolejnych klatkach - jest takim samym punktem), aż - np. na sklejce - do zmiany maksymalnej (tj. np. biel - czerń). W praktyce, pomiędzy ową czernią i bielą w obrazie analogowym oko człowieka może odróżnić, a więc istnieje konieczność ich zapisu, około 256 poziomów szarości jako wystarczającą ilość do odczucia wrażenia realizmu (dane ustalone eksperymentalnie). Sygnał analogowy, stanowiąc informacje o takim obrazie, jest zmiennym przebiegiem napięcia o płynnych przejściach pomiędzy dwiema wartościami, różnymi dla kolejnych punktów obrazu, w przedziale od wartości zerowej (czerń), do wartości maksymalnej (biel). Sygnał ten jest "płynnieciągły" w czasie. Istotą przetworzenia go na sygnał cyfrowy jest zamiana zapisu owego płynnego ciągu zmian w przestrzeni 256 poziomów - od minimum do maksimum, po tzw. próbkowaniu (szczegóły poniżej), na nieciągły w czasie tzw. sygnał dyskretny, czyli zawierający następujący po sobie ciąg impulsów, ale z "lukami" czasowymi pomiędzy nimi. (patrz rys. 1) Wielkości tych impulsów są opisane w układzie binarnym, tj. dla każdego z nich istnieje oddzielna sekwencja, zawierająca kombinacje tylko dwu wartości "0" i "1".
    Jeśli w jakimkolwiek z elementów ciągu technologicznego, od obiektywu kamery poczynając, poprzez rodzaj stosowanego okablowania, a na "ziarnach" luminoforu ekranu Tv kończąc, nie jesteśmy w stanie zapewnić koniecznej szerokości pasma, to powoduje to spadek rozdzielczości, czyli brak różnic wizualnych pomiędzy punktami. Następuje jakby "powiększanie rastra obrazu", czyli pozorne powiększanie punktu, co jest skutkiem właśnie braku różnic pomiędzy punktami - wobec tego sąsiednie dwa i więcej punktów wyglądają tak samo, "zlewając się" w jedno pole o takich samych danych. W sumie obraz posiada mniej szczegółów, jest mniej kontrastowy, mniej ostry, o mniejszej szerokości fotograficznej i rozdzielczości kolorystycznej.



    Konieczny poziom technologiczny do przeprowadzenia takich operacji okazuje się na tyle skomplikowany, że elektronika osiągnęła go stosunkowo niedawno, wciąż jeszcze borykając się - oprócz kwestii hardware'owych - z głównym skutkiem digitalizacji, czyli problemem wielkości sumienia danych i jego bezstratnej redukcji. Zaplecze teoretyczne dotyczące sposobów optymalnego kodowania zredukowanego strumienia danych przygotowane zostało w połowie lat 50-tych, wraz z pochodzącą z 1952 r., stosowaną obecnie metodą kodowania Huffmana.
    Aby owe 256 poziomów zapisać w układzie binarnym (a nie dziesiętnym), należy użyć tzw. "8-bitowego słowa", czyli ośmiopozycyjnej sekwencji zer lub jedynek, które zestawiane ze sobą w dowolnych kombinacjach stworzą możliwość opisu każdego z 255 poziomów od czerni poprzez szarości do bieli ("jednobitowe słowo", tj. alternatywa "0" lub "1", opisywałoby różnicę tylko pomiędzy dwoma poziomami np. biel i czerń). (patrz rys. 2) Zero lub jedynka na każdej z ośmiu pozycji daje takich kombinacji 255. Liczba "255", zapisana jako 255 w znanym i stosowanym powszechnie systemie dziesiętnym, przedstawiona w zapisie binarnym, wyrażona jest przez 11111111, ale 256 - już przez 100000000, czyli "słowo" musiałoby być już "dziewięciobitowe". Liczba 256 podawana w takich sytuacjach wynika z "doliczenia" poziomu zerowego.



    Dla koloru owe 255 poziomów oznacza możliwość zapisu wartości także od minimum do maksimum z wartościami pośrednimi, ale w każdym z trzech kolorów podstawowych RGB - stąd te, wyżej wspomniane, ponad 16 milionów koniecznych zróżnicowań dla zachowania wrażenia prawidłowej reprodukcji kolorystycznej (255x255x255=16.581.375). W teoretycznym modelu każdy dowolny punkt może być przedstawiony przez dowolną kombinację trzech wartości RGB, wypadkowo opisującą jego kolor w przedziale 0 - 255. Przedstawiona powyżej zależność jest jednym z parametrów digitalizacji sygnału analogowego (tzw. kwantyzacja), potocznie znanym jako tzw. głębokość bitowa, ale podkreślić w tym miejscu należy, że przyjęte 8 bitów jest minimalną wartością gwarantującą widzowi w procesie percepcji poczucie realności oglądanego obrazu. Tu napotykamy różnicę w stosunku do obrazu analogowego. Dzieje się tak, ponieważ amplituda sygnału wizji w wersji analogowej może osiągnąć dowolne wartości, także pomiędzy owymi "umownymi" poziomami (w praktyce dowolna wartość pomiędzy 0,3V - 1,0V), np.: dla czterech kolejnych punktów wzdłuż linii TV, różnych co do szarości, załóżmy wartości poziomów: dla pierwszego - 10; drugiego - 10,5; trzeciego - 10,7; czwartego - 11,3; w wersji cyfrowej, gdzie poziomy kwantyzacji są ściśle określone, to znaczy, że istnieją tylko jako progi o wartościach ustalonych, następuje "wyrównanie" do - odpowiednio: pierwszy - 10, drugi - 10, trzeci - 11, czwarty - 11. (patrz rys. 3)



    Jak dotychczas, praktycznie wszystkie urządzenia tv analogowej, po stronie nadawczo-odbiorczej (emisja naziemna, lecz nie platformy satelitarne!) operują sygnałem kompozytowym czyli zawierającym równocześnie dwie informacje o kolorze i o jasności. Po stronie produkcyjnej tv analogowej, (w studiach i montażowniach) dzięki rozwojowi elektroniki - powszechnie od około 20 lat, operuje się głównie innym typem sygnału, tzw. sygnałem komponentowym, w którym następuje rozdzielenie na niezależne tory informacji o jasności i o kolorach, bądź też przesyłanie niezmieszanych składowych RGB. Łatwo zauważyć, że w praktyce operowania tym typem sygnału kompletnej informacji o obrazie, już nie można przesłać go jednoprzewodowo - jak kompozytu, a potrzebna jest (w zależności o rodzaju komponentu - są różne!) większa liczba przewodów. Oznacza to, że w zapisie magnetycznym, również każdy tor rejestrowany jest jako oddzielny ślad magnetyczny. Przysparza to wielu kłopotów wynikających z konieczności synchronizacji czasowej tych oddzielnie przesyłanych, rejestrowanych i odczytywanych sygnałów, których wartości analogowo opisujące kolor i jasność danego punktu, muszą się w trakcie wyświetlenia "spotkać" na ekranie kineskopu (zawsze jako RGB) w tym samym miejscu i momencie. Zyskuje się jednak wówczas redukcję różnorodnych zakłóceń występujących w sygnale kompozytowym (jednoprzewodowym) i przy obecnym stanie rozwoju elektroniki, komplikacja ta nie stanowi już żadnego problemu.
    Przykład ten wskazuje źródło degradacji rozdzielczości walorowej (analogicznie sytuacja przebiega dla sygnału koloru), jaka zachodzi w procesie digitalizacji sygnału analogowego, którego wykres z "płynnieciągłego" po digitalizacji staje się wykresem "schodkowym". Przeciwdziałając temu, w niektórych urządzeniach zwiększona zostaje liczba bitów do 10 (wówczas osiąga się 1.024 poziomy), często do 12 (4.096 poziomów), a nawet do 14 (16.384 poziomów). Skutkuje to jednak tak olbrzymim wzrostem wielkości strumienia danych, że zapis takiego obrazu w czasie rzeczywistym przestaje być praktycznie w ogóle możliwy, a nawet jego przesyłanie jest ciągle problemem. Z tego powodu rozdzielczości te stosuje się tylko na poziomie obróbki sygnału wewnątrz urządzenia, w którym on powstaje, by już do zapisu "uprościć" go do najczęściej 8-bitowego.
    Powyższy wywód oparty jest o modelowy przykład, w praktyce dla czerni przyjęto "16 poziom", a dla bieli "236 poziom", czyli w dyspozycji jest 220 poziomów do opisania maksymalnego kontrastu. Wyjaśnienie powodów takiego rozwiązania należy w tego typu profilu artykułu pominąć.
    Nie jest to jednak jedyny powód degradacji obrazu, zachodzącej w przetwornikach "analog to digital" (A/D). Drugim parametrem wyznaczającym jakość digitalizacji jest tzw. częstotliwość próbkowania (sampling frequency), odpowiedzialna za szerokość owych "luk" czasowych pomiędzy kolejnymi impulsami - czyli w praktyce liczba próbek wzdłuż linii telewizyjnej. Teoretycznie powinno wystarczyć zczytanie wartości z każdego piksela, czyli owa częstotliwość próbkowania powinna być równa maksymalnej szerokości pasma częstotliwości sygnału wizyjnego, ale tak jednak nie jest. W oparciu o skomplikowane przekształcenia matematyczne przyjęto, że częstotliwość próbkowania powinna być co najmniej dwukrotnie większa niż maksymalna częstotliwość sygnału próbkowanego (tzw. reguły Nyquista / Shanona). Jest to ogólna prawidłowość, której zależności możemy spotkać np. także przy digitalizacji dźwięku, dla którego maksymalne pasmo częstotliwości tj. norma hi-fi - do 20.000 Hz, digitalizowane jest z częstotliwością próbkowania 44100 Hz - standard CD, lub z 48.000 Hz - standard DAT. Dla obrazów telewizyjnych (szerokość pasma dla PAL B/G do 5MHz) wystarczałoby 10MHz, w praktyce przyjęto wartość częstotliwości 13,5 MHz, konieczną ze względów technicznych, ponieważ spełnia ona wymóg całkowitej wielokrotności częstotliwości wybierania liniowego, zarówno dla standardu 625/50 (PAL), jak też 525/60 (NTSC). Rozwiązanie takie jest także gwarancją finalnej rozdzielczości dla oka obserwatora, porównywalnej z obrazem analogowym. Pamiętać jednak należy, że maksymalna szerokość pasma w sygnale analogowym wymagana jest tylko dla jego składowej walorowej, czyli sygnału luminancji, chrominancja może być jeszcze do przyjęcia nawet przy czterokrotnym zawężeniu jej szerokości pasma (dla PAL B/G około 1,3 MHz). Zależność tę wykorzystano także w procesie digitalizacji sygnału analogowego. W komponencie różnicowym - wg standardu N 10 EBU (zdigitalizowany kompozyt - standard D2, stosowany dużo rzadziej), sygnał luminancji i dwa sygnały kolorów różnicowych R-Y i B-Y są próbkowane z różnymi częstotliwościami, w zależności od przyjętego standardu (jest ich kilka, co nieco komplikuje zagadnienie). Różnice te odzwierciedlane są poprzez prosty "szyfr" trzech cyfr rozdzielonych znakiem ":", i tak np. dla standardu D1 (ITU-R BT 601 / CCIR 601) ma on postać 4:2:2, co oznacza próbkowanie sygnału luminancji 13,5 MHz (pełna szerokość pasma - wyrażone przez "4"), oraz dwukrotnie zmniejszoną częstotliwość próbkowania sygnałów różnicowych kolorów 6,75 MHz (połowa szerokości pasma - wyrażone dwoma "2"). Z kolei zapis 4:1:1, oznacza rezygnację systemową z rozdzielczości barwnej, do poziomu 1/4 - co jest praktycznie granicą akceptowalności wizualnej. W praktyce oznacza to zapis informacji o kolorze tylko dla 180 pikseli wzdłuż linii! Czyli,, że cztery kolejne piksele mają te same wartości RGB. Z innej strony uzasadnia, łatwą do zaobserwowania podczas pracy z formatem DV, utratę koloru przy np. zaniżaniu ekspozycji. Zapis 4:2:0 oznaczałby co prawda - dokładność chrominancji, ale zapisywaną tylko dla co drugiej linii naprzemiennie - dotyczy tylko PAL, gdzie i tak systemowo zapewniona jest nieco lepsza rozdzielczość niż w NTSC, choć finalnie oba systemy w praktyce operują takim samym strumieniem danych, tj. 25 Mbps.

Struktura próbkowania Ilość próbek sygnału luminancji na jednej linii Ilość linii luminancji próbkowanych w jednym obrazie Ilość próbek sygnału chrominancji na jednej linii Ilość linii chrominancji próbkowanych w jednym obrazie Współczynnik zubożenia informacji poziomej luma:chromaWspółczynnik zubożenia informacji pionowej luma:chroma
4:1:07204801801204:14:1
4:1:17204801804804:11:1
4:2:07204803602402:12:1
4:2:27204803604802:11:1
4:4:47204807204801:11:1


    W urządzeniach studyjnych, np. telekinach, stosuje się czterokrotnie wyższą w stosunku do szerokości pasma sygnału analogowego częstotliwość próbkowania i to w każdym z kanałów - tj. 8:8:8, co daje możliwość dokładniejszej korekcji parametrów gęstościowych i kolorystycznych obrazu, jak również precyzyjniejsze korekcje gama, oraz zapewnia tym samym uzyskanie "zapasu" szczegółów, który zabezpiecza przed degradacją sygnał, podlegający dalej w toku produkcji przed emisją często wielu skomplikowanym przekształceniom. Aby temu w pełni sprostać, owo nadpróbkowanie jest często połączone z większą, np. 10- bitową, głębokością analizy amplitudy sygnału analogowego.
    Z przedstawionych powyżej danych wynika, że sygnał cyfrowy o pełnej rozdzielczości powinien być efektem co najmniej 8- bitowej analizy analogowej amplitudy i próbkowania jej z częstotliwością 13,5 MHz w każdym z kanałów RGB, lub Y, R-Y, B-Y, czyli - sygnał przedstawiony jako 4:4:4. Istotnie w praktyce studyjnej operuje się takim sygnałem, ale tylko do momentu rejestracji.
    Tu dochodzimy do kompresji - trzeciego parametru warunkującego definicję obrazu cyfrowego, dotyczącego głównie jego zapisu, ale występującego także przy przesyłaniu takiego zdigitalizowanego sygnału na większe odległości. Wszyscy znamy niedogodności wynikające z limitowanej długości kabla typu "fire-wire". Taki "pełny" sygnał, zawierający dane o obrazie, rejestrowany lub też tylko przesyłany w czasie rzeczywistym, wymagałby opanowania strumienia danych maksymalnie do około 280-300 Mbps., co jest poziomem transmisji niemożliwym do osiągnięcia np. przez pojedynczy interfejs SCSI. Praktyka rejestracji magnetycznej z wykorzystaniem taśm i kaset wymusiła stosowanie kompresji strumienia danych do wartości gwarantującej możliwość zapisu i odczytu w czasie rzeczywistym.
       Istota kompresji polega na:
1. usunięciu redundancji - czyli "nadmiaru" danych. W prostym przykładzie, są to np. powtarzające się takie same wartości RGB dla kolejnych punktów wzdłuż linii telewizyjnej, np. niebo jako tło. Usunięcie ich z informacji o obrazie "nie zubaża go", pod warunkiem że te "tożsame" dane z jednego punktu zostaną przy odtwarzaniu z powrotem przywrócone we wszystkich takich samych punktach odtwarzanego obrazu, co spełnione jest poprzez stosowanie odpowiednich algorytmów kompresji.
    2. usunięciu irrelewancji - czyli takich danych, których utrata jest ze względów ogólnej nośności informacyjnej obrazu dopuszczalna. W przeciwieństwie do poprzedniego - odwracalnego typu redukcji, usunięcie irrelewancji powoduje nieodwracalną utratę informacji. Aby temu sprostać, stosowane współcześnie metody kompresji opierają się na podziale klatki na segmenty, tzw. bloki (8 pikseli x 8 linii) i analizowaniu wartości poszczególnych elementów, oraz na tzw. makrobloki (16 pikseli x 16 linii) dla przewidywania zmian w sekwencjach kilkunastoklatkowych, po analizie wektorów ruchu elementów przemieszczających się w kolejnych klatkach.
    W rzeczywistości jest to najbardziej skomplikowana i jednocześnie najbardziej spektakularna operacja matematyczno-elektroniczna w procesie digitalizacji sygnału analogowego. Wykorzystywane są przy tym tzw. dyskretna (rozdzielna) transformacja cosinusów DTC (discrete cosine transform), kodowanie bieżącej długości RLC (runlengh code), oraz kodowanie Huffmana. Ze względu na stopień komplikacji tych procesów oraz rozmiary niniejszego tekstu, szczegółowe dane na ten temat muszą zostać pominięte. Dodatkowym powodem jest stale rosnąca - wraz z rozwojem technologicznym - różnorodność systemów i wielość metod kompresji. Dość wspomnieć, że tylko w standardzie MPEG 2 wydzielono cztery poziomy (Low Level, Main Level, High 1440, High) różniące się strukturą algorytmów MPEG, oraz sześć profili (4:2:2 Profile, High Profile, Spatialy Scalable Profile, SNR Scalable Profile, Main Profile, Simple Profile) różniących się szybkością transmisji strumienia danych i formatem obrazu, tj. liczbą tworzących go pikseli, w całości układ ten daje teoretycznie 20 kombinacji możliwych podstandardów. W praktyce istnieje bodaj 12, ale i tak stanowi to znaczną komplikację.
    Ważność danych szczegółowych dla rozważań o definicji obrazu jest niezwykle istotna, bowiem stwierdzenie, że mamy do czynienia z sygnałem MPEG 2 jest niewystarczające, gdyż np. SNR Scalable Profile @ Low Level oferuje format wielkości 352x288 pikseli i szybkość transmisji do 3 Mbps. (jakość obrazu nieco gorsza niż np. płyt VCD), podczas gdy zdefiniowany jako standard transmisji barwnych sygnałów telewizyjnych Main Profile @ Main Level przesyła informację o obrazie złożonym z 720x576 pikseli i szybkość transmisji do 15 Mbps., a High Profile @ High Level zapewnia przesył danych z formatu 1920x1152 pikseli i szybkość transmisji do 100 Mbps., czyli jakość zbliżoną do High Definition.
    Oprócz ilości szczegółów na jednostkę powierzchni i stopnia odwzorowania zróżnicowań barwnych oraz kontrastu między nimi, dodatkowym problemem dla analizy definicji obrazu przy zastosowaniu danej metody kompresji jest "stopień dynamiczności" elementów tworzących dany obraz w stosunku do ich "statyczności", czyli ilości zmian w danych obrazowych na jednostkę czasu. W prostym przykładzie statyczny obraz, z małą ilością szczegółów, nawet przy zastosowaniu niskich poziomów kompresji (Low Level), dla obserwatora będzie akceptowalny, a w obrazie z kamery szwenkującej za szybko poruszającym się aktorem, jeśli nawet zastosujemy najwyższy poziom kompresji (High Level), może pojawić się "pikselizacja", czyli ujawnianie makrobloków kompresji z powodu przepełniającego się w takich przypadkach bufora pamięci. Wielość systemów kompresji i sposobów ich stosowania ma w rezultacie jedną cechę wspólną, jaką jest zmniejszenie dla potrzeb zapisu, strumienia danych do prędkości, różnej w różnych formatach zapisu, możliwej do zarejestrowania, np. 25 Mbs. dla formatu DV (DVCAM) i DVCPRO, w którym zastosowana jest kompresja 5:1; DVCPRO50 - 50 Mbs., z kompresją 2:1, Digital Betacam - strumień wraz z dźwiękiem około100 Mbs., przy kompresji 2:1, a lansowany ostatnio MPEG IMX, bazujący na kompresji 2:1 zapisuje strumień 50 Mbs. Wszystkie te formaty rejestracji operują zdigitalizowanym sygnałem komponentowym, lecz nie wszystkie stosują tę samą głębokość bitową, np. DV i DVCPRO - 8 bitów, a Digital Betacam - 10, co utrudnia wzajemną weryfikację. Dla porównania: pełny 4:2:2 nieskompresowany strumień danych - jak już wyżej zostało wspomniane - osiąga w wersji 8- bitowej poziom do 270 Mbs.
    Trudno sobie w tym kontekście wyobrazić, jak ogromną ilością danych na jednostkę czasu transmisji/zapisu operują systemy HDTV. Aby zilustrować jak skomplikowany jest to problem i jakie trudności technologiczne muszą zostać pokonane, a jednocześnie z jakim tempem rozwoju w tej dziedzinie mamy do czynienia, wystarczy porównać dwa rozwiązania zastosowane w urządzeniach "high definition" - VIPER firmy Thomson (model lansowany w 2002 r.) i HDC - F950 f-my SONY (model lansowany w 2003r - nowy format MXF). Dla porównania kilka danych: VIPER - z sensorów CCD 3x9,2 megapikseli, sczytuje obraz o 1080 liniach poziomych w formacie 16x9 i 24 lub 25/30 klatek na sekundę, konwertując sygnał analogowy z głębokością 12 bitów i to próbkowany 4:4:4, ale wielkość strumienia danych prawie 3 Gbs (!) wymaga specjalnego połączenia dual HD SDI z urządzeniem rejestrującym obraz na macierzy dyskowej. Sony HDC - F950 podobnie, 1920x1080 pikseli, 12 bitów, 4:4:4 digital RGB HD sygnał, stosuje jednak kompresję 4,4:1, aby zapisać na kasecie strumień danych o ilości 185 Mbs. Oba modele nie zostały jednak zbudowane jako kamery telewizyjne, są to już urządzenia o najwyższym stopniu skomplikowania, konstruowane jako alternatywa dla stosowania tradycyjnego, światłochemicznego zapisu obrazu w kinematografii.
    W ten sposób pozornie zatoczyliśmy tematyczne koło, wracając do punktu wyjściowego. Jednak treścią artykułu ma nie być wniosek, że "zwykłe" kamery telewizyjne nie mogą być zastosowane w projektach dla kina. Celem powyższego tekstu było jedynie zwrócenie uwagi na wysoki stopień komplikacji technicznej stosowanych rozwiązań i trudne do zgłębienia uwarunkowania teoretyczne wykorzystywanych procesów. Jednak w konkretnych warunkach budżetowych, dystrybucyjnych i realizacyjnych, należy potrafić szczegółowo rozważyć wszelkie uwarunkowania i świadomie podjąć decyzję o kształcie ścieżki technologicznej najbardziej optymalnej dla realizacji naszego projektu. Uniknie się w ten sposób zarówno nadmiernych kosztów, jak i utraty prestiżu, o co nietrudno przy błędnych decyzjach.