Kodowanie gramatykowe

Kodowanie gramatykowe (ang. grammar-based coding) – nazwa grupy algorytmów kodowania stosowanych w bezstratnej kompresji danych, w których dane wejściowe opisuje się gramatyką bezkontekstową, dąży się przy tym do minimalizacji ilości reguł. Następnie gramatyka jest kompresowana innymi metodami. Kodowanie sprawdza się m.in. w kompresji DNA oraz tekstów naturalnych, w których powtarzają się ciągi liter, ale często też całe słowa, frazy czy zdania.

Idea kodowania gramatykowego wykorzystuje powtórzenia ciągów liter, które są zastępowane specjalnymi symbolami (nieterminalnymi). Np. w tekście „aaabaaacaaadaaae” powtarza się ciąg „aaa”, stąd gramatyka, która go opisuje może składać się z dwóch reguł:

$A \to a a a$ – reguła pomocnicza, zapamiętująca powtórzenie;
$S \to A b A c A d A e$ – reguła główna, opisująca cały tekst (gdzie $S$ to symbol startowy).

Istnieją dwa podejścia do budowania gramatyki:

Kodowanie rozpoczyna się od pustego ciągu, do którego dopisywane są kolejne litery z tekstu i gdy zajdzie potrzeba, tworzone są nowe reguły pomocnicze. Metody działające według tego schematu:
- LZ78, LZW,
- Sequitur.
Kodowanie rozpoczyna się od wejściowego tekstu i w wyniku jego całościowej analizy podejmowane są decyzje o dodaniu nowych reguł. Metody działające według tego schematu:
- Multilevel Pattern Matching (MPM),
- Byte Pair Encoding (BPE),
- Greedy.

LZ78, LZW

Szablon:Osobny artykuł Chociaż metoda LZ78 (i pochodne) jest klasyfikowana jako kodowanie słownikowe, obecnie rozważa się ją także w kategoriach kodowania gramatykowego. Podstawowym krokiem kodowania jest dodawanie do słownika konkatenacji najdłuższego słowa ze słownika pasującego do początku niezakodowanych jeszcze danych oraz kolejnego symbolu; np. jeśli do zakodowania jest słowo „wiki”, a w słowniku istnieje „wik”, to do słownika trafia „wik” + „i”.

Z punktu widzenia kodowania gramatykowego słownik jest tożsamy z listą reguł, zaś jego rozszerzenie z dodaniem nowej; np. jeśli istnieje reguła $A \to w i k$ i ma zostać zakodowane „wiki”, wówczas dodawana jest nowa reguła $B \to A i .$

Sequitur

Szablon:Osobny artykuł

Multilevel Pattern Matching (MPM)

Uniwersalna metoda MPM została opracowana przez Johna Kieffere, En-hui Yanga, Gregora Nelsona oraz Pamelę Cosman ([MPM2000]). Jednakże jej specjalny przypadek był znany już w latach 70. XX wieku i stosowany w zapisie oraz działaniach na funkcjach boolowskich (binary decision diagrams – BDD); metoda ta była już wówczas traktowana jako pewna forma kompresji danych.

W MPM kodowany tekst jest rekurencyjnie dzielony na podsłowa, następnie wszystkie słowa na tym samym poziomie podziału są zamieniane na reguły mające po prawej stronie słowa z głębszego poziomu. MPM zakłada dowolny podział, na 2, 3, 4 i więcej części.

Na przykład kodowanie tekstu aabbaaabababaaab dla podziałów na 2 części przebiega następująco:

poziom 0 = $\underset{S}{\underset{⏟}{a a b b a a a b a b a b a a a b}},$ produkcje: $S \to T_{1} T_{2},$
poziom 1 = $\underset{T_{1}}{\underset{⏟}{a a b b a a a b}}, \underset{T_{2}}{\underset{⏟}{a b a b a a a b}},$ produkcje: $T_{1} \to U_{1} U_{2}, T_{2} \to U_{3} U_{2},$
poziom 2 = $\underset{U_{1}}{\underset{⏟}{a a b b}} \underset{U_{2}}{\underset{⏟}{a a a b}} \underset{U_{3}}{\underset{⏟}{a b a b}} \underset{U_{2}}{\underset{⏟}{a a a b}},$ produkcje: $U_{1} \to V_{1} V_{2}, U_{2} \to V_{1} V_{3}, U_{3} \to V_{3} V_{3},$
poziom 3 = $\underset{V_{1}}{\underset{⏟}{a a}} \underset{V_{2}}{\underset{⏟}{b b}} \underset{V_{1}}{\underset{⏟}{a a}} \underset{V_{3}}{\underset{⏟}{a b}} \underset{V_{3}}{\underset{⏟}{a b}} \underset{V_{3}}{\underset{⏟}{a b}} \underset{V_{1}}{\underset{⏟}{a a}} \underset{V_{3}}{\underset{⏟}{a b}},$ produkcje: $V_{1} \to a a, V_{2} \to b b, V_{3} \to a b .$

Jak widać już przy drugim podziale ujawniają się powtórzenia – zamiast $2^{2} = 4$ ciągów, są 3 różne $(U_{1, 2, 3});$ podobnie na kolejnym – zamiast $2^{3} = 8$ ciągów, są zaledwie 3 różne $(V_{1, 2, 3}) .$

Byte Pair Encoding (BPE)

Metoda została opisana w pracy [BPE1999]. Nie daje ona wyraźnie lepszej kompresji danych – współczynniki kompresji, a także czas kompresji są gorsze niż popularnych metod opartych na LZ77 czy LZ78 (np. gzip). Jednak wyszukiwanie wzorców w skompresowanych tekstach jest szybsze i łatwiejsze – nie jest wymagana dekompresja.

Tworzenie gramatyki (kompresowanie) polega na iteracyjnym dodawaniu nowych reguł dla najczęściej powtarzających się par symboli w produkcji startowej.

Np.

$S \to \underline{a b} c d \underline{a b} c d a c \underline{a b} a d,$
$S \to A \underline{c d} A \underline{c d} a c A a d,$ $A \to a b,$
$S \to \underline{A B} \underline{A B} a c A a d,$ $A \to a b,$ $B \to c d,$
$S \to C C a c A a d,$ $A \to a b,$ $B \to c d,$ $C \to A B .$

Greedy

Pomysłodawcami metody opisanej w [GRE2000] są Aleberto Apostolico oraz Stefano Lonardi. Metoda greedy (zachłanna) rozpoczyna od całego tekstu, następnie wyszukiwany jest ciąg, którego zastąpienie przez wprowadzenie nowej produkcji spowoduje maksymalne skrócenie gramatyki. Zasada działania jest więc dość podobna do opisanej metody BPE, z tą różnicą, że kryteria wyboru ciągu są bardziej złożone.

Eksperymenty autorów wykazały, że metoda daje lepsze współczynniki kompresji niż popularne kompresory gzip, bzip2 i compress^[1].

Zobacz też

kodowanie słownikowe

Przypisy

Szablon:Przypisy

Bibliografia

↑ Szablon:Cytuj stronę

[1] Szablon:Cytuj stronę

[1]

Kodowanie gramatykowe

Spis treści

LZ78, LZW

Sequitur

Multilevel Pattern Matching (MPM)

Byte Pair Encoding (BPE)

Greedy

Zobacz też

Przypisy

Bibliografia

Menu nawigacyjne

Kodowanie gramatykowe

LZ78, LZW

Sequitur

Multilevel Pattern Matching (MPM)

Byte Pair Encoding (BPE)

Greedy

Zobacz też

Przypisy

Bibliografia

Menu nawigacyjne

Szukaj