Prawo Zipfa

Z testwiki
Wersja z dnia 12:07, 28 sty 2024 autorstwa imported>Beno (WP:SK+mSI.v2.1+Bn)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacji Przejdź do wyszukiwania

Szablon:Rozkład prawdopodobieństwa infobox Prawo Zipfaprawo empiryczne głoszące, że wiele rodzajów danych tworzonych przez ludzi lub odnoszących się do ich zachowań cechuje charakterystyczny rozkład wartości, w którym dystrybucja częstotliwości występowania poszczególnych wartości jest odwrotnie proporcjonalna do ich rangi statystycznej[1].

Pod koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące tekstu. Twierdzenia francuskiego badacza zweryfikował i uściślił amerykański lingwista George Kingsley ZipfSzablon:Odn.

Prawo Zipfa dla języków naturalnych

Pierwotnie prawo to zostało sformułowane dla języków naturalnych, w których zaobserwowano, że gdy na podstawie ich korpusów językowych ustali się wykaz wyrazów ułożonych w malejącym porządku częstotliwości ich występowania, to ranga (numer porządkowy) wyrazu jest odwrotnie proporcjonalna do częstotliwości, zatem iloczyn częstotliwości i rangi powinien być wielkością stałąSzablon:Odn. Przykładowo: w Szablon:Link-interwiki dla języka angielskiego w wersji amerykańskiej, najczęściej występujące słowo „the” stanowi aż 7% wszystkich słów, drugie w kolejności „of” stanowi 3,5%, trzecie „a” 1,75%, zaś pierwsze 135 słów składa się na 50% objętości całego korpusu[2].

Matematycznie można to wyrazić w formie równania:

r×f=constans,

gdzie r jest to ranga wyrazu w tekście lub grupie tekstów, a f częstotliwość jego występowaniaSzablon:Odn.

W odpowiednio obszernych korpusach językowych wartość stałej jest charakterystyczna dla danego języka, a prawo jest spełnione niemal doskonale dla pierwszych najczęściej występujących 200–300 słów. W poszczególnych tekstach zależy ona natomiast od stylu i tematyki. Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość przez przeciętnego czytelnika. Im bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiemSzablon:Odn.

Inne przykłady działania prawa

Podobne zależności są też obserwowane dla częstości występowania wyrażeń matematycznych w tekstach technicznych[3], częstości występowania wysokości nut w zapisach utworów muzycznych[4], a nawet danych nie odnoszących się bezpośrednio do wytworów ludzi, ale związanych z ich aktywnością takich jak ranking wielkości miast, liczby osób zatrudnionych w przedsiębiorstwach, rozkładu wysokości dochodów osobistych, czy popularności stacji telewizyjnych[5].

Zobacz też

Przypisy

Szablon:Przypisy

Bibliografia

Szablon:Kontrola autorytatywna