Prawo Zipfa

Szablon:Rozkład prawdopodobieństwa infobox Prawo Zipfa – prawo empiryczne głoszące, że wiele rodzajów danych tworzonych przez ludzi lub odnoszących się do ich zachowań cechuje charakterystyczny rozkład wartości, w którym dystrybucja częstotliwości występowania poszczególnych wartości jest odwrotnie proporcjonalna do ich rangi statystycznej^[1].

Pod koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące tekstu. Twierdzenia francuskiego badacza zweryfikował i uściślił amerykański lingwista George Kingsley Zipf Szablon:Odn.

Prawo Zipfa dla języków naturalnych

Pierwotnie prawo to zostało sformułowane dla języków naturalnych, w których zaobserwowano, że gdy na podstawie ich korpusów językowych ustali się wykaz wyrazów ułożonych w malejącym porządku częstotliwości ich występowania, to ranga (numer porządkowy) wyrazu jest odwrotnie proporcjonalna do częstotliwości, zatem iloczyn częstotliwości i rangi powinien być wielkością stałąSzablon:Odn. Przykładowo: w Szablon:Link-interwiki dla języka angielskiego w wersji amerykańskiej, najczęściej występujące słowo „the” stanowi aż 7% wszystkich słów, drugie w kolejności „of” stanowi 3,5%, trzecie „a” 1,75%, zaś pierwsze 135 słów składa się na 50% objętości całego korpusu^[2].

Matematycznie można to wyrazić w formie równania:

r \times f = constans,

gdzie $r$ jest to ranga wyrazu w tekście lub grupie tekstów, a $f$ częstotliwość jego występowaniaSzablon:Odn.

W odpowiednio obszernych korpusach językowych wartość stałej jest charakterystyczna dla danego języka, a prawo jest spełnione niemal doskonale dla pierwszych najczęściej występujących 200–300 słów. W poszczególnych tekstach zależy ona natomiast od stylu i tematyki. Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość przez przeciętnego czytelnika. Im bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiemSzablon:Odn.

Inne przykłady działania prawa

Podobne zależności są też obserwowane dla częstości występowania wyrażeń matematycznych w tekstach technicznych^[3], częstości występowania wysokości nut w zapisach utworów muzycznych^[4], a nawet danych nie odnoszących się bezpośrednio do wytworów ludzi, ale związanych z ich aktywnością takich jak ranking wielkości miast, liczby osób zatrudnionych w przedsiębiorstwach, rozkładu wysokości dochodów osobistych, czy popularności stacji telewizyjnych^[5].

Zobacz też

Przypisy

Szablon:Przypisy

Bibliografia

Szablon:Cytuj książkę

Szablon:Kontrola autorytatywna

[1] Szablon:Cytuj

[2] Szablon:Cytuj

[3] Szablon:Cytuj

[4] Szablon:Cytuj

[5] Szablon:Cytuj

[1]

[2]

[3]

[4]

[5]

Prawo Zipfa

Spis treści

Prawo Zipfa dla języków naturalnych

Inne przykłady działania prawa

Zobacz też

Przypisy

Bibliografia

Menu nawigacyjne

Prawo Zipfa

Prawo Zipfa dla języków naturalnych

Inne przykłady działania prawa

Zobacz też

Przypisy

Bibliografia

Menu nawigacyjne

Szukaj