TFIDF

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

TFIDF (ang. TF – term frequency, IDF – Szablon:Link-interwiki) – ważenie częstością termów – odwrotna częstość w dokumentach – jedna z metod obliczania wagi słów na podstawie liczby ich wystąpień[1], należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów[2].

Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwaniu informacji[3], w szczególności stosowany w wyszukiwarkach internetowych[4], kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.

Wartość TF-IDF oblicza się ze wzoru[3][4]:

(tf-idf)i,j=tfi,j×idfi,

gdzie tfi,j to tzw. „term frequency”, wyrażana wzorem:

tfi,j=ni,jknk,j,

gdzie ni,j jest liczbą wystąpień termu (ti) w dokumencie dj, a mianownik jest sumą liczby wystąpień wszystkich termów w dokumencie dj. Wielkość idfi to „inverse document frequency” wyrażana wzorem:

idfi=log|D||{d:tid}|,

gdzie:

|D| – liczba dokumentów w korpusie,
|{d:tid}| – liczba dokumentów zawierających przynajmniej jedno wystąpienie danego termu.

Przypisy

Szablon:Przypisy

Bibliografia

Zobacz też