TFIDF

TFIDF (ang. TF – term frequency, IDF – Szablon:Link-interwiki) – ważenie częstością termów – odwrotna częstość w dokumentach – jedna z metod obliczania wagi słów na podstawie liczby ich wystąpień^[1], należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów^[2].

Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwaniu informacji^[3], w szczególności stosowany w wyszukiwarkach internetowych^[4], kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.

Wartość TF-IDF oblicza się ze wzoru^[3]^[4]:

(t f - i d f)_{i, j} = t f_{i, j} \times i d f_{i},

gdzie $t f_{i, j}$ to tzw. „term frequency”, wyrażana wzorem:

t f_{i, j} = \frac{n_{i, j}}{\sum_{k} n_{k, j}},

gdzie $n_{i, j}$ jest liczbą wystąpień termu $(t_{i})$ w dokumencie $d_{j},$ a mianownik jest sumą liczby wystąpień wszystkich termów w dokumencie $d_{j} .$ Wielkość $i d f_{i}$ to „inverse document frequency” wyrażana wzorem:

i d f_{i} = \log \frac{| D |}{| {d : t_{i} \in d} |},

gdzie:

| D |

– liczba dokumentów w korpusie,

| {d : t_{i} \in d} |

– liczba dokumentów zawierających przynajmniej jedno wystąpienie danego termu.

Przypisy

Szablon:Przypisy

Bibliografia

Waga Termów w Automatycznych Systemach Przetwarzania Tekstu [en]

Zobacz też

PageRank
TF

↑ Szablon:Cytuj
↑ Szablon:Cytuj
↑ ^3,0 ^3,1 Szablon:Cytuj
↑ ^4,0 ^4,1 Implementing the TF-IDF Search Engine

[1] Szablon:Cytuj

[2] Szablon:Cytuj

[:0-3] 3,0 ^3,1 Szablon:Cytuj

[:1-4] 4,0 ^4,1 Implementing the TF-IDF Search Engine

[1]

[2]

[3]

[4]

TFIDF

Przypisy

Bibliografia

Zobacz też

Menu nawigacyjne

Szukaj