Tworzenie książki (wyłącz)
 Dodaj tę stronę do książki Pokaż książkę (0 stron) Proponowane strony

TFIDF

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, szukaj

TFIDF (ang. TF – term frequency, IDF – inverse document frequency) - ważenie częstością termów - odwrotna częstość w dokumentach - jedna z metod obliczania wagi słów w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów.

Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwarkach internetowych, kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.

Wartość TF-IDF oblicza się ze wzoru:

 \mathrm{(tf\mbox{-}idf)_{i,j}} = \mathrm{tf_{i,j}} \times  \mathrm{idf_{i}}

Gdzie tf_{i, j} to tzw. "term frequency", wyrażana wzorem:

 \mathrm{tf_{i,j}} = \frac{n_{i,j}}{\sum_k n_{k,j}}

Gdzie n_{i,j} jest liczbą wystąpień termu (t_{i}) w dokumencie d_{j}, a mianownik jest sumą liczby wystąpień wszystkich termów w dokumencie d_{j}.

idf_{i} to "inverse document frequency", wyrażana wzorem:

 \mathrm{idf_{i}} =  \log \frac{|D|}{|\{d: t_{i} \in d\}|}

Gdzie:

[edytuj] Zobacz też

[edytuj] Linki zewnętrzne

Źródło „http://pl.wikipedia.org/w/index.php?title=TFIDF&oldid=30440301
Osobiste
Przestrzenie nazw

Warianty
Działania
Nawigacja
Dla czytelników
Dla wikipedystów
Narzędzia
Drukuj lub eksportuj
W innych językach

Polecamy: Pozycjonowanie, wózki dziecięce, Kino domowe, Viagra, Kredyty