Robocikowo>ROBOCIKOWO
Dane

TF-IDF

1972AktywnyOpublikowany
Statystyczna miara wagi słowa w dokumencie uwzględniająca jego częstość i rzadkość w korpusie.
Kluczowa innowacja
Waży słowa nie tylko przez częstość w dokumencie (TF), ale też przez rzadkość w całym korpusie (IDF), eliminując dominację często występujących, lecz mało informatywnych słów.
Kategoria
Dane
Poziom abstrakcji
Building block
Poziom operacji
Dane
Zastosowania
Wyszukiwarki internetowe (ranking dokumentów)Klasyfikacja tekstuWyodrębnianie słów kluczowychSystemy rekomendacji treściPierwsza linia obrony przed spamem e-mailowym

Jak działa

TF(t,d) = liczba wystąpień terminu t w dokumencie d / całkowita liczba słów w d. IDF(t) = log(N / df(t)), gdzie N = liczba dokumentów, df(t) = liczba dokumentów zawierających t. TF-IDF(t,d) = TF(t,d) × IDF(t). Wynikowe wektory dokumentów są rzadkie i mogą być używane w wyszukiwaniu i klasyfikacji.

Rozwiązany problem

Bag-of-Words traktuje wszystkie słowa jednakowo — słowa takie jak "i", "w", "jest" mają wysoką częstość, ale niską wartość informacyjną. TF-IDF nadaje niższe wagi popularnym słowom i wyższe rzadkim, specyficznym dla danego dokumentu.

Implementacja

Pułapki implementacyjne
IDF wymaga pełnego korpusu przy budowie indeksuŚrednia

TF-IDF nie może być obliczane inkrementalnie — każdy nowy dokument zmienia IDF wszystkich terminów. Dynamiczne korpusy wymagają periodycznego re-buildowania indeksu lub przybliżonych metod.

Brak semantycznego zrozumienia — synonimy traktowane jako różne terminyŚrednia

TF-IDF traktuje "samochód" i "auto" jako niezależne terminy. Dla zadań wymagających semantycznego dopasowania (question answering, RAG) embeddingi gęste są lepszym wyborem.

Ewolucja

Oryginalny paper · 1972 · Journal of Documentation · Karen Spärck Jones
A Statistical Interpretation of Term Specificity and Its Application in Retrieval
Karen Spärck Jones

Paradygmat wykonania

Tryb główny
sparse
Wzorzec aktywacji
subset_active

Równoległość

Poziom równoległości
fully_parallel
Zakres
traininginference