Wyszukiwanie

Cosine Similarity

AktywnyOpublikowany

Miara podobieństwa dwóch wektorów oparta na kosinusie kąta między nimi, niezależna od ich długości.

Kluczowa innowacja

Mierzy podobieństwo kierunku wektorów ignorując ich długość, dzięki czemu dokumenty różnej wielkości są porównywalne.

Kategoria

Wyszukiwanie

Poziom abstrakcji

Primitive

Poziom operacji

RetrievalDane

Zastosowania

Ranking dokumentów w wyszukiwarkachWyszukiwanie semantyczne nad embeddingamiSystemy rekomendacjiDeduplikacja i klasteryzacja tekstuWyszukiwanie najbliższych sąsiadów (k-NN)

Jak działa

cos(θ) = (A · B) / (||A|| · ||B||). Iloczyn skalarny wektorów A i B dzielony przez iloczyn ich norm euklidesowych. Wynik w zakresie [-1, 1] (dla wektorów nieujemnych, np. TF-IDF, w zakresie [0, 1]): 1 = identyczny kierunek, 0 = ortogonalność (brak wspólnych cech).

Rozwiązany problem

Odległość euklidesowa między wektorami dokumentów jest zdominowana przez ich długość — dłuższy dokument jest "dalej" mimo tej samej tematyki. Cosine similarity normalizuje ten efekt, patrząc tylko na kąt.