Wyszukiwanie

BM25 (Okapi BM25)

1994AktywnyOpublikowany

Probabilistyczna funkcja rankingowa z saturacją częstości terminu i normalizacją długości dokumentu — następca TF-IDF.

Kluczowa innowacja

Wprowadza saturację częstości terminu (parametr k1) i normalizację długości dokumentu (parametr b), korygując dwie główne słabości TF-IDF.

Kategoria

Wyszukiwanie

Poziom abstrakcji

Building block

Poziom operacji

Retrieval

Zastosowania

Domyślny ranking w Elasticsearch / OpenSearchWyszukiwarki pełnotekstowe (Lucene, Solr)Sparse retriever w hybrydowym RAGBaseline w benchmarkach IR (BEIR)

Jak działa

score(D,Q) = Σ IDF(qi) · ( f(qi,D)·(k1+1) ) / ( f(qi,D) + k1·(1 - b + b·|D|/avgdl) ). f(qi,D) = częstość termu qi w dokumencie D, |D| = długość D, avgdl = średnia długość dokumentu. k1 (zwykle 1.2–2.0) kontroluje saturację TF, b (zwykle 0.75) siłę normalizacji długości. IDF używa wariantu probabilistycznego.

Rozwiązany problem

W TF-IDF częstość terminu rośnie liniowo (100 wystąpień = 100× waga) i nie uwzględnia spójnie długości dokumentu. BM25 saturuje wkład kolejnych wystąpień i karze nienaturalnie długie dokumenty.

Komponenty

Saturacja TF (k1)Tłumienie częstości

Człon ( f·(k1+1) ) / ( f + k1·... ) sprawia, że wkład częstości terminu rośnie asymptotycznie zamiast liniowo.

Normalizacja długości (b)Korekta długości

Czynnik (1 - b + b·|D|/avgdl) karze dokumenty dłuższe od średniej, ograniczając ich sztuczną przewagę.

Probabilistyczny IDFWaga globalna

IDF(t) = log((N - df + 0.5)/(df + 0.5) + 1) — wariant wyprowadzony z modelu probabilistycznego relewancji.

Oficjalna

Implementacja

Implementacje referencyjne

Apache Lucene BM25Similarity

Java · Apache Software Foundation

rank_bm25 (Python)

Python · Dorian Brown

Pułapki implementacyjne

Tuning k1/b "na czuja" zamiast na danychŚrednia

Domyślne k1=1.2, b=0.75 nie są optymalne dla każdego korpusu (np. krótkie tytuły vs długie artykuły).

Rozwiązanie:Strojenie na zbiorze walidacyjnym z metryką nDCG/MRR.

Brak zrozumienia semantycznego — jak w TF-IDFWysoka

BM25 dalej dopasowuje leksykalnie; synonimy i parafrazy nie są wychwytywane.

Rozwiązanie:Łącz z dense retrieverem (hybrid search) lub stosuj rozszerzanie zapytań.

Ewolucja

Oryginalny paper · 1994 · TREC-3 · Stephen E. Robertson

Okapi at TREC-3

Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, Mike Gatford

1976

Probabilistyczny model relewancji

Robertson i Spärck Jones formułują probabilistyczny model wyszukiwania — teoretyczna podstawa BM25.

1994

Okapi BM25 na TREC-3

Punkt przełomowy

Pełna formuła BM25 zaprezentowana w systemie Okapi na konferencji TREC-3.

2009

Monografia "BM25 and Beyond"

Robertson i Zaragoza systematyzują rodzinę BM25 (w tym BM25F dla pól) w obszernym przeglądzie.

2021

BM25 jako sparse baseline w benchmarku BEIR

BEIR pokazuje, że BM25 pozostaje konkurencyjny wobec dense retrieverów w zero-shot retrieval.

Źródła

The Probabilistic Relevance Framework: BM25 and Beyond

Foundations and Trends in Information Retrieval

Robertson & Zaragoza (2009) — przeglądowa monografia BM25.