Robocikowo>ROBOCIKOWO
Dane

BoW

1954HistorycznyOpublikowany
Metoda reprezentacji tekstu jako wektora częstości słów, bez uwzględnienia ich kolejności.
Kluczowa innowacja
Reprezentacja dokumentu jako wielozbioru słów ignorująca kolejność, która umożliwia proste i wydajne obliczeniowo przetwarzanie tekstu.
Kategoria
Dane
Poziom abstrakcji
Primitive
Poziom operacji
Dane
Zastosowania
Klasyfikacja dokumentów (spam detection)Wyszukiwanie informacji (IR)Analiza sentymentu na prostych zbiorachBazowa reprezentacja dla Naive Bayes i SVMPorównywanie podobieństwa dokumentów

Jak działa

Budowany jest słownik wszystkich unikalnych słów w korpusie. Każdy dokument jest reprezentowany jako wektor o długości słownika, gdzie każda pozycja zawiera liczbę wystąpień danego słowa w dokumencie (lub 0/1 dla binarnej wersji). Kolejność słów jest całkowicie ignorowana.

Rozwiązany problem

Surowy tekst musi być skonwertowany na reprezentację numeryczną do przetwarzania przez algorytmy ML. BoW dostarcza najprostszą taką reprezentację bez skomplikowanego przetwarzania wstępnego.

Implementacja

Pułapki implementacyjne
Brak informacji o kolejności słówŚrednia

BoW traktuje "pies gryzie człowieka" i "człowiek gryzie psa" identycznie. Dla zadań zależnych od kolejności (sentyment, pytania) to krytyczne ograniczenie.

Wysoka wymiarowość dla dużych słownikówŚrednia

Dla słownika 100k słów każdy dokument to wektor 100k wymiarów — większość zer (sparse). Wymaga algorytmów obsługujących sparse vectors lub redukcji wymiarowości.

Paradygmat wykonania

Tryb główny
dense
Wzorzec aktywacji
all_paths_active

Równoległość

Poziom równoległości
fully_parallel
Zakres
traininginference