Dwie architektury: CBOW (przewiduje słowo na podstawie kontekstu) i Skip-gram (przewiduje kontekst na podstawie słowa). Trening wykorzystuje negative sampling lub hierarchical softmax, by uniknąć kosztu pełnego softmax po słowniku. Po treningu wektory z warstwy ukrytej stają się embeddingami słów.
Reprezentacje rzadkie (one-hot, TF-IDF) traktują słowa jako niezależne symbole i nie wychwytują synonimii ani relacji semantycznych. Word2Vec uczy gęstych wektorów, w których podobne znaczeniowo słowa są blisko siebie.
Architektura przewidująca słowo docelowe na podstawie uśrednionego kontekstu — szybsza, lepsza dla słów częstych.
Oficjalna
Architektura przewidująca słowa kontekstu na podstawie słowa docelowego — lepsza dla słów rzadkich i małych korpusów.
Oficjalna
Aproksymacja softmax: zamiast normalizować po całym słowniku, model uczy się odróżniać prawdziwe pary od kilku losowych negatywnych.
Oficjalna
Word2Vec nie ma wektora dla słów nieobecnych w korpusie treningowym.
"Zamek" (budowla / urządzenie) dostaje jeden uśredniony wektor.
Bengio i in. wprowadzają uczone reprezentacje słów w neuronowym modelu języka — prekursor word2vec.
Mikolov i in. publikują CBOW i Skip-gram wraz z wydajnym treningiem — embeddingi gęste wchodzą do mainstreamu.
Pennington i in. (Stanford) proponują GloVe — embeddingi oparte na globalnych statystykach współwystąpień.
Facebook AI publikuje FastText — embeddingi na poziomie n-gramów znakowych, radzące sobie ze słowami spoza słownika.
Embeddingi zależne od kontekstu wypierają statyczne wektory word2vec w zadaniach wymagających ujednoznacznienia.
Złożoność czasowa: O(C·E + E·log V) na próbkę (hierarchical softmax). Złożoność przestrzenna: O(V·E).
CBOW (szybszy, lepszy dla częstych słów) vs Skip-gram (lepszy dla rzadkich słów).
Liczba wymiarów embeddingu — kompromis między ekspresją a kosztem.
Liczba słów wokół celu traktowanych jako kontekst.
Oryginalna implementacja (C) jest wysoce zoptymalizowana pod CPU z wielowątkowością.
Możliwy trening na GPU, lecz korzyść mniejsza niż w głębokich modelach z powodu płytkiej architektury.