Lematyzator określa część mowy tokenu (POS tagging), a następnie odwzorowuje go na lemat za pomocą słownika morfologicznego lub reguł odmiany. Wymaga zasobów językowych, dlatego jest wolniejszy i bardziej zależny od języka niż stemming.
Stemming daje rdzenie niebędące słowami i myli niespokrewnione formy. Lematyzacja, korzystając z wiedzy morfologicznej, poprawnie scala formy fleksyjne ("był", "jest", "będzie" → "być") zachowując interpretowalność.
Bez części mowy "left" (czasownik vs przymiotnik) lematyzuje się błędnie.
Pełny pipeline (tokenizacja + POS + słownik) jest istotnie wolniejszy od reguł obcinania.
Złożoność czasowa: O(n) + koszt POS-taggingu. Złożoność przestrzenna: O(|L|) słownik morfologiczny.
Czy lematyzator otrzymuje tag części mowy — krytyczne dla słów wieloznacznych gramatycznie.
Źródło wiedzy morfologicznej: słownik (WordNet), model statystyczny/neuronowy (spaCy) lub reguły (Morfologik dla PL).
Lookup słownikowy i reguły morfologiczne są CPU-bound; gdy POS-tagging używa modelu neuronowego, może korzystać z GPU.