Stematizace: Porovnání verzí
m +prolink lemma |
m +prolink |
||
Řádek 1: | Řádek 1: | ||
'''Stemming''', česky ''vytvoření základního tvaru'', je operace, která pro vyskloňované nebo časované slovo (případně odvozené), vrátí kořen slova. Algoritmus se nazývá [[stemmer]]. Tato operace se používá ve vyhledávačích a dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci [[lematizace]] provádí [[lemmatizátor]] - tato operace vrací základní tvar slova (tj. [[Lemma (lingvistika)|lemma]]) místo |
'''Stemming''', česky ''vytvoření základního tvaru'', je operace, která pro vyskloňované nebo časované slovo (případně odvozené), vrátí kořen slova. Algoritmus se nazývá [[stemmer]]. Tato operace se používá ve vyhledávačích a dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci [[lematizace]] provádí [[lemmatizátor]] - tato operace vrací základní tvar slova (tj. [[Lemma (lingvistika)|lemma]]) místo [[kmen (mluvnice)|kmene]]. |
||
Při stemmingu se odstraní [[morfologie|morfologické]] koncovky a případně předpony, např. ''ne-''. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v [[dotaz]]u. |
Při stemmingu se odstraní [[morfologie|morfologické]] koncovky a případně předpony, např. ''ne-''. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v [[dotaz]]u. |
||
Stemming je závislý na jazyku. Základ metody je seznam možných koncovek a jejich odstraňování. |
Stemming je závislý na jazyku. Základ metody je v češtině seznam možných koncovek a jejich odstraňování. |
||
== Problémy == |
== Problémy == |
Verze z 30. 11. 2013, 15:19
Stemming, česky vytvoření základního tvaru, je operace, která pro vyskloňované nebo časované slovo (případně odvozené), vrátí kořen slova. Algoritmus se nazývá stemmer. Tato operace se používá ve vyhledávačích a dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci lematizace provádí lemmatizátor - tato operace vrací základní tvar slova (tj. lemma) místo kmene.
Při stemmingu se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.
Stemming je závislý na jazyku. Základ metody je v češtině seznam možných koncovek a jejich odstraňování.
Problémy
Při stemmingu hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.
Pokud nastává změna při ohýbání v kořeni, tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.
Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný "kratší" kmen.