Stematizace: Porovnání verzí
m r2.5.2) (robot přidal: ar, de, en, eu, fr, hy, id, it, ru, sv; kosmetické úpravy |
m přidána Kategorie:Vyhledávání za použití HotCat |
||
Řádek 17: | Řádek 17: | ||
{{Kategorie:Vyhledávání}} |
{{Kategorie:Vyhledávání}} |
||
[[Kategorie:Vyhledávání]] |
|||
[[ar:تشذيب]] |
[[ar:تشذيب]] |
Verze z 5. 9. 2011, 11:04
Stemming, česky vytvoření základního tvaru, je operace, která pro vyskloňované nebo časované slovo (případně odvozené), vrátí kořen slova. Algoritmus se nazývá stemmer. Tato operace se používá ve vyhledávačích a dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobná operace je lematizace, která vrací základní tvar slova.
Při stemmingu se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.
Stemming je závislý na jazyku. Základ metody je seznam možných koncovek a jejich odstraňování.
Problémy
Při stemmingu hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.
Pokud nastává změna při ohýbání v kořeni, tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.
Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný "kratší" kmen.
Šablona:Pahýl - Informační věda a knihovnictví
Obrázky, zvuky či videa k tématu Stemming na Wikimedia Commons