Stematizace: Porovnání verzí
pahyl ... |
m přeskládání textu v definici značka: editace z Vizuálního editoru |
||
(Není zobrazeno 24 mezilehlých verzí od 14 dalších uživatelů.) | |||
Řádek 1: | Řádek 1: | ||
''' |
'''Stematizace''' (anglicky '''stemming''') je nalezení [[kmen (mluvnice)|kmene]] slova (nepřesně a úžeji taky [[kořen (mluvnice)|kořene]]). Algoritmus se nazývá [[stemmer]]. V praxi se stematizace používá například ve [[vyhledávač]]ích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar. |
||
Při |
Při stematizaci se odstraní [[Morfologie (lingvistika)|morfologické]] koncovky a případně předpony, např. ''ne-''. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v [[dotaz]]u. |
||
Podobnou operaci [[lemmatizace]] provádí lemmatizátor – tato operace vrací základní tvar slova (tj. [[Lemma (lingvistika)|lemma]]) místo [[kmen (mluvnice)|kmene]]. |
|||
⚫ | |||
⚫ | |||
== Problémy == |
== Problémy == |
||
Při |
Při stematizaci hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda. |
||
Pokud |
Pokud při ohýbání nastává změna v kořeni (např. d'''í'''tě/d'''ě'''tí), tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně. |
||
Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný |
Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný kmen. |
||
{{Pahýl}} |
|||
{{pahýl - Informační věda a knihovnictví}} |
|||
{{Autoritní data}} |
|||
{{Portály|Informační věda a knihovnictví}} |
{{Portály|Informační věda a knihovnictví}} |
||
[[Kategorie:Vyhledávání informací]] |
|||
[[Kategorie:Zpracování přirozeného jazyka]] |
|||
[[es:Stemming]] |
Aktuální verze z 16. 8. 2023, 22:05
Stematizace (anglicky stemming) je nalezení kmene slova (nepřesně a úžeji taky kořene). Algoritmus se nazývá stemmer. V praxi se stematizace používá například ve vyhledávačích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar.
Při stematizaci se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.
Podobnou operaci lemmatizace provádí lemmatizátor – tato operace vrací základní tvar slova (tj. lemma) místo kmene.
Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.
Problémy[editovat | editovat zdroj]
Při stematizaci hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.
Pokud při ohýbání nastává změna v kořeni (např. dítě/dětí), tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.
Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný kmen.