Přeskočit na obsah

Stematizace: Porovnání verzí

Z Wikipedie, otevřené encyklopedie
Smazaný obsah Přidaný obsah
JAnDbot (diskuse | příspěvky)
m {{Autoritní data}}; kosmetické úpravy
m odkazy
Řádek 1: Řádek 1:
'''Stematizace''' (anglicky '''stemming''') je nalezení [[kmen (mluvnice)|kmene]] slova (nepřesně a úžeji taky [[kořen (mluvnice)|kořene]]). Algoritmus se nazývá [[stemmer]]. V praxi se stematizace používá například ve [[vyhledávač]]ích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci [[lematizace]] provádí [[lemmatizátor]] – tato operace vrací základní tvar slova (tj. [[Lemma (lingvistika)|lemma]]) místo [[kmen (mluvnice)|kmene]]).
'''Stematizace''' (anglicky '''stemming''') je nalezení [[kmen (mluvnice)|kmene]] slova (nepřesně a úžeji taky [[kořen (mluvnice)|kořene]]). Algoritmus se nazývá [[stemmer]]. V praxi se stematizace používá například ve [[vyhledávač]]ích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci [[lematizace]] provádí [[lemmatizátor]] – tato operace vrací základní tvar slova (tj. [[Lemma (lingvistika)|lemma]]) místo [[kmen (mluvnice)|kmene]]).


Při stematizaci se odstraní [[morfologie|morfologické]] koncovky a případně předpony, např. ''ne-''. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v [[dotaz]]u.
Při stematizaci se odstraní [[Morfologie (lingvistika)|morfologické]] koncovky a případně předpony, např. ''ne-''. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v [[dotaz]]u.


Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.
Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.

Verze z 31. 3. 2023, 23:34

Stematizace (anglicky stemming) je nalezení kmene slova (nepřesně a úžeji taky kořene). Algoritmus se nazývá stemmer. V praxi se stematizace používá například ve vyhledávačích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci lematizace provádí lemmatizátor – tato operace vrací základní tvar slova (tj. lemma) místo kmene).

Při stematizaci se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.

Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.

Problémy

Při stematizaci hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.

Pokud při ohýbání nastává změna v kořeni (např. dítě/dětí), tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.

Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný kmen.