Stematizace: Porovnání verzí

Smazaný obsah Přidaný obsah

V textu

Aktuální verze z 16. 8. 2023, 22:05

Stematizace (anglicky stemming) je nalezení kmene slova (nepřesně a úžeji taky kořene). Algoritmus se nazývá stemmer. V praxi se stematizace používá například ve vyhledávačích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar.

Při stematizaci se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.

Podobnou operaci lemmatizace provádí lemmatizátor – tato operace vrací základní tvar slova (tj. lemma) místo kmene.

Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.

Problémy[editovat | editovat zdroj]

Při stematizaci hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.

Pokud při ohýbání nastává změna v kořeni (např. dítě/dětí), tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.

Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný kmen.

Pahýl

Tento článek je příliš stručný nebo postrádá důležité informace.
Pomozte Wikipedii tím, že jej vhodně rozšíříte. Nevkládejte však bez oprávnění cizí texty.

@@ Řádek 1: / Řádek 1: @@
-'''Stemming''', česky ''vytvoření základního tvaru'', je operace, která pro vyskloňované nebo časované slovo (případně odvozené), vrátí kořen slova. Algoritmus se nazývá [[stemmer]]. Tato operace se používá ve vyhledávačích a dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobná operace je [[lematizace]], která vrací základní tvar slova.
+'''Stematizace''' (anglicky '''stemming''') je nalezení [[kmen (mluvnice)|kmene]] slova (nepřesně a úžeji taky [[kořen (mluvnice)|kořene]]). Algoritmus se nazývá [[stemmer]]. V praxi se stematizace používá například ve [[vyhledávač]]ích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar.
-Při stemmingu se odstraní [[morfologie|morfologické]] koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v [[dotaz]]u.
+Při stematizaci se odstraní [[Morfologie (lingvistika)|morfologické]] koncovky a případně předpony, např. ''ne-''. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v [[dotaz]]u.
+Podobnou operaci [[lemmatizace]] provádí lemmatizátor – tato operace vrací základní tvar slova (tj. [[Lemma (lingvistika)|lemma]]) místo [[kmen (mluvnice)|kmene]].
-Stemming je závislý na jazyku. Základ metody je seznam možných koncovek a jejich odstraňování.
+Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.
 == Problémy ==
-Při stemmingu hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem  a leda.
+Při stematizaci hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.
-Pokud nastává změna při ohýbání v kořeni, tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.
+Pokud při ohýbání nastává změna v kořeni (např. d'''í'''tě/d'''ě'''tí), tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.
-Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný "kratší" kmen.
+Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný kmen.
+{{Pahýl}}
-{{pahýl - Informační věda a knihovnictví}}
+{{Autoritní data}}
 {{Portály|Informační věda a knihovnictví}}
-{{Kategorie:Vyhledávání}}
+[[Kategorie:Vyhledávání informací]]
+[[Kategorie:Zpracování přirozeného jazyka]]
-[[es:Stemming]]