K počítačové morfologické analýze češtiny

Práce se zabývá problematikou strojové morfologické analýzy češtiny. Nejprve jsou představeny v současnosti používané způsoby organizace zdrojových dat morfologického analyzátoru a na příkladech doloženy nevýhody, které jsou s nimi nevyhnutelně spojeny. V následující části práce je navržen zcela nov...

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Šmerk, Pavel, 1979- (Autor práce)
Další autoři: Pala, Karel, 1939-2023 (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Čeština
Vydáno: 2010
Témata:
On-line přístup:http://is.muni.cz/th/3880/fi_d/
Obálka
Popis
Shrnutí:Práce se zabývá problematikou strojové morfologické analýzy češtiny. Nejprve jsou představeny v současnosti používané způsoby organizace zdrojových dat morfologického analyzátoru a na příkladech doloženy nevýhody, které jsou s nimi nevyhnutelně spojeny. V následující části práce je navržen zcela nový formát dat, který umožní výrazně snížit stávající vysokou redundanci, nabídne lepší prostředky pro zachycení derivačních vztahů a sémantických informací, dovolí rozlišit jevy produktivní od okrajových a v neposlední řadě umožní i lingvisticky přijatelnější popis dat. Další část práce se stejným způsobem zabývá samotným morfologickým analyzátorem: nejprve jsou popsány nevýhody současného řešení a poté je představen analyzátor nový, pro češtinu poprvé využívající algoritmů pro práci s minimálními deterministickými acyklickými konečně stavovými automaty Jana Daciuka. Vytvořený analyzátor je oproti existujícím několikrát rychlejší a zároveň výrazně jednodušší, což je, jak ukazuje praxe, velmi
The thesis is concerned with computational morphology of Czech. Current approaches to organization of the morphological dictionary as well as to implementation of the morphological analyser have some serious drawbacks, which are described in the thesis. Hence the main goal of this work is to design a new format of the morphological data and to implement a new analyser. The proposed data format allows to decrease high redundancy of the current data, offers better means for distinguishing regularity and idiosyncrasy, and, last but not least, offers better interpretable data from the linguistic point of view. The new analyser uses Jan Daciuk's algorithms for minimal deterministic acyclic finite state automata. It is several times faster than the current ones, although its code is much more simple.
Popis jednotky:Vedoucí práce: Karel Pala
Fyzický popis:xi, 110 s. + 1 CD