Rapid Development of Language Resources

Počítačové zpracování přirozeného jazyka (NLP) je obor, který se nachází na pomezí lingvistiky a informatiky. Při zpracování jazyka jsou důležité nejen algoritmy, ale i datové zdroje specifické pro konkrétní jazyk, kterými jsou např. gramatiky, slovníky či korpusy. V současnosti dokážeme vytvářet ob...

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Grác, Marek, 1981- (Autor práce)
Další autoři: Pala, Karel, 1939-2023 (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Angličtina
Vydáno: Brno : Masarykova univerzita, Fakulta informatiky, 2013
Témata:
On-line přístup:http://is.muni.cz/th/50728/fi_d/
Obálka
Popis
Shrnutí:Počítačové zpracování přirozeného jazyka (NLP) je obor, který se nachází na pomezí lingvistiky a informatiky. Při zpracování jazyka jsou důležité nejen algoritmy, ale i datové zdroje specifické pro konkrétní jazyk, kterými jsou např. gramatiky, slovníky či korpusy. V současnosti dokážeme vytvářet obrovské jazykové zdroje pomocí automatických metod, ale na jejich trénování a testování je potřeba využívat kvalitnější zdroje. Tvorba i ruční zpracování jsou však velmi náročné nejen na finance a čas, ale i na trénink a zaučení jazykových expertů. Tyto důvody objasňují, proč máme k dispozici dostatek automaticky tvořených jazykových zdrojů, ale pro menší jazyky pociťujeme nedostatek těch kvalitnějších, ručně anotovaných. Existující literatura podrobně popisuje teoretické základy použité při návrhu ručně anotovaných dat, ale samotný proces anotace je představen jen zběžně. Tato dizertační práce se zabývá právě tímto procesem, popisuje vše od návrhu vhodných struktur pro ukládání dat až po
Natural language processing (NLP) is a field at the intersection of linguistics and informatics. In language processing, not only algorithms but also language-specific data sources are important, such as grammars, dictionaries or corpora. At present, we can create vast language resources using automatic methods, but their training and testing requires higher quality resources. However, their creation, i.e. manual processing, is very demanding in terms of funding and time as well as searching for and training of sufficiently qualified persons. These reasons explain why there is a sufficient amount of automatically created language resources available even for small languages but there is a lack of quality, manually checked, ones. The existing literature describes in detail the theoretical basis used in the design of manually checked data, but the annotation process itself is only presented in brief. This dissertation addresses this process, from the design of appropriate structures for
Popis jednotky:Vedoucí práce: Karel Pala
Fyzický popis:109 stran