Better Web Corpora For Corpus Linguistics And NLP /
Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahov...
Uloženo v:
Hlavní autor: | |
---|---|
Další autoři: | |
Typ dokumentu: | VŠ práce nebo rukopis |
Jazyk: | Angličtina |
Vydáno: |
2020
|
Témata: | |
On-line přístup: | https://is.muni.cz/th/u4rmz/ |
Shrnutí: | Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování přirozeného jazyka a jazykové aplikace. Stahovač je snadno udržovatelnou náhradou jiného software díky návrhu založeném na asynchronní komunikaci (narozdíl od ovbyklého synchronního vícevláknového návrhu). Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů vinou několika činitelů: Výsledky statistického zpracování korpusových dat jsou značně ovlivněny přítomností netextu (internetového spamu, počítačově generovaného textu a strojového překladu) v textových korp The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text corpora for NLP and linguistic applications. An asynchronous communication design (rather than usual synchronous multi-threaded design) was implemented for the crawler to provide an easy to maintain alternative to other web spider software. Cleaning techniques were devised to transform the messy nature of data coming from the uncontrolled environment of the internet. However, it can be observed that usability of recently built web corpora is hindered by several factors: The results derived from statistical processing of corpus data are significantly affected by the presence of non-text (we |
---|---|
Popis jednotky: | Vedoucí práce: Pavel Rychlý |
Fyzický popis: | xv, 153 stran : ilustrace |