Better Web Corpora For Corpus Linguistics And NLP /

Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahov...

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Suchomel, Vít (Autor práce)
Další autoři: Rychlý, Pavel, 1973- (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Angličtina
Vydáno: 2020
Témata:
On-line přístup:https://is.muni.cz/th/u4rmz/
Obálka
Popis
Shrnutí:Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování přirozeného jazyka a jazykové aplikace. Stahovač je snadno udržovatelnou náhradou jiného software díky návrhu založeném na asynchronní komunikaci (narozdíl od ovbyklého synchronního vícevláknového návrhu). Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů vinou několika činitelů: Výsledky statistického zpracování korpusových dat jsou značně ovlivněny přítomností netextu (internetového spamu, počítačově generovaného textu a strojového překladu) v textových korp
The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text corpora for NLP and linguistic applications. An asynchronous communication design (rather than usual synchronous multi-threaded design) was implemented for the crawler to provide an easy to maintain alternative to other web spider software. Cleaning techniques were devised to transform the messy nature of data coming from the uncontrolled environment of the internet. However, it can be observed that usability of recently built web corpora is hindered by several factors: The results derived from statistical processing of corpus data are significantly affected by the presence of non-text (we
Popis jednotky:Vedoucí práce: Pavel Rychlý
Fyzický popis:xv, 153 stran : ilustrace