Better Web Corpora For Corpus Linguistics And NLP /

Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahov...

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Suchomel, Vít (Autor práce)
Další autoři: Rychlý, Pavel, 1973- (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Angličtina
Vydáno: 2020
Témata:
On-line přístup:https://is.muni.cz/th/u4rmz/
Obálka
LEADER 05278ctm a22008057i 4500
001 MUB01006466915
003 CZ BrMU
005 20240522095308.0
008 200710s2020 xr ||||| |||||||||||eng d
STA |a POSLANO DO SKCR  |b 2021-05-10 
035 |a (ISMU-VSKP)232537 
040 |a BOD114  |b cze  |d BOD018  |e rda 
072 7 |a 004.8  |x Umělá inteligence  |2 Konspekt  |9 23 
072 7 |a 81  |x Lingvistika. Jazyky  |2 Konspekt  |9 11 
080 |a 004.82/.83:81'322.2  |2 MRF 
080 |a 004.738.5  |2 MRF 
080 |a 81'322  |2 MRF 
080 |a 81'322.2  |2 MRF 
080 |a 004.6  |2 MRF 
100 1 |a Suchomel, Vít  |% UČO 139723  |* [absolvent FI MU]  |4 dis 
242 1 0 |a Better Web Corpora For Corpus Linguistics And NLP  |y eng 
245 1 0 |a Better Web Corpora For Corpus Linguistics And NLP /  |c Vít Suchomel 
264 0 |c 2020 
300 |a xv, 153 stran :  |b ilustrace 
336 |a text  |b txt  |2 rdacontent 
337 |a bez média  |b n  |2 rdamedia 
338 |a svazek  |b nc  |2 rdacarrier 
500 |a Vedoucí práce: Pavel Rychlý 
502 |a Dizertace (Ph.D.)--Masarykova univerzita, Fakulta informatiky, 2020 
520 2 |a Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování přirozeného jazyka a jazykové aplikace. Stahovač je snadno udržovatelnou náhradou jiného software díky návrhu založeném na asynchronní komunikaci (narozdíl od ovbyklého synchronního vícevláknového návrhu). Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů vinou několika činitelů: Výsledky statistického zpracování korpusových dat jsou značně ovlivněny přítomností netextu (internetového spamu, počítačově generovaného textu a strojového překladu) v textových korp  |% cze 
520 2 9 |a The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text corpora for NLP and linguistic applications. An asynchronous communication design (rather than usual synchronous multi-threaded design) was implemented for the crawler to provide an easy to maintain alternative to other web spider software. Cleaning techniques were devised to transform the messy nature of data coming from the uncontrolled environment of the internet. However, it can be observed that usability of recently built web corpora is hindered by several factors: The results derived from statistical processing of corpus data are significantly affected by the presence of non-text (we  |9 eng 
650 0 7 |a počítačová lingvistika  |7 ph115862  |2 czenas 
650 0 7 |a korpusová lingvistika  |7 ph381202  |2 czenas 
650 0 7 |a data  |7 ph119329  |2 czenas 
650 0 7 |a internet  |7 ph117022  |2 czenas 
650 0 7 |a zpracování přirozeného jazyka  |7 ph427562  |2 czenas 
650 0 9 |a data  |2 eczenas 
650 0 9 |a corpus linguistics  |2 eczenas 
650 0 9 |a Computer linguistics  |2 eczenas 
650 0 9 |a Internet  |2 eczenas 
650 0 9 |a natural language processing  |2 eczenas 
655 7 |a disertace  |7 fd132024  |2 czenas 
655 9 |a dissertations  |2 eczenas 
658 |a Informatika (čtyřleté)  |b Počítačové systémy a technologie  |c FI D-IN4 PST (PST)  |2 CZ-BrMU 
700 1 |a Rychlý, Pavel,  |d 1973-  |7 mub2013778369  |% UČO 3692  |4 ths 
710 2 |a Masarykova univerzita.  |b Katedra strojového učení a zpracování dat  |4 dgg 
856 4 1 |u https://is.muni.cz/th/u4rmz/ 
CAT |c 20200710  |l MUB01  |h 0420 
CAT |a POSPEL  |b 02  |c 20200712  |l MUB01  |h 0044 
CAT |a POSPEL  |b 02  |c 20200712  |l MUB01  |h 0044 
CAT |a FUKSOVAX  |b 02  |c 20200718  |l MUB01  |h 2027 
CAT |a POSPEL  |b 02  |c 20210106  |l MUB01  |h 0031 
CAT |a VESELA  |b 02  |c 20210217  |l MUB01  |h 1048 
CAT |c 20210510  |l MUB01  |h 0931 
CAT |c 20210614  |l MUB01  |h 1037 
CAT |c 20210614  |l MUB01  |h 2023 
CAT |a BATCH  |b 00  |c 20210724  |l MUB01  |h 1318 
CAT |a POSPEL  |b 02  |c 20220316  |l MUB01  |h 2232 
CAT |a POSPEL  |b 02  |c 20220316  |l MUB01  |h 2241 
CAT |a POSPEL  |b 02  |c 20220629  |l MUB01  |h 0102 
CAT |a POSPEL  |b 02  |c 20230612  |l MUB01  |h 0019 
CAT |a POSPEL  |b 02  |c 20230629  |l MUB01  |h 0036 
CAT |a POSPEL  |b 02  |c 20240318  |l MUB01  |h 2141 
CAT |a VESELAX  |b 02  |c 20240522  |l MUB01  |h 0951 
CAT |a VESELAX  |b 02  |c 20240522  |l MUB01  |h 0953 
CAT |a POSPEL  |b 02  |c 20241014  |l MUB01  |h 0646 
LOW |a POSLANO DO SKCR  |b 2021-05-10 
994 - 1 |l MUB01  |l MUB01  |m VYSPR  |1 FI  |a Fakulta informatiky  |3 Diz. práce 2020  |5 42005D2723  |8 20210217  |f 72  |f Týdenní  |r 20210217 
AVA |a INF50  |b FI  |d Diz. práce 2020  |e available  |t K dispozici  |f 1  |g 0  |h N  |i 0