MARC21: Better Web Corpora For Corpus Linguistics And NLP /

Better Web Corpora For Corpus Linguistics And NLP /

Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahov...

Celý popis

Uloženo v:

Podrobná bibliografie
Hlavní autor:	Suchomel, Vít (Autor práce)
Další autoři:	Rychlý, Pavel, 1973- (Vedoucí práce)
Typ dokumentu:	VŠ práce nebo rukopis
Jazyk:	Angličtina
Vydáno:	2020
Témata:	počítačová lingvistika korpusová lingvistika data internet zpracování přirozeného jazyka corpus linguistics Computer linguistics Internet natural language processing disertace dissertations
On-line přístup:	https://is.muni.cz/th/u4rmz/


LEADER	05306ctm a22008057i 4500
001	MUB01006466915
003	CZ BrMU
005	20240522095308.0
008	200710s2020 xr \|\|\|\|\| \|\|\|\|\|\|\|\|\|\|\|eng d
STA			\|a POSLANO DO SKCR \|b 2021-05-10
035			\|a (ISMU-VSKP)232537
040			\|a BOD114 \|b cze \|d BOD018 \|e rda
072		7	\|a 004.8 \|x Umělá inteligence \|2 Konspekt \|9 23
072		7	\|a 81 \|x Lingvistika. Jazyky \|2 Konspekt \|9 11
080			\|a 004.82/.83:81'322.2 \|2 MRF
080			\|a 004.738.5 \|2 MRF
080			\|a 81'322 \|2 MRF
080			\|a 81'322.2 \|2 MRF
080			\|a 004.6 \|2 MRF
100	1		\|a Suchomel, Vít \|% UČO 139723 \|* [absolvent FI MU] \|4 dis
242	1	0	\|a Better Web Corpora For Corpus Linguistics And NLP \|y eng
245	1	0	\|a Better Web Corpora For Corpus Linguistics And NLP / \|c Vít Suchomel
264		0	\|c 2020
300			\|a xv, 153 stran : \|b ilustrace
336			\|a text \|b txt \|2 rdacontent
337			\|a bez média \|b n \|2 rdamedia
338			\|a svazek \|b nc \|2 rdacarrier
500			\|a Vedoucí práce: Pavel Rychlý
502			\|a Dizertace (Ph.D.)--Masarykova univerzita, Fakulta informatiky, 2020
520	2		\|a Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování přirozeného jazyka a jazykové aplikace. Stahovač je snadno udržovatelnou náhradou jiného software díky návrhu založeném na asynchronní komunikaci (narozdíl od ovbyklého synchronního vícevláknového návrhu). Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů vinou několika činitelů: Výsledky statistického zpracování korpusových dat jsou značně ovlivněny přítomností netextu (internetového spamu, počítačově generovaného textu a strojového překladu) v textových korp \|% cze
520	2	9	\|a The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text corpora for NLP and linguistic applications. An asynchronous communication design (rather than usual synchronous multi-threaded design) was implemented for the crawler to provide an easy to maintain alternative to other web spider software. Cleaning techniques were devised to transform the messy nature of data coming from the uncontrolled environment of the internet. However, it can be observed that usability of recently built web corpora is hindered by several factors: The results derived from statistical processing of corpus data are significantly affected by the presence of non-text (we \|9 eng
650	0	7	\|a počítačová lingvistika \|7 ph115862 \|2 czenas
650	0	7	\|a korpusová lingvistika \|7 ph381202 \|2 czenas
650	0	7	\|a data \|7 ph119329 \|2 czenas
650	0	7	\|a internet \|7 ph117022 \|2 czenas
650	0	7	\|a zpracování přirozeného jazyka \|7 ph427562 \|2 czenas
650	0	9	\|a data \|2 eczenas
650	0	9	\|a corpus linguistics \|2 eczenas
650	0	9	\|a Computer linguistics \|2 eczenas
650	0	9	\|a Internet \|2 eczenas
650	0	9	\|a natural language processing \|2 eczenas
655		7	\|a disertace \|7 fd132024 \|2 czenas
655		9	\|a dissertations \|2 eczenas
658			\|a Informatika (čtyřleté) \|b Počítačové systémy a technologie \|c FI D-IN4 PST (PST) \|2 CZ-BrMU
700	1		\|a Rychlý, Pavel, \|d 1973- \|7 mub2013778369 \|% UČO 3692 \|4 ths
710	2		\|a Masarykova univerzita. \|b Katedra strojového učení a zpracování dat \|4 dgg
856	4	1	\|u https://is.muni.cz/th/u4rmz/
CAT			\|c 20200710 \|l MUB01 \|h 0420
CAT			\|a POSPEL \|b 02 \|c 20200712 \|l MUB01 \|h 0044
CAT			\|a POSPEL \|b 02 \|c 20200712 \|l MUB01 \|h 0044
CAT			\|a FUKSOVAX \|b 02 \|c 20200718 \|l MUB01 \|h 2027
CAT			\|a POSPEL \|b 02 \|c 20210106 \|l MUB01 \|h 0031
CAT			\|a VESELA \|b 02 \|c 20210217 \|l MUB01 \|h 1048
CAT			\|c 20210510 \|l MUB01 \|h 0931
CAT			\|c 20210614 \|l MUB01 \|h 1037
CAT			\|c 20210614 \|l MUB01 \|h 2023
CAT			\|a BATCH \|b 00 \|c 20210724 \|l MUB01 \|h 1318
CAT			\|a POSPEL \|b 02 \|c 20220316 \|l MUB01 \|h 2232
CAT			\|a POSPEL \|b 02 \|c 20220316 \|l MUB01 \|h 2241
CAT			\|a POSPEL \|b 02 \|c 20220629 \|l MUB01 \|h 0102
CAT			\|a POSPEL \|b 02 \|c 20230612 \|l MUB01 \|h 0019
CAT			\|a POSPEL \|b 02 \|c 20230629 \|l MUB01 \|h 0036
CAT			\|a POSPEL \|b 02 \|c 20240318 \|l MUB01 \|h 2141
CAT			\|a VESELAX \|b 02 \|c 20240522 \|l MUB01 \|h 0951
CAT			\|a VESELAX \|b 02 \|c 20240522 \|l MUB01 \|h 0953
CAT			\|a POSPEL \|b 02 \|c 20241014 \|l MUB01 \|h 0646
LOW			\|a POSLANO DO SKCR \|b 2021-05-10
994	-	1	\|l MUB01 \|l MUB01 \|m VYSPR \|1 FI \|a Fakulta informatiky \|2 SKLAD \|b sklad \|3 Diz. práce 2020 \|5 42005D2723 \|8 20210217 \|f 72 \|f Týdenní \|r 20210217
AVA			\|a INF50 \|b FI \|c sklad \|d Diz. práce 2020 \|e available \|t K dispozici \|f 1 \|g 0 \|h N \|i 0 \|j SKLAD

Better Web Corpora For Corpus Linguistics And NLP /

Podobné jednotky