Better Web Corpora For Corpus Linguistics And NLP /
Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahov...
Uloženo v:
Hlavní autor: | |
---|---|
Další autoři: | |
Typ dokumentu: | VŠ práce nebo rukopis |
Jazyk: | Angličtina |
Vydáno: |
2020
|
Témata: | |
On-line přístup: | https://is.muni.cz/th/u4rmz/ |
LEADER | 05278ctm a22008057i 4500 | ||
---|---|---|---|
001 | MUB01006466915 | ||
003 | CZ BrMU | ||
005 | 20240522095308.0 | ||
008 | 200710s2020 xr ||||| |||||||||||eng d | ||
STA | |a POSLANO DO SKCR |b 2021-05-10 | ||
035 | |a (ISMU-VSKP)232537 | ||
040 | |a BOD114 |b cze |d BOD018 |e rda | ||
072 | 7 | |a 004.8 |x Umělá inteligence |2 Konspekt |9 23 | |
072 | 7 | |a 81 |x Lingvistika. Jazyky |2 Konspekt |9 11 | |
080 | |a 004.82/.83:81'322.2 |2 MRF | ||
080 | |a 004.738.5 |2 MRF | ||
080 | |a 81'322 |2 MRF | ||
080 | |a 81'322.2 |2 MRF | ||
080 | |a 004.6 |2 MRF | ||
100 | 1 | |a Suchomel, Vít |% UČO 139723 |* [absolvent FI MU] |4 dis | |
242 | 1 | 0 | |a Better Web Corpora For Corpus Linguistics And NLP |y eng |
245 | 1 | 0 | |a Better Web Corpora For Corpus Linguistics And NLP / |c Vít Suchomel |
264 | 0 | |c 2020 | |
300 | |a xv, 153 stran : |b ilustrace | ||
336 | |a text |b txt |2 rdacontent | ||
337 | |a bez média |b n |2 rdamedia | ||
338 | |a svazek |b nc |2 rdacarrier | ||
500 | |a Vedoucí práce: Pavel Rychlý | ||
502 | |a Dizertace (Ph.D.)--Masarykova univerzita, Fakulta informatiky, 2020 | ||
520 | 2 | |a Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování přirozeného jazyka a jazykové aplikace. Stahovač je snadno udržovatelnou náhradou jiného software díky návrhu založeném na asynchronní komunikaci (narozdíl od ovbyklého synchronního vícevláknového návrhu). Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů vinou několika činitelů: Výsledky statistického zpracování korpusových dat jsou značně ovlivněny přítomností netextu (internetového spamu, počítačově generovaného textu a strojového překladu) v textových korp |% cze | |
520 | 2 | 9 | |a The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text corpora for NLP and linguistic applications. An asynchronous communication design (rather than usual synchronous multi-threaded design) was implemented for the crawler to provide an easy to maintain alternative to other web spider software. Cleaning techniques were devised to transform the messy nature of data coming from the uncontrolled environment of the internet. However, it can be observed that usability of recently built web corpora is hindered by several factors: The results derived from statistical processing of corpus data are significantly affected by the presence of non-text (we |9 eng |
650 | 0 | 7 | |a počítačová lingvistika |7 ph115862 |2 czenas |
650 | 0 | 7 | |a korpusová lingvistika |7 ph381202 |2 czenas |
650 | 0 | 7 | |a data |7 ph119329 |2 czenas |
650 | 0 | 7 | |a internet |7 ph117022 |2 czenas |
650 | 0 | 7 | |a zpracování přirozeného jazyka |7 ph427562 |2 czenas |
650 | 0 | 9 | |a data |2 eczenas |
650 | 0 | 9 | |a corpus linguistics |2 eczenas |
650 | 0 | 9 | |a Computer linguistics |2 eczenas |
650 | 0 | 9 | |a Internet |2 eczenas |
650 | 0 | 9 | |a natural language processing |2 eczenas |
655 | 7 | |a disertace |7 fd132024 |2 czenas | |
655 | 9 | |a dissertations |2 eczenas | |
658 | |a Informatika (čtyřleté) |b Počítačové systémy a technologie |c FI D-IN4 PST (PST) |2 CZ-BrMU | ||
700 | 1 | |a Rychlý, Pavel, |d 1973- |7 mub2013778369 |% UČO 3692 |4 ths | |
710 | 2 | |a Masarykova univerzita. |b Katedra strojového učení a zpracování dat |4 dgg | |
856 | 4 | 1 | |u https://is.muni.cz/th/u4rmz/ |
CAT | |c 20200710 |l MUB01 |h 0420 | ||
CAT | |a POSPEL |b 02 |c 20200712 |l MUB01 |h 0044 | ||
CAT | |a POSPEL |b 02 |c 20200712 |l MUB01 |h 0044 | ||
CAT | |a FUKSOVAX |b 02 |c 20200718 |l MUB01 |h 2027 | ||
CAT | |a POSPEL |b 02 |c 20210106 |l MUB01 |h 0031 | ||
CAT | |a VESELA |b 02 |c 20210217 |l MUB01 |h 1048 | ||
CAT | |c 20210510 |l MUB01 |h 0931 | ||
CAT | |c 20210614 |l MUB01 |h 1037 | ||
CAT | |c 20210614 |l MUB01 |h 2023 | ||
CAT | |a BATCH |b 00 |c 20210724 |l MUB01 |h 1318 | ||
CAT | |a POSPEL |b 02 |c 20220316 |l MUB01 |h 2232 | ||
CAT | |a POSPEL |b 02 |c 20220316 |l MUB01 |h 2241 | ||
CAT | |a POSPEL |b 02 |c 20220629 |l MUB01 |h 0102 | ||
CAT | |a POSPEL |b 02 |c 20230612 |l MUB01 |h 0019 | ||
CAT | |a POSPEL |b 02 |c 20230629 |l MUB01 |h 0036 | ||
CAT | |a POSPEL |b 02 |c 20240318 |l MUB01 |h 2141 | ||
CAT | |a VESELAX |b 02 |c 20240522 |l MUB01 |h 0951 | ||
CAT | |a VESELAX |b 02 |c 20240522 |l MUB01 |h 0953 | ||
CAT | |a POSPEL |b 02 |c 20241014 |l MUB01 |h 0646 | ||
LOW | |a POSLANO DO SKCR |b 2021-05-10 | ||
994 | - | 1 | |l MUB01 |l MUB01 |m VYSPR |1 FI |a Fakulta informatiky |3 Diz. práce 2020 |5 42005D2723 |8 20210217 |f 72 |f Týdenní |r 20210217 |
AVA | |a INF50 |b FI |d Diz. práce 2020 |e available |t K dispozici |f 1 |g 0 |h N |i 0 |