Removing boilerplate and duplicate content from web corpora

V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů....

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Pomikálek, Jan, 1979- (Autor práce)
Další autoři: Pala, Karel, 1939-2023 (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Angličtina
Vydáno: 2011
Témata:
On-line přístup:http://is.muni.cz/th/45523/fi_d/
Obálka
LEADER 05553ctm a22009017a 4500
001 MUB01000693923
003 CZ BrMU
005 20240513115049.0
008 111027s2011 xr ||||| |||||||||||eng d
STA |a POSLANO DO SKCR  |b 2020-02-17 
035 |a (ISMU-VSKP)103561 
040 |a BOD114  |b cze  |d BOD018 
072 7 |a 81  |x Lingvistika. Jazyky  |2 Konspekt  |9 11 
072 7 |a 004.9  |x Speciální počítačové metody. Počítačová grafika  |2 Konspekt  |9 23 
080 |a 004.023  |2 MRF 
080 |a 004.91:004.738.5  |2 MRF 
080 |a (043.3)  |2 MRF 
080 |a 81  |2 MRF 
080 |a 81'322.2  |2 MRF 
080 |a 81'37  |2 MRF 
100 1 |a Pomikálek, Jan,  |d 1979-  |7 mub2011640432  |% UČO 45523  |4 dis 
242 1 0 |a Removing Boilerplate and Duplicate Content from Web Corpora  |y eng 
245 1 0 |a Removing boilerplate and duplicate content from web corpora  |h [rukopis] /  |c Jan Pomikálek 
260 |c 2011 
300 |a 108 s. 
500 |a Vedoucí práce: Karel Pala 
502 |a Dizertace (Ph.D.)--Masarykova univerzita, Fakulta informatiky, 2011 
520 2 |a V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních) dat. Na většině webových stránek je hlavní obsah zasazen do šablony, která může obsahovat např. navigační linky, reklamy, hlavičky a patičky apod. Pokud bychom texty z šablon zahrnuli do korpusu, výsledkem může být nadměrný výskyt slov typu domů, hledej, tisk apod. Tato práce poskytuje přehled běžně používaných technik pro odstraňování šablon a rovněž nabízí nový heuristický přístup k tomuto problému. Práce srovnává navržnou metodu s aktuálními algoritmy na dostupných datových kolekcích.  |% cze 
520 2 9 |a In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate and removing duplicate and near-duplicate content from Web data. On most Web pages, the main content is accompanied by so-called boilerplate content, such as navigation links, advertisements, headers and footers. Including the boilerplate in text corpora results in an undesirable over-representation of some common boilerplate words and phrases, such as home, search, print, etc. This work provides an overview of commonly used boilerplate cleaning techniques and presents a novel heuristic based approach to this problem. The method is compared with other state-of-art algorithms on available data sets.  |9 eng 
650 0 7 |a heuristika  |7 ph120693  |2 czenas 
650 0 7 |a internetové publikování  |7 ph119241  |2 czenas 
650 0 7 |a sémantika  |7 ph117272  |2 czenas 
650 0 7 |a zpracování přirozeného jazyka  |7 ph427562  |2 czenas 
650 0 7 |a korpusová lingvistika  |7 ph381202  |2 czenas 
650 0 9 |a heuristic  |2 eczenas 
650 0 9 |a Internet publishing  |2 eczenas 
650 0 9 |a natural language processing  |2 eczenas 
650 0 9 |a semantics  |2 eczenas 
650 0 9 |a corpus linguistics  |2 eczenas 
655 7 |a disertace  |7 fd132024  |2 czenas 
655 9 |a dissertations  |2 eczenas 
658 |a Informatika (čtyřleté)  |b Informatika  |c FI D-IN4 IN (IN)  |2 CZ-BrMU 
700 1 |a Pala, Karel,  |d 1939-2023  |7 jk01091535  |% UČO 455  |4 ths 
710 2 |a Masarykova univerzita.  |b Katedra informačních technologií  |4 dgg 
856 4 1 |u http://is.muni.cz/th/45523/fi_d/ 
CAT |c 20111027  |l MUB01  |h 0422 
CAT |a KOZOVA  |b 02  |c 20111208  |l MUB01  |h 1441 
CAT |a KOZOVA  |b 02  |c 20111208  |l MUB01  |h 1445 
CAT |a batch  |b 00  |c 20120324  |l MUB01  |h 0152 
CAT |a POSPEL  |b 02  |c 20120417  |l MUB01  |h 0803 
CAT |a POSPEL  |b 02  |c 20120516  |l MUB01  |h 1657 
CAT |c 20120610  |l MUB01  |h 2032 
CAT |a BATCH  |b 00  |c 20130304  |l MUB01  |h 1319 
CAT |a POSPEL  |b 02  |c 20130828  |l MUB01  |h 1402 
CAT |a POSPEL  |b 02  |c 20140109  |l MUB01  |h 1105 
CAT |a POSPEL  |b 02  |c 20140220  |l MUB01  |h 1323 
CAT |a HANAV  |b 02  |c 20141110  |l MUB01  |h 1248 
CAT |c 20141203  |l MUB01  |h 1555 
CAT |a HANAV  |b 02  |c 20141205  |l MUB01  |h 1530 
CAT |c 20150901  |l MUB01  |h 1448 
CAT |c 20150921  |l MUB01  |h 1409 
CAT |a BATCH  |b 00  |c 20151226  |l MUB01  |h 0216 
CAT |a HANAV  |b 02  |c 20160926  |l MUB01  |h 1053 
CAT |a HANAV  |b 02  |c 20161111  |l MUB01  |h 1657 
CAT |a POSPEL  |b 02  |c 20161122  |l MUB01  |h 0726 
CAT |a POSPEL  |b 02  |c 20170502  |l MUB01  |h 1324 
CAT |c 20200217  |l MUB01  |h 1029 
CAT |c 20210614  |l MUB01  |h 0956 
CAT |c 20210614  |l MUB01  |h 1944 
CAT |a BATCH  |b 00  |c 20210724  |l MUB01  |h 1209 
CAT |a BATCH-UPD  |b 00  |c 20230220  |l MUB01  |h 2353 
CAT |a VESELAX  |b 02  |c 20240513  |l MUB01  |h 1149 
CAT |a VESELAX  |b 02  |c 20240513  |l MUB01  |h 1150 
CAT |a VESELAX  |b 02  |c 20240513  |l MUB01  |h 1150 
LOW |a POSLANO DO SKCR  |b 2020-02-17 
994 - 1 |l MUB01  |l MUB01  |m VYSPR  |1 FI  |a Fakulta informatiky  |3 Diz. práce 2011  |5 42005D2613  |8 20111208  |f 72  |f Týdenní  |r 20111208 
AVA |a INF50  |b FI  |d Diz. práce 2011  |e available  |t K dispozici  |f 1  |g 0  |h N  |i 1