Removing boilerplate and duplicate content from web corpora

V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů....

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Pomikálek, Jan, 1979- (Autor práce)
Další autoři: Pala, Karel, 1939-2023 (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Angličtina
Vydáno: 2011
Témata:
On-line přístup:http://is.muni.cz/th/45523/fi_d/
Obálka
Popis
Shrnutí:V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních) dat. Na většině webových stránek je hlavní obsah zasazen do šablony, která může obsahovat např. navigační linky, reklamy, hlavičky a patičky apod. Pokud bychom texty z šablon zahrnuli do korpusu, výsledkem může být nadměrný výskyt slov typu domů, hledej, tisk apod. Tato práce poskytuje přehled běžně používaných technik pro odstraňování šablon a rovněž nabízí nový heuristický přístup k tomuto problému. Práce srovnává navržnou metodu s aktuálními algoritmy na dostupných datových kolekcích.
In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate and removing duplicate and near-duplicate content from Web data. On most Web pages, the main content is accompanied by so-called boilerplate content, such as navigation links, advertisements, headers and footers. Including the boilerplate in text corpora results in an undesirable over-representation of some common boilerplate words and phrases, such as home, search, print, etc. This work provides an overview of commonly used boilerplate cleaning techniques and presents a novel heuristic based approach to this problem. The method is compared with other state-of-art algorithms on available data sets.
Popis jednotky:Vedoucí práce: Karel Pala
Fyzický popis:108 s.