Jednotky: Removing boilerplate and duplicate content from web corpora

Removing boilerplate and duplicate content from web corpora

V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů....

Celý popis

Uloženo v:

Podrobná bibliografie
Hlavní autor:	Pomikálek, Jan, 1979- (Autor práce)
Další autoři:	Pala, Karel, 1939-2023 (Vedoucí práce)
Typ dokumentu:	VŠ práce nebo rukopis
Jazyk:	Angličtina
Vydáno:	2011
Témata:	heuristika internetové publikování sémantika zpracování přirozeného jazyka korpusová lingvistika heuristic Internet publishing natural language processing semantics corpus linguistics disertace dissertations
On-line přístup:	http://is.muni.cz/th/45523/fi_d/

Pro rezervaci/výpůjčku fyzického dokumentu se přihlaste.

Internet

http://is.muni.cz/th/45523/fi_d/

Popis	Stav	Knihovna	Sbírka	Signatura	Poznámky	Čárový kód
	Dostupné Týdenní	Fakulta informatiky	sklad	Diz. práce 2011		42005D2613

Removing boilerplate and duplicate content from web corpora

Internet

Podobné jednotky