Removing boilerplate and duplicate content from web corpora

V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů....

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Pomikálek, Jan, 1979- (Autor práce)
Další autoři: Pala, Karel, 1939-2023 (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Angličtina
Vydáno: 2011
Témata:
On-line přístup:http://is.muni.cz/th/45523/fi_d/
Obálka
Pro rezervaci/výpůjčku fyzického dokumentu se přihlaste.
Popis Stav Knihovna Sbírka Signatura Poznámky Čárový kód
Dostupné
Týdenní
Fakulta informatiky Diz. práce 2011 42005D2613