Removing boilerplate and duplicate content from web corpora
V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů....
Uloženo v:
Hlavní autor: | |
---|---|
Další autoři: | |
Typ dokumentu: | VŠ práce nebo rukopis |
Jazyk: | Angličtina |
Vydáno: |
2011
|
Témata: | |
On-line přístup: | http://is.muni.cz/th/45523/fi_d/ |
Pro rezervaci/výpůjčku fyzického dokumentu se přihlaste.
Popis | Stav | Knihovna | Sbírka | Signatura | Poznámky | Čárový kód |
---|---|---|---|---|---|---|
Dostupné Týdenní |
Fakulta informatiky | Diz. práce 2011 | 42005D2613 |