Scalability of semantic analysis in natural language processing

Práce se zabývá dolováním dat z rozsáhlých korpusů. Zaměřuje se na robustní statistické metody, které dokáží automatizovaně vytvořit kompaktní sémantickou reprezentaci volného textu, tj. bez použití metadat či ručního vstupu člověka. První část práce se zabývá škálovatelností metod Latent Semantic A...

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Řehůřek, Radim (Autor práce)
Další autoři: Pala, Karel, 1939-2023 (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Angličtina
Vydáno: 2011
Témata:
On-line přístup:http://is.muni.cz/th/39672/fi_d/
Obálka
Popis
Shrnutí:Práce se zabývá dolováním dat z rozsáhlých korpusů. Zaměřuje se na robustní statistické metody, které dokáží automatizovaně vytvořit kompaktní sémantickou reprezentaci volného textu, tj. bez použití metadat či ručního vstupu člověka. První část práce se zabývá škálovatelností metod Latent Semantic Analysis (LSA) a Latent Dirichlet Allocation (LDA). Představuji nové algoritmy pro škálovatelnou tvorbu těchto sémantických modelů. Škálovatelnost je dosažena 1) distribucí výpočtů na více strojů a 2) využitím pouze konstatního množství paměti vzhledem k velikosti trénovacích dat, a 3) trénováním modelu v omezeném počtu průchodů trénovacími daty (resp. pouze na jeden průchod v případě LSA, což umožňuje trénování na nekonečném, nestacionárním proudu trénovacích dat). Druhá část práce popisuje několik možných aplikací těchto obecných sémantických algoritmů.
Data mining applications that work over input of very large scale (web-scale problems) pose challenges that are new and exciting both academically and commercially. Any web-scale algorithm must be robust (dealing gracefully with the inevitable data noise), scalable (capable of efficiently processing large input) and reasonably automated (as human intervention is very costly and often impossible on such scales). This thesis consists of two parts. In the first part, I explore scalability of methods that derive a semantic representation of plain text documents. The focus will be entirely on unsupervised techniques, that is, on methods that don’t make use of manually annotated resources or human input. I develop and present scalable algorithms for Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA), two general-purpose statistical methods for semantic analysis that serve as building blocks for more concrete, applied algorithms.
Popis jednotky:Vedoucí práce: Karel Pala
Fyzický popis:xii, 147 s.