Distributed Systems for Discovering Similar Documents /

S dostupností velkého množství textových dokumentů na Internetu nabývá úloha objevování podobných dokumentů v rámci dané sady dokumentů na důležitosti. Mezi aplikace této úlohy patří algoritmické objevování plagiátorství, odstraňování duplicit z dané množiny dokumentů například pro účely fulltextový...

Celý popis

Uloženo v:
Podrobná bibliografie
Hlavní autor: Kasprzak, Jan (Autor práce)
Další autoři: Brandejs, Michal, 1963- (Vedoucí práce)
Typ dokumentu: VŠ práce nebo rukopis
Jazyk:Angličtina
Vydáno: 2015
Témata:
On-line přístup:http://is.muni.cz/th/1885/fi_d_b1/
Obálka
Popis
Shrnutí:S dostupností velkého množství textových dokumentů na Internetu nabývá úloha objevování podobných dokumentů v rámci dané sady dokumentů na důležitosti. Mezi aplikace této úlohy patří algoritmické objevování plagiátorství, odstraňování duplicit z dané množiny dokumentů například pro účely fulltextových vyhledávacích strojů nebo pro účely detekce dokumentů pocházejících ze společného zdroje pro verzovací systémy. V této práci představujeme návrh a doporučení k implementaci dvou systémů pro vyhledávání podobností nad rozsáhlou bází dokumentů, zaměřených zejména na objevování plagiátorství. Jádro obou systémů bylo navrženo autorem této práce. První systém se používá v ostrém provozu v rámci Českého národního archívu závěrečných prací (Theses.cz) od roku 2008. V této práci popisujeme implementaci tohoto systému a předkládáme zkušenosti z jeho provozu a údržby. Také diskutujeme modifikace, které byly zavedeny do systému po jeho zprovoznění. Dále představujeme nový systém pro hledání podob
With the availability of large amount of text documents on the Internet, the task of discovering similar documents inside a given document base becomes more important. The applications include discovering plagiarism by means of machine processing, removing duplicate documents from a given document base for purposes of e.g. full-text search engines or detecting co-derivative or related documents for version control systems. In this document, we present the design and implementation notes of two systems for large-scale similarity search, aimed towards detecting plagiarism. The core of both systems have been developed by the author of this thesis. The first system is in production use in the Czech National Archive of Graduate Theses (Theses.CZ) since 2008. We describe its implementation, and present the experience learned from running and maintaining this system in a production environment. The modifications introduced during the system life cycle are also discussed. We then propose a
Popis jednotky:Vedoucí práce: Michal Brandejs
Fyzický popis:x, 98 stran