Three Way Search Engine Queries with Multi-feature Document Comparison for Plagiarism Detection

Suchomel,  Šimon; Kasprzak,  Jan; Brandejs,  Michal

Three Way Search Engine Queries with Multi-feature Document Comparison for Plagiarism Detection

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Trojcestné dotazování s detailním porovnáním dokumentů pro detekci plagiátorství
Autoři	SUCHOMEL Šimon KASPRZAK Jan BRANDEJS Michal
Rok publikování	2012
Druh	Článek ve sborníku
Konference	CLEF2012 Working Notes ; CEUR Workshop Proceedings Vol. 1178
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	Text publikace
Obor	Informatika
Klíčová slova	plagiarism; document similarity; external plagiarism; intrinsic plagiarism; candidate document retrieval; web search; queries construction; common features
Přiložené soubory	CLEF2012wn-PAN-SuchomelEt2012.pdf
Popis	V tomto článku popisujeme náš přístup v soutěži PAN 2012 v detekci plagiátorství. V první části, vyhledávání podezřelých dokumentů, jsme použili přístup založený na extrakci tří odlišných typů Webových dotazů a aplikovali heuristiku pro minimalizaci celkového počtu použitých dotazů na základě nalezených podobností dokumentů. Jednotlivé typy dotazů byly vytvořeny z klíčových slov dokumentu, z částí textu detekovaných metodou pro detekci vnitřního plagiátorství a na základě lokálních nadpisů v textu. Tato metodika pro vyhledávání podezřelých dokumentů byla v rámci soutěže nejefektivnější. Náš systém pro detailní porovnávání párů dokumentů je založen na hledání výskytu společných vlastností (například společné skupiny slov), přičemž systém vyhodnocuje společné vlastnosti více různých typů. Náš finální výsledek byl založen na dvou typech vlastností: setříděné pětice slov a nesetříděné osmice stop-slov. Navrhujeme metodu výpočtu takzvaných platných rozsahů na základě těchto společných vlastností, kde platný rozsah je reprezentován svým počátečním znakem a délkou jak ve zdrojovém, tak v podezřelém dokumentu. Předchozí práce používaly pro reprezentaci vzdálenosti pořadí výskytu jednotlivých společných vlastností. Toto není použitelné pro systém s více typy vlastností, které nemusejí mít mezi sebou navzájem žádné přirozené uspořádání. Z těchto platných rozsahů počítáme výsledné detekované pasáže textu ve fázi následného zpracování, kde se snažíme slučovat blízké platné rozsahy a odstraňovat některé typy překrývajících se rozsahů. Dále rozebíráme jiné přístupy které jsme vyzkoušeli, ale nepoužili v našem finálním výsledku. V tomto článku také diskutujeme výkonnostní aspekty našeho programu, nastavení parametrů, a relevantnost kritérií hodnocení PAN 2012 (včetně hodnoty plagdet) pro reálné systémy na odhalování plagiátů.
Související projekty:	Účast ČR v European Research Consortium for Informatics and Mathematics