Page 15 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2018 5th Student Computer Science Research Conference. Koper: University of Primorska Press, 2018
P. 15
poznavanje literature v dokumentih in dolocˇ anje
njihovih sklicev v besedilu
Matej MORAVEC David LETONJA
Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,
raˇcunalniˇstvo in informatiko raˇcunalniˇstvo in informatiko
Koroˇska cesta 46, Koroˇska cesta 46,
2000 Maribor, Slovenija 2000 Maribor, Slovenija
matejmoravec19@gmail.com david.letonja@gmail.com
Jan TOVORNIK Borko BOSˇKOVICˇ
Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,
raˇcunalniˇstvo in informatiko raˇcunalniˇstvo in informatiko
Koroˇska cesta 46, Koroˇska cesta 46,
2000 Maribor, Slovenija 2000 Maribor, Slovenija
jan.tovornik@gmail.com
borko.boskovic@um.si
POVZETEK
v dokumentih, predstavljen v tem ˇclanku, temelji na upo-
Pojav plagiatorstva je vedno bolj pogost, saj v danaˇsnjem rabi regularnih izrazov in posameznih korakih pregledovanja
ˇcasu obstaja zelo veliko elektronskih virov, preko katerih dokumentov, predstavljenih v naslednjih poglavjih. Glavna
lahko dostopamo do ˇzelene vsebine. V ta namen je bilo prednost naˇsega pristopa je, da je neodvisen od jezika, v ka-
razvitih veliko razliˇcnih pristopov za detekcijo plagiatov. V terem je dokument napisan.
ˇclanku predstavimo pristop, kjer v dokumentih razpoznamo
navedeno literaturo in znotraj dokumenta poiˇsˇcemo, kje se Cˇ lanek je strukturiran tako, da v naslednjih poglavjih pred-
nahajajo sklici v besedilu. Uspeˇsnost naˇsega pristopa smo stavimo sorodno delo, nato opiˇsemo delovanje naˇsega pri-
preizkusili s pomoˇcjo razliˇcnih metrik. Dosegli smo 67 % stopa, opiˇsemo rezultate eksperimenta in na koncu podamo
natanˇcnost in 80 % mero F1 za razpoznavo virov. kratek zakljuˇcek, kjer povzamemo naˇse ugotovitve skozi ce-
lotno delo.
Kjucˇne besede
2. SORODNA DELA
razpoznavanje literature, analiza citatov, plagiatorstvo, po-
dobnost datotek V ˇclanku [7] sta avtorja predstavila nov pristop k odkriva-
nju plagiatorstva, imenovan Analiza vrstnega reda citatov
1. UVOD ali COA (Citation Order Analysis). Ta deluje na podlagi
analize citatov in sklicevanja na vire oziroma literaturo ter
Plagiat je delo, ki je prepisano, povzeto od drugod in ob- vsebuje naslednje korake:
javljeno, prikazano kot lastno [3]. Veˇcina strokovnih doku-
mentov vsebuje navedeno literaturo. Cˇ e se literatura nahaja 1. preoblikovanje dokumenta za procesiranje citatov in
v dokumentu ali ne, je seveda odvisno od vrste dokumenta. njihovih pojavitev v dokumentu,
Razpoznavanja literature in kasneje iskanja njihovih sklicev 2. ujemanje citatov z njihovimi navedbami v literaturi,
znotraj besedila smo se lotili z idejo, da bi na tak naˇcin
pripomogli k veˇcji natanˇcnosti programov, ki preverjajo, ali 3. med dokumenti se preveri podobnost citatov. V osnovni
je doloˇceni dokument plagiat ali ne. Definicija plagiata v razliˇcici sistema se upoˇsteva samo vrstni red citatov,
SSKJ pravi, da je plagiat tisto, “kar je prepisano, prevzeto v naprednejˇsi razliˇcici sistema pa se ocenjuje tudi raz-
od drugod in objavljeno, prikazano kot lastno, navadno v dalja med dvema citatoma. Cˇ e se dokument prevede
knjiˇzevnosti” [3]. v drugi jezik, se lahko vrstni red citatov znotraj stav-
kov ali odstavkov spremeni zaradi razliˇcnih struktur
Pristop razpoznavanja literature in iskanja njihovih sklicev stavkov ali drugaˇcnega naˇcina pisanja.
Za ocenitev pristopa so opravili preizkuse na 800.000 prosto
dostopnih znanstvenih publikacij, med katere so tudi skrili
20 posebej zasnovanih plagiariziranih dokumentov. Da je
scenarij izgledal bolj realistiˇcen, so nekaj citatov izbrisali,
dodali par novih, nekaterim spremenili stil, nekatere pa med
seboj zamenjali. Pristop je od 20 testnih dokumentov uspe-
ˇsno odkril 19 in na stotine drugih dokumentov, ki so vsebo-
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference DOI: https://doi.org/10.26493/978-961-7055-26-9.15-19 15
Ljubljana, Slovenia, 9 October
njihovih sklicev v besedilu
Matej MORAVEC David LETONJA
Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,
raˇcunalniˇstvo in informatiko raˇcunalniˇstvo in informatiko
Koroˇska cesta 46, Koroˇska cesta 46,
2000 Maribor, Slovenija 2000 Maribor, Slovenija
matejmoravec19@gmail.com david.letonja@gmail.com
Jan TOVORNIK Borko BOSˇKOVICˇ
Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,
raˇcunalniˇstvo in informatiko raˇcunalniˇstvo in informatiko
Koroˇska cesta 46, Koroˇska cesta 46,
2000 Maribor, Slovenija 2000 Maribor, Slovenija
jan.tovornik@gmail.com
borko.boskovic@um.si
POVZETEK
v dokumentih, predstavljen v tem ˇclanku, temelji na upo-
Pojav plagiatorstva je vedno bolj pogost, saj v danaˇsnjem rabi regularnih izrazov in posameznih korakih pregledovanja
ˇcasu obstaja zelo veliko elektronskih virov, preko katerih dokumentov, predstavljenih v naslednjih poglavjih. Glavna
lahko dostopamo do ˇzelene vsebine. V ta namen je bilo prednost naˇsega pristopa je, da je neodvisen od jezika, v ka-
razvitih veliko razliˇcnih pristopov za detekcijo plagiatov. V terem je dokument napisan.
ˇclanku predstavimo pristop, kjer v dokumentih razpoznamo
navedeno literaturo in znotraj dokumenta poiˇsˇcemo, kje se Cˇ lanek je strukturiran tako, da v naslednjih poglavjih pred-
nahajajo sklici v besedilu. Uspeˇsnost naˇsega pristopa smo stavimo sorodno delo, nato opiˇsemo delovanje naˇsega pri-
preizkusili s pomoˇcjo razliˇcnih metrik. Dosegli smo 67 % stopa, opiˇsemo rezultate eksperimenta in na koncu podamo
natanˇcnost in 80 % mero F1 za razpoznavo virov. kratek zakljuˇcek, kjer povzamemo naˇse ugotovitve skozi ce-
lotno delo.
Kjucˇne besede
2. SORODNA DELA
razpoznavanje literature, analiza citatov, plagiatorstvo, po-
dobnost datotek V ˇclanku [7] sta avtorja predstavila nov pristop k odkriva-
nju plagiatorstva, imenovan Analiza vrstnega reda citatov
1. UVOD ali COA (Citation Order Analysis). Ta deluje na podlagi
analize citatov in sklicevanja na vire oziroma literaturo ter
Plagiat je delo, ki je prepisano, povzeto od drugod in ob- vsebuje naslednje korake:
javljeno, prikazano kot lastno [3]. Veˇcina strokovnih doku-
mentov vsebuje navedeno literaturo. Cˇ e se literatura nahaja 1. preoblikovanje dokumenta za procesiranje citatov in
v dokumentu ali ne, je seveda odvisno od vrste dokumenta. njihovih pojavitev v dokumentu,
Razpoznavanja literature in kasneje iskanja njihovih sklicev 2. ujemanje citatov z njihovimi navedbami v literaturi,
znotraj besedila smo se lotili z idejo, da bi na tak naˇcin
pripomogli k veˇcji natanˇcnosti programov, ki preverjajo, ali 3. med dokumenti se preveri podobnost citatov. V osnovni
je doloˇceni dokument plagiat ali ne. Definicija plagiata v razliˇcici sistema se upoˇsteva samo vrstni red citatov,
SSKJ pravi, da je plagiat tisto, “kar je prepisano, prevzeto v naprednejˇsi razliˇcici sistema pa se ocenjuje tudi raz-
od drugod in objavljeno, prikazano kot lastno, navadno v dalja med dvema citatoma. Cˇ e se dokument prevede
knjiˇzevnosti” [3]. v drugi jezik, se lahko vrstni red citatov znotraj stav-
kov ali odstavkov spremeni zaradi razliˇcnih struktur
Pristop razpoznavanja literature in iskanja njihovih sklicev stavkov ali drugaˇcnega naˇcina pisanja.
Za ocenitev pristopa so opravili preizkuse na 800.000 prosto
dostopnih znanstvenih publikacij, med katere so tudi skrili
20 posebej zasnovanih plagiariziranih dokumentov. Da je
scenarij izgledal bolj realistiˇcen, so nekaj citatov izbrisali,
dodali par novih, nekaterim spremenili stil, nekatere pa med
seboj zamenjali. Pristop je od 20 testnih dokumentov uspe-
ˇsno odkril 19 in na stotine drugih dokumentov, ki so vsebo-
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference DOI: https://doi.org/10.26493/978-961-7055-26-9.15-19 15
Ljubljana, Slovenia, 9 October