Page 18 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2018 5th Student Computer Science Research Conference. Koper: University of Primorska Press, 2018
P. 18
anˇcnost, preciznost, priklic in mero F1, kot prikazujejo pa nismo naˇsli. V dokumentu za primerjavo pa smo naˇsli
naslednje enaˇcbe: le 20 pravilnih sklicev, a 5 sklicev nismo naˇsli. Med vsemi
sklici ni bilo nobenega, ki bi se nahajal na isti strani, v istem
tp + tn (1) odstavku. Na podlagi takih rezultatov z naˇso metodo nismo
accuracy = (2) ugotovili oziroma ne moremo ugotoviti, ˇce gre za plagiat ali
(3) ne. Na podlagi rezultatov tretje izvedbe primerjave dveh do-
tp + tn + f p + f n (4) kumentov z naˇso metodo prav tako ne moremo ugotoviti, ˇce
tp gre za plagiat ali ne. Primerjave sploh ne moremo narediti,
saj naˇsa metoda od 6 sklicev v objavjenem dokumentu ni
precision = naˇsla nobenega. V dokumentu za primerjavo je sicer naˇsla
tp + f p 20 sklicev, vendar jih v tem primeru ne moremo uporabiti
tp za primerjavo.
recall = Na podlagi izvedenega eksperimenta lahko vidimo, v katerih
tp + f n primerih je predlagana metoda uporabna. Cˇ e so avtorji do-
kumentov dosledni in “pravilno” navajajo sklice in literaturo,
F 1 = 2P R potem lahko z uporabo predlagane metode dokaj uˇcinkovito
P +R ugotovimo, ali je dokument plagiat ali ne, oziroma lahko v
primeru uporabe ostalih metod za preverjanje plagiatorstva
Za izraˇcun uspeˇsnosti smo uporabili 100 dokumentov. Od s to metodo poveˇcamo oziroma zmanjˇsamo verjetnost, da je
tega smo jih 31 izloˇcili, saj so bili sklici navedeni tako, da delo plagiat.
niti ˇclovek ne bi znal razpoznati, na kateri vir se oseba v do-
kumentu sklicuje. Najveˇcji problem v dokumentih je torej 5. UGOTOVITVE IN PROBLEMI
predstavljalo naˇstevanje virov tako, da sta bila pod isto ˇste-
vilko naˇsteta dva ali veˇc virov. Zato smo za izraˇcun uporabili Skozi razvoj naˇsega pristopa k odkrivanju plagiatorstva smo
69 dokumentov in na koncu izraˇcunali toˇcnost, natanˇcnost, naleteli na kar nekaj teˇzav. Glavna teˇzava v naˇsem delu je
priklic in metriko F1. Za izraˇcun uspeˇsnosti smo uporabili bil naˇcin navajanja in sklicevanja na vire. Kot je zabeleˇzeno
mikro povpreˇcenje, kjer smo zdruˇzili dobljene rezultate kla- v navodilih za pisanje zakljuˇcnih del [6], vidimo, da je nave-
sifikatorja. denih kar nekaj napotkov, kako pravilno navajati in se nato
V Tabeli 2 so prikazani rezultati posameznih izraˇcunov. sklicevati na vire.
Tabela 2: Metrike uspeˇsnosti razpoznavanja litera- Navedbo virov in literature je potrebno zapisati kot seznam
ture. na koncu zakljuˇcnega dela. V ta seznam je potrebno zabele-
ˇziti vse vire, na katere smo se sklicevali v zakljuˇcnem delu.
Metrika Rezultat Vsakega izmed virov je potrebno oˇstevilˇciti z arabskimi ˇste-
vilkami znotraj oglatih oklepajih (Slika 2).
Toˇcnost (angl. accuracy) 0,67
Slika 2: Pravilna navedba vira.
Natanˇcnost (angl. precision) 0,88
Seznam literature in virov je potrebno urediti po abecednem
Priklic (angl. recall) 0,74 vrstnem redu avtorjev. V primeru, da ni navedenih avtor-
jev, uredimo po naslovu vira. Pomanjkljivost in napaˇcno
Metrika F1 (angl. F1 score) 0,80 sklicevanje virov zmanjˇsuje vrednost zakljuˇcnega dela [6].
Uspeˇsnost naˇsega programa, ki smo jo izraˇcunali na podlagi Teˇzave nam je povzroˇcalo tudi iskanje navedenih sklicev v
mikro povpreˇcenja, je 67 %. seznamu literature in virov. Ta seznam so nekateri ˇstudentje
navajali napaˇcno in na veˇc razliˇcnih naˇcinov:
4.1 Eksperiment za ugotavljanje plagiatorstva
1. naˇstevanje z vezajem (-),
Z namenom prikaza uporabnosti naˇsega pristopa v smislu
ugotavljanja plagiatorstva med dokumenti smo izvedli en 2. naˇstevanje s piko (•),
manjˇsi eksperiment. Pri tem smo uporabili dva dokumenta.
En dokument je predstavljal ˇze objavljeno delo, drug doku- 3. seznam literature in virov NI bil naveden za vsemi po-
ment pa smo s tem dokumentom v smislu navajanja litera- glavji na svoji strani, ampak je bil mnogokrat pred
ture in navajanja sklicev primerjali. Navedeni potek primer- mnogimi poglavji, vˇcasih kar na enaki strani kot neko
jave smo izvedli trikrat (z razliˇcnimi dokumenti). drugo poglavje.
Pri prvi primerjavi dveh dokumentov, smo v objavljenem Zaradi vseh teh napak naˇsa programska reˇsitev ni mogla
dokumentu z naˇso metodo naˇsli 34 pravilnih sklicev in niˇc uspeˇsno napolniti svojega seznama z viri, na podlagi kate-
napaˇcnih. V dokumentu za primerjavo z objavljenim pa smo rih je nato iskala sklice po dokumentu. Ta problem je eden
naˇsli 52 pravilnih sklicev in niˇc napaˇcnih. Ugotovili smo, da
je od teh 52 sklicev 34 takih, ki se pojavijo na isti strani, v
istem odstavku kot v objavljenem dokumentu. Na podlagi
teh rezultatov lahko z veliko verjetnostjo trdimo, da gre za
plagiat, saj je zelo majhna verjetnost, da bi dva dokumenta
imela na istih straneh, v istih odstavkih tako veliko sklicev
na literaturo. V primerjavi drugih dveh dokumentov smo v
objavljenem dokumentu naˇsli 37 pravilnih sklicev, 2 sklica
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 18
Ljubljana, Slovenia, 9 October
naslednje enaˇcbe: le 20 pravilnih sklicev, a 5 sklicev nismo naˇsli. Med vsemi
sklici ni bilo nobenega, ki bi se nahajal na isti strani, v istem
tp + tn (1) odstavku. Na podlagi takih rezultatov z naˇso metodo nismo
accuracy = (2) ugotovili oziroma ne moremo ugotoviti, ˇce gre za plagiat ali
(3) ne. Na podlagi rezultatov tretje izvedbe primerjave dveh do-
tp + tn + f p + f n (4) kumentov z naˇso metodo prav tako ne moremo ugotoviti, ˇce
tp gre za plagiat ali ne. Primerjave sploh ne moremo narediti,
saj naˇsa metoda od 6 sklicev v objavjenem dokumentu ni
precision = naˇsla nobenega. V dokumentu za primerjavo je sicer naˇsla
tp + f p 20 sklicev, vendar jih v tem primeru ne moremo uporabiti
tp za primerjavo.
recall = Na podlagi izvedenega eksperimenta lahko vidimo, v katerih
tp + f n primerih je predlagana metoda uporabna. Cˇ e so avtorji do-
kumentov dosledni in “pravilno” navajajo sklice in literaturo,
F 1 = 2P R potem lahko z uporabo predlagane metode dokaj uˇcinkovito
P +R ugotovimo, ali je dokument plagiat ali ne, oziroma lahko v
primeru uporabe ostalih metod za preverjanje plagiatorstva
Za izraˇcun uspeˇsnosti smo uporabili 100 dokumentov. Od s to metodo poveˇcamo oziroma zmanjˇsamo verjetnost, da je
tega smo jih 31 izloˇcili, saj so bili sklici navedeni tako, da delo plagiat.
niti ˇclovek ne bi znal razpoznati, na kateri vir se oseba v do-
kumentu sklicuje. Najveˇcji problem v dokumentih je torej 5. UGOTOVITVE IN PROBLEMI
predstavljalo naˇstevanje virov tako, da sta bila pod isto ˇste-
vilko naˇsteta dva ali veˇc virov. Zato smo za izraˇcun uporabili Skozi razvoj naˇsega pristopa k odkrivanju plagiatorstva smo
69 dokumentov in na koncu izraˇcunali toˇcnost, natanˇcnost, naleteli na kar nekaj teˇzav. Glavna teˇzava v naˇsem delu je
priklic in metriko F1. Za izraˇcun uspeˇsnosti smo uporabili bil naˇcin navajanja in sklicevanja na vire. Kot je zabeleˇzeno
mikro povpreˇcenje, kjer smo zdruˇzili dobljene rezultate kla- v navodilih za pisanje zakljuˇcnih del [6], vidimo, da je nave-
sifikatorja. denih kar nekaj napotkov, kako pravilno navajati in se nato
V Tabeli 2 so prikazani rezultati posameznih izraˇcunov. sklicevati na vire.
Tabela 2: Metrike uspeˇsnosti razpoznavanja litera- Navedbo virov in literature je potrebno zapisati kot seznam
ture. na koncu zakljuˇcnega dela. V ta seznam je potrebno zabele-
ˇziti vse vire, na katere smo se sklicevali v zakljuˇcnem delu.
Metrika Rezultat Vsakega izmed virov je potrebno oˇstevilˇciti z arabskimi ˇste-
vilkami znotraj oglatih oklepajih (Slika 2).
Toˇcnost (angl. accuracy) 0,67
Slika 2: Pravilna navedba vira.
Natanˇcnost (angl. precision) 0,88
Seznam literature in virov je potrebno urediti po abecednem
Priklic (angl. recall) 0,74 vrstnem redu avtorjev. V primeru, da ni navedenih avtor-
jev, uredimo po naslovu vira. Pomanjkljivost in napaˇcno
Metrika F1 (angl. F1 score) 0,80 sklicevanje virov zmanjˇsuje vrednost zakljuˇcnega dela [6].
Uspeˇsnost naˇsega programa, ki smo jo izraˇcunali na podlagi Teˇzave nam je povzroˇcalo tudi iskanje navedenih sklicev v
mikro povpreˇcenja, je 67 %. seznamu literature in virov. Ta seznam so nekateri ˇstudentje
navajali napaˇcno in na veˇc razliˇcnih naˇcinov:
4.1 Eksperiment za ugotavljanje plagiatorstva
1. naˇstevanje z vezajem (-),
Z namenom prikaza uporabnosti naˇsega pristopa v smislu
ugotavljanja plagiatorstva med dokumenti smo izvedli en 2. naˇstevanje s piko (•),
manjˇsi eksperiment. Pri tem smo uporabili dva dokumenta.
En dokument je predstavljal ˇze objavljeno delo, drug doku- 3. seznam literature in virov NI bil naveden za vsemi po-
ment pa smo s tem dokumentom v smislu navajanja litera- glavji na svoji strani, ampak je bil mnogokrat pred
ture in navajanja sklicev primerjali. Navedeni potek primer- mnogimi poglavji, vˇcasih kar na enaki strani kot neko
jave smo izvedli trikrat (z razliˇcnimi dokumenti). drugo poglavje.
Pri prvi primerjavi dveh dokumentov, smo v objavljenem Zaradi vseh teh napak naˇsa programska reˇsitev ni mogla
dokumentu z naˇso metodo naˇsli 34 pravilnih sklicev in niˇc uspeˇsno napolniti svojega seznama z viri, na podlagi kate-
napaˇcnih. V dokumentu za primerjavo z objavljenim pa smo rih je nato iskala sklice po dokumentu. Ta problem je eden
naˇsli 52 pravilnih sklicev in niˇc napaˇcnih. Ugotovili smo, da
je od teh 52 sklicev 34 takih, ki se pojavijo na isti strani, v
istem odstavku kot v objavljenem dokumentu. Na podlagi
teh rezultatov lahko z veliko verjetnostjo trdimo, da gre za
plagiat, saj je zelo majhna verjetnost, da bi dva dokumenta
imela na istih straneh, v istih odstavkih tako veliko sklicev
na literaturo. V primerjavi drugih dveh dokumentov smo v
objavljenem dokumentu naˇsli 37 pravilnih sklicev, 2 sklica
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 18
Ljubljana, Slovenia, 9 October