Page 19 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2018 5th Student Computer Science Research Conference. Koper: University of Primorska Press, 2018
P. 19
ed glavnih razlogov, zakaj smo morali izmed 100 doku- [3] Plagiat. http://bos.zrc-sazu.si/cgi/a03.exe?
mentov zavreˇci 31 dokumentov. name=sskj_testa&expression=ge%3Dplagiat*&hs=1.
Dostopano 29. 4. 2018.
Razlog, kateremu se prav tako nismo morali izogniti, je bilo
napaˇcno sklicevanje virov. Avtorji so se na sam vir sklicevali [4] E. S. M. K. E. A. Benno Stein, Paolo Rosso. Pan
napaˇcno na veˇc naˇcinov: workshop. uncovering plagiarism, authorship and
social software misuse.
1. sklicevanje brez oklepajev () ali brez zavitih oklepajev
[], v katerih bi naj bila navedena zaporedna ˇstevilka https://pdfs.semanticscholar.org/160b/
vira oziroma avtor, 400d726eb042d0867d537c447e858716e7b7.pdf.
Dostopano 8. 6. 2018.
2. sklicevanje v obliki 1. ali 1, [5] J. D. Borko Boˇskoviˇc and J. Brest. Sˇtudijska literatura
pri predmetu Jezikovne tehnologije. 2018.
3. sklicevanje v obliki (vir1 vir2 vir3 itd.), kjer sklici med
seboj niso bili pravilno loˇceni. Za loˇcevanje sklicev so [6] FERI. Navodila za pisanje zakljuˇcnih del na ˇstudijskih
ˇstudentje uporabljali znake, kot je na primer podpiˇcje programih prve in druge stopnje um feri. 2018.
(;),
[7] B. Gipp and J. Beel. Citation based plagiarism
4. sklicevanje na vir, ki na seznamu virov ne obstaja, detection - a new approach to identify plagiarized
work language independently. HT ’10 Proceedings of
5. sklicevanje po zaˇcetnicah imena oziroma priimka av- the 21st ACM conference on Hypertext and
torja, hypermedia, 2010.
6. nekateri ˇstudentje so se sklicevali na prilogo na enak [8] M. M. Kessler. Bibliographic coupling between
naˇcin kot na vir, zato je naˇsa programska reˇsitev na- scientific papers. American Documentation, 1963.
paˇcno razpoznala sklic.
[9] I. V. Marshakova. System of document connections
Probleme nam je povzroˇcala tudi implementacija regularnih based on references.
izrazov. Problem je bil ta, da so avtorji vˇcasih navajali in se
sklicevali na vire na dva ali veˇc razliˇcnih naˇcinov. Potrebno http://garfield.library.upenn.edu/marshakova/
je bilo zapisati vgnezdene regularne izraze (glej poglavje 3), marshakovanauchtechn1973.pdf. Dostopano 8. 6.
ki so v nekaterih dokumentih delovali, v nekaterih pa ne. Ne- 2018.
katere vgnezdene regularne izraze je bilo potrebno loˇciti na
veˇc regularnih izrazov. Tako smo najprej preverili najpogo- [10] H. Small. Co-citation in the scientific literature: a new
steje uporabljene naˇcine navedbe in sklicevanja virov, nato measure of the relationship between two documents.
pa tiste manj pogoste, da smo tako pokrili ˇcim veˇc naˇcinov 1973.
navedb.
6. ZAKLJUCˇ EK
Plagiatorstvo je zaradi ˇcedalje laˇzjega dostopa do elektron-
skih virov vse bolj pogosto. Skozi raziskovalno nalogo smo
prikazali, kako bi znotraj dokumenta razpoznali literaturo in
poiskali njihove sklice v besedilu. Vkljuˇcitev takega naˇcina
preverjanja plagiarizma bi po naˇsem mnenju veliko pripo-
mogel k bolj natanˇcni detekciji plagiata, saj veliko tistih, ki
poizkusijo oddati plagiat, spremenijo vsebino, literatura pa
ostane nespremenjena. Najveˇcja prednost naˇsega pristopa
je torej ta, da je pristop neodvisen od jezika, v katerem je
dokument napisan.
Z uspeˇsnostjo naˇsega pristopa smo zadovoljni, vendar je
uspeˇsnost razpoznave literature in kasneje doloˇcitve njiho-
vih sklicev v besedilu v veliki meri odvisna od “pravilnosti”
sestave dokumenta. Uspeˇsnost bi lahko izboljˇsali tako, da
bi zapisali ˇse veˇc bolj specifiˇcnih regularnih izrazov in tako
uˇcinkoviteje razpoznali literaturo v razliˇcnih dokumentih.
7. LITERATURA
[1] Kontingenˇcna tabela. https:
//en.wikipedia.org/wiki/Contingency_table.
Dostopano 10. 5. 2018.
[2] Metrika f1.
https://en.wikipedia.org/wiki/F1_score.
Dostopano 10. 5. 2018.
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 19
Ljubljana, Slovenia, 9 October
mentov zavreˇci 31 dokumentov. name=sskj_testa&expression=ge%3Dplagiat*&hs=1.
Dostopano 29. 4. 2018.
Razlog, kateremu se prav tako nismo morali izogniti, je bilo
napaˇcno sklicevanje virov. Avtorji so se na sam vir sklicevali [4] E. S. M. K. E. A. Benno Stein, Paolo Rosso. Pan
napaˇcno na veˇc naˇcinov: workshop. uncovering plagiarism, authorship and
social software misuse.
1. sklicevanje brez oklepajev () ali brez zavitih oklepajev
[], v katerih bi naj bila navedena zaporedna ˇstevilka https://pdfs.semanticscholar.org/160b/
vira oziroma avtor, 400d726eb042d0867d537c447e858716e7b7.pdf.
Dostopano 8. 6. 2018.
2. sklicevanje v obliki 1. ali 1, [5] J. D. Borko Boˇskoviˇc and J. Brest. Sˇtudijska literatura
pri predmetu Jezikovne tehnologije. 2018.
3. sklicevanje v obliki (vir1 vir2 vir3 itd.), kjer sklici med
seboj niso bili pravilno loˇceni. Za loˇcevanje sklicev so [6] FERI. Navodila za pisanje zakljuˇcnih del na ˇstudijskih
ˇstudentje uporabljali znake, kot je na primer podpiˇcje programih prve in druge stopnje um feri. 2018.
(;),
[7] B. Gipp and J. Beel. Citation based plagiarism
4. sklicevanje na vir, ki na seznamu virov ne obstaja, detection - a new approach to identify plagiarized
work language independently. HT ’10 Proceedings of
5. sklicevanje po zaˇcetnicah imena oziroma priimka av- the 21st ACM conference on Hypertext and
torja, hypermedia, 2010.
6. nekateri ˇstudentje so se sklicevali na prilogo na enak [8] M. M. Kessler. Bibliographic coupling between
naˇcin kot na vir, zato je naˇsa programska reˇsitev na- scientific papers. American Documentation, 1963.
paˇcno razpoznala sklic.
[9] I. V. Marshakova. System of document connections
Probleme nam je povzroˇcala tudi implementacija regularnih based on references.
izrazov. Problem je bil ta, da so avtorji vˇcasih navajali in se
sklicevali na vire na dva ali veˇc razliˇcnih naˇcinov. Potrebno http://garfield.library.upenn.edu/marshakova/
je bilo zapisati vgnezdene regularne izraze (glej poglavje 3), marshakovanauchtechn1973.pdf. Dostopano 8. 6.
ki so v nekaterih dokumentih delovali, v nekaterih pa ne. Ne- 2018.
katere vgnezdene regularne izraze je bilo potrebno loˇciti na
veˇc regularnih izrazov. Tako smo najprej preverili najpogo- [10] H. Small. Co-citation in the scientific literature: a new
steje uporabljene naˇcine navedbe in sklicevanja virov, nato measure of the relationship between two documents.
pa tiste manj pogoste, da smo tako pokrili ˇcim veˇc naˇcinov 1973.
navedb.
6. ZAKLJUCˇ EK
Plagiatorstvo je zaradi ˇcedalje laˇzjega dostopa do elektron-
skih virov vse bolj pogosto. Skozi raziskovalno nalogo smo
prikazali, kako bi znotraj dokumenta razpoznali literaturo in
poiskali njihove sklice v besedilu. Vkljuˇcitev takega naˇcina
preverjanja plagiarizma bi po naˇsem mnenju veliko pripo-
mogel k bolj natanˇcni detekciji plagiata, saj veliko tistih, ki
poizkusijo oddati plagiat, spremenijo vsebino, literatura pa
ostane nespremenjena. Najveˇcja prednost naˇsega pristopa
je torej ta, da je pristop neodvisen od jezika, v katerem je
dokument napisan.
Z uspeˇsnostjo naˇsega pristopa smo zadovoljni, vendar je
uspeˇsnost razpoznave literature in kasneje doloˇcitve njiho-
vih sklicev v besedilu v veliki meri odvisna od “pravilnosti”
sestave dokumenta. Uspeˇsnost bi lahko izboljˇsali tako, da
bi zapisali ˇse veˇc bolj specifiˇcnih regularnih izrazov in tako
uˇcinkoviteje razpoznali literaturo v razliˇcnih dokumentih.
7. LITERATURA
[1] Kontingenˇcna tabela. https:
//en.wikipedia.org/wiki/Contingency_table.
Dostopano 10. 5. 2018.
[2] Metrika f1.
https://en.wikipedia.org/wiki/F1_score.
Dostopano 10. 5. 2018.
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 19
Ljubljana, Slovenia, 9 October