ment navedenih citatov, teˇzje je odkriti plagiarizem. literature doda v seznam. V tretji fazi pregleda celoten do-
Preoblikovanje dokumentov iz formata pdf v xml je trajalo kument in poiˇsˇce, na kateri strani in v katerem odstavku
2 sekundi za vsak dokument. V 96 % vseh zgoraj omenjenih znotraj strani se nahajajo sklici na literaturo.
dokumentov/publikacij je bilo ujemanje citatov z njihovimi
navedbami v bibliografiji uspeˇsno. Preden smo priˇceli z razpoznavanjem in gradnjo seznama
Najveˇcja prednost opisanega pristopa je neodvisnost od je- literature, smo zaradi razliˇcno strukturiranih dokumentov
zika, v katerem je dokument napisan, in neodvisnost do pa- naleteli na prvi izziv. Naˇsa prva naloga je bila, da smo v
rafraziranja. Cˇ asovna zahtevnost je v primerjavi s pristopi, dokumentu najprej naˇsli, kje se nahaja poglavje z navedeno
ki temeljijo na podobnosti besedil, zanemarljiva. Najveˇcja literaturo. To smo reˇsili tako, da smo zapisali tak regularni
slabost pristopa pa je odvisnost od pravilnega citiranja. izraz, ki je razpoznal ˇcim veˇc razliˇcnih naˇcinov zapisa po-
Slabost tega pristopa je ob enem prednost pristopov, ki te- glavja, ki vsebuje literaturo.
meljijo na podobnosti besedil, zato se za doseganje najbolj-
ˇsih rezulatov priporoˇca kombinirana uporaba obeh pristo- Vsebino poglavja z navedeno literaturo smo ravno tako pre-
pov. iskali s pomoˇcjo regularnih izrazov. Z namenom razpozna-
vanja ˇcim veˇcjega ˇstevila virov znotraj poglavja smo zapisali
V ˇclanku [8] so ˇse opisani rezultati, ki so jih avtorji pridobili veˇcje ˇstevilo regularnih izrazov. Reˇsitve smo se lotili tako,
ob avtomatski obdelavi ogromne koliˇcine znanstvenih ˇclan- da smo razpoznavali vrstico po vrstico znotraj poglavja z
kov v skladu z natanˇcno doloˇcenimi kriteriji ocenjevanja. navedeno literaturo. Ob posameznem najdenem viru smo
Populacijo znanstvenih ˇclankov, ki so jo uporabljali, so ure- zapisali njegovo oznako (ˇstevilko), v za to namenjen seznam.
dili v skupine tako, da so zadostili kriterijem medsebojne Ta seznam smo zgradili z namenom za kasnejˇse iskanje skli-
povezanosti, tj. povezanost v tematiki. Dokumenti iste te- cev na posamezen vir v besedilu.
matike kaˇzejo na zelo visoko stopnjo korelacije med seboj.
Avtorji dokaˇzejo, da lahko z njihovim pristopom zelo do- Mnoˇzica dokumentov, ki smo jo uporabili kot uˇcno mnoˇzico
bro doloˇcimo tematiko dokumenta le s pomoˇcjo razpoznane za naˇs pristop je vsebovala strokovna oziroma znanstvena
literature v dokumentih. dela z razliˇcnih fakultet. Vsi dokumenti so bili zapisani v
slovenskem jeziku in so po veˇcini bili drugaˇce strukturirani.
Delo Irene Marshakove [9] opisuje novo formalno metodo za Zaradi razliˇcno strukturiranih dokumentov je bilo razpozna-
klasifikacijo dokumentov. Ta metoda temelji na analizi refe- vanje sklicev toliko veˇcji izziv.
renc oziroma sklicev s pomoˇcjo indeksiranja literature znan-
stvenih ˇclankov. Vsakemu sklicu se dodeli indeks od zaˇcetka Za prepoznavanje poglavja, ki je vsebovalo navedeno lite-
do konca dokumenta. Po dodelitvi indeksov dokumentom se raturo, smo uporabili regularni izraz, specifiˇcen za element
le-ti indeksi in ˇstevilka reference oziroma sklica medsebojno pagraf (
). Ta regularni izraz lahko razbijemo na veˇc
primerjajo. Primer, da imata dve ali veˇc del veliko sklicev delov:
z enakimi indeksi, nakazuje, da je morebiti eno ali veˇc del
izmed teh plagiat. • V prvem delu, poiˇsˇcemo vse odstavke
, ki imajo
vsebino atributa xml:id, ob pb (page break) in p (od-
Cˇ lanek [4] opisuje, kako je potekalo prvo mednarodno tek- stavku) celo ˇstevilo.
mnovanje v odkrivanju plagiatorstva. Na tem tekmovanju
se je izvajala delavnica PAN - Delavnica o odkrivanju pla- • V drugem delu se prvemu regularnemu pravilu, pri-
giatorstva, avtorstva in zlorabe socialne programske opreme druˇzuje iskanje odstavkov
v poljubnem jeziku. V
(zloraba osebnih podatkov preko druˇzabnih omreˇzij). primeru, da bi ˇzeleli poiskati le doloˇcen jezik, bi morali
To tekmovanje oziroma nateˇcaj je bil razdeljen na veˇc po- vsebino atributa xml:lang specifiˇcno navesti.
droˇcij (13 razliˇcnih: razliˇcne teˇzavnosti, veˇc vrst nalog itd.)
in to z enim razlogom, da bi prepreˇcili krˇsitve, kot so pla- • V zadnjem delu pa k prej navedenima praviloma do-
giatorstvo in kraja osebnih podatkov. “Stranski efekt” tega damo pravilo za iskanje odstavkov
po specifiˇcnih
tekmovanja je bil postaviti oceno, kako dobro detektiramo naslovih, pod katerimi se predstavlja literatura.
plagiatorstvo in varnost osebnih podatkov bodisi iz avtor-
skih del ali druˇzabnih omreˇzij. Hkrati pa izbrati mnoˇzico Regularni izraz poiˇsˇce celoten odstavek, v katerem je podan
ljudi, ki bi razvijala razliˇcne algoritme za bolj varni jutri. naslov poglavja literature. Ker naslov poglavja najverjetneje
vsebuje oˇstevilˇcenje, mora regularni izraz to tudi razpoznati.
Cˇ lanek [10] opisuje novo obliko zdruˇzevanja dokumentov Upoˇstevati moramo tudi dejstvo, da obstaja veˇc vrst oˇste-
imenovano: so-citiranje. Je pristop, kjer ob navedbi vira vilˇcevanja, kar nam dodatno oteˇzi razpoznavanje. Po za-
navedemo skupaj veˇc virov (dokumente, knjige, internetne poredni ˇstevilki poglavja sledi naslov poglavja, pri katerem
vire, na katere se nato sklicujemo). Avtorji predpostavljajo preverjamo naslednje besedne zveze (upoˇstevajo se velike in
uporabo so-citiranja zato, da zmanjˇsamo koliˇcino literature. male ˇcrke):
Tako zdruˇzujemo vire, ki temeljijo na isti tematiki, so iz iste
zaloˇzbe, imajo iste avtorje, ali pa preprosto so-citiramo zato, • seznam virov,
ker najdemo eno stvar iz dveh razliˇcnih virov.
• seznam literature,
3. PREDLAGANA METODA
• viri,
Predlagana metoda vsebuje tri faze. V prvi fazi detektira
poglavje, ki vsebuje navedeno literaturo. V drugi fazi zno-
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 16
Ljubljana, Slovenia, 9 October