Page 17 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2018 5th Student Computer Science Research Conference. Koper: University of Primorska Press, 2018
P. 17
• literatura, 4. REZULTATI
• seznam uporabljenih virov in
• reference. V tem poglavju bomo primerjali dobljene rezultate z roˇcno
dobljenimi rezultati in prikazali uspeˇsnost naˇsega pristopa.
Cˇ e vzorec ustreza doloˇcenemu izrazu, se najdeno poglavje
tretira kot poglavje literature, ki vsebuje seznam literature Kontingenˇcna tabela je tip tabele, zapisan v matriˇcni obliki,
oziroma virov. ki prikazuje frekvenˇcno porazdelitev veˇc spremenljivk. Ve-
liko se uporablja pri inˇzenirskih, znanstvenih raziskavah ipd.
Literatura je lahko podana na veˇc naˇcinov: Tabela prikaˇze osnovno idejo medsebojne povezave med dvema
spremenljivkama in lahko pomaga pri iskanju medsebojne
• oˇstevilˇcena z navadnimi oklepaji, interakcije [1].
• oˇstevilˇcena z oglatimi oklepaji ali
• neoˇstevilˇcena. Tabela 1: Zapis kontingenˇcne tabele [5].

Da smo razpoznali te tri naˇcine, smo uporabili 2 razliˇcna podatki / kla- pravilen sklic napaˇcen sklic
regularna izraza, enega za oˇstevilˇcen naˇcin in enega za neo- sifikacija
ˇstevilˇcen naˇcin podajanja literature. Oba regularna izraza,
za vsako podano literaturo, podata v seznam naslednje po- pravilen sklic resniˇcni pozi- laˇzno pozitivni
datke:
tivni (tp) (fp)
• ˇstevilka strani, na kateri je literatura podana,
• zaporedna ˇstevilka v seznamu (ˇce le-ta obstaja), napaˇcen sklic laˇzno negativni resniˇcni nega-
• prva beseda (kot priimek avtorja). (fn) tivni (tn)

Ta seznam se v nadaljevanju uporabi za laˇzjo in bolj orga- Na Sliki 1 so prikazane vrednosti in njihove oznake, ki jih
nizirano iskanje referenc. lahko klasificiramo iz podatkov. V naˇsem primeru laˇzno
negativne vrednosti predstavljajo sklice, ki jih je program
S ciljem poiskati ˇcim veˇc sklicev v besedilu, smo zapisali naˇsel, a v dokumentu ne obstajajo. Resniˇcno pozitivne vre-
razliˇcne regularne izraze. V naˇsem pristopu smo zagotovili dnosti predstavljajo sklice, ki v dokumentu dejansko obsta-
odkrivanje sklicev tam, kjer avtor dokumenta navaja sklice jajo in jih je program naˇsel, ter laˇzno pozitivne vrednosti so
na naˇcin, da v oglate ali navadne oklepaje zapiˇse posame- tiste, ki v dokumentu obstajajo, a jih program ni naˇsel.
zno oznako vira ali pa navede veˇc virov znotraj oklepajev.
Naˇs pristop najde tudi sklice, kjer avtor v oklepajih navede Slika 1: Prikaz vrednosti, ki jih lahko vrne klasifika-
prvega avtorja. tor [2].

Za pravilno prepoznavanje poglavij, literature/virov in skli- .
cev smo uporabili regularne izraze. Za vsak korak v opisa-
nem postopku se je uporabil svoj regularni izraz. Kontingenˇcna matrika je za ocenjevanje uspeˇsnosti naˇsega
pristopa uporabna, saj lahko s pomoˇcjo le-te izraˇcunamo
Za prepoznavanje referenc oziroma sklicev na literaturo smo
uporabili kar 4 razliˇcne regularne izraze, ki razpoznavajo
naslednje naˇcine sklicevanja:

• enoˇstevilˇcno v navadnih in oglatih oklepajih ((0), [0]),
• veˇcˇstevilˇcno v navadnih in oglatih oklepajih ((1, 2, 3),

[1, 2, 3]),
• avtor brez oklepajev (Vir: avtor ...),
• avtor z navadnimi in oglatimi oklepaji ((avtor ...), [av-

tor ...]).

Iskanje in prepoznavanje referenc se opravlja nad celotnim
dokumentom in z najveˇc regularnimi izrazi, zato je ta korak
v veˇcini primerov ˇcasovno najzahtevnejˇsi.

StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 17
Ljubljana, Slovenia, 9 October
   12   13   14   15   16   17   18   19   20   21   22