Page 11 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2016 3rd Student Computer Science Research Conference. Koper: University of Primorska Press, 2016
P. 11
ščina, hrvaščina, srbščina (latinica), makedonščina, polj- Tabela 1: Uspešnost metod v posameznem jeziku %
ščina, slovaščina in slovenščina. Bosanščina, hrvaščina in
srbščina so si med seboj zelo podobni, medtem ko se bol- Uspešnost metod %
garščina precej razlikuje od ostalih jezikov. Testni korpus
vsebuje kratka besedila do stopetdeset besed. Ta besedila CBA WBA HA1 HA2 HA3
niso sestavljena iz pravilno napisanih besedil, ampak vse-
bujejo napake, okrajšave, nepomembne znake in citate itd. Bolgarščina 100 100 100 100 100
Za testni korpus smo uporabili petindvajset testnih besedil
za posamezni jezik. Vsak testni primer je dolg nekaj stav- Bosanščina 80 4 80 4 4
kov. Besedila smo dobili iz različnih spletnih forumov, kot
so športni forum, elektrotehniški forum in ostali. Češčina 48 88 48 92 96
4.2 Analiza in rezultati Hrvaščina 0 92 0 92 84
Vse metode, ki smo jih implementirali, smo nato tudi pre- Srbščina (latinica) 0 16 0 16 40
izkusili na praktičnih primerih. Za vsak jezik smo ustvarili
matriko klasifikacijskih napak in v njej prikazali dobljene Makedonščina 0 100 0 100 96
rezultate. Naše rezultate smo poskušali primerjati z orodji
za razpoznavo jezika, kot sta Google Prevajalnik in Preva- Poljščina 72 100 72 100 100
jalnik Bing. Prvi ne prepoznava srbščine (latinica), drugi pa
bosanščine in makedonščine. Zaradi tega primerjava rezul- Slovaščina 88 80 88 92 96
tatov med orodji ni smiselna.
Slovenščina 72 88 72 88 96
Klasifikacijo smo opravili nad vsemi jeziki. V tabeli 3 in 4
so prikazani rezultati teh meritev. Tabela predstavlja ma- Tabela 2: Uspešnost metod v %
triko klasifikacijskih napak. Prikazani so jeziki testnega be- Uspešnost metod %
sedila in uporabljene metode. V eni celici so štiri vrednosti.
Vsaka vrednost pripada eni od metod. Posebej so za vsako CBA WBA HA1 HA2 HA3
metodo, po vrsti: CBA, WBA, HA1, HA2 in HA3. Za pri- Vsi jeziki 51.1 74.2 51.1 76 79.6
mer si vzemimo celico v zadnjem stolpcu in vrstici v tabeli
4. Ta znaša 18/22/18/24. Prva vrednost 18 je število pra- 5. ZAKLJUCˇ EK
vilno razpoznanih besedil po algoritmu CBA, vrednost 22
je število razpoznanih besedil po metodi WBA, nadalje 18 V članku smo analizirali obstoječe metode pri zaznavanju
po metodi HA1, 22 po metodi HA2 in 24 po naši metodi jezika in predlagali svojo metodo. Algoritem, ki je deloval
oziroma HA3. V tabeli 1 in tabeli 2 lahko zasledimo tudi na principu znakov, je slabo zaznaval jezike, saj je težko na-
uspešnost posameznih metod v jezikih in skupaj. Če pogle- rediti nekakšen statistični model, ki bi prinesel dovolj razno-
damo za primer zadnjo vrstico v tabeli 1, opazimo, da je like vzorce v učni korpus. Več sreče smo imeli z besedami,
najbolj pravilno klasificiral besedila naš algoritem - z 96 % kjer je algoritem zaznaval jezike precej bolje. Tudi hibridna
natančnostjo, najslabše pa CBA in HA1 algoritem z 72 % metoda in naša metoda sta vračali boljše rezultate. Naš al-
natančnostjo. Iz rezultatov vidimo, da metode slabše de- goritem deluje najbolje, saj smo pogostost pojavljanja besed
lujejo med jeziki, ki so si podobni (srbščina, hrvaščina in v jeziku dodatno obtežili.
bosanščina). Metoda CBA deluje odvisno od predefiniranih
znakov. Vidimo, da so rezultati enaki pri metodi CBA in Učni korpus, ki smo ga uporabili, je bil sestavljen iz več 100
HA1. Razlog je v tem, da pri testih nismo dobili enakih besedil iz spleta, ki so bila pretvorjena v besedne in zna-
frekvenc. Dobro deluje uravnotežena metoda HA2. V naši kovne učne baze podatkov v obliki tekstovnih datotek. Na
metodi smo bolj utežili metodo WBA, saj daje boljše re- podlagi prejšnjih metod smo poskušali izboljšati detekcijo,
zultate. CBA smo manj utežili. Zaradi teh dveh izboljšav ki se razlikuje na drugačen izračun od prejšnjih hibridnih
smo dobili 3.6 % izboljšavo. Boljšo razpoznavo besedil smo metod. Ugotovili smo, da naša metoda deluje boljše kot
dobili pri češčini, slovaščini in slovenščini. druge hibridne metode, vendar pa je to odvisno od besedila,
ki ga procesiramo.
StuCoSReC Proceedings of the 2016 3rd Student Computer Science Research Conference 11
Ljubljana, Slovenia, 12 October
ščina, slovaščina in slovenščina. Bosanščina, hrvaščina in
srbščina so si med seboj zelo podobni, medtem ko se bol- Uspešnost metod %
garščina precej razlikuje od ostalih jezikov. Testni korpus
vsebuje kratka besedila do stopetdeset besed. Ta besedila CBA WBA HA1 HA2 HA3
niso sestavljena iz pravilno napisanih besedil, ampak vse-
bujejo napake, okrajšave, nepomembne znake in citate itd. Bolgarščina 100 100 100 100 100
Za testni korpus smo uporabili petindvajset testnih besedil
za posamezni jezik. Vsak testni primer je dolg nekaj stav- Bosanščina 80 4 80 4 4
kov. Besedila smo dobili iz različnih spletnih forumov, kot
so športni forum, elektrotehniški forum in ostali. Češčina 48 88 48 92 96
4.2 Analiza in rezultati Hrvaščina 0 92 0 92 84
Vse metode, ki smo jih implementirali, smo nato tudi pre- Srbščina (latinica) 0 16 0 16 40
izkusili na praktičnih primerih. Za vsak jezik smo ustvarili
matriko klasifikacijskih napak in v njej prikazali dobljene Makedonščina 0 100 0 100 96
rezultate. Naše rezultate smo poskušali primerjati z orodji
za razpoznavo jezika, kot sta Google Prevajalnik in Preva- Poljščina 72 100 72 100 100
jalnik Bing. Prvi ne prepoznava srbščine (latinica), drugi pa
bosanščine in makedonščine. Zaradi tega primerjava rezul- Slovaščina 88 80 88 92 96
tatov med orodji ni smiselna.
Slovenščina 72 88 72 88 96
Klasifikacijo smo opravili nad vsemi jeziki. V tabeli 3 in 4
so prikazani rezultati teh meritev. Tabela predstavlja ma- Tabela 2: Uspešnost metod v %
triko klasifikacijskih napak. Prikazani so jeziki testnega be- Uspešnost metod %
sedila in uporabljene metode. V eni celici so štiri vrednosti.
Vsaka vrednost pripada eni od metod. Posebej so za vsako CBA WBA HA1 HA2 HA3
metodo, po vrsti: CBA, WBA, HA1, HA2 in HA3. Za pri- Vsi jeziki 51.1 74.2 51.1 76 79.6
mer si vzemimo celico v zadnjem stolpcu in vrstici v tabeli
4. Ta znaša 18/22/18/24. Prva vrednost 18 je število pra- 5. ZAKLJUCˇ EK
vilno razpoznanih besedil po algoritmu CBA, vrednost 22
je število razpoznanih besedil po metodi WBA, nadalje 18 V članku smo analizirali obstoječe metode pri zaznavanju
po metodi HA1, 22 po metodi HA2 in 24 po naši metodi jezika in predlagali svojo metodo. Algoritem, ki je deloval
oziroma HA3. V tabeli 1 in tabeli 2 lahko zasledimo tudi na principu znakov, je slabo zaznaval jezike, saj je težko na-
uspešnost posameznih metod v jezikih in skupaj. Če pogle- rediti nekakšen statistični model, ki bi prinesel dovolj razno-
damo za primer zadnjo vrstico v tabeli 1, opazimo, da je like vzorce v učni korpus. Več sreče smo imeli z besedami,
najbolj pravilno klasificiral besedila naš algoritem - z 96 % kjer je algoritem zaznaval jezike precej bolje. Tudi hibridna
natančnostjo, najslabše pa CBA in HA1 algoritem z 72 % metoda in naša metoda sta vračali boljše rezultate. Naš al-
natančnostjo. Iz rezultatov vidimo, da metode slabše de- goritem deluje najbolje, saj smo pogostost pojavljanja besed
lujejo med jeziki, ki so si podobni (srbščina, hrvaščina in v jeziku dodatno obtežili.
bosanščina). Metoda CBA deluje odvisno od predefiniranih
znakov. Vidimo, da so rezultati enaki pri metodi CBA in Učni korpus, ki smo ga uporabili, je bil sestavljen iz več 100
HA1. Razlog je v tem, da pri testih nismo dobili enakih besedil iz spleta, ki so bila pretvorjena v besedne in zna-
frekvenc. Dobro deluje uravnotežena metoda HA2. V naši kovne učne baze podatkov v obliki tekstovnih datotek. Na
metodi smo bolj utežili metodo WBA, saj daje boljše re- podlagi prejšnjih metod smo poskušali izboljšati detekcijo,
zultate. CBA smo manj utežili. Zaradi teh dveh izboljšav ki se razlikuje na drugačen izračun od prejšnjih hibridnih
smo dobili 3.6 % izboljšavo. Boljšo razpoznavo besedil smo metod. Ugotovili smo, da naša metoda deluje boljše kot
dobili pri češčini, slovaščini in slovenščini. druge hibridne metode, vendar pa je to odvisno od besedila,
ki ga procesiramo.
StuCoSReC Proceedings of the 2016 3rd Student Computer Science Research Conference 11
Ljubljana, Slovenia, 12 October