Page 96 - Fister jr., Iztok, Andrej Brodnik, Matjaž Krnc and Iztok Fister (eds.). StuCoSReC. Proceedings of the 2019 6th Student Computer Science Research Conference. Koper: University of Primorska Press, 2019
P. 96
Slika 7: Shema algoritma Random Forest. uˇcna modela Naivni Bayes in Random Forest, vendar sta se
izkazala kot manj uspeˇsna v primerjavi s SVM. Nazadnje
4. REZULTATI smo uspeli uspeˇsnost ˇse dodatno poveˇcati z uporabo algo-
ritma za analizo poglavitnih komponent (PCA). Najviˇsja
Algoritem smo preizkusili nad korpusom jos100k1. Z iz- uspeˇsnost, ki smo jo s tem dosegli, je 85,16 % po metriki
vornim algoritmom FLORS smo nad slovenskim besedilom F1.
dosegli uspeˇsnost 83,05 % po metriki F1. Po odstranitvi
morfoloˇskih znaˇcilk, vezanih na angleˇski jezik, ter izvajanju Na podlagi rezultatov sklepamo, da uspeˇsnost algoritma
analize poglavitnih komponent smo dosegli 85,16 %. Algo- FLORS na slovenˇsˇcini ni primerljiva z uspeˇsnostjo drugih
ritem PCA je vedno izboljˇsal rezultate, saj z zmanjˇsanjem metod besednovrstnega oznaˇcevanja [2]. Algoritem FLORS
dimenzije iskalnega prostora doseˇzemo boljˇso generalizacijo je preprost in hiter, a s preprostimi znaˇcilkami ne uspe zajeti
in s tem viˇsjo toˇcnost klasifikacije prej nevidenih podatkov. kompleksnosti slovenskega jezika. Predpona in konˇcnica ne
Najboljˇse rezultate smo uspeli doseˇci z algoritmom SVM, nudita koristnih informacij o besedni vrsti, ker ima beseda
katerega rezultati pri razliˇcnem naboru znaˇcilk so vidni na preveˇc oblik, v katerih se lahko pojavi. Dodatne znaˇcilke, ki
sliki 8. Z dodajanjem znaˇcilk, vezanih na pogoste predpone ne pripomorejo k razlikovanju med besednimi vrstami, pov-
in konˇcnice v slovenskem jeziku, nam uspeˇsnosti klasifikacije zroˇcijo, da se dimenzija iskalnega prostora poveˇca in uspe-
ni uspelo izboljˇsati. ˇsnost klasifikacijskega modela zmanjˇsa.
Klasifikacijo besednih vrst smo izvedli s tremi razliˇcnimi kla- Toˇcnost lahko poveˇcamo z izkljuˇcitvijo tistih obstojeˇcih zna-
sifikacijskimi algoritmi. Prej omenjeno toˇcnost smo dosegli ˇcilk, ki so nekoristne za oznaˇcevanje besednih vrst sloven-
z metodo podpornih vektorjev, ki ga uporablja tudi izvorni skega jezika. Odstranitev morfoloˇskih znaˇcilk angleˇskega je-
algoritem FLORS. Modela Naivni Bayes in Random Forest zika je prvi korak k poenostavitvi algoritma in izboljˇsanju
sta bila manj uspeˇsna kot SVM. Na slikah 9 in 10 vidimo klasifikacijskih rezultatov. Transformacija PCA dodatno
klasifikacijske rezultate modelov nad testno mnoˇzico podat- zmanjˇsa dimenzijo prostora znaˇcilk, kar pri vsakem naboru
kov. znaˇcilk poveˇca toˇcnost klasifikatorja linearni SVM.
Rezultate najuspeˇsnejˇsega modela nad individualnimi be- V nadaljnjem delu se bomo osredotoˇcili na slovniˇcne opera-
sednimi vrstami si ogledamo z matriko napak na sliki 11. cije, s katerimi bi laˇzje obvladovali kompleksnost slovenskega
Napake so pogoste pri klasifikaciji razreda ”medmet”in ”ne- jezika in izpeljali znaˇcilke, ki bi poveˇcale toˇcnost besednovr-
uvrˇsˇceno”. Napaˇcno uvrstitev medmetov obrazloˇzimo z dej- stnega oznaˇcevanja. Smiselno bi bilo uporabiti tudi metode
stvom, da medmeti ne upoˇstevajo slovniˇcnih pravil in se s podroˇcja lematizacije, saj bi z osnovnimi oblikami besed
lahko pojavijo v mnogih oblikah, na primer z razliˇcnim ˇste- laˇzje doloˇcili njihove besedne vrste.
vilom zaporednih pojavitev iste ˇcrke. Poleg tega je ˇstevilo
medmetov v uˇcnem korpusu majhno. Razred ”neuvrˇsˇceno”je 6. VIRI
slabo definiran, saj vsaka beseda pripada doloˇceni besedni
vrsti. Razred ”neuvrˇsˇceno”predstavlja zgolj manjkajoˇce po- [1] B. Aisen. A comparison of multiclass svm methods,
datke v uˇcni mnoˇzici. Model bo takˇsno besedo uvrstil v drug 2006.
razred, ki je z veliko verjetnostjo celo pravilen.
[2] P. Belej, M. Robnik-
5. ZAKLJUCˇ EK v Sikonja, and S. Krek. Character-level part-of-speech
tagger of slovene language, 2019. Slovenian language
V sklopu dela smo implementirali algoritem besedovrstnega resource repository CLARIN.SI.
oznaˇcevanja FLORS [16] in na razliˇcne naˇcine skuˇsali izbolj-
ˇsati njegovo delovanje na slovenskem jeziku. FLORS defi- [3] M. Bozhinova. NAIVNI BAYESOV KLASIFIKATOR.
nira nabor znaˇcilk, ki se uporabijo za uˇcenje modela linearni PhD thesis, Univerza v Mariboru, Fakulteta za
SVM za oznaˇcevanje angleˇskega jezika. Odstranili smo zna- elektrotehniko, raˇcunalniˇstvo in informatiko, 2015.
ˇcilke, vezane izkljuˇcno na angleˇsˇcino, s ˇcimer smo dvignili
uspeˇsnost oznaˇcevanja. Poskusili smo dodati nove znaˇcilke [4] E. Brill. A simple rule-based part of speech tagger. In
na osnovi morfoloˇskih znaˇcilnosti slovenˇsˇcine, vendar smo Proceedings of the Third Conference on Applied
opazili, da je to zniˇzalo toˇcnost rezultatov. Preizkusili smo Natural Language Processing, ANLC ’92, pages
152–155, Stroudsburg, PA, USA, 1992. Association for
1Dostopno na http://nl.ijs.si/jos Computational Linguistics.
[5] E. Brill. Some advances in transformation-based part
of speech tagging. CoRR, abs/cmp-lg/9406010, 1994.
[6] J. Choi and M. Palmer. Fast and robust
part-of-speech tagging using dynamic model selection.
volume 2, pages 363–367, 07 2012.
[7] R. Collobert, J. Weston, L. Bottou, M. Karlen,
K. Kavukcuoglu, and P. Kuksa. Natural language
processing (almost) from scratch. Computing Research
Repository - CORR, 12, 03 2011.
[8] D. Cutting, J. Kupiec, J. Pedersen, and P. Sibun. A
practical part-of-speech tagger. In Proceedings of the
Third Conference on Applied Natural Language
Processing, ANLC ’92, pages 133–140, Stroudsburg,
PA, USA, 1992. Association for Computational
StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 96
Koper, Slovenia, 10 October
izkazala kot manj uspeˇsna v primerjavi s SVM. Nazadnje
4. REZULTATI smo uspeli uspeˇsnost ˇse dodatno poveˇcati z uporabo algo-
ritma za analizo poglavitnih komponent (PCA). Najviˇsja
Algoritem smo preizkusili nad korpusom jos100k1. Z iz- uspeˇsnost, ki smo jo s tem dosegli, je 85,16 % po metriki
vornim algoritmom FLORS smo nad slovenskim besedilom F1.
dosegli uspeˇsnost 83,05 % po metriki F1. Po odstranitvi
morfoloˇskih znaˇcilk, vezanih na angleˇski jezik, ter izvajanju Na podlagi rezultatov sklepamo, da uspeˇsnost algoritma
analize poglavitnih komponent smo dosegli 85,16 %. Algo- FLORS na slovenˇsˇcini ni primerljiva z uspeˇsnostjo drugih
ritem PCA je vedno izboljˇsal rezultate, saj z zmanjˇsanjem metod besednovrstnega oznaˇcevanja [2]. Algoritem FLORS
dimenzije iskalnega prostora doseˇzemo boljˇso generalizacijo je preprost in hiter, a s preprostimi znaˇcilkami ne uspe zajeti
in s tem viˇsjo toˇcnost klasifikacije prej nevidenih podatkov. kompleksnosti slovenskega jezika. Predpona in konˇcnica ne
Najboljˇse rezultate smo uspeli doseˇci z algoritmom SVM, nudita koristnih informacij o besedni vrsti, ker ima beseda
katerega rezultati pri razliˇcnem naboru znaˇcilk so vidni na preveˇc oblik, v katerih se lahko pojavi. Dodatne znaˇcilke, ki
sliki 8. Z dodajanjem znaˇcilk, vezanih na pogoste predpone ne pripomorejo k razlikovanju med besednimi vrstami, pov-
in konˇcnice v slovenskem jeziku, nam uspeˇsnosti klasifikacije zroˇcijo, da se dimenzija iskalnega prostora poveˇca in uspe-
ni uspelo izboljˇsati. ˇsnost klasifikacijskega modela zmanjˇsa.
Klasifikacijo besednih vrst smo izvedli s tremi razliˇcnimi kla- Toˇcnost lahko poveˇcamo z izkljuˇcitvijo tistih obstojeˇcih zna-
sifikacijskimi algoritmi. Prej omenjeno toˇcnost smo dosegli ˇcilk, ki so nekoristne za oznaˇcevanje besednih vrst sloven-
z metodo podpornih vektorjev, ki ga uporablja tudi izvorni skega jezika. Odstranitev morfoloˇskih znaˇcilk angleˇskega je-
algoritem FLORS. Modela Naivni Bayes in Random Forest zika je prvi korak k poenostavitvi algoritma in izboljˇsanju
sta bila manj uspeˇsna kot SVM. Na slikah 9 in 10 vidimo klasifikacijskih rezultatov. Transformacija PCA dodatno
klasifikacijske rezultate modelov nad testno mnoˇzico podat- zmanjˇsa dimenzijo prostora znaˇcilk, kar pri vsakem naboru
kov. znaˇcilk poveˇca toˇcnost klasifikatorja linearni SVM.
Rezultate najuspeˇsnejˇsega modela nad individualnimi be- V nadaljnjem delu se bomo osredotoˇcili na slovniˇcne opera-
sednimi vrstami si ogledamo z matriko napak na sliki 11. cije, s katerimi bi laˇzje obvladovali kompleksnost slovenskega
Napake so pogoste pri klasifikaciji razreda ”medmet”in ”ne- jezika in izpeljali znaˇcilke, ki bi poveˇcale toˇcnost besednovr-
uvrˇsˇceno”. Napaˇcno uvrstitev medmetov obrazloˇzimo z dej- stnega oznaˇcevanja. Smiselno bi bilo uporabiti tudi metode
stvom, da medmeti ne upoˇstevajo slovniˇcnih pravil in se s podroˇcja lematizacije, saj bi z osnovnimi oblikami besed
lahko pojavijo v mnogih oblikah, na primer z razliˇcnim ˇste- laˇzje doloˇcili njihove besedne vrste.
vilom zaporednih pojavitev iste ˇcrke. Poleg tega je ˇstevilo
medmetov v uˇcnem korpusu majhno. Razred ”neuvrˇsˇceno”je 6. VIRI
slabo definiran, saj vsaka beseda pripada doloˇceni besedni
vrsti. Razred ”neuvrˇsˇceno”predstavlja zgolj manjkajoˇce po- [1] B. Aisen. A comparison of multiclass svm methods,
datke v uˇcni mnoˇzici. Model bo takˇsno besedo uvrstil v drug 2006.
razred, ki je z veliko verjetnostjo celo pravilen.
[2] P. Belej, M. Robnik-
5. ZAKLJUCˇ EK v Sikonja, and S. Krek. Character-level part-of-speech
tagger of slovene language, 2019. Slovenian language
V sklopu dela smo implementirali algoritem besedovrstnega resource repository CLARIN.SI.
oznaˇcevanja FLORS [16] in na razliˇcne naˇcine skuˇsali izbolj-
ˇsati njegovo delovanje na slovenskem jeziku. FLORS defi- [3] M. Bozhinova. NAIVNI BAYESOV KLASIFIKATOR.
nira nabor znaˇcilk, ki se uporabijo za uˇcenje modela linearni PhD thesis, Univerza v Mariboru, Fakulteta za
SVM za oznaˇcevanje angleˇskega jezika. Odstranili smo zna- elektrotehniko, raˇcunalniˇstvo in informatiko, 2015.
ˇcilke, vezane izkljuˇcno na angleˇsˇcino, s ˇcimer smo dvignili
uspeˇsnost oznaˇcevanja. Poskusili smo dodati nove znaˇcilke [4] E. Brill. A simple rule-based part of speech tagger. In
na osnovi morfoloˇskih znaˇcilnosti slovenˇsˇcine, vendar smo Proceedings of the Third Conference on Applied
opazili, da je to zniˇzalo toˇcnost rezultatov. Preizkusili smo Natural Language Processing, ANLC ’92, pages
152–155, Stroudsburg, PA, USA, 1992. Association for
1Dostopno na http://nl.ijs.si/jos Computational Linguistics.
[5] E. Brill. Some advances in transformation-based part
of speech tagging. CoRR, abs/cmp-lg/9406010, 1994.
[6] J. Choi and M. Palmer. Fast and robust
part-of-speech tagging using dynamic model selection.
volume 2, pages 363–367, 07 2012.
[7] R. Collobert, J. Weston, L. Bottou, M. Karlen,
K. Kavukcuoglu, and P. Kuksa. Natural language
processing (almost) from scratch. Computing Research
Repository - CORR, 12, 03 2011.
[8] D. Cutting, J. Kupiec, J. Pedersen, and P. Sibun. A
practical part-of-speech tagger. In Proceedings of the
Third Conference on Applied Natural Language
Processing, ANLC ’92, pages 133–140, Stroudsburg,
PA, USA, 1992. Association for Computational
StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 96
Koper, Slovenia, 10 October