Page 93 - Fister jr., Iztok, Andrej Brodnik, Matjaž Krnc and Iztok Fister (eds.). StuCoSReC. Proceedings of the 2019 6th Student Computer Science Research Conference. Koper: University of Primorska Press, 2019
P. 93
aˇsem delu prilagodimo algoritem FLORS za klasifikacijo • Pripone besedotvorne vrste sklop. Konˇcnice -to,
besednih vrst v slovenskem jeziku, kar opiˇsemo v naslednjem -tem, -deset se lahko pojavijo kot pripone pri besedo-
poglavju. tvorni vrsti sklop, ki nastane s sklaplanjem, kjer posa-
mezne dele veˇcdelne podstave zdruˇzimo v novo besedo
3. ALGORITEM (npr. na-to, po-tem, dva-in-tri-deset).
Nadgradnjo algoritma FLORS smo izvedli z dodatnimi zna- • Naglasna, naslonska ali navezna sklonska oblika.
ˇcilkami, izbranimi za toˇcnejˇse oznaˇcevanje besednih vrst v Konˇcnice -ga, -ne, -me se pojavijo kot pripone nagla-
slovenskem jeziku. Posebno pozornost smo namenili ˇsumni- snih, naslonskih ali naveznih sklonskih oblik osebnega
kom in besednim priponam, ki so pogosto uporabljene v slo- zaimka (npr. nje-ga, me-ne, na-me).
venskem jeziku, v angleˇsˇcini pa niso prisotne.
• Pripone kazalnih zaimkov. Priponi -ta in -ti se
Na podlagi analize besednih vrst in njihovih znaˇcilnosti v pojavita pri kazalnih zaimkih (npr. ta, tis-ti).
slovenˇsˇcini smo izpeljali mnoˇzico predpon in pripon, ki jih
predstavimo v naslednjem podpoglavju. • Pripone vpraˇsalnih zaimkov. Konˇcnice -aj, -em,
-im, -en in -od se pojavijo v vpraˇsalnih zaimkih (npr.
Naˇsa hipoteza je bila, da se bo z izpeljanimi znaˇcilkami toˇc- k-aj, kater-em, kater-im, kakˇs-en, k-od).
nost besednovrstnega oznaˇcevanja nad slovenskimi besedili
izboljˇsala. • Sˇumniki Posebnost slovenskega jezika so ˇsumniki ˇc, ˇs
in ˇz.
3.1 Znacˇilke
Binarne znaˇcilke predstavljajo prisotnost predpon, pripon in
Obstojeˇcim znaˇcilkam algoritma FLORS smo dodali binarne ˇsumnikov. Opisane znaˇcilke zajemajo morfoloˇske znaˇcilno-
znaˇcilke, ki jih lahko razvrstimo v naslednje skupine: sti slovenskega jezika in jih uvrˇsˇcamo med oblikovne (angl.
shape) znaˇcilke algoritma FLORS. Obdrˇzali smo ortografski
• predponi u in v. Predponi se lahko umestita na za- del znaˇcilk (ali beseda vsebuje ˇstevko, poˇsevnico, veliko za-
ˇcetek razliˇcnih besednih vrst. Med glagoli lahko naj- ˇcetnico). Izpostaviti moramo dejstvo, da se zaradi komple-
demo naslednje primere uporabe omenjenih predpon: ksnosti gramatike slovenskega jezika nekatere znaˇcilke po-
u-krasti, u-pasti, v-plaˇcati, v-pisati. javijo tudi pri vrstah besed, za katere niso bile v osnovi
zasnovane.
• Predpone sestavljenk. Predponi od- in na- se lahko
uporabita na zaˇcetku sestavljenke (npr. od-dati, od- 3.2 Analiza poglavitnih komponent
zgoraj, na-pisati, na-govoriti).
Osrednji namen analize poglavitnih komponent (angl. Prin-
• Pripone izpeljank. Pripone -lec, -ec, -arna se lahko cipal Component Analysis, PCA) je zmanjˇsanje ˇstevila di-
uporabijo kot konˇcine sestavljenk (npr. bra-lec, pis- menzij mnoˇzice podatkov, ki jih sestavlja veliko ˇstevilo ko-
ec, knjig-arna). Pri izpeljavi del dvodelne podstave reliranih spremenljivk, ne da bi pri tem okrnili izraznost
zamenjamo s priponskim obrazilom. podatkov. Uˇcinek je doseˇzen s pomoˇcjo transformacije spre-
menljivk v novo mnoˇzico, ki jo imenujemo mnoˇzica pogla-
• Konˇcnice pridevnikov in pridevniˇskih zaimkov. vitnih komponent (angl. principal components). Poglavitne
Konˇcnica -ra se pojavi pri pridevnikih (npr. dob-ra), komponente med seboj niso odvisne, ohranjajo pa kar najve-
konˇcnica -ja pa se lahko pojavi pri pridevniˇskih zaim- ˇcjo stopnjo raznolikosti podatkov, ki je prisotna v originalnih
kih (npr. mo-ja, tvo-ja). spremenljivkah, s ˇcimer zagotovijo, da je z njihovo pomo-
ˇcjo podatke med seboj moˇzno ustrezno razlikovati. Tako
• Sprememba pri soglasniˇskih premenih. Za be- za ceno nekaj toˇcnosti dobimo enostavnejˇso predstavitev, s
sede s konˇcnico -ci se ˇcrka k v velelniku spremeni v ˇcimer poenostavimo analizo in obdelavo podatkov [12].
ˇcrko c (npr. tekel – teci), kar imenujemo mehˇcanje
ali palatizacija. Za besede s konˇcnico -zi se ˇcrka g v Naj bo x vektor p nakljuˇcnih spremenljivk. V procesu do-
velelniku spremeni v ˇcrko z (npr. vrgel – vrzi). loˇcanja poglavitnih komponent nas zanimajo raznolikosti in
korelacije med spremenljivkami. Cˇ e vrednost p ni majhna,
• Konˇcnice samostalniˇskih besed. Pri besedah ˇzen- ni smiselno pregledovati vseh moˇznih povezav med spremen-
skega spola ima samostalniˇska beseda konˇcnico -a, pri ljivkami x, zato se raje osredotoˇcimo na nekaj ( p) izpelja-
srednjem spolu pa -o. Naslednji primeri so posamosta- nih spremenljivk, ki vsebujejo kar najveˇc informacij v zvezi
ljene pridevniˇske besede: dobra, tista, dobro, tisto. z raznolikostjo, korelacijo in kovarianco med originalnimi
spremenljivkami. PCA izpelje spremenljivke, odvisno od
• Konˇcnice vrstnih pridevnikov. Z konˇcnicama - tipa podatkov, na podlagi kovarianˇcne ali korelacijske ma-
ski in -ˇski lahko razpoznamo vrstne pridevnike (npr. trike, ki opisujeta, na kakˇsen naˇcin so izvorne spremenljivke
fotograf-ski, potaplja-ˇski). med seboj povezane. Gre za simetriˇcni matriki, velikosti
p × p. Izpeljane spremenljivke so linearne kombinacije iz-
• Obrazilo v kombinaciji s podstavo. Pri besedo- vornih spremenljivk in so med seboj nekorelirane, torej gre
tvorju se lahko konˇcnici -ica in -ost pojavita kot obra- za ortogonalne vektorje, ki predstavljajo smeri, v katerih se
zilo, skupaj s podstavo pa tvorita novo besedo. Upo- kaˇze najveˇcja raznolikost podatkov. Te kombinacije oz. po-
rabili smo desna obrazila (npr. miz-ica, mlad-ost). glavitne komponente so izpeljane in urejene na naˇcin, da se
StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 93
Koper, Slovenia, 10 October
besednih vrst v slovenskem jeziku, kar opiˇsemo v naslednjem -tem, -deset se lahko pojavijo kot pripone pri besedo-
poglavju. tvorni vrsti sklop, ki nastane s sklaplanjem, kjer posa-
mezne dele veˇcdelne podstave zdruˇzimo v novo besedo
3. ALGORITEM (npr. na-to, po-tem, dva-in-tri-deset).
Nadgradnjo algoritma FLORS smo izvedli z dodatnimi zna- • Naglasna, naslonska ali navezna sklonska oblika.
ˇcilkami, izbranimi za toˇcnejˇse oznaˇcevanje besednih vrst v Konˇcnice -ga, -ne, -me se pojavijo kot pripone nagla-
slovenskem jeziku. Posebno pozornost smo namenili ˇsumni- snih, naslonskih ali naveznih sklonskih oblik osebnega
kom in besednim priponam, ki so pogosto uporabljene v slo- zaimka (npr. nje-ga, me-ne, na-me).
venskem jeziku, v angleˇsˇcini pa niso prisotne.
• Pripone kazalnih zaimkov. Priponi -ta in -ti se
Na podlagi analize besednih vrst in njihovih znaˇcilnosti v pojavita pri kazalnih zaimkih (npr. ta, tis-ti).
slovenˇsˇcini smo izpeljali mnoˇzico predpon in pripon, ki jih
predstavimo v naslednjem podpoglavju. • Pripone vpraˇsalnih zaimkov. Konˇcnice -aj, -em,
-im, -en in -od se pojavijo v vpraˇsalnih zaimkih (npr.
Naˇsa hipoteza je bila, da se bo z izpeljanimi znaˇcilkami toˇc- k-aj, kater-em, kater-im, kakˇs-en, k-od).
nost besednovrstnega oznaˇcevanja nad slovenskimi besedili
izboljˇsala. • Sˇumniki Posebnost slovenskega jezika so ˇsumniki ˇc, ˇs
in ˇz.
3.1 Znacˇilke
Binarne znaˇcilke predstavljajo prisotnost predpon, pripon in
Obstojeˇcim znaˇcilkam algoritma FLORS smo dodali binarne ˇsumnikov. Opisane znaˇcilke zajemajo morfoloˇske znaˇcilno-
znaˇcilke, ki jih lahko razvrstimo v naslednje skupine: sti slovenskega jezika in jih uvrˇsˇcamo med oblikovne (angl.
shape) znaˇcilke algoritma FLORS. Obdrˇzali smo ortografski
• predponi u in v. Predponi se lahko umestita na za- del znaˇcilk (ali beseda vsebuje ˇstevko, poˇsevnico, veliko za-
ˇcetek razliˇcnih besednih vrst. Med glagoli lahko naj- ˇcetnico). Izpostaviti moramo dejstvo, da se zaradi komple-
demo naslednje primere uporabe omenjenih predpon: ksnosti gramatike slovenskega jezika nekatere znaˇcilke po-
u-krasti, u-pasti, v-plaˇcati, v-pisati. javijo tudi pri vrstah besed, za katere niso bile v osnovi
zasnovane.
• Predpone sestavljenk. Predponi od- in na- se lahko
uporabita na zaˇcetku sestavljenke (npr. od-dati, od- 3.2 Analiza poglavitnih komponent
zgoraj, na-pisati, na-govoriti).
Osrednji namen analize poglavitnih komponent (angl. Prin-
• Pripone izpeljank. Pripone -lec, -ec, -arna se lahko cipal Component Analysis, PCA) je zmanjˇsanje ˇstevila di-
uporabijo kot konˇcine sestavljenk (npr. bra-lec, pis- menzij mnoˇzice podatkov, ki jih sestavlja veliko ˇstevilo ko-
ec, knjig-arna). Pri izpeljavi del dvodelne podstave reliranih spremenljivk, ne da bi pri tem okrnili izraznost
zamenjamo s priponskim obrazilom. podatkov. Uˇcinek je doseˇzen s pomoˇcjo transformacije spre-
menljivk v novo mnoˇzico, ki jo imenujemo mnoˇzica pogla-
• Konˇcnice pridevnikov in pridevniˇskih zaimkov. vitnih komponent (angl. principal components). Poglavitne
Konˇcnica -ra se pojavi pri pridevnikih (npr. dob-ra), komponente med seboj niso odvisne, ohranjajo pa kar najve-
konˇcnica -ja pa se lahko pojavi pri pridevniˇskih zaim- ˇcjo stopnjo raznolikosti podatkov, ki je prisotna v originalnih
kih (npr. mo-ja, tvo-ja). spremenljivkah, s ˇcimer zagotovijo, da je z njihovo pomo-
ˇcjo podatke med seboj moˇzno ustrezno razlikovati. Tako
• Sprememba pri soglasniˇskih premenih. Za be- za ceno nekaj toˇcnosti dobimo enostavnejˇso predstavitev, s
sede s konˇcnico -ci se ˇcrka k v velelniku spremeni v ˇcimer poenostavimo analizo in obdelavo podatkov [12].
ˇcrko c (npr. tekel – teci), kar imenujemo mehˇcanje
ali palatizacija. Za besede s konˇcnico -zi se ˇcrka g v Naj bo x vektor p nakljuˇcnih spremenljivk. V procesu do-
velelniku spremeni v ˇcrko z (npr. vrgel – vrzi). loˇcanja poglavitnih komponent nas zanimajo raznolikosti in
korelacije med spremenljivkami. Cˇ e vrednost p ni majhna,
• Konˇcnice samostalniˇskih besed. Pri besedah ˇzen- ni smiselno pregledovati vseh moˇznih povezav med spremen-
skega spola ima samostalniˇska beseda konˇcnico -a, pri ljivkami x, zato se raje osredotoˇcimo na nekaj ( p) izpelja-
srednjem spolu pa -o. Naslednji primeri so posamosta- nih spremenljivk, ki vsebujejo kar najveˇc informacij v zvezi
ljene pridevniˇske besede: dobra, tista, dobro, tisto. z raznolikostjo, korelacijo in kovarianco med originalnimi
spremenljivkami. PCA izpelje spremenljivke, odvisno od
• Konˇcnice vrstnih pridevnikov. Z konˇcnicama - tipa podatkov, na podlagi kovarianˇcne ali korelacijske ma-
ski in -ˇski lahko razpoznamo vrstne pridevnike (npr. trike, ki opisujeta, na kakˇsen naˇcin so izvorne spremenljivke
fotograf-ski, potaplja-ˇski). med seboj povezane. Gre za simetriˇcni matriki, velikosti
p × p. Izpeljane spremenljivke so linearne kombinacije iz-
• Obrazilo v kombinaciji s podstavo. Pri besedo- vornih spremenljivk in so med seboj nekorelirane, torej gre
tvorju se lahko konˇcnici -ica in -ost pojavita kot obra- za ortogonalne vektorje, ki predstavljajo smeri, v katerih se
zilo, skupaj s podstavo pa tvorita novo besedo. Upo- kaˇze najveˇcja raznolikost podatkov. Te kombinacije oz. po-
rabili smo desna obrazila (npr. miz-ica, mlad-ost). glavitne komponente so izpeljane in urejene na naˇcin, da se
StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 93
Koper, Slovenia, 10 October