Page 94 - Fister jr., Iztok, Andrej Brodnik, Matjaž Krnc and Iztok Fister (eds.). StuCoSReC. Proceedings of the 2019 6th Student Computer Science Research Conference. Koper: University of Primorska Press, 2019
P. 94
ka 3: Graf originalnih podatkov za spremenljivki Slika 4: Graf glede na spremenljivki z1 in z2 z ozna-
x1 in x2 z oznaˇcenima poglavitnima komponentama. ˇcenima poglavitnima komponentama v prostoru po-
Vir: [12] glavitnih komponent. Vir: [12]
v zaˇcetnih komponentah nahaja ˇcim veˇc, v kasnejˇsih kompo- • analiza borznih cen [12].
nentah pa vedno manj informacij. Med p izpeljanimi spre-
menljivkami je cilj izbrati nekaj prvih ( p), ki vsebujejo 3.3 Uporabljeni klasifikatorji
najveˇc informacij in s tem ohraniti izraznost podatkov kljub
zmanjˇsanju ˇstevila dimenzij [12]. Za klasificiranje besednih vrst smo uporabili tri razliˇcne kla-
sifikatorje, in sicer One-vs-All SVM z linearnim jedrom, Na-
Za enostaven, sicer nerealen, prikaz delovanja PCA privza- ivni Bayes ter Random Forest. Posameznim parametrom pri
memo, da je p = 2. Na ta naˇcin lahko prikaˇzemo podatke vsakem izmed uporabljenih klasifikatorjev se nismo posebej
v dveh dimenzijah. Slika 3 prikazuje primer grafa za dve posveˇcali, pri testiranju pa smo uporabili petkratno navzkri-
spremenljivki x1 in x2, ki sta v korelaciji. Spremenljivost ˇzno preverjanje. V tem podpoglavju bomo na kratko opisali
je prisotna tako v smeri x1 kot tudi v smeri x2, ˇce pa vse vsakega izmed uporabljenih klasifikatorjev.
skupaj pretvorimo v domeno poglavitnih komponent, do-
bimo spremenljivki z1 in z2 ter s tem graf, ki ga prikazuje 3.3.1 One-vs-All SVM
slika 4 [12]. Iz slike 4 je vidno, da so spremembe v smeri
z1 velike, medtem ko je variacija v smeri z2 majhna. Cˇ e SVM je metoda strojnega uˇcenja z uporabo nadzorovanega
so spremenljivke med seboj moˇcno korelirane, bo prvih ne- uˇcenja, ki jo lahko uporabimo tako za klasifikacijo kot regre-
kaj poglavitnih komponent odraz veˇcine variacij originalnih sijo. Pri tej metodi vsak primerek iz uˇcne mnoˇzice predsta-
spremenljivk, medtem ko bodo naslednje poglavitne kom- vimo kot toˇcko v n-dimenzionalnem prostoru, pri ˇcemer n
ponente predstavljale smeri, kjer ni veliko raznolikosti. Z predstavlja ˇstevilo znaˇcilk primerka. Algoritem nato najde
drugimi besedami, prve poglavitne komponente vsebujejo optimalno hiperravnino, ki najbolje razdeli dva razreda.
veˇcino informacij [12].
Naloga metode SVM je najti optimalno hiperravnino izmed
Primeri apliciranja PCA na razna podroˇcja so: vseh, ki loˇcujejo primerke na dva razreda, pri ˇcemer primerki
enega razreda leˇzijo pod, primerki drugega razreda pa nad
• identifikacija pomembnih virov raznolikosti pri ana- hiperravnino. Primerki, ki leˇzijo nad hiperravnino, so pozi-
tomskih meritvah razliˇcnih ˇzivljenjskih vrst; tivni, primerki pod hiperravnino pa negativni. Najprej poi-
ˇsˇcemo v vsakem razredu primerek, ki leˇzi najbliˇzje delilni hi-
• analiza demografskih informacij, pridobljenih s pomo- perravnini. Izbranim primerkom pravimo podporni vektorji
ˇcjo anketiranja starejˇsega prebivalstva Zdruˇzenega kra- (angl. support vectors). Skozi njiju potegnemo vzporednici,
ljestva; ki jima pravimo pozitivna in negativna ravnina. Razdaljo
med tema dvema ravninama imenujemo rob (angl. margin).
• pregled prostorskih in ˇcasovnih sprememb v atmosfer- Optimalna delilna ravnina je tista, pri kateri je velikost roba
skih znanostih; maksimalna. Razred, kateremu pripada posamezen prime-
rek, doloˇcimo glede na to, na kateri strani delilne ravnine
• doloˇcanje pomembnih povezav med lastnostmi kemij- se nahaja. Na sliki 5 lahko vidimo delilno, pozitivno ter
skih spojin; negativno hiperravnino [13].
StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 94
Koper, Slovenia, 10 October
x1 in x2 z oznaˇcenima poglavitnima komponentama. ˇcenima poglavitnima komponentama v prostoru po-
Vir: [12] glavitnih komponent. Vir: [12]
v zaˇcetnih komponentah nahaja ˇcim veˇc, v kasnejˇsih kompo- • analiza borznih cen [12].
nentah pa vedno manj informacij. Med p izpeljanimi spre-
menljivkami je cilj izbrati nekaj prvih ( p), ki vsebujejo 3.3 Uporabljeni klasifikatorji
najveˇc informacij in s tem ohraniti izraznost podatkov kljub
zmanjˇsanju ˇstevila dimenzij [12]. Za klasificiranje besednih vrst smo uporabili tri razliˇcne kla-
sifikatorje, in sicer One-vs-All SVM z linearnim jedrom, Na-
Za enostaven, sicer nerealen, prikaz delovanja PCA privza- ivni Bayes ter Random Forest. Posameznim parametrom pri
memo, da je p = 2. Na ta naˇcin lahko prikaˇzemo podatke vsakem izmed uporabljenih klasifikatorjev se nismo posebej
v dveh dimenzijah. Slika 3 prikazuje primer grafa za dve posveˇcali, pri testiranju pa smo uporabili petkratno navzkri-
spremenljivki x1 in x2, ki sta v korelaciji. Spremenljivost ˇzno preverjanje. V tem podpoglavju bomo na kratko opisali
je prisotna tako v smeri x1 kot tudi v smeri x2, ˇce pa vse vsakega izmed uporabljenih klasifikatorjev.
skupaj pretvorimo v domeno poglavitnih komponent, do-
bimo spremenljivki z1 in z2 ter s tem graf, ki ga prikazuje 3.3.1 One-vs-All SVM
slika 4 [12]. Iz slike 4 je vidno, da so spremembe v smeri
z1 velike, medtem ko je variacija v smeri z2 majhna. Cˇ e SVM je metoda strojnega uˇcenja z uporabo nadzorovanega
so spremenljivke med seboj moˇcno korelirane, bo prvih ne- uˇcenja, ki jo lahko uporabimo tako za klasifikacijo kot regre-
kaj poglavitnih komponent odraz veˇcine variacij originalnih sijo. Pri tej metodi vsak primerek iz uˇcne mnoˇzice predsta-
spremenljivk, medtem ko bodo naslednje poglavitne kom- vimo kot toˇcko v n-dimenzionalnem prostoru, pri ˇcemer n
ponente predstavljale smeri, kjer ni veliko raznolikosti. Z predstavlja ˇstevilo znaˇcilk primerka. Algoritem nato najde
drugimi besedami, prve poglavitne komponente vsebujejo optimalno hiperravnino, ki najbolje razdeli dva razreda.
veˇcino informacij [12].
Naloga metode SVM je najti optimalno hiperravnino izmed
Primeri apliciranja PCA na razna podroˇcja so: vseh, ki loˇcujejo primerke na dva razreda, pri ˇcemer primerki
enega razreda leˇzijo pod, primerki drugega razreda pa nad
• identifikacija pomembnih virov raznolikosti pri ana- hiperravnino. Primerki, ki leˇzijo nad hiperravnino, so pozi-
tomskih meritvah razliˇcnih ˇzivljenjskih vrst; tivni, primerki pod hiperravnino pa negativni. Najprej poi-
ˇsˇcemo v vsakem razredu primerek, ki leˇzi najbliˇzje delilni hi-
• analiza demografskih informacij, pridobljenih s pomo- perravnini. Izbranim primerkom pravimo podporni vektorji
ˇcjo anketiranja starejˇsega prebivalstva Zdruˇzenega kra- (angl. support vectors). Skozi njiju potegnemo vzporednici,
ljestva; ki jima pravimo pozitivna in negativna ravnina. Razdaljo
med tema dvema ravninama imenujemo rob (angl. margin).
• pregled prostorskih in ˇcasovnih sprememb v atmosfer- Optimalna delilna ravnina je tista, pri kateri je velikost roba
skih znanostih; maksimalna. Razred, kateremu pripada posamezen prime-
rek, doloˇcimo glede na to, na kateri strani delilne ravnine
• doloˇcanje pomembnih povezav med lastnostmi kemij- se nahaja. Na sliki 5 lahko vidimo delilno, pozitivno ter
skih spojin; negativno hiperravnino [13].
StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 94
Koper, Slovenia, 10 October