Page 24 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2018 5th Student Computer Science Research Conference. Koper: University of Primorska Press, 2018
P. 24
ela 1: Povpreˇcne vrednosti atributov, ki jih upo- priklic za 6% in mera F1 za 5%.
rabimo pri strojnem uˇcenju.
Pristna pisma Nepristna pisma Tabela 2: Rezultati klasifikatorja DecisionTree.
Ocena berljivosti 85,14 84,35 preciznost priklic mera F1
Nivo berljivosti 4,40 5,38
0,02 0,02 nepravilna 0,52 0,50 0,49
MD 0,04 0,05 pravilna 0,84 0,89 0,85
PRP 0,06 0,07 0,68 0,70 0,67
RB 0,18 0,19 skupno povpreˇcje
NN 0,06 0,07
VBP 0,09 0,09 Tabela 3: Rezultati klasifikatorja SVC.
0,09 0,10
JJ 0,08 0,6 preciznost priklic mera F1
IN 79,59 173,42
DT 94,24 209,79 nepravilna 0,27 0,27 0,27
Sˇtevilo besed 304,98 691,32 pravilna 0,77 1,00 0,86
Sˇtevilo zlogov 7,37 14,05 0,52 0,63 0,56
Sˇtevilo znakov 0,02 0,00 skupno povpreˇcje
Sˇtevilo povedi 0,05 0,02
Upanje 0,01 0,00 Tabela 4: Rezultati klasifikatorja GaussianProcess.
Ljubezen 0,01 0,00
Obup 0,01 0,00 preciznost priklic mera F1
Sreˇca 0,02 0,00
Nejasnost 0,02 0,01 nepravilna 0,38 0,34 0,35
Spokojnost 0,01 0,00 pravilna 0,80 0,94 0,85
Zaˇcudenje 0,01 0,00 0,59 0,64 0,60
Sproˇsˇcenost 0,01 0,01 skupno povpreˇcje
Zgroˇzenost 0,01 0,00
Zˇalost 0,01 0,00 Tabela 5: Rezultati klasifikatorja AdaBoost.
Odpuˇsˇcanje 0,01 0,00
Dobrohotnost 0,01 0,00 preciznost priklic mera F1
Stiska 0,01 0,00
Gotovost 0,01 0,00 nepravilna 0,51 0,50 0,49
Strah pravilna 0,84 0,89 0,84
Naklonjenost 0,68 0,69 0,67
skupno povpreˇcje
mnoˇzico. Instanca v naˇsem primeru predstavlja nakljuˇcno
razdelitev pisem na uˇcno in testno mnoˇzico (iz nabora vseh
pisem - pristnih in laˇznih). Prikazani so rezultati preciz-
nosti in priklica za posamezen razred, kot tudi povpreˇcne
vrednosti. Za mero F1 so izraˇcunane povpreˇcne vrednosti.
Za tovrsten pristop testiranja smo se odloˇcili zaradi majhne
uˇcne mnoˇzice.
Za najboljˇsi klasifikator se je izkazala metoda odloˇcitvenih
dreves (angl. decision tree classifier), katera je dosegla 68%
natanˇcnost, ostale metrike pa so prikazane v tabeli 2. Za
izraˇcun povpreˇcja je bilo v vseh tabelah uporabljeno makro
povpreˇcje. Tudi metoda AdaBoost se je izkazala kot zelo
natanˇcno, vendar je imela malenkost niˇzjo vrednost priklica.
Pri naˇsem testiranju se je tudi izkazala kot bistveno poˇcasnejˇsa,
kot metoda odloˇcitvenih dreves.
Rezultati klasifikatorja SVC z linearnim jedrom so zapisani v
tabeli 3, klasifikatorja GaussianProcess v tabeli 4 in rezultati
klasifikatorja AdaBoost v tabeli 5.
Po analizi klasifikatorjev smo odloˇcitveno drevo ˇse grafiˇcno
predstavili v formatu PDF. Po pregledu korenov smo ugo-
tovili, da izloˇcanje doloˇcenih atributov vrne boljˇse rezultate.
Najboljˇse rezultate smo dosegli pri izloˇcitvi atributov za ˇste-
vilo znakov, besed in ˇcrk. Preciznost je bila izboljˇsana za 4%,
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 24
Ljubljana, Slovenia, 9 October
rabimo pri strojnem uˇcenju.
Pristna pisma Nepristna pisma Tabela 2: Rezultati klasifikatorja DecisionTree.
Ocena berljivosti 85,14 84,35 preciznost priklic mera F1
Nivo berljivosti 4,40 5,38
0,02 0,02 nepravilna 0,52 0,50 0,49
MD 0,04 0,05 pravilna 0,84 0,89 0,85
PRP 0,06 0,07 0,68 0,70 0,67
RB 0,18 0,19 skupno povpreˇcje
NN 0,06 0,07
VBP 0,09 0,09 Tabela 3: Rezultati klasifikatorja SVC.
0,09 0,10
JJ 0,08 0,6 preciznost priklic mera F1
IN 79,59 173,42
DT 94,24 209,79 nepravilna 0,27 0,27 0,27
Sˇtevilo besed 304,98 691,32 pravilna 0,77 1,00 0,86
Sˇtevilo zlogov 7,37 14,05 0,52 0,63 0,56
Sˇtevilo znakov 0,02 0,00 skupno povpreˇcje
Sˇtevilo povedi 0,05 0,02
Upanje 0,01 0,00 Tabela 4: Rezultati klasifikatorja GaussianProcess.
Ljubezen 0,01 0,00
Obup 0,01 0,00 preciznost priklic mera F1
Sreˇca 0,02 0,00
Nejasnost 0,02 0,01 nepravilna 0,38 0,34 0,35
Spokojnost 0,01 0,00 pravilna 0,80 0,94 0,85
Zaˇcudenje 0,01 0,00 0,59 0,64 0,60
Sproˇsˇcenost 0,01 0,01 skupno povpreˇcje
Zgroˇzenost 0,01 0,00
Zˇalost 0,01 0,00 Tabela 5: Rezultati klasifikatorja AdaBoost.
Odpuˇsˇcanje 0,01 0,00
Dobrohotnost 0,01 0,00 preciznost priklic mera F1
Stiska 0,01 0,00
Gotovost 0,01 0,00 nepravilna 0,51 0,50 0,49
Strah pravilna 0,84 0,89 0,84
Naklonjenost 0,68 0,69 0,67
skupno povpreˇcje
mnoˇzico. Instanca v naˇsem primeru predstavlja nakljuˇcno
razdelitev pisem na uˇcno in testno mnoˇzico (iz nabora vseh
pisem - pristnih in laˇznih). Prikazani so rezultati preciz-
nosti in priklica za posamezen razred, kot tudi povpreˇcne
vrednosti. Za mero F1 so izraˇcunane povpreˇcne vrednosti.
Za tovrsten pristop testiranja smo se odloˇcili zaradi majhne
uˇcne mnoˇzice.
Za najboljˇsi klasifikator se je izkazala metoda odloˇcitvenih
dreves (angl. decision tree classifier), katera je dosegla 68%
natanˇcnost, ostale metrike pa so prikazane v tabeli 2. Za
izraˇcun povpreˇcja je bilo v vseh tabelah uporabljeno makro
povpreˇcje. Tudi metoda AdaBoost se je izkazala kot zelo
natanˇcno, vendar je imela malenkost niˇzjo vrednost priklica.
Pri naˇsem testiranju se je tudi izkazala kot bistveno poˇcasnejˇsa,
kot metoda odloˇcitvenih dreves.
Rezultati klasifikatorja SVC z linearnim jedrom so zapisani v
tabeli 3, klasifikatorja GaussianProcess v tabeli 4 in rezultati
klasifikatorja AdaBoost v tabeli 5.
Po analizi klasifikatorjev smo odloˇcitveno drevo ˇse grafiˇcno
predstavili v formatu PDF. Po pregledu korenov smo ugo-
tovili, da izloˇcanje doloˇcenih atributov vrne boljˇse rezultate.
Najboljˇse rezultate smo dosegli pri izloˇcitvi atributov za ˇste-
vilo znakov, besed in ˇcrk. Preciznost je bila izboljˇsana za 4%,
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 24
Ljubljana, Slovenia, 9 October