Page 23 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2018 5th Student Computer Science Research Conference. Koper: University of Primorska Press, 2018
P. 23
ka 1: Generirano odloˇcitveno drevo.
smo po vrsticah shranili imena pisem, oznake, ocene ter nivo robnejˇsi rezultati ˇstirih najuspeˇsnejˇsih pa so predstavljeni v
bralnosti in statistiko (ˇst. besed, ˇst. stavkov, itd.) za vsako poglavju 5.1:
posamezno pismo.
• DecisionTreeClassifier(max depth=5),
V drugo datoteko smo shranili skupna povpreˇcja vseh prist- • SVC(kernel=”linear”, C=0,025),
nih in nepristnih pisem za vsakega izmed klasifikacijskih at- • GaussianProcessClassifier(1,0 * RBF(1,0)),
ributov posebej. Omeniti je potrebno, da so posamezne vred- • AdaBoostClassifier(),
nosti, kot na primer: znaˇcke oblikoslovnega oznaˇcevanja in • KNeighborsClassifier(3),
magnitude posameznih ˇcustev, normalizirane s ˇstevilom be- • SVC(gamma=2, C=1),
sed v besedilu. Tabela 1 prikazuje del datoteke povprecja.csv, • RandomForestClassifier(max depth=5, n estimators=10,
ki vsebuje povpreˇcja atributov.
max features=1),
5. NADZOROVANO STROJNO UCˇ ENJE
• MLPClassifier(alpha=1),
Ko smo pripravili datoteki CSV smo se morali odloˇciti ka- • GaussianNB() in
tero vrsto strojnega uˇcenja bomo uporabili. Uporabili smo • QuadraticDiscriminantAnalysis().
nadzorovano strojno uˇcenje in zgradili odloˇcitveno drevo,
prikazano na sliki 1. 5.1 Rezultati
Za generiranje odloˇcitvenega drevesa smo uporabili knji- V sledeˇcih tabelah so prikazani rezultati klasifikacije z upo-
ˇznico sklearn [9], katera loˇci bazo klasifikacijskih podatkov rabo razliˇcnih klasifikatorjev. Rezultati so bili izraˇcunani iz
na uˇcno in testno mnoˇzico ter na dva vektorja klasifikatorjev. povpreˇcja 10.000 instanc klasifikacije, kjer se je vsakiˇc na-
S pomoˇcjo teh spremenljivk smo nato generirali napovedni kljuˇcno izbralo 95% pisem za uˇcno in 5% pisem za testno
model. Iz napovednega modela pa izraˇcunali preciznost, pri-
klic in mero F1.
Skupno smo uporabili deset razliˇcnih klasifikatorjev, pod-
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 23
Ljubljana, Slovenia, 9 October
smo po vrsticah shranili imena pisem, oznake, ocene ter nivo robnejˇsi rezultati ˇstirih najuspeˇsnejˇsih pa so predstavljeni v
bralnosti in statistiko (ˇst. besed, ˇst. stavkov, itd.) za vsako poglavju 5.1:
posamezno pismo.
• DecisionTreeClassifier(max depth=5),
V drugo datoteko smo shranili skupna povpreˇcja vseh prist- • SVC(kernel=”linear”, C=0,025),
nih in nepristnih pisem za vsakega izmed klasifikacijskih at- • GaussianProcessClassifier(1,0 * RBF(1,0)),
ributov posebej. Omeniti je potrebno, da so posamezne vred- • AdaBoostClassifier(),
nosti, kot na primer: znaˇcke oblikoslovnega oznaˇcevanja in • KNeighborsClassifier(3),
magnitude posameznih ˇcustev, normalizirane s ˇstevilom be- • SVC(gamma=2, C=1),
sed v besedilu. Tabela 1 prikazuje del datoteke povprecja.csv, • RandomForestClassifier(max depth=5, n estimators=10,
ki vsebuje povpreˇcja atributov.
max features=1),
5. NADZOROVANO STROJNO UCˇ ENJE
• MLPClassifier(alpha=1),
Ko smo pripravili datoteki CSV smo se morali odloˇciti ka- • GaussianNB() in
tero vrsto strojnega uˇcenja bomo uporabili. Uporabili smo • QuadraticDiscriminantAnalysis().
nadzorovano strojno uˇcenje in zgradili odloˇcitveno drevo,
prikazano na sliki 1. 5.1 Rezultati
Za generiranje odloˇcitvenega drevesa smo uporabili knji- V sledeˇcih tabelah so prikazani rezultati klasifikacije z upo-
ˇznico sklearn [9], katera loˇci bazo klasifikacijskih podatkov rabo razliˇcnih klasifikatorjev. Rezultati so bili izraˇcunani iz
na uˇcno in testno mnoˇzico ter na dva vektorja klasifikatorjev. povpreˇcja 10.000 instanc klasifikacije, kjer se je vsakiˇc na-
S pomoˇcjo teh spremenljivk smo nato generirali napovedni kljuˇcno izbralo 95% pisem za uˇcno in 5% pisem za testno
model. Iz napovednega modela pa izraˇcunali preciznost, pri-
klic in mero F1.
Skupno smo uporabili deset razliˇcnih klasifikatorjev, pod-
StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference 23
Ljubljana, Slovenia, 9 October