Page 21 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2018 5th Student Computer Science Research Conference. Koper: University of Primorska Press, 2018
P. 21
sifikacija samomorilskih pisem

Dejan Rupnik Denis Ekart Gregor Kovacˇevicˇ

Fakulteta za elektrotehniko, Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,

racˇunalništvo in informatiko racˇunalništvo in informatiko racˇunalništvo in informatiko

Koroška cesta 46 Koroška cesta 46 Koroška cesta 46

Maribor, Slovenija Maribor, Slovenija Maribor, Slovenija

dejan.rupnik@student.um.sidenis.ekart@student.um.si gregor.kovacevic@student.um.si

Dejan Orter Alen Verk Borko Boškovic´

Fakulteta za elektrotehniko, Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,
racˇunalništvo in informatiko
racˇunalništvo in informatiko racˇunalništvo in informatiko
Koroška cesta 46
Koroška cesta 46 Koroška cesta 46 Maribor, Slovenija

Maribor, Slovenija Maribor, Slovenija borko.boskovic@um.si

dejan.orter@student.um.si alen.verk@student.um.si

POVZETEK smo pridobili s spletnih strani [12, 3, 6, 4], laˇzna pa smo se-
stavili sami. Vsa pisma so v angleˇskem jeziku. Uporabili smo
V naˇsem delu smo se osredotoˇcili na klasifikacijo poslovilnih 63 pristnih in 19 laˇznih pisem. Postopek analize pisem je po-
pisem samomorilcev. Pozornost smo posvetili na razpoznavo tekal v veˇc korakih. Prvi izmed njih je bilo predprocesiranje
pristnih pisem te narave, od pisem, ki to niso, oz. so le-ta la- besedila, kjer smo kot rezultat dobili preˇciˇsˇceno besedilo (tj.
ˇzna. S pomoˇcjo procesiranja naravnega jezika in algoritmov samo standardni znaki, brez simbolov in loˇcil). Nato smo
strojnega uˇcenja ˇzelimo doseˇci, da se pristna pisma v veˇcini izvedli oblikoslovno oznaˇcevanje besed in povezavo kljuˇcnih
loˇcijo od laˇznih. Implementirali smo program v program- besed s posameznimi koncepti iz tega podroˇcja. Naredili smo
skem jeziku Python, pripravili korpus in izvedli nadzorovano statistiko posameznih pisem (povpreˇcno ˇstevilo besed ipd.).
strojno uˇcenje. Pisma smo klasificirali z metodami: Deci- Izvedli smo tudi teste berljivosti, kateri so izraˇcunali dve
sionTreeClassifier, SVC, GaussianProcessClassifier, AdaBo- razliˇcni metriki. Tudi te smo uporabili pri strojnem uˇcenju.
ostClassifier, KNeighborsClassifier, RandomForestClassifier, Dodatno smo opravili tudi analizo ˇcustev, nato pa vse rezul-
MLPClassifier, GaussianNB in QuadraticDiscriminantAna- tate zdruˇzili v datoteke CSV. Te so bile osnova za gradnjo
lysis. Najboljˇse rezultate smo dosegli z odloˇcitvenim dreve- odloˇcitvenih dreves pri strojnem uˇcenju. Uporabljeno je bilo
som, kjer smo dosegli 68% natanˇcnost. nadzorovano strojno uˇcenje. Rezultati eksperimenta so poka-
zali, da je uporabljen pristop uspeˇsno loˇceval med pristnimi
KLJUCˇ NE BESEDE in laˇznimi pismi.

klasifikacija samomorilskih pisem, procesiranje naravnega je- 2. SORODNA DELA
zika, odloˇcitvena drevesa
V ˇclanku [10] so avtorji uporabili 66 poslovilnih pisem, od
1. UVOD katerih je bilo 33 pristnih in 33 laˇznih. V raziskavi je prisos-
tvovalo 11 strokovnjakov s podroˇcja mentalnega zdravja in
Zaradi samomora vsako leto umre veˇc kot 800.000 oseb (v 31 psihiatrov pripravnikov. Zbrana mnenja so primerjali z 9
Sloveniji veˇc kot 300), pribliˇzno 25-krat toliko pa jih samo- algoritmi strojnega uˇcenja:
mor poskuˇsa narediti [14][11]. Velikokrat, ko vidimo samo-
morilen zapis, smo v dilemi ali ta oseba misli resno ali pa • LMT,
je to poizkus iskanja pozornosti [7]. Nekatera pisma so tudi
laˇzna - na primer pri umorih, kjer bi ˇzelel storilec prikazati, • LinSMO,
da je ˇzrtev storila samomor. Poslediˇcno je njihova klasifika-
cija pomembna za preventivo ter za razreˇsevanje morebitnih • Descision,
nejasnosti.
• JRip,
Za samo izvedbo klasifikacije smo najprej potrebovali pristna
pisma samomorilcev ter laˇzna pisma. Korpus pristnih pisem • NB,

• PART,

• J48,

• Logistic,

• IB3 in

• OneR.

StuCoSReC Proceedings of the 2018 5th Student Computer Science Research Conference DOI: https://doi.org/10.26493/978-961-7055-26-9.21-25 21
Ljubljana, Slovenia, 9 October
   16   17   18   19   20   21   22   23   24   25   26