Page 22 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2015 2nd Student Computer Science Research Conference. Koper: University of Primorska Press, 2015
P. 22
ela 5: Tabela uspeˇsnosti zaznave sentimenta. Tabela 6: Tabela rezultatov metrik.
Sentiment besedla Metoda [4] Naˇsa metoda
Sentiment besedla Metoda [4] Naˇsa metoda
TP 447 1181 1191 A 0,2994 0,7910 0,7977
FP 175 40 17 P 0,7186 0,9672 0,9859
FN 760 26 16 R 0,3703 0,9785 0,9867
TN 111 246 269 F1 0,4888 0,9728 0,9863
Σ 1493 1493 1493
4.1 Primerjava algoritmov 5. ZAKLJUCˇ EK
V naˇsem eksperimentu bomo primerjali naˇsi algoritem z al- V prispevku smo predstavili algoritem za analizo sentimenta
goritmom iz [4]. Ker smo uporabili drugaˇcen korpus kakor nad objavami na Twitterju. Ta vsebuje veˇc korakov, ki
avtorji omenjenega ˇclanka, smo implementirali tudi njihov vkljuˇcuje sentimenta besedila in emotikonov. Ta smo zdru-
algoritem, da smo lahko primerjali uspeˇsnost. Za vsako iz- ˇzili v skupno oceno, nato pa smo za primere, kjer obe analizi
med metod smo izraˇcunali natanˇcnost, preciznost, priklic in sentimenta dajeta napaˇcno razpoznavo, dodali ˇse popravke
metriko F1. ocene v obliki razpoznavanja besednih zvez, ki spremenijo
vrednost zdruˇzene ocene za absolutno vrednost. Analiza
Po vrsti smo preiskusili naslednje algoritme: sentimenta besedila je dala najslabˇse rezultate, analiza z
emotikoni je uspeˇsnost veˇc kot podvojila. Dodatno smo pri-
1. Metoda iz ˇclanka brez emotikonov (analiza sentimenta kazali popravljanje zdruˇzene ocene z besednimi zvezami, s
besedila) ˇcimer smo pridobili dodatna 1,35% uspeˇsnosti po metriki
F1.
2. Metoda iz ˇclanka z emotikoni
3. Naˇsa metoda z emotikoni in besednimi zvezami
V eksperimentu smo uporabili bazo 1493 roˇcno oznaˇcenih
tweetov, loˇceno s strani 4-ih oseb (avtorjev ˇclanka), oz. v
dveh prehodih, katera smo nato povpreˇcili. Rezultate oznak
smo potem zdruˇzili v eno referenˇcno oceno sentimenta. Naˇsa
uspeˇsnost napram samemu sentimentu besedila in osnovni
metodi [4] je prikazana v slikah 1, 2, 3, 4 ter tabelah 5 in 6.
V osnovi smo z analizo samega sentimenta besedila dobili Slika 1: Natanˇcnost klasificiranih kratkih sporoˇcil.
boljˇse rezultate kakor v [4], kar kaˇze, da so naˇsa sporoˇcila
bila nekoliko bolj jasna za analizo brez emotikonov. Pri tem Slika 2: Metrika F1 za uspeˇsnost razpoznav senti-
smo uporabili vreˇco besed, kakor v primerjanem delu. menta z razliˇcnimi metodami.
Pri analizi s filtriranjem z emotikoni smo dobili podobne re-
zultate kakor v [4], vendar ne moremo narediti primerjave
zaradi razliˇcnih korpusov. Naˇsi rezultati so bili par odstot-
kov slabˇsi, saj ljudje na Twitterju emotikone uporablajo iz
navade, ne z namenom sporoˇcanja svojega poˇcutja. Kljub
temu smo deleˇz pravilno klasificiranih veˇc kot podvojili s
predlagano metodo.
Do sedaj opisane metode so narobe klasificirale 199 sporo-
ˇcil (11,3%). Metodi iz [4] namreˇc ocenjujeta sentiment na
podlagi vreˇce besed, kjer se pa informacija besednih zvez
izgubi. Kot nadaljnjo izboljˇsavo smo poskusili omogoˇciti
pravilno klasifikacijo z informacijo le teh. V napaˇcno raz-
poznanih smo nato iskali besedne zveze s katerimi smo pri
samem oznaˇcevanju sklepali na nasprotno vrednost senti-
menta. Te smo nato uporabili za popravljeno klasifikacijo,
pri ˇcemer vsaka besedna zveza spremeni vrednost analize
sentimenta za doloˇceno vrednost. Pri tem smo uspeli 199
napaˇcno razpoznanih tweetov zniˇzali na 168 napaˇcno raz-
poznanih tweetov.
StuCoSReC Proceedings of the 2015 2nd Student Computer Science Research Conference 22
Ljubljana, Slovenia, 6 October
Sentiment besedla Metoda [4] Naˇsa metoda
Sentiment besedla Metoda [4] Naˇsa metoda
TP 447 1181 1191 A 0,2994 0,7910 0,7977
FP 175 40 17 P 0,7186 0,9672 0,9859
FN 760 26 16 R 0,3703 0,9785 0,9867
TN 111 246 269 F1 0,4888 0,9728 0,9863
Σ 1493 1493 1493
4.1 Primerjava algoritmov 5. ZAKLJUCˇ EK
V naˇsem eksperimentu bomo primerjali naˇsi algoritem z al- V prispevku smo predstavili algoritem za analizo sentimenta
goritmom iz [4]. Ker smo uporabili drugaˇcen korpus kakor nad objavami na Twitterju. Ta vsebuje veˇc korakov, ki
avtorji omenjenega ˇclanka, smo implementirali tudi njihov vkljuˇcuje sentimenta besedila in emotikonov. Ta smo zdru-
algoritem, da smo lahko primerjali uspeˇsnost. Za vsako iz- ˇzili v skupno oceno, nato pa smo za primere, kjer obe analizi
med metod smo izraˇcunali natanˇcnost, preciznost, priklic in sentimenta dajeta napaˇcno razpoznavo, dodali ˇse popravke
metriko F1. ocene v obliki razpoznavanja besednih zvez, ki spremenijo
vrednost zdruˇzene ocene za absolutno vrednost. Analiza
Po vrsti smo preiskusili naslednje algoritme: sentimenta besedila je dala najslabˇse rezultate, analiza z
emotikoni je uspeˇsnost veˇc kot podvojila. Dodatno smo pri-
1. Metoda iz ˇclanka brez emotikonov (analiza sentimenta kazali popravljanje zdruˇzene ocene z besednimi zvezami, s
besedila) ˇcimer smo pridobili dodatna 1,35% uspeˇsnosti po metriki
F1.
2. Metoda iz ˇclanka z emotikoni
3. Naˇsa metoda z emotikoni in besednimi zvezami
V eksperimentu smo uporabili bazo 1493 roˇcno oznaˇcenih
tweetov, loˇceno s strani 4-ih oseb (avtorjev ˇclanka), oz. v
dveh prehodih, katera smo nato povpreˇcili. Rezultate oznak
smo potem zdruˇzili v eno referenˇcno oceno sentimenta. Naˇsa
uspeˇsnost napram samemu sentimentu besedila in osnovni
metodi [4] je prikazana v slikah 1, 2, 3, 4 ter tabelah 5 in 6.
V osnovi smo z analizo samega sentimenta besedila dobili Slika 1: Natanˇcnost klasificiranih kratkih sporoˇcil.
boljˇse rezultate kakor v [4], kar kaˇze, da so naˇsa sporoˇcila
bila nekoliko bolj jasna za analizo brez emotikonov. Pri tem Slika 2: Metrika F1 za uspeˇsnost razpoznav senti-
smo uporabili vreˇco besed, kakor v primerjanem delu. menta z razliˇcnimi metodami.
Pri analizi s filtriranjem z emotikoni smo dobili podobne re-
zultate kakor v [4], vendar ne moremo narediti primerjave
zaradi razliˇcnih korpusov. Naˇsi rezultati so bili par odstot-
kov slabˇsi, saj ljudje na Twitterju emotikone uporablajo iz
navade, ne z namenom sporoˇcanja svojega poˇcutja. Kljub
temu smo deleˇz pravilno klasificiranih veˇc kot podvojili s
predlagano metodo.
Do sedaj opisane metode so narobe klasificirale 199 sporo-
ˇcil (11,3%). Metodi iz [4] namreˇc ocenjujeta sentiment na
podlagi vreˇce besed, kjer se pa informacija besednih zvez
izgubi. Kot nadaljnjo izboljˇsavo smo poskusili omogoˇciti
pravilno klasifikacijo z informacijo le teh. V napaˇcno raz-
poznanih smo nato iskali besedne zveze s katerimi smo pri
samem oznaˇcevanju sklepali na nasprotno vrednost senti-
menta. Te smo nato uporabili za popravljeno klasifikacijo,
pri ˇcemer vsaka besedna zveza spremeni vrednost analize
sentimenta za doloˇceno vrednost. Pri tem smo uspeli 199
napaˇcno razpoznanih tweetov zniˇzali na 168 napaˇcno raz-
poznanih tweetov.
StuCoSReC Proceedings of the 2015 2nd Student Computer Science Research Conference 22
Ljubljana, Slovenia, 6 October