Page 112 - Fister jr., Iztok, Andrej Brodnik, Matjaž Krnc and Iztok Fister (eds.). StuCoSReC. Proceedings of the 2019 6th Student Computer Science Research Conference. Koper: University of Primorska Press, 2019
P. 112
SORODNA DELA za zaznavanje rasistiˇcnih in seksistiˇcnih besedil. Za enoko-
raˇcno metodo so ugotovili, da je najboljˇsa reˇsitev nevronska
Podobno delo so opravili v [5], kjer so avtorji preizkusili pet mreˇza HybridCNN z vrednostjo mere F1 82.7 %, za dvoko-
modelov tradicionalnega strojnega uˇcenja in nekaj modelov raˇcno pa tradicionalni model logistiˇcne regresije z vrednostjo
temeljeˇcih na nevronskih mreˇzah. Uporabili so naslednje mere F1 82.4 %.
modele:
Cˇ lanek [7] opisuje klasifikacijo besedil na twitterju v katego-
1. Tradicionalni modeli strojnega uˇcenja: rije seksistiˇcno, rasistiˇcno ali niˇc od tega. Preizkusili so ve-
liko razliˇcnih arhitektur globokega uˇcenja in z eksperimenti
• Naivni Bayes (NB): z aditivno konstanto gla- pokazali, da so metode temeljeˇce na semantiˇcni analizi be-
jenja 1, sed boljˇse od metod temeljeˇcih na znakovnih in besednih
n-gramih za pribliˇzno 18 % vrednosti mere F1.
• Logistiˇcna regresija (LR): Linearna z L2 regu-
larizacijsko konstanto 1 in z BFGS optimizacijo za Cˇ lanek [1] opisuje metodo za avtomatizirano zaznavo sovra-
omejen spomin, ˇznega govora na twitterju z ekstrakcijo lastnosti besedil na
razliˇcnih konceptualnih nivojih in apliciranjem veˇc razredne
• Metoda podpirnih vektorjev (SVM): Line- klasifikacije nad njimi. Sistem izkoriˇsˇca variacije statistiˇcnih
arna z L2 regularizacijsko konstanto 1 in s funk- modelov in vzorce temeljeˇce na pravilih. Obstaja tudi pomo-
cijo logistiˇcne izgube, ˇzni repozitorij z uteˇzenimi vzorcei, ki izboljˇsajo natanˇcnost
tako, da poveˇzejo besedilo z njegovim ocenjenim vnosom.
• Metoda nakljuˇcnih gozdov (RF): Porazdeli-
tev verjetnosti napovedi 10 nakljuˇcnih dreves od- 3. PREDSTAVITEV METODE IN EKSPERI-
loˇcanja, MENTA

• Metoda gradientnega pospeˇsevanja regre- 3.1 Metoda
sijskih gozdov (GBT): S konstanto uˇcenja 1 in
s funkcijo logistiˇcne izgube. Predstavljena metoda temelji na optimizaciji predprocesi-
ranja besedil z namenom izboljˇsati natanˇcnost klasifikacije
2. Modeli temeljeˇci na nevronskih mreˇzah: sovraˇznega govora z uporabo algoritmov strojnega uˇcenja.

• Konvolucijska nevronska mreˇza (CNN): Mo- Kljuˇcna razlika med predstavljeno metodo in metodami dru-
deli uporabljajo kriˇzno entropijo s softmax, kot gih avtorjev se skriva v koraku predprocesiranja. Pri pred-
funkcijo izgube in Adam kot optimizator, stavljeni metodi v tem koraku poleg vseh ostalih tipiˇcnih
elementov predprocesiranja, vse besede iz vsebine sporoˇcila,
• Ponavljajoˇce se dvosmerna nevronska mreˇza ki so v slovarju ˇzaljivih besed, zamenjamo z ˇzetonom (RNN): Modeli uporabljajo kriˇzno entropijo s si- seword>, s ˇcimer algoritmi laˇzje klasificirajo sovraˇzni in zlo-
gmoid, kot funkcijo izgube in Adam kot optimiza- namerni govor.
tor. Uporabljen je tudi vratni mehanizem GRU,
Delovanje predstavljene metode je podrobno opisano v na-
• Variacije zgornjih dveh modelov. slednjem podpoglavju, ko opisujemo izvedbo eksperimenta.

Modele so preizkusili na sovraˇznih in zlonamernih besedilih 3.2 Eksperiment
iz socialnega omreˇzja Twitter. Predstavili so moˇznost iz-
boljˇsave klasifikatorjev z uporabo dodatnih lastnosti in kon- Za implementacijo smo uporabili programski jezik Python.
tekstnih podatkov. Iz eksperimentov so ugotovili, da je naj- Ene izmed pomembnejˇsih knjiˇznic, ki smo jih uporabili v
bolj natanˇcen model temeljeˇc na dvosmerni nevronski mreˇzi implementaciji so Numpy, katera nudi hitre in uˇcinkovite
z GRU, nauˇcen na besednih lastnostih z metodo modulov operacije na poljih. Programski jezik razˇsiri v visoko ni-
za grozdenje latentnih tem. Izmerjena vrednost mere F1 za vojni jezik za manipulacijo numeriˇcnih podatkov podobno
model je bila 80.5 %. jeziku Matlab. Sklearn smo uporabili za orodja, ki jih nudi
za rudarjenje in analizo podatkov. Uporabili smo ˇse knji-
Cˇ lanek [2] opisuje metodo za zaznavanje neprimernega ob- ˇznico Pandas, ki nudi dobre podatkovne strukture in orodja
naˇsanja uporabnikov na Twitterju. Predstavili so tudi ro- za analizo podatkov in NLTK, ki je knjiˇznica za podporo
bustno metodologijo za ekstrakcijo besedil, uporabniˇskih in programom, ki se ukvarjajo z naravnim jezikom ter Tweepy,
omreˇzno temeljeˇcih atributov, preuˇcevanja lastnostni agre- ki poenostavi dostop do API-jev socialnega omreˇzja Twitter.
sivnih in ustrahujoˇcih uporabnikov ter kakˇsne lastnosti jih
loˇcijo od navadnih uporabnikov. Ugotovili so, da uporab- 3.2.1 Pridobivanje korpusa
niki, ki ustrahujejo, manj objavljajo na splet, so deleˇzni manj
socialnih skupin in so manj popularni od navadnih uporab- Za pridobivanje podatkov smo najprej morali na socialnem
nikov. Agresivni ljudje so relativno popularni in imajo veˇc omreˇzju Twitter zaprositi za spletni raˇcun razvijalca. S tem
negativnosti v svojih objavah. Dokazali so, da lahko algo- smo pridobili dostop do Twitterjeve spletne storitve v katero
ritmi strojnega uˇcenja zaznajo agresivno in ustrahojoˇce ve- smo poˇsiljali IDje tvitov iz repozitorija [3], storitev pa nam je
denje uporabnikov z veˇc kot 90 % AUC (angl. Area Under vrnila vsebino tvita. Zaradi omejitve ˇstevila klicov spletne
the Curve). storitve je pridobivanje vseh tvitov iz repozitorija trajalo
pribliˇzno 72 ur. Od 99799 tvitov, katere smo pridobili iz
Delo [4] opisuje dvokoraˇcno metodo klasifikacije zlonamer- repozitorija [3] smo jih s pomoˇcjo spletne storitve Tiwtter
nega jezika na twitterju in nato nadaljno delenje teh klasifi- uspeˇsno prenesli 79768, saj so Twitterjevi moderatorji nekaj
kacij v specifiˇcne tipe. To metodo primerjajo z enokoraˇcno,
ki opravi samo eno veˇc razredno klasifikacijo v delenje tipov

StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 112
Koper, Slovenia, 10 October
   107   108   109   110   111   112   113   114   115   116   117