Page 9 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2016 3rd Student Computer Science Research Conference. Koper: University of Primorska Press, 2016
P. 9
ekcija jezika v besedilih s šumom
Tilen Škrinjar Matej Trop Filip Urh
Univerza v Mariboru Univerza v Mariboru Univerza v Mariboru
Fakulteta za elektrotehniko, Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,
racˇunalništvo in informatiko racˇunalništvo in informatiko racˇunalništvo in informatiko
Smetanova 17 Smetanova 17 Smetanova 17
2000 Maribor, Slovenija 2000 Maribor, Slovenija 2000 Maribor, Slovenija
skrinjar.tilen@gmail.com trop.matej@gmail.com filipurh@gmail.com
POVZETEK tne novice, izobraževalne spletne strani, forumi ipd. Za razi-
skovalce so najbolj zanimiva socialna omrežja in forumi, kjer
Večina besedil na internetu je slovnično nepravilnih (ozi- se izmenja največ mnenj o raznih produktih, filmih, glasbi,
roma vsebujejo šum), saj uporabniki pri komentiranju in na kar so še posebej zanimivi podatki za oglaševalce, vendar se
raznih forumih ne uporabljajo knjižnega jezika. V članku pri razpoznavi besedil iz teh dveh kategorij pojavijo težave.
predstavljamo pet metod za razpoznavo jezika iz besedil s Ta besedila namreč pogosto vsebujejo okrajšave, "tage" ali
šumom. Večina metod, ki se ukvarjajo s to problematiko, pa so v celoti zapisana v SMS stilu in jih je nemogoče raz-
imajo težave pri razpoznavi jezika, ki so kratka ali pa vse- poznati z običajnimi postopki.
bujejo napake.
V sklopu te raziskave smo preučili in implementirali štiri
Eksperimenti, ki smo jih izvedli nad testnimi množicami, so predlagane metode, ki so poimenovane CBA (angl. Charac-
pokazali, da so lahko omenjene metode dokaj uspešne pri ter Based identification Algoritm), ki temelji na znakih iz
identifikaciji jezikov. Naša metoda pa uspešnost poveča še učnega korpusa, WBA (Word Based identification Algori-
za 3.6 %. thm), ki temelji na besedah ter dva hibridna algoritma. Pri
tem zaporedno ali pa paralelno izvedemo algoritma CBA in
1. UVOD WBA [3].
Z napredovanjem tehnologije, ki omogoča vedno hitrejše de- V drugem poglavju bomo na kratko predstavili nekaj podob-
ljenje informacij med ljudmi, se je povečala količina tekstov- nih del na področju identifikacije jezika. Nato bomo pred-
nih podatkov na internetu in v podatkovnih bazah. Zaradi stavili naš učni korpus in identifikacijske metode, ki smo jih
tega je črpanje informacij iz takih podatkov postalo težavno, implementirali ter izboljšavo le-teh. V zadnjem podpoglavju
še posebej če mora to opravljati človek. Na to temo je bilo bodo predstavljeni rezultati in primerjave uporabljenih me-
opravljenih veliko raziskav, ki so stremele k avtomatični ek- tod.
strakciji podatkov iz teksta. Ponavadi pa moramo pri teh
metodah vnaprej vedeti, v katerem jeziku so informacije, ki 2. SORODNA DELA
jih analiziramo. Zaradi tega postane identifikacija jezika v
nekem dokumentu zelo pomemben del analiznega procesa. V članku [5] so za korpus uporabljali Wikipedio [2] in Euro-
Zaradi pomembnosti veliko raziskovalcev preučuje avtoma- Parl [1]. Za detekcijo jezika so uporabili trigrame, ki delujejo
tično identifikacijo jezikov. zelo dobro na daljših besedilih (skoraj 100%), pri kratkih
pa detekcija pade pod 50% in metoda postane neuporabna.
Izziv predstavlja predvsem problem, kako prepoznati zelo Zanimivo je tudi, da je bila detekcija bolj uspešna z učno
kratka sporočila, kakršna na primer uporabljamo na raznih množico besedil iz Wikipedie, medtem ko je EuroParl kor-
forumih ali v tekstovnih SMS sporočilih. Velika večina me- pus ustvarjen za strojno učenje imel tudi do 90% napačno
tod namreč temelji na statističnem modelu. Za izgradnjo identifikacijo.
takšnega modela potrebujemo relativno dolgo testno bese-
dilo, če želimo jezik pravilno identificirati. V nasprotnem V članku [7] so se ukvarjali z N-grami in razdaljo med re-
primeru algoritem ne zna odločiti, v katerem jeziku je te- zultati. Iz učne množice ustvarijo znakovne in besedne N-
stno besedilo. grame, nato z enačbo za navzkrižno entropijo ali drugih
enačb za razdalje izračunajo razdaljo med najboljšimi uč-
Dandanes poznamo več kategorij podatkov, ki so lahko sple- nimi N-grami in testnim besedilom. Glede na razdaljo se iz-
računa končna ocena, na podlagi katere se identificira jezik
besedila. Najbolje je delovala metoda z navzkrižno entro-
pijo, vse metode pa so imele verjetnost detekcije nad 90%.
Drugi algoritmi so delovali na podlagi strojnega učenja [8]
in na podlagi modela HMM (angl. Hidden Markov Models).
Model se med drugim uporablja v razpoznavanju govora,
biologiji, meteorologiji, ipd. Iz učne množice ustvarimo vek-
torje besed in z njimi spreminjamo parametre modela. Re-
StuCoSReC Proceedings of the 2016 3rd Student Computer Science Research Conference 9
Ljubljana, Slovenia, 12 October
Tilen Škrinjar Matej Trop Filip Urh
Univerza v Mariboru Univerza v Mariboru Univerza v Mariboru
Fakulteta za elektrotehniko, Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,
racˇunalništvo in informatiko racˇunalništvo in informatiko racˇunalništvo in informatiko
Smetanova 17 Smetanova 17 Smetanova 17
2000 Maribor, Slovenija 2000 Maribor, Slovenija 2000 Maribor, Slovenija
skrinjar.tilen@gmail.com trop.matej@gmail.com filipurh@gmail.com
POVZETEK tne novice, izobraževalne spletne strani, forumi ipd. Za razi-
skovalce so najbolj zanimiva socialna omrežja in forumi, kjer
Večina besedil na internetu je slovnično nepravilnih (ozi- se izmenja največ mnenj o raznih produktih, filmih, glasbi,
roma vsebujejo šum), saj uporabniki pri komentiranju in na kar so še posebej zanimivi podatki za oglaševalce, vendar se
raznih forumih ne uporabljajo knjižnega jezika. V članku pri razpoznavi besedil iz teh dveh kategorij pojavijo težave.
predstavljamo pet metod za razpoznavo jezika iz besedil s Ta besedila namreč pogosto vsebujejo okrajšave, "tage" ali
šumom. Večina metod, ki se ukvarjajo s to problematiko, pa so v celoti zapisana v SMS stilu in jih je nemogoče raz-
imajo težave pri razpoznavi jezika, ki so kratka ali pa vse- poznati z običajnimi postopki.
bujejo napake.
V sklopu te raziskave smo preučili in implementirali štiri
Eksperimenti, ki smo jih izvedli nad testnimi množicami, so predlagane metode, ki so poimenovane CBA (angl. Charac-
pokazali, da so lahko omenjene metode dokaj uspešne pri ter Based identification Algoritm), ki temelji na znakih iz
identifikaciji jezikov. Naša metoda pa uspešnost poveča še učnega korpusa, WBA (Word Based identification Algori-
za 3.6 %. thm), ki temelji na besedah ter dva hibridna algoritma. Pri
tem zaporedno ali pa paralelno izvedemo algoritma CBA in
1. UVOD WBA [3].
Z napredovanjem tehnologije, ki omogoča vedno hitrejše de- V drugem poglavju bomo na kratko predstavili nekaj podob-
ljenje informacij med ljudmi, se je povečala količina tekstov- nih del na področju identifikacije jezika. Nato bomo pred-
nih podatkov na internetu in v podatkovnih bazah. Zaradi stavili naš učni korpus in identifikacijske metode, ki smo jih
tega je črpanje informacij iz takih podatkov postalo težavno, implementirali ter izboljšavo le-teh. V zadnjem podpoglavju
še posebej če mora to opravljati človek. Na to temo je bilo bodo predstavljeni rezultati in primerjave uporabljenih me-
opravljenih veliko raziskav, ki so stremele k avtomatični ek- tod.
strakciji podatkov iz teksta. Ponavadi pa moramo pri teh
metodah vnaprej vedeti, v katerem jeziku so informacije, ki 2. SORODNA DELA
jih analiziramo. Zaradi tega postane identifikacija jezika v
nekem dokumentu zelo pomemben del analiznega procesa. V članku [5] so za korpus uporabljali Wikipedio [2] in Euro-
Zaradi pomembnosti veliko raziskovalcev preučuje avtoma- Parl [1]. Za detekcijo jezika so uporabili trigrame, ki delujejo
tično identifikacijo jezikov. zelo dobro na daljših besedilih (skoraj 100%), pri kratkih
pa detekcija pade pod 50% in metoda postane neuporabna.
Izziv predstavlja predvsem problem, kako prepoznati zelo Zanimivo je tudi, da je bila detekcija bolj uspešna z učno
kratka sporočila, kakršna na primer uporabljamo na raznih množico besedil iz Wikipedie, medtem ko je EuroParl kor-
forumih ali v tekstovnih SMS sporočilih. Velika večina me- pus ustvarjen za strojno učenje imel tudi do 90% napačno
tod namreč temelji na statističnem modelu. Za izgradnjo identifikacijo.
takšnega modela potrebujemo relativno dolgo testno bese-
dilo, če želimo jezik pravilno identificirati. V nasprotnem V članku [7] so se ukvarjali z N-grami in razdaljo med re-
primeru algoritem ne zna odločiti, v katerem jeziku je te- zultati. Iz učne množice ustvarijo znakovne in besedne N-
stno besedilo. grame, nato z enačbo za navzkrižno entropijo ali drugih
enačb za razdalje izračunajo razdaljo med najboljšimi uč-
Dandanes poznamo več kategorij podatkov, ki so lahko sple- nimi N-grami in testnim besedilom. Glede na razdaljo se iz-
računa končna ocena, na podlagi katere se identificira jezik
besedila. Najbolje je delovala metoda z navzkrižno entro-
pijo, vse metode pa so imele verjetnost detekcije nad 90%.
Drugi algoritmi so delovali na podlagi strojnega učenja [8]
in na podlagi modela HMM (angl. Hidden Markov Models).
Model se med drugim uporablja v razpoznavanju govora,
biologiji, meteorologiji, ipd. Iz učne množice ustvarimo vek-
torje besed in z njimi spreminjamo parametre modela. Re-
StuCoSReC Proceedings of the 2016 3rd Student Computer Science Research Conference 9
Ljubljana, Slovenia, 12 October