Page 91 - Fister jr., Iztok, Andrej Brodnik, Matjaž Krnc and Iztok Fister (eds.). StuCoSReC. Proceedings of the 2019 6th Student Computer Science Research Conference. Koper: University of Primorska Press, 2019
P. 91
gradnja algoritma FLORS za besednovrstno
oznacˇ evanje slovenskih besedil
Domen Kavran Robi Novak Jan Banko
Univerza v Mariboru, Fakulteta Univerza v Mariboru, Fakulteta Univerza v Mariboru, Fakulteta
za elektrotehniko, za elektrotehniko, za elektrotehniko,
racˇunalništvo in informatiko racˇunalništvo in informatiko racˇunalništvo in informatiko
Koroška cesta 46, Koroška cesta 46, Koroška cesta 46,
2000 Maribor, Slovenija 2000 Maribor, Slovenija 2000 Maribor, Slovenija
domen.kavran@student.um.si robi.novak1@student.um.si jan.banko@student.um.si
Rok Potocˇnik Luka Pecˇnik Borko Boškovic´
Univerza v Mariboru, Fakulteta Univerza v Mariboru, Fakulteta Univerza v Mariboru, Fakulteta
za elektrotehniko, za elektrotehniko, za elektrotehniko,
racˇunalništvo in informatiko racˇunalništvo in informatiko racˇunalništvo in informatiko
Koroška cesta 46, Koroška cesta 46, Koroška cesta 46,
2000 Maribor, Slovenija 2000 Maribor, Slovenija 2000 Maribor, Slovenija
rok.potocnik4@student.um.si luka.pecnik@student.um.si borko.boskovic@um.si
POVZETEK V [16] je opisan algoritem FLORS (angl. Fast, LOcal, Ro-
bust, Simple). Gre za besednovrstni oznaˇcevalnik, ki zgradi
Besednovrstno oznaˇcevanje je postopek razpoznavanja be- kontekst in znanje o besedi, odvisno od njenega lokalnega
sednih vrst v besedilu. Algoritem FLORS uˇcinkovito iz- okolja, namesto da bi iskal optimalno zaporedje besednih
vaja besednovrstno oznaˇcevanje z lokalnim kontekstom po- vrst za celotne stavke. Kontekst besede je sestavljen iz
samezne besede. V ˇclanku smo algoritem FLORS nadgradili binarnih in numeriˇcnih znaˇcilk, ki so skupaj z delovanjem
za besednovrstno oznaˇcevanje slovenskega jezika. Izboljˇsavo samega algoritma podrobneje predstavljene v drugem po-
smo dosegli z odstranitvijo morfoloˇskih znaˇcilk, vezanih na glavju.
angleˇski jezik. Uporabili smo tudi analizo poglavitnih kom-
ponent. Z opisano spremembo nabora znaˇcilk smo dosegli Uspeˇsnost algoritma FLORS nad slovenskim jezikom smo
uspeˇsnost 85,16 %. Ugotavljamo, da se algoritem lahko upo- skuˇsali izboljˇsati z novimi znaˇcilkami. V drugem poglavju
rabi za oznaˇcevanje slovenskega jezika. predstavimo sorodna dela, po katerih smo se zgledovali, v
tretjem poglavju pa opiˇsemo lastno idejo in komponente,
Kljucˇne besede ki smo jih potrebovali za izvedbo samega eksperimenta. V
zadnjem poglavju rekonstruiramo rezultate originalnega al-
besednovrstno oznaˇcevanje, klasifikacija, procesiranje narav- goritma nad izbranim slovenskim korpusom in jih nato pri-
nega jezika, jezikovne tehnologije merjamo z rezultati nadgrajene razliˇcice algoritma.
1. UVOD 2. FLORS IN SORODNA DELA
Pri opazovanju samostojnih besed v besedilu naletimo na Pristopi k oznaˇcevanju besed s strojnim uˇcenjem uporabljajo
pojav veˇcpomenskosti, katero lahko zmanjˇsamo s povezo- razliˇcne metode uˇcenja. V [7] pristopajo z nevronskimi mre-
vanjem individualne besede v lokalni kontekst s sosednjimi ˇzami in doseˇzejo visoko toˇcnost, vendar pa sta tako izraˇcun
besedami. Besednovrstno oznaˇcevanje je postopek, katerega znaˇcilk kot tudi uˇcenje mreˇze ˇcasovno zelo zahtevna procesa.
cilj je doloˇcitev besedne vrste besedi na podlagi konteksta, ki V drugih delih so uporabili preprostejˇse znaˇcilke in nekatere
ga predstavljajo sosednje besede oz. znaˇcilke teh besed. Be- druge metode strojnega uˇcenja.
sednovrstni oznaˇcevalnik je torej sistem, ki samodejno izvaja
besednovrstno oznaˇcevanje. Za praktiˇcno uporabo mora biti Uporaba strojnega uˇcenja po metodi s podpornimi vektorji
robusten, uˇcinkovit, natanˇcen in prenosljiv [8]. (angl. Support Vector Machine, SVM ) za besednovrstno
oznaˇcevanje je bila objavljena v [20]. Z omejitvijo na lokalni
Poznamo dve vrsti besednovrstnih oznaˇcevalnikov, in sicer kontekst so avtorji dosegli hitro uˇcenje in izvajanje modela.
oznaˇcevalnike na osnovi pravil (angl. rule-based taggers) ter Na zbirki besedil Wall Street Journal (WSJ ) so dosegli toˇc-
stohastiˇcne oznaˇcevalnike (angl. stochastic taggers). Sle- nost oznaˇcevanja 97,16 %. Teˇzave so se pojavile ob aplikaciji
dnji dosegajo visoko stopnjo toˇcnosti brez sintaktiˇcne ana- za drugo domeno. To problematiko so reˇsevala kasnejˇsa dela.
lize vhodnega besedila in se odloˇcajo predvsem na podlagi
verjetnosti s pomoˇcjo statistiˇcnih tabel, v katerih je znanje V [6] so avtorji predstavili nov naˇcin za poveˇcanje robustno-
o besedah predstavljeno posredno, medtem ko oznaˇcevalniki sti besednovrstnega oznaˇcevanja. Metoda deluje na podlagi
na osnovi pravil uporabljajo mnoˇzico definiranih pravil, s dveh loˇcenih modelov (sploˇsnega in domensko specifiˇcnega),
pomoˇcjo katerih doloˇcijo besedno vrsto posamezne besede. nauˇcenih na istih podatkih, a z razliˇcnimi znaˇcilkami. Za
S temi pravili je znanje o besedah zapisano neposredno [10, uˇcenje sploˇsnega modela so uporabili n-grame, ki so se v be-
5, 4].
StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference DOI: https://doi.org/10.26493/978-961-7055-82-5.91-99 91
Koper, Slovenia, 10 October
oznacˇ evanje slovenskih besedil
Domen Kavran Robi Novak Jan Banko
Univerza v Mariboru, Fakulteta Univerza v Mariboru, Fakulteta Univerza v Mariboru, Fakulteta
za elektrotehniko, za elektrotehniko, za elektrotehniko,
racˇunalništvo in informatiko racˇunalništvo in informatiko racˇunalništvo in informatiko
Koroška cesta 46, Koroška cesta 46, Koroška cesta 46,
2000 Maribor, Slovenija 2000 Maribor, Slovenija 2000 Maribor, Slovenija
domen.kavran@student.um.si robi.novak1@student.um.si jan.banko@student.um.si
Rok Potocˇnik Luka Pecˇnik Borko Boškovic´
Univerza v Mariboru, Fakulteta Univerza v Mariboru, Fakulteta Univerza v Mariboru, Fakulteta
za elektrotehniko, za elektrotehniko, za elektrotehniko,
racˇunalništvo in informatiko racˇunalništvo in informatiko racˇunalništvo in informatiko
Koroška cesta 46, Koroška cesta 46, Koroška cesta 46,
2000 Maribor, Slovenija 2000 Maribor, Slovenija 2000 Maribor, Slovenija
rok.potocnik4@student.um.si luka.pecnik@student.um.si borko.boskovic@um.si
POVZETEK V [16] je opisan algoritem FLORS (angl. Fast, LOcal, Ro-
bust, Simple). Gre za besednovrstni oznaˇcevalnik, ki zgradi
Besednovrstno oznaˇcevanje je postopek razpoznavanja be- kontekst in znanje o besedi, odvisno od njenega lokalnega
sednih vrst v besedilu. Algoritem FLORS uˇcinkovito iz- okolja, namesto da bi iskal optimalno zaporedje besednih
vaja besednovrstno oznaˇcevanje z lokalnim kontekstom po- vrst za celotne stavke. Kontekst besede je sestavljen iz
samezne besede. V ˇclanku smo algoritem FLORS nadgradili binarnih in numeriˇcnih znaˇcilk, ki so skupaj z delovanjem
za besednovrstno oznaˇcevanje slovenskega jezika. Izboljˇsavo samega algoritma podrobneje predstavljene v drugem po-
smo dosegli z odstranitvijo morfoloˇskih znaˇcilk, vezanih na glavju.
angleˇski jezik. Uporabili smo tudi analizo poglavitnih kom-
ponent. Z opisano spremembo nabora znaˇcilk smo dosegli Uspeˇsnost algoritma FLORS nad slovenskim jezikom smo
uspeˇsnost 85,16 %. Ugotavljamo, da se algoritem lahko upo- skuˇsali izboljˇsati z novimi znaˇcilkami. V drugem poglavju
rabi za oznaˇcevanje slovenskega jezika. predstavimo sorodna dela, po katerih smo se zgledovali, v
tretjem poglavju pa opiˇsemo lastno idejo in komponente,
Kljucˇne besede ki smo jih potrebovali za izvedbo samega eksperimenta. V
zadnjem poglavju rekonstruiramo rezultate originalnega al-
besednovrstno oznaˇcevanje, klasifikacija, procesiranje narav- goritma nad izbranim slovenskim korpusom in jih nato pri-
nega jezika, jezikovne tehnologije merjamo z rezultati nadgrajene razliˇcice algoritma.
1. UVOD 2. FLORS IN SORODNA DELA
Pri opazovanju samostojnih besed v besedilu naletimo na Pristopi k oznaˇcevanju besed s strojnim uˇcenjem uporabljajo
pojav veˇcpomenskosti, katero lahko zmanjˇsamo s povezo- razliˇcne metode uˇcenja. V [7] pristopajo z nevronskimi mre-
vanjem individualne besede v lokalni kontekst s sosednjimi ˇzami in doseˇzejo visoko toˇcnost, vendar pa sta tako izraˇcun
besedami. Besednovrstno oznaˇcevanje je postopek, katerega znaˇcilk kot tudi uˇcenje mreˇze ˇcasovno zelo zahtevna procesa.
cilj je doloˇcitev besedne vrste besedi na podlagi konteksta, ki V drugih delih so uporabili preprostejˇse znaˇcilke in nekatere
ga predstavljajo sosednje besede oz. znaˇcilke teh besed. Be- druge metode strojnega uˇcenja.
sednovrstni oznaˇcevalnik je torej sistem, ki samodejno izvaja
besednovrstno oznaˇcevanje. Za praktiˇcno uporabo mora biti Uporaba strojnega uˇcenja po metodi s podpornimi vektorji
robusten, uˇcinkovit, natanˇcen in prenosljiv [8]. (angl. Support Vector Machine, SVM ) za besednovrstno
oznaˇcevanje je bila objavljena v [20]. Z omejitvijo na lokalni
Poznamo dve vrsti besednovrstnih oznaˇcevalnikov, in sicer kontekst so avtorji dosegli hitro uˇcenje in izvajanje modela.
oznaˇcevalnike na osnovi pravil (angl. rule-based taggers) ter Na zbirki besedil Wall Street Journal (WSJ ) so dosegli toˇc-
stohastiˇcne oznaˇcevalnike (angl. stochastic taggers). Sle- nost oznaˇcevanja 97,16 %. Teˇzave so se pojavile ob aplikaciji
dnji dosegajo visoko stopnjo toˇcnosti brez sintaktiˇcne ana- za drugo domeno. To problematiko so reˇsevala kasnejˇsa dela.
lize vhodnega besedila in se odloˇcajo predvsem na podlagi
verjetnosti s pomoˇcjo statistiˇcnih tabel, v katerih je znanje V [6] so avtorji predstavili nov naˇcin za poveˇcanje robustno-
o besedah predstavljeno posredno, medtem ko oznaˇcevalniki sti besednovrstnega oznaˇcevanja. Metoda deluje na podlagi
na osnovi pravil uporabljajo mnoˇzico definiranih pravil, s dveh loˇcenih modelov (sploˇsnega in domensko specifiˇcnega),
pomoˇcjo katerih doloˇcijo besedno vrsto posamezne besede. nauˇcenih na istih podatkih, a z razliˇcnimi znaˇcilkami. Za
S temi pravili je znanje o besedah zapisano neposredno [10, uˇcenje sploˇsnega modela so uporabili n-grame, ki so se v be-
5, 4].
StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference DOI: https://doi.org/10.26493/978-961-7055-82-5.91-99 91
Koper, Slovenia, 10 October