Textavinnsla
Textavinnsla

Hvaða upplýsingar má finna í textanum?

Í starfsemi fyrirtækja er unnið með mikið magn skjala, tölvupósta og annars textaefnis, þ. á m. ytri gögn, svo sem frá frétta- og upplýsingaveitum.

Textaefnið getur verið á fleiri tungumálum en íslensku. Með gervigreind Miðeindar er hægt að flokka og vinna textaefni sjálfvirkt með ýmsum hætti og í margvíslegum tilgangi.

Viðhorfsgreining

Hægt er að greina hvort tölvupóstur, spjall í ráðgjafaveri, inntak í spjallmenni eða annað efni er t.d. jákvætt eða neikvætt, og gefa því einkunn á þeim skala, svo sem frá -1.0 til +1.0. Út frá því er hægt að forgangsraða pósti og spjalli til að höndla mest áríðandi málin sem fyrst og senda þau á rétta viðtakendur. Mælingarnar geta jafnframt nýst við að mæla ánægju viðskiptavina.

Textavinnsla

Efnisflokkun

Með því að skoða innihald er hægt er að komast að því með sjálfvirkum hætti hvaða efnisflokki tiltekið skjal eða fyrirspurn tilheyrir, svo sem útlánum til neytenda, erlendum viðskiptum, fyrirtækjaráðgjöf eða öðru, og einfalda þannig skjalavinnslu. Einnig er hægt að greina tungumál texta.

Nafnagreining

Greina má nöfn einstaklinga, fyrirtækja og staðsetningar með sjálfvirkum hætti í texta. Með þessu móti er hægt að bæta efnisháðum lýsigögnum (e. metadata) við skjöl, svo sem hvaða lögaðilar, kennitölur, mannanöfn eða heimilisföng koma fyrir í skjali, óháð fallbeygingu. Að sama skapi er unnt að hreinsa persónugreinanlegar upplýsingar sjálfvirkt úr skjölum, svo sem nöfn, kennitölur og heimilisföng (e. anonymization).

Textavinnsla

Textaleit og spurningasvörun

Gervigreind Miðeindar finnur nálina í heystakknum og skilar á skotstundu þeim skjölum sem líklegust eru til að innihalda svar, ásamt því að merkja inn staðsetningu svarsins í hverju skjali. Notandi getur þá fengið svar við eðlilega orðaðri fyrirspurn beint ásamt upplýsingum um hvar það er að finna í samhengi, sér til frekari glöggvunar.

Virknin getur gagnast viðskiptavinum við leit á heimasíðu eða í samskiptum við spjallmenni, í þjónustuveri til að svara spurningum viðskiptavina, eða í innri gagnavinnslu fyrirtækja og stofnana.

Einföldun texta

Mikilvægt er að koma efni til viðskiptavina og annarra hagsmunaaðila á sem skiljanlegastan máta. Einnig skiptir máli ef textinn á erindi við börn eða aðra hópa sem hafa ekki fullt vald á tungunni að textinn miði við getustig hópsins.

Til er tækni til að „þýða“ texta úr erfiðara formi yfir í einfaldara málsnið (e. text simplification). Miðeind hefur tök á að smíða slíka „þýðingarvél“ fyrir íslensku. Slík tækni myndi nýtast þeim sem af ýmsum ástæðum eiga erfitt með að tileinka sér flóknari texta, svo sem lesblindum.

Textavinnsla

Textamyndun

Stór hluti þess efnis sem verður til innan fyrirtækja er á stöðluðu sniði. Svör við fyrirspurnum, sjálfvirka pósta tölvukerfa, eyðublöð, samninga o.þ.h. er hægt að fylla út að hluta eða öllu leyti sjálfvirkt (e. auto-fill/auto-complete), með hjálp mállíkans þannig að myndaður texti sé málfræðilega réttur og í eðlilegu samhengi, efnislega og málfræðilega.

Hægt er að nota gervigreind Miðeindar til að fylla sjálfkrafa út í texta í sniðmátum annars vegar og hins vegar til að mynda texta frá grunni með tauganetum að gefnum lykilupplýsingum. Sem dæmi má nefna að al- eða hálf-staðlaða samninga má mynda eða fylla út sjálfkrafa þannig að í mörgum tilvikum þurfi aðeins mannlega lokayfirferð.

Greynir

Hvers konar
greinir er það?

Greynir (já, með y!) er máltæknivél Miðeindar. Greynir kann að vinna með íslenskan texta, með öllum sínum fallbeygingum, samsettu orðum, frjálslegu orðaröð og flóknu málfræði. Hann er skrifaður í forritunarmálinu Python 3 og keyrir á öllum helstu stýrikerfum.

Greynir er opinn og frjáls hugbúnaður sem nýta má undir MIT leyfi.

Greynir

Tungumál, talað og skrifað, er samskiptamáti okkar mannanna, og hefur raunar gagnvirk áhrif á það hvernig við hugsum. Það hefur því löngum verið eftirsótt markmið að tölvur geti átt samskipti við okkur á eðlilegu, náttúrulegu máli. Þá er átt við að þær „skilji“ ritmál og talmál sem frá mönnum kemur, og geti svarað okkur til baka með rödd eða a.m.k. rétt formuðum texta.

Til að vinna með texta í tölvum þarf margvísleg hugbúnaðarverkfæri. Samfelldum texta þarf að skipta upp í málsgreinar; aðskilja þarf orð, tölur, dagsetningar, greinarmerki og aðra tóka (tokens); fletta þarf upp hverju orði og athuga hvaða orðflokki og beygingarmyndum það tilheyrir; og greina þarf samhengi orðanna og stöðu þeirra í málsgreininni til að fá mynd af því hvað verið er að segja. Þannig má uppgötva, frá sjónarhóli tölvunnar, hvað verið er að spyrja um, biðja um, eða fullyrða.

Málgreinirinn Greynir innifelur allar helstu hugbúnaðareiningar sem þarf til að vinna með íslenskt ritmál. Hann skiptir texta í málsgreinar og tóka og flettir upp orðmyndum í Beygingarlýsingu íslensks nútímamáls (BÍN), sem er innifalin í búnaðinum. Hann notar síðan djúpþáttun (full constituency parsing) til að teikna upp setningatrén, sem lýsa innri gerð og uppbyggingu málsgreinanna. Þegar setningatrén liggja fyrir má draga upp úr þeim spurningar, fullyrðingar, skipanir eða aðrar upplýsingar sem bundnar eru í textanum.

Radd-appið Embla er gott dæmi um það sem hægt er að gera á grundvelli Greynis. Embla notar Greyni til að þekkja og skilja rétt fram settar spurningar á íslensku. Embla nýtir Greyni einnig til að sjá til þess að svör séu málfræðilega rétt, til dæmis að nafnliðir (svo sem nöfn stoppistöðva strætó) séu í réttum föllum.

Greynir getur meðal annars nýst í verkefni sem tengjast hvers konar upplýsingaheimt úr texta, leitarvélum, tölfræði úr textum og upprunagreiningu, yfirferð texta m.t.t. málfræði, málnotkunar og stíls, spjallmennum (chatbots), fyrirspurnakerfum, raddviðmótum, umfjöllunar- og viðhorfsgreiningu (sentiment analysis) o.m.fl. Þá má nýta hann við undirbúning málheilda sem notaðar eru til að þjálfa djúp tauganet.

Hægt er að nálgast frumforrit Greynis og skjölun hans á GitHub. Greynir nýtir tókarann (tilreiðarann) Tokenizer fyrir íslensku, sem er einnig opinn hugbúnaður frá Miðeind. Dæmi um notkun Greynis í fyrirspurna- og fréttalesturskerfi má sjá á vefnum greynir.is.

Nánar er fjallað um tæknina að baki Greyni í greininni A Wide-Coverage Context-Free Grammar for Icelandic and an Accompanying Parsing System eftir Vilhjálm Þorsteinsson, Huldu Óladóttur og Hrafn Loftsson (Proceedings of Recent Advances in Natural Language Processing, pp. 1397–1404, Varna, Bulgaria, Sep 2–4, 2019).