Nýtt! Prófaðu Málstað, vettvang fyrir allar helstu vörur Miðeindar.

Hvernig virkar Málfríður?

Málfríður er ein af lausnunum sem má finna innan Málstaðar. Hún er öflugt leiðréttingarforrit sem getur hjálpað þér að skrifa betri texta og koma því sem þú vilt segja betur á framfæri. En hvernig virkar Málfríður? Hvernig er hún öðruvísi en annar villuleiðréttingarbúnaður fyrir íslensku? Og hvers vegna gerir hún stundum vitleysur? Hér förum við yfir það hvernig Málfríður nær að leiðrétta allt frá innsláttarvillum yfir í flóknari málfarsatriði, tölum um gögnin sem voru notuð til að þjálfa hana og kynnum tauganetið sem liggur á bak við.

Hvað gerir Málfríður?

Málfríður notar gervigreind til að leiðrétta villur í málnotkun, stafsetningu og greinarmerkjasetningu á íslensku. Hægt er að skrifa texta beint inn í viðmót hennar og láta hana lesa hann yfir jafnóðum en líka er hægt að líma texta inn og láta hana yfirfara hann. Hún nýtist bæði þeim sem þurfa bara létta yfirferð yfir textann sinn og svo hinum sem vilja meiri aðstoð.

Málfríður er fjölhæf og leiðréttir fjölbreytt málfarsatriði. Til dæmis vefst oft fyrir fólki að beygja langa nafnliði eins og í þessu dæmi, en Málfríður á auðvelt með það:

Málfríður er líka sleip í að passa að viðtengingarháttur sé notaður eftir kúnstarinnar reglum.

Hún gætir líka að greinarmerkjasetningu og passar að gæsalappir séu þessar íslensku.

Fyrir fólk sem er með lesblindu eða sem á erfitt með að skrifa texta í samræmi við ritvenjur getur verið afar gagnlegt að láta Málfríði lesa hann yfir. Málfríður ræður við alls kyns texta, meira að segja þar sem mjög mörgu þarf að breyta. 

Málfríður kann líka að laga margs kyns öðruvísi málfarsatriði eins og þágufallshneigð („mér hlakkar“), eitt/tvö orð („heildar fjöldi“), ng/nk („einginn“) og fleira og fleira. Þetta þýðir þó ekki að búið sé að forrita hana með ótal reglum um íslenskt mál, því ólíkt flestum leiðréttingarforritum fyrir íslensku er Málfríður drifin áfram af gögnum, en ekki reglum. Áður en við kynnum okkur betur hvað það þýðir skulum við skoða hvernig hefðbundnari forrit leiðrétta villur. 

Hefðbundin leiðréttingarforrit

Hingað til hafa leiðréttingarforrit fyrir íslensku notað reglur, mynstur og lista yfir algengar villur til þess að ákvarða hvaða atriði skuli leiðrétta. Þau eru yfirleitt með grunn rétt ritaðra orða á bak við sig, til dæmis Beygingarlýsinguna (BÍN), og svo ef þau rekast á orð sem ekki er á listanum hafa þau ýmsar leiðir, reglur, mynstur og lista yfir algengar villur til að beita, til að reyna að leiðrétta orðið. Þau skoða til dæmis stafafjarlægð. Það þýðir að þegar upp kemur orð sem ekki er í gagnagrunni forrits reiknar það hversu mörg skref þyrfti að taka til að breyta því í orð sem er í grunninum. Ef forritið rekst til dæmis á orðið „sjómvarp“ flettir það upp í grunninum og finnur það gilda orð sem er nálægast orðinu, „sjónvarp“. Stafafjarlægðin milli þessara orða er 1, því það þarf bara eina útskiptingu (m→n) til að breyta rangt skrifaða orðinu í gilt orð. 

Þessi aðferð, ásamt því að nota lista yfir villur sem vitað er að fólk gerir oft (systkynisystkini o.s.frv.) og ýmis mynstur með takmörkuðu samhengi (á næsta leyti á næsta leiti, að ýmsu leiti að ýmsu leyti), fleyta þessum forritum mjög langt, og þau eru mjög gagnleg til að finna ýmsar villur í textum. 

Þessi forrit taka þó yfirleitt ekki mið af lengra samhengi textans, eða merkingu hans, og eiga því erfiðara með að leiðrétta misræmi í kyni og tölu („hann er búin“) eða þegar öll orðin eru gild íslensk orð, eins og í eftirfarandi dæmi:

„Samkvæmt móðurinn var hún heimavinnandi og sá um börnin …“

Þar sem öll orðin í setningunni eru til í íslensku hafa slík forrit ekki forsendu til að breyta „móðurinn“ í „móðurinni“. 

Hvað með Yfirlestur.is?

Yfirlestur er fyrri villuleiðréttingarlausn Miðeindar, sem upprunalega var unnin sem hluti af máltækniáætlun stjórnvalda. Þessi lausn notar reglur, mynstur og lista líkt og fyrri lausnir en nýtir líka öfluga málgreiningarvirkni til þess að greina textann í setningatré, og þannig er hægt að leiðrétta flókin setningafræðileg atriði eins og þágufallshneigð („smiðnum vantar hamar“). Annar ótvíræður kostur við Yfirlestur er getan til að útskýra villuna og jafnvel vísa í ritreglur.

Nú hefur Málfríður tekið við af Yfirlestri, en mörg atriði úr Yfirlestri mætti yfirfæra enn betur í Málfríði, og er það eitt af því sem við höfum áhuga á að útfæra í framtíðinni. Sú vinna sem lögð var í Yfirlestur hefur líka nýst mjög vel við þróun á Málfríði, jafnvel þótt nálgunin sé ólík.

Sérstaða Málfríðar

Skyggnumst nú aðeins undir húddið á Málfríði og skoðum hvernig hún gerir hlutina öðruvísi en fyrri leiðréttingarforrit. 

Hvað meinum við með því að Málfríður sé gagnadrifin? Jú, í staðinn fyrir að kenna Málfríði reglur sem hún á að fylgja til þess að leiðrétta villur höfum við sýnt henni ótal dæmi um texta með villum og svo leiðréttingar á þeim.

Málfríður er í grunninn nefnilega tauganetslíkan, og þau þurfa að fá nóg af gögnum að borða til þess að geta lært af þeim mynstur. Tauganetslíkan eru í grunninn reiknilíkan sem við mötum á milljónum textabúta sem innihalda alls kyns villur sem við viljum að það kunni að leiðrétta.

Hér er dæmi um textabút til að þjálfa á

Afi mig for á honum rauð einhvað suðra bæinn að sækja bæði sykur og brauð, sit á hvoru tæi.

sem í leiðréttri útgáfu er svona:

Afi minn fór á honum Rauð eitthvað suður á bæinn að sækja bæði sykur og brauð, sitt af hvoru tagi.

Síðan er líkanið þjálfað, en það gerist í gegnum ferli sem líkist því svolítið þegar manneskja lærir nýtt tungumál og er lýst betur hér fyrir neðan.

Hversu klár er Málfríður?

Í úttekt sem Miðeind gerði á fréttatextum frá helstu fréttamiðlum landsins kom í ljós að í um 90% tilfella þar sem villa er til staðar kemur Málfríður með réttar og gagnlegar leiðréttingar og að í langflestum fréttum var að finna eina eða fleiri villur sem hún leiðrétti á réttan hátt. 

Dæmin hér að framan sýna nokkur tilvik þar sem Málfríður getur tvímælalaust komið að miklu gagni. Einn kostur við Málfríði sem er kannski ekki augljós við fyrstu sýn er að hún hefur samhengi. Hún er þjálfuð á nokkrum málsgreinum í einu, og getur því leiðrétt þvert á málsgreinar, sem nýtist í dæmum eins og þessu:

Stelpurnar byrjuðu á námskeiðinu í gær. Þeim hafði hlakkað lengi til þess.

þar sem í formlegu málsniði ætti að nota nefnifall í stað þágufalls:

Stelpurnar byrjuðu á námskeiðinu í gær. Þær höfðu hlakkað lengi til þess.

Það eru þó takmörk fyrir því hvað er hægt að þjálfa á löngu samhengi með þeim aðferðum sem hér er beitt, og því er samhengið ekki nægilega langt til að samræma orðaforða yfir heila ritgerð, enn sem komið er.

Málfríður hefur einhvern málskilning – hún þarf hann til þess að geta leiðrétt til dæmis eftirfarandi texta:

Við keyrðum um langan vegg til að komast á leiðarenda.

Hún hengdi myndina upp á veg.

Tauganetið á bak við Málfríði er þó ekki nógu stórt til að hafa mjög djúpan skilning á merkingu, svo í flóknari dæmum þar sem merking skiptir máli nær hún ekki alltaf að leiðrétta á réttan hátt.

Málfríður gerir líka fleiri vitleysur. Hún getur ekki alltaf leiðrétt villur í orðum sem hún hefur sjaldan eða aldrei séð í þjálfunargögnunum (t.d. „heimagegnt“, sem ætti að vera „heimangengt“). 

Eitt sem gæti komið á óvart er að ekki er hægt að tryggja að Málfríður leiðrétti sama orð á sama hátt í mismunandi málsgreinum. Þetta er af því hún notar líkindareikning í hvert sinn til að ákvarða hvort hún eigi að breyta textanum, og sá reikningur getur verið mismunandi eftir textanum sem er í kring. Málfríður er nógu vel þjálfuð til að skila langoftast sömu leiðréttingum á sömu villum, en stundum er hún ekki alveg nógu viss og sleppir því þá að leiðrétta. Þess vegna er hegðun hennar ekki fyrirsjáanleg eins og hún er hjá leiðréttingarforritum sem reiða sig á reglur og leiðrétta eins í hvert sinn.

Málfríður getur heldur ekki (eins og er) komið með útskýringar á ákvörðunum sínum, hún bara annaðhvort leiðréttir eða ekki. Hún notar líkindi til þess að meta hvort leiðrétta eigi tiltekið atriði, og stundum er hún ekki alveg nógu „viss“, svo þá leiðréttir hún ekki. Ef skyggnst er á bak við tjöldin má þó oft sjá að hún veit að eitthvað er athugavert við textann, hún veit bara ekki alveg í hvaða átt hún á að fara við að leiðrétta. Stundum fer hún líka í vitlausa átt í leiðréttingum sínum, og þá er það oft málskilningurinn sem vantar upp á; hún er ekki manneskja með „kommon sens“ heldur reiknilíkan.

Við höldum vel utan um öll þessi atriði og vinnum í sífellu að því að betrumbæta Málfríði. Fyrir einstök villuatriði höfum við líka aðferðir til þess að bæta við sérsniðnum þjálfunargögnum, svo ekki hika við að hafa samband ef þú rekur þig á villur sem Málfríður virðist kerfisbundið ekki kunna að leiðrétta.

Hvaðan fáum við gögnin? 

Það þarf gríðarlegt magn af textum til að þjálfa tauganet sem er fært um að leiðrétta texta með góðum hætti. Fyrir Málfríði þurfa textarnir að vera samhliða, sem þýðir að við þurfum tvær útgáfur af textanum, upprunalega textann annars vegar:

Hnn segir að firirtækið þarfstánda straumaf tekjus5katti. 

og hins vegar leiðrétta útgáfu:

Hann segir að fyrirtækið þurfi að standa straum af tekjuskatti.

Íslenska villumálheildin

Hvernig fáum við svona gögn? Við erum svo heppin að til er eitt safn með leiðréttum íslenskum textum, sem heitir Íslenska villumálheildin. Málheild (e. corpus) er orð yfir gagnasöfn sem eru notuð í máltækniverkefnum og geta verið af ýmsu tagi. Íslenska villumálheildin var unnin hjá Háskóla Íslands sem hluti af máltækniáætlun stjórnvalda og inniheldur íslenska texta og leiðréttar útgáfur þeirra. Henni fylgja einnig þrjár sérhæfðari málheildir með textum eftir börn, fólk með lesblindu og fólk með íslensku sem annað mál. Þessar málheildir eru nauðsynleg gögn til þess að geta þjálfað Málfríði á, svo hún læri hvernig fólk skrifar, og hvað gæti þurft að leiðrétta í textum. 

Gervigögn

En þótt Íslenska villumálheildin sé með stærri málheildum af sínu tagi þarf miklu meira af gögnum til þess að þjálfa tauganet eins og Málfríði. Við viljum líka sýna tauganetinu dæmi um enn fleiri og fjölbreyttari villur en koma fyrir í villumálheildinni. Þá grípum við til þess ráðs að búa til „gervigögn“. Þannig getum við búið til mikið magn þjálfunargagna án þess að þurfa að leggja í mikla vinnu við að handleiðrétta texta.

Þetta gerum við með því að taka texta sem við teljum vera að megninu til á góðri íslensku, eins og marga texta í Risamálheildinni, sem er enn ein afurðin úr máltækniáætlun stjórnvalda: stærsta safn ritstýrðra texta sem til er fyrir íslensku. Síðan bætum við alls kyns villum inn í textana, og ruglum þá á ýmsa vegu:

Mig langar til að spyrja hæstv. ráðherra hvort hann sjái fyrir sér í framtíðinni að vatnsveitur sveitarfélaga verði í einkaeigu og að farið verði að hugsa um að selja þær, einkavæða þær.

svo úr verður brengluð útgáfa:

Mér langar til að spyrja hæstv. ráðherra hvort hann sér fyri rsér í framtíðinni að vatnsveitursveitarfélaga urðu í einkaeigu og að farið urðu að hugsa um að selja þær, einkavæða þær.

Síðan eru þessar tvær útgáfur notaðar sem þjálfunargögn, þar sem líkanið lærir að leiðrétta úr brengluðu útgáfunni yfir í þá upprunalegu.

Til þess að framkalla sem fjölbreyttastar villur notum við margar mismunandi aðferðir. Sumar aðferðirnar eru mjög einfaldar og handahófskenndar en aðrar nota málfræðilegar og setningafræðilegar upplýsingar til að breyta til dæmis beygingu orða. Hér eru bara nokkur dæmi um villur sem bætt er í gervigögnin:

  • stöfum bætt við, sleppt eða skipt út

  • bilum bætt við eða eytt

  • greinarmerkjum breytt

  • algengum villum bætt við út frá þekktum villulistum („eitthvað“ → „einhvað“)

  • orð tvítekin („sem sem er“)

  • orðum skipt upp („forsætis ráðherra“)

  • falli orða breytt („ég fór úr buxurnar“)

  • forsetningum breytt („af skornum skammti“ → „að skornum skammti“)

  • viðtengingarhætti breytt í framsöguhátt („ég held hann sé“ → „ég held hann er“)

  • líkt eftir þágufallshneigð („krakkana langar“ → „krökkunum langar“)

Þessi blanda af flóknara og einfaldara textabrengli er hentug leið til að búa til mikið magn af gögnum svo hægt sé að þjálfa líkan eins og Málfríði á nóg af mismunandi textum með alls konar villum.

Þjálfunin

Förum nú aðeins dýpra í þjálfunarferlið. Tauganetið í Málfríði er líkan sem samanstendur af tveimur meginhlutum: kóðara (e. encoder) og afkóðara (e. decoder). 

Ferlið við þjálfunina er í mjög grófum dráttum eftirfarandi:

  • Þjálfunargögnunum er skipt upp í hæfilega þjálfunarskammta, til dæmis nokkrar málsgreinar saman, sem eru sendir inn í líkanið.

  • Í líkaninu les kóðarinn inn textabút með villum og breytir honum í stafræna framsetningu (tölur). Þetta er nauðsynlegt skref því tölur eru tungumálið sem tölvur geta unnið með. 

  • Afkóðarinn tekur síðan við þessari framsetningu og reynir að búa til leiðréttan texta.

  • Líkanið fær að sjá rétta útgáfu textans og ber saman við sína eigin útgáfu. Það notar svo líkindareikning til að meta hversu vel það stóð sig og uppfærir þekkingu sína í samræmi við það.

Í upphafi þjálfunar gerir líkanið mörg mistök. En í hvert skipti sem það gerir mistök fær það endurgjöf sem það notar til að aðlaga sig. Þetta ferli er endurtekið í milljónir skipta með mismunandi dæmum. Smám saman lærir líkanið mynstur í því hvernig á að leiðrétta algengar villur, rétta stafsetningu og málfræði, og verður sífellt nákvæmara. Þessi þjálfun getur tekið marga daga, jafnvel vikur, eftir því hvað tauganetið er stórt og hversu mikið reikniafl er aðgengilegt.

Eftir þjálfun er orðið til leiðréttingarlíkan sem getur tekið við nýjum texta sem það hefur aldrei séð áður. Kóðarinn breytir textanum í stafræna framsetningu og afkóðarinn notar þá þekkingu sem hann hefur öðlast í þjálfuninni til að búa til leiðréttan texta.

Svona tegund af tauganetum (kóðari + afkóðari) hefur oft verið notuð til þess að búa til forrit sem þýða texta á milli tungumála, og í raun má hugsa Málfríði þannig, að hún „þýði“ texta sem inniheldur villur yfir í læsilegri texta.

Það sem gerir þessa aðferð svo öfluga er að líkanið lærir ekki bara stakar reglur heldur líka flókin mynstur og samhengi í tungumálinu. Þess vegna getur Málfríður oft skilið merkingu textans og leiðrétt villur sem hún hefur aldrei séð áður, og sem hefðbundin leiðréttingarforrit ráða ekki við.

Arkitektúr

Ýmsar tauganetsaðferðir má nota til að þjálfa líkön eins og Málfríði, og tauganet geta verið með mismunandi uppbyggingu eða arkitektúr. 

Oft er hægt að nota líkön sem hafa nú þegar verið þjálfuð á miklu magni af texta á ensku, og halda áfram að þjálfa ofan á þau með íslenskum gögnum. Þetta er algeng aðferð til að þurfa ekki að þjálfa líkön alveg frá grunni, með mikilli vinnu og tilkostnaði. Þar sem líkönin hafa verið forþjálfuð á ensku aðallega, hafa þau öðlast mikla þekkingu á tungumálum, jafnvel þótt þau hafi ekki séð íslensku nema í mýflugumynd. Þá þurfa þau minna af gögnum til að læra íslensku en ella.

Eftir að hafa prófað mismunandi aðferðir og líkön varð niðurstaðan sú að líkan sem heitir ByT5 hentaði langbest fyrir leiðréttingar á íslensku. Þetta líkan er forþjálfað á ensku og fleiri málum en lítilli íslensku. Sérstaðan við þetta líkan er að ólíkt flestum sambærilegum líkönum notar það stafi (eða raunar bæti) sem byggingareiningar, í staðinn fyrir að nota orðflísar (e. subword tokens), eins og algengast er. Þessi aðferð hentar betur fyrir leiðréttingu á beygingamáli eins og íslensku, eins og við höfum raunar skrifað vísindagrein um.

Við þjálfuðum þetta ByT5-líkan fyrst með gervigögnunum, til að kenna því að leiðrétta íslenska texta, og síðan fínþjálfuðum við það örlítið lengur á villumálheildinni eingöngu. Fínþjálfun er stutt þjálfunarskref í lokin þar sem líkan er þjálfað á hágæðagögnum, sem oft er ekki til mikið af, til þess að ná fram ákveðinni hegðun. Þetta er mikilvægt skref í Málfríði, því í þessu skrefi fær hún að læra að leiðrétta raunverulegar villur frá raunverulegu fólki.

Þetta þjálfaða líkan er síðan tengt við viðmótið á Málstað, og ýmsum snjöllum aðferðum beitt til þess að láta það keyra sem hraðast, búta textana niður á sem skynsamastan hátt, sýna ábendingar þægilega og svo framvegis.

Hver er munurinn á Málfríði og ChatGPT?

Þegar þetta er skrifað, árið 2024, stendur Málfríður sig betur en stór mállíkön eins og ChatGPT, Claude og Gemini í því að leiðrétta íslenska texta. En hver er munurinn á Málfríði og þessum stóru gervigreindarlíkönum? 

Allt eru þetta gervigreindarlíkön, en grundvallarmunurinn er sá að Málfríður er minna líkan sem er sérhæft í einu verkefni: að fá inn texta á íslensku og skila út réttri útgáfu af textanum, í samræmi við þjálfunargögnin. Málfríður getur ekki skrifað uppskriftir eða ferilskrár eða þýtt texta milli tungumála, hún kann bara að leysa þetta eina verkefni.

Stór mállíkön eru með annan arkitektúr (ekki kóðari og afkóðari, heldur einungis afkóðari), og margfalt stærri en Málfríður. Þjálfun þeirra er þung og kostnaðarsöm og að henni lokinni geta þau leyst ótal verkefni á mörgum tungumálum. Þau hafa sum hver góðan skilning á íslensku máli en enn vantar upp á málfræðilega þekkingu þeirra þegar þau skrifa íslenskan texta. Þau hafa enn fremur ekki fengið sérstakar upplýsingar um venjur í íslenskri málnotkun og réttritun. 

Það þarf ekki alltaf risastór líkön til þess að leysa afmörkuð verkefni eins og málfarsleiðréttingu, og því nýtist ByT5-líkanið sem við lýstum hér að framan vel. Það er líka hratt í keyrslu og við getum stjórnað hegðun þess betur en stóru líkananna, enn sem komið er.

Framtíðin

Þróunin í gervigreind er hröð, sem eru góðar fréttir fyrir Málfríði, því það þýðir að hún verður bara betri með tímanum. Líklegast er að þegar stór mállíkön verða enn betri í að mynda íslensku muni Málfríður nýta sér krafta þeirra, meðal annars til að geta gefið útskýringar á leiðréttingum sínum og vísað í heimildir. 

Þar sem Málfríður getur ekki útskýrt leiðréttingar sínar höfum við hingað til mestmegnis látið hana leiðrétta atriði sem eru ótvíræðar villur, en ekki umorða texta sem ekkert er beinlínis athugavert við. Uppástungur um umorðanir, samheiti, samræmi, breytingar á stíl, þýðingar og fleiri tillögur eru bara örfáar hugmyndir um það sem er í pípunum, svo fylgstu endilega með þróuninni á næstu misserum. Málfríður er rétt að byrja að hjálpa þér að skrifa betri texta!

Efnisorð:
Deildu þessari grein: