Nýtt! Prófaðu Málstað, vettvang fyrir allar helstu vörur Miðeindar.

„Frá Íslendingasögum til stórra mállíkana“ - úr Tölvumálum 2024


Vilhjálmur Þorsteinsson, stofnandi Miðeindar, skrifaði eftirfarandi grein ásamt Helga Páli Helgasyni, leiðtoga gervigreindar hjá APRÓ, um „vatnaskil í íslenskukunnáttu gervigreindar“. Greinin birtist í árlegri útgáfu tímaritsins Tölvumál, sem er gefið út af Skýrslutæknifélagi Íslands.


VANDI ÍSLENSKUNNAR Á TÍMUM GERVIGREINDAR

Stutt er síðan ákveðin ögurstund rann upp í sögu tungumálsins okkar, íslenskunnar. Sú ögurstund tengist tilkomu gervigreindar, sem hefur á síðustu árum þróast í veldisvexti og mun hafa síaukin áhrif á daglegt líf okkar, atvinnu og stjórnsýslu. En munum við geta nýtt hana á íslensku, fremur en ensku? Þar er efinn, og að svo verði er engan veginn sjálfsagt. 

Aðeins um 350 þúsund manns eiga íslensku að móðurmáli, og innan við 400 þúsund tala málið. Sökum smæðar málsamfélagsins eru þjálfunargögn fyrir gervigreindarlíkön, þ.e. texti á stafrænu formi, af skornum skammti miðað við það sem þekkist fyrir stærri tungumál. Íslenskan er jafnframt beygingaríkt mál með fjölda blæbrigða í málfræðireglum, sem veldur því að meira magn texta þarf en ella til að læra reglur hennar svo vel sé. 

Sú tegund gervigreindar sem er mest áberandi í núverandi fasa gervigreindar byltingarinnar hefur verið kölluð spunagreind (e. generative AI). Hana þarf að þjálfa með gríðarlegu gagnamagni til að hún nái að tileinka sér fjölbreytt mynstur tungumála og þekkingar. Því erfiðari sem notkunartilvikin eru, því meira gagnamagn og því fleiri dæmi þarf hún til að læra af. Samspil takmarkaðra þjálfunargagna og flækjustigs íslenskunnar skapar því ekki óskastöðu. 

Áskorunin er enn meiri sakir þess að trauðla er hægt að treysta því að markaðsöflin leysi þarfir íslenskunnar með framboði til að mæta sjálfsprottinni eftirspurn. Til þess er markaðurinn of lítill og tækifæri til arðsamrar vöruþróunar takmörkuð. Það veldur því aftur að stór tæknifyrirtæki sjá sér lítinn eða engan hag í því að styðja við íslensku í vörum sínum og þjónustu, ef það kallar á markverða vinnu og fjárfestingu.

FRUMKVÆÐI BYGGT Á GÓÐUM UNDIRBÚNINGI 

Við þessari stöðu þurfti að bregðast með einbeittum og markvissum hætti. Sem betur fer var íslenskt samfélag ágætlega í sveit sett hvað undirbúning varðaði; frumkvöðlar á borð við Eirík Rögnvaldsson, Kristínu Bjarnadóttur og Sigrúnu Helgadóttur höfðu unnið gott starf undanfarna áratugi við að hvetja til söfnunar gagna og skipuleggja starf á sviði máltækni fyrir íslensku. Þá hafði máltækniáætlun stjórnvalda 2019-2023 jákvæð áhrif og jók mjög skriðþunga gagnasöfnunar, þekkingaruppbyggingar, rannsókna og vöruþróunar á þessu sviði. 

Lykilatburður í þessari sögu varð svo í maí 2022 þegar þáverandi forseti Íslands, Guðni Th. Jóhannesson, ásamt ráðherra menningarmála og sendinefnd, heimsótti bandaríska gervigreindarfyrirtækið OpenAI í San Francisco og hitti þar m.a. Sam Altman, forstjóra. Þetta var hálfu ári áður en ChatGPT kom út og OpenAI var á þeim tíma engan veginn jafn þekkt fyrirtæki og síðar varð. Á fundinum kynntu forseti og ráðherra málstað íslenskunnar og annarra lítilla tungumála og lögðu áherslu á að gervigreind ætti að nýtast heimsbyggðinni óháð tungumáli.

Málflutningurinn féll í góðan jarðveg hjá OpenAI enda í samræmi við meginmarkmið fyrirtækisins um að sjá til þess að fjölhæf gervigreind verði mannkyni öllu til gagns („[OpenAI’s] mission is to ensure that artificial general intelligence benefits all of humanity.“

Í kjölfar fundarins tók íslenska hugbúnaðarfyrirtækið Miðeind upp þráðinn í samskiptum við OpenAI. Miðeind lagði fyrir OpenAI tillögu að samstarfsverkefni sem gengi út á að rannsaka hvaða aðferðum þyrfti að beita, og hversu mikið af gögnum þyrfti að nota, til að kalla fram nægilega færni stórs mállíkans í litlu tungumáli. Íslenskan yrði þar notuð sem tilraunatilvik, enda væri hún aðgengileg sem slík, málföng lægju þegar fyrir og mikill vilji til að leggja vinnu hratt og vel í verkefnið.

Skemmst er frá því að segja að OpenAI samþykkti að leggja af stað í verkefnið og veitti Miðeind m.a. aðgang að fínþjálfun GPT-3 líkansins. Í nóvember 2022 bauð OpenAI síðan Miðeind að taka þátt í þjálfun GPT4 líkansins, sem þá var í smíðum, í formi viðgjafarnáms með mannlegri endurgjöf (e. Reinforcement Learning with Human Feedback, RLHF). Hugmyndin var að skoða hvort og hvernig slík þjálfun gæti styrkt mállíkanið í íslensku. Miðeind safnaði saman nærri 40 sjálfboðaliðum sem fengu aðgang að þjálfunarviðmóti GPT-4, skrifuðu spurningar og svör á íslensku og mátu frammistöðu líkansins. 

Þegar GPT-4 kom svo fyrir almannasjónir í mars 2023 var íslenskuverkefnið kynnt á vef OpenAI ásamt myndbandi sem Miðeind og Almannarómur framleiddu. 

Samstarfið hefur síðan haldið áfram. Miðeind hefur útvegað OpenAI textagögn til að þjálfa líkön fyrirtækisins, gefið endurgjöf á frammistöðuna og útbúið mælipróf sem metur færni mállíkana í íslensku. Sem dæmi mælir eitt slíkt próf frammistöðu í sambeygingum lýsingarorða og nafnorða í öllum föllum eintölu og fleirtölu, sbr. „svartur hestur“ / „svartan hest“ / „svörtum hesti“ / „svarts hests“. Eins og sjá má á þessari mynd hefur einkunn líkana OpenAI tekið miklum framförum frá GPT-3.5 til nýjasta GPT-líkansins, GPT-4o:

GERVIGREIND OPNAR NÝJAR VÍDDIR 

Þessi vatnaskil í færni stórra mállíkana í íslensku hafa töluverða þýðingu fyrir stóran hluta starfsemi á landinu, hvort sem er í einka- eða opinbera geiranum. Fyrirstaðan sem felst í tungumálinu er hratt þverrandi. Það opnar á innleiðingu og hagnýtingu gervigreindar sem byggir á gögnum á íslensku og sem unnt er að eiga samskipti við á íslensku. Þar með skapast tækifæri til að auka skilvirkni, bæta þjónustu, draga saman upplýsingar úr gögnum og taka betur rökstuddar ákvarðanir. Það má líka hugsa um alþjóðlega samkeppnishæfni okkar í þessu samhengi, en hömlur á hagnýtingu gervigreindar torvelda samkeppni við aðrar þjóðir sem búa ekki við sömu takmarkanir.

GERVIGREIND Í DAGLEGU STARFI 

Dæmi um nýja möguleika með gervigreind sem skilur íslensku vel er „skjalaspjall“, það er að geta spurt spurninga á náttúrulegu máli (í texta eða tali) um gögn í texta- og myndaformi sem notandi hefur aðgang að, til dæmis í vinnuumhverfi sínu. Slíkt spjall mun verða jafn sjálfsagt og tölvupóstur eða töflureiknar. Hér eru nokkur dæmi um slíkar spurningar. 

  •  „Hverjar voru heildartekjur okkar á þriðja ársfjórðungi samanborið við sama ársfjórðung í fyrra?“ 

  •  „Hver er meðalstarfsaldur í markaðsdeildinni?“ 

  •  „Hvaða verksmiðja var með lægsta hlutfall galla í síðasta mánuði?“ 

  •  „Hverjar eru algengustu kvartanirnar frá viðskiptavinum í sambandi við nýju þjónustuna okkar?“ 

Með svipaðri tækni er orðið mögulegt að búa til spjallmenni fyrir viðskiptavini og aðra notendur. Slík spjallmenni skilja ágætlega ásetning notenda, svara flóknum spurningum út frá tiltækum gögnum og framkvæma jafnvel aðgerðir sem fullnusta erindi. Tungumálafærni stórra mállíkana gerir að verkum að jafnvel er unnt að spyrja spurninga á t.d. ensku eða pólsku upp úr gögnum sem eru á íslensku, eða öfugt:  Að spyrja og fá svör á íslensku upp úr skjölum á ensku. Sú virkni getur verið mikill lífsgæðaauki fyrir annars máls hafa, meðal annars innflytjendur. 

Þá má nefna möguleika á að umbreyta hljóðupptökum í íslenskan texta, svo sem til að hljóðrita símtöl í þjónustuver og upptökur af fundum. Þessi textagögn er síðan hægt að vinna frekar með gervigreind, til að veita betri svör við spurningum eða útbúa samantektir eða skipulegar fundargerðir.

HVAÐ ER FRAMUNDAN? 

Fyrirsjáanlegt er að gervigreind muni áfram þróast hratt á næstu árum og jafnvel með sjálfstyrkjandi hætti, þar sem hver kynslóð gervigreindar verður hjálpartæki við þróun næstu kynslóðar. Nýlega er komin fram ný tegund spunagreindar (m.a. o1 frá OpenAI) sem notar innri rökstuðning, eða keðju „hugsana“, til að leysa enn flóknari verkefni en áður. Áhugavert verður að rannsaka hvort máli skipti að slíkur innri rökstuðningur sé á ensku eða á íslensku þegar spurt er á íslensku. 

Gagnlegt væri að safna saman fróðleik, í formi texta, tals, mynda og myndbanda, um íslenska sögu og menningu, í stafrænu formi sem er aðgengilegt fyrir gervigreindarlíkön, þannig að þau geti miðlað þekkingunni rétt og án fleipurs (e. hallucination). 

Einnig er mikilvægt að vinna gegn bjögum (e. biases) á borð við kynjahalla og úreltri orðanotkun (sem líkönin læra meðal annars vegna þess að eldri textar eru hluti þjálfunargagna), og sjá til þess að öryggisgirðingar gagnvart m.a. hatursorðræðu og hættulegum upplýsingum virki á íslensku engu síður en ensku. 

Við hvetjum til þess að gervigreindarbyltingunni verði tekið með jákvæðum hætti og horft á þau fjölmörgu tækifæri sem hún skapar. Dæmi um slíkt sem snertir mjög hag íslenskunnar til framtíðar er möguleikinn á því að talsetja erlent barnaefni á íslensku með sjálfvirkum hætti, með sama raddblæ og í upphaflegri hljóðrás. Jafnhliða sé gætt að því að ávinningi af gervigreindinni sé dreift þannig að hún stuðli að jöfnuði fremur en ójöfnuði, og hættur af notkun hennar - á borð við upplýsingaóreiðu - séu jafnóðum rannsakaðar og greindar og unnið að lágmörkun þeirra.

Greinina má nálgast á bls. 30 í nýjustu útgáfu Tölvumála. Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.

Efnisorð:
Deildu þessari grein: