Miðeind í samstarfi við OpenAI

Bandaríska fyrirtækið OpenAI hefur verið ofarlega á baugi upp á síðkastið sem útgefandi nýstárlegra gervigreindarlausna á borð við DALL·E og ChatGPT sem slegið hafa í gegn hjá milljónum notenda um allan heim. Glöggir notendur á Íslandi hafa tekið eftir því að spjallmennið ChatGPT kann ýmislegt fyrir sér í íslensku þrátt fyrir að hafa aðeins verið markvisst þjálfað í ensku. Við þróun nýjustu afurðar sinnar, GPT-4, hefur OpenAI, í samstarfi við Miðeind, hins vegar í fyrsta skipti gert tilraunir með þjálfun risamállíkans síns með mannlegri endurgjöf á öðru tungumáli en ensku, það er að segja íslensku.

Samvinna um gervigreind á íslensku

Samstarf Miðeindar og OpenAI hófst í kjölfar heimsóknar forseta Íslands og sendinefndar til höfuðstöðva OpenAI í San Francisco í maí síðastliðnum. Meðal þátttakenda í þessari ferð var Vilhjálmur Þorsteinsson, framkvæmdastjóri og stofnandi Miðeindar, og að hans frumkvæði upphófust samræður á milli fyrirtækjanna tveggja um hvernig íslenskan gæti nýst OpenAI sem fyrirmynd eða sniðmát að stuðningi við smærri tungumál í háþróuðum risamállíkönum (e. Large Language Models). Fyrsti áfangi samstarfsverkefnisins sneri að því að kenna fyrri kynslóð GPT mállíkansins íslensku (svokölluð “fínþjálfun”). OpenAI lagði til reikniafl og aðgang að sérfræðingum, en Miðeind lagði til textagögn og vinnu. Markmið verkefnisins var m.a. að meta hversu mikið þyrfti af textagögnum á tilteknu tungumáli til að kenna mállíkani tungumálið.

Þegar undirbúningur næstu kynslóðar GPT líkansins, þ.e. GPT-4, fór á skrið sl. haust leitaði OpenAI svo til Miðeindar um að taka þátt í þjálfun þessa nýjasta líkans sem er mun öflugra en fyrirrennarinn. Þar er um að ræða svokallaða styrktarþjálfun með mannlegri endurgjöf (e. Reinforcement Learning - Human Feedback) en þessi tegund þjálfunar er nauðsynleg til að kenna mállíkani að skilja spurningar og verkefni og svara þeim rétt og vel.

Miðeind safnaði saman hópi næstum 40 sjálfboðaliða sem fengu það verkefni að útbúa spurningar og verkefni á íslensku fyrir GPT-4, og síðan að meta svör líkansins, gefa þeim einkunnir og kenna því hvernig það gæti svarað enn betur. Þessi gögn voru svo notuð í þjálfun GPT-4 og urðu til þess að líkanið tók framförum í að skilja spurningar og svara á íslensku. Eitt af því sem það gerir t.d. betur núna er að það svarar nánast eingöngu á íslensku en áður slæddust oft með svör á ensku eða á öðrum Norðurlandamálum.

Verkefninu er þó hvergi nærri lokið því ljóst er að töluvert meiri þjálfun þarf til að gera líkanið fullfært í íslensku. Líkanið skilur vel spurningar og verkefni og stendur sig nú þegar mjög vel í mörgu, en gerir enn málfræði- og orðalagsvillur þegar það er beðið að skrifa lengri samfelldan texta á íslensku.

Menningarlegt samhengi

GPT-4 veit ýmislegt um Ísland og íslenskt samfélag og getur svarað ýmsum spurningum þar að lútandi og veitt hagnýtar upplýsingar. Líkanið getur t.d. verið prýðilegur ferðafélagi:

Ég er stödd nálægt Landmannalaugum og er að horfa á mjög sérstakt marglitt fjall. Hvaða fjall gæti þetta verið?
Ef þú ert stödd nálægt Landmannalaugum og horfir á mjög sérstakt marglitt fjall, þá er líklegt að það sé fjallið Brennisteinsalda. Það er eitt af frægustu fjöllum á þessu svæði og er þekkt fyrir sitt einstaka útlit. Brennisteinsalda er um 855 metra hátt og er með fallega og skemmtilega litablöndu af ryki, lípi, jarðlögum og steini.

Líkanið getur dregið ýmsar upplýsingar úr texta og bætt við þær:

Í vikunni var greint frá því að Pósthúsinu í Mjódd yrði fljótlega skellt í lás. Fréttin er ekki einsdæmi því sömu sögu er að segja af pósthúsinu í Ólafsvík, Hveragerði, Bolungrvík, Súðavík, Grenivík, á Laugum, Reykjahlíð, Skagaströnd og Kópaskeri svo dæmi séu tekin.

Pósthúsinu í Vesturbæ hefur verið lokað og er hverfispósthús Vesturbæinga nú í Síðumúla en ferðatíminn frá Hagatorgi að pósthúsinu tekur hátt í fjörutíu mínútur með strætó. Forstjóri Póstsins hefur sagt breytingar á póstþjónustu í takt við breyttar þarfir og kröfur neytenda enda hafi dregið úr eftirspurn eftir afgreiðslu pósthúsa.
---------------------------------------------------
Hvaða bæjarfélög koma fyrir í fréttinni að ofan og hver eru póstnúmer þeirra?
Bæjarfélög sem koma fyrir í fréttinni eru:
-Reykjavík (póstnúmer 101-155)
-Ólafsvík (póstnúmer 355)
-Hveragerði (póstnúmer 810)
-Bolungarvík (póstnúmer 415)
-Súðavík (póstnúmer 420)
-Grenivík (póstnúmer 610)
-Laugar (póstnúmer 650)
-Reykjahlíð (póstnúmer 660)
-Skagaströnd (póstnúmer 545)
-Kópasker (póstnúmer 670)

Það þekkir ýmsar sögupersónur úr heimsbókmenntunum er hins vegar ekki alviturt og hefur tilhneigingu til að finna upp staðreyndir:

Hvað heitir Donald Duck á íslensku?
Donald Duck heitir Andrés Önd á íslensku.
En hvað heitir Paw Patrol á íslensku?
Paw Patrol heitir Slökkvilíðarnir á íslensku.
En veistu þá hvað Pippi Långstrump er kölluð á íslensku?
Já, Pippi Långstrump er kölluð Lína Langsokkur á íslensku.

Í mörgum tilfellum geta „rétt“ svör við spurningum verið breytileg eftir samhengi, t.d. menningu eða nærumhverfi þess sem spyr. Þetta veit GPT-4 og líkanið er ansi lunkið í því laga svör sín að því tungumáli sem spurt er á:

Hver er forseti núna?
Forseti Íslands núna (2021) er Guðni Th. Jóhannesson.
Who is president now?
As of 2021, the President of the United States is Joe Biden.
Hver fann Ameríku?
Leifur Eiríksson, íslenskur landkönnuður, fann fyrstur Evrópumaður Ameríku um árið 1000. Hann kom að landsvæði sem hann nefndi Vínland en það er talið vera núverandi Kanada. En fyrstir menn á Ameríku voru innfæddir amerískir indíánar sem komu þangað fyrir um 15.000 árum.

Hvað gerir GPT-4 vel á íslensku?

Þrátt fyrir að eiga talsvert í land með að ná sambærilegri færni í myndun íslensks máls og það sýnir af sér á enskri tungu, þá er GPT-4 nú þegar gríðarlega öflugt tól þegar kemur að alls kyns vinnslu á íslenskum texta. Líkanið getur t.d. gert útdrátt úr texta:

Hillurnar tæmast í Færeyjum vegna bilunar í Dettifossi

Íslenska flutningaskipið Dettifoss þurfti að hætta við heimför sína um helgina vegna bilunnar í vél skipsins. Færeyska Kringvarpið greinir frá því að tómlegt sé í hillum færeyskra matvöruverslana fyrir vikið.
Dettifoss átti að koma við í Þórshöfn á sunnudag en þegar hann var á leið frá Árósum um helgina var komið auga á bilun í skipinu svo að því þurfti að snúa við.

Í útvarpsviðtali við Kringvarpið segir Bent Lundsgaard, deildarstjóri í matvöruversluninni FK í Hoyvík að skortur sé á mörgum ferskvörum og að sumar hillur, einkum í grænmetisdeildinni, séu galtómar. Edda Rut Björnsdóttir, markaðs- og samskiptastjóri Eimskips, segir í samtali við mbl.is að bilunin hafi orðið í afgaskerfi aðalvélarinnar og þá hafi verið ákveðið að snúa aftur við til Árósa. Hún segir að skipið muni leggja aftur af stað í fyrramálið.

Dettifoss mun því koma til Þórshafnar annað kvöld og Færeyingar fá því ferskvörur að nýju. Dettifoss er flutningaskip Eimskips sem flytur ýmist vörur á milli meginlands Evrópu, Færeyja og Íslands. Dettifoss er með heimahöfn í Þórshöfn og siglir undir færeysku flaggi.

--------------------------

Dragðu meginefni fréttarinnar saman í þremur stuttum setningum:
1. Flutningaskip, Dettifoss, þurfti að snúa við vegna bilunnar í vél skipsins á leið sinni til Færeyja.
2. Hillurnar í færeyskum matvöruverslunum eru tómar fyrir vikið vegna bilunarinnar.
3. Dettifoss leggur aftur af stað í fyrramálið og mun koma til Þórshafnar annað kvöld, þannig að Færeyingar fá ferskvörur að nýju.
Greynir

Áhugasömum lesendum er bent á að skoða þessa virkni betur á fréttaveitu Greynis þar sem nú birtist samantekt á þremur tungumálum (íslensku, ensku og pólsku) fyrir hverja frétt sem smellt er á, en samantektarvirknin er knúin af GPT-4. Málfari íslenska textans er vissulega stundum ábótavant en hægt er að nota þessa tækni samfara öðrum máltæknilausnum sem þróaðar hafa verið sérstaklega fyrir íslensku til þess að sérsníða textagreiningartól að þörfum íslenskra fyrirtækja.

Skilningur á íslenskri málfræði

Þrátt fyrir að GPT-4 líkanið eigi nokkuð í land með að mynda fullkomna íslensku þá veit það heilmargt um íslenska málfræði. Hins vegar þarf oft ákveðna leikni við að orða spurningar (e. prompt engineering) til þess að fá rétta mynd af því hvað líkanið veit og getur. Hér skilur það t.d. alls ekki hvað er verið að biðja það um:

Greindu fall feitletruðu orðanna: Pabbi gaf Helgu skemmtilega bók um hesta. Helga fór í reiðtúr og var komin góðan spöl niður brekkuna þegar hún mætti Degi vini sínum. Þau fóru saman til hesthúsanna.
Pabbi gaf Helgu gamla skemmtilega lesföng um hesta. Helga fór á hestbak og var búin að komast niður bratta aukaleið þegar hún hitti Deg, vin sinn. Þau skoðuðu bæði hestana í fjósunum.

Með því að leiðbeina því áleiðis fæst svar sem kemst nær því sem við viljum ná fram en er samt enn þá kolvitlaust:

Greindu fall (nefnifall, þolfall, þágufall, eignarfall) feitletruðu orðanna: Pabbi gaf Helgu skemmtilega bók um hesta. Helga fór í reiðtúr og var komin góðan spöl niður brekkuna þegar hún mætti Degi vini sínum. Þau fóru saman til hesthúsanna.
Greindu fall (nefnifall, þolfall, þágufall, eignarfall) feitletruðu orðanna:
Nefnifall: Pabbi, Helga, Dagi, hesthús
Þolfall: bók, reiðtúr, spöl, brekku
Þágufall: Helgu, hesta
Eignarfall: vini

Þetta þýðir samt ekki að GPT-4 sé ekki fært um málfræðilega greiningu á íslensku máli því ef við spyrjum sömu spurningar á ensku fæst mun betra svar:

List the grammatical case of the words in boldface: Pabbi gaf Helgu skemmtilega bók um hesta. Helga fór í reiðtúr og var komin góðan spöl niður brekkuna þegar hún mætti Degi vini sínum. Þau fóru saman til hesthúsanna.
- Pabbi - nominative case
- Helgu - dative case
- bók - accusative case
- hesta - accusative case
- reiðtúr - accusative case
- spöl - accusative case
- brekkuna - accusative case
- Degi - dative case
- hesthúsanna - genitive case

Líkanið er nokkuð vel að sér um orðflokka og veit t.d. að vel mynduð setning þarfnast sagnorðs:

Hvaða orðflokk vantar í fyrirsögnina „Eiður Smári til Manchester“?
Fyrirsögnin „Eiður Smári til Manchester“ vantar sögn (e. verb) til að verða fullgild setning.

Þá getur GPT-4 greint kyn og tölu nafnorða:

Ég var kominn góðan spöl niður brekkuna þegar við mættumst. Í hvaða kyni og tölu er undirstrikaða orðið?
Undirstrikaða orðið spöl er í karlkyni og eintölu.

GPT-4 er líka fært um framkvæma alls konar málfræðilegar aðgerðir á texta. Hér breytir það setningu í germynd úr þolmynd:

Breyttu setningunni úr þolmynd í germynd: í lok fundarins var ákveðið af borgarstjóra að styrkja verkefnið
Borgarstjóri ákvað að styrkja verkefnið í lok fundarins,

Það á ekki í neinum vandræðum með að breyta tölu orða:

Breyttu úr eintölu í fleirtölu: Maðurinn fékk sér brauðsneið
Mennirnir fengu sér brauðsneiðar.

Líkanið er ekki fullfært í að breyta málsniði texta en kann þó eitthvað fyrir sér:

Breyttu málsniðinu svo setningin verði óformleg: Faðir minn annaðist baksturinn en móðir mín ók bifreiðinni
Pabbi annaðist baksturinn en mamma ók bílnum.

Myndun á texta

Eins og ljóst má vera af hinum fjölmörgu dæmum hér að ofan þá skilur GPT-4 íslensku ansi vel en hins vegar gerir líkanið heilmargar málfræði- og orðalagsvillur, sérstaklega þegar það skrifar lengri samfelldan texta á íslensku. Villurnar felast til dæmis í röngu kyni og beygingarendingum, skrítinni orðaröð og notkun bullorða, sem oftar en ekki eru samsett orð (sem sýnir reyndar ágætan skilning á því hvernig íslenskan en uppbyggð því myndun nýrra samsetninga, svokallaðra augnablikssamsetninga, er mjög algeng í íslensku þegar lýsa þarf á stundinni einhverju atviki eða einhverju áþreifanlegu og orð skortir). Eins og staðan er núna er því ekki hægt að reiða sig á GPT-4 til þess að leiðrétta íslenskan texta en það er engin ástæða til þess að halda að líkanið muni ekki ná færni í því með meiri þjálfun. Í því samhengi má nefna að Miðeind hefur þróað sitt eigið málrýnitauganet sem byggir á sömu undirliggjandi gervigreindartækni og er mjög fært í að laga íslenskan texta.

Þótt GPT-4 myndi ekki fullkominn íslenskan texta þá hefur það þrátt fyrir allt tekið miklum framförum eins og sjá má þegar svör þess eru borin saman við svör fyrirrennaranna.

Hvað er gervigreind?
GPT-3
Gervigreind er hjálparni þinn í síma þessara þjónustu. Hjálparnir geta hjálpað þér með því að svara á spurningar um þjónustuna, uppfæra þjónustuna fyrir þig og hjálpa þér að búa til nýja aðgangi.
ChatGPT
Gervigreind, eða Artificial Intelligence á ensku, er tölvufræðigrein sem snýst um þróun og notkun hugbúnaðar sem getur lært að skilja, álykta, ákvarða og leysa verkefni sem yfirleitt krefjast mannlegs hugsunar. Í raun og veru er gervigreind hugbúnaður sem er hannaður til að líkja eftir mannlegum huga og atferli, eins og sjónhverfi, tungumál, námsgetu, ályktun, skilning á náttúrulegu tali og margt fleira. Til að ná þessu markmiði eru notuð fjölmörg stærðfræðileg og tölfræðileg aðferð, eins og dýpðarfræði, náttúrufræðileg lærifaðir og tölvuviðmiðunarfræði. Gervigreind er notuð í mörgum greinum, eins og tölfræði, vélvirkjun, sjálfstjórnandi bílum, viðskiptum, heilbrigðisþjónustu, tómstundum og margt fleira.
GPT-4
Gervigreind (e. Artificial Intelligence, AI) er hugmyndafræði og tækni sem fókuserar á þróun kerfa og forrita sem geta hermt eftir mannlegri greind. Það er tækni sem gerir tölvum og öðrum tækjum kleift að læra sjálfar, skilja og vinna með upplýsingar, taka ákvarðanir og leyst flókin vandamál. Gervigreind er m.a. notuð í sjálfstjórnandi bílum, spám tölfræði, talgreiningu og í tölvuleikjum.

Eitt af því skemmtilega við líkanið er að það er gagnvirkt og því er hægt að spyrja það út í vitleysurnar sem það gerir og fá t.d. útskýringu á bullorðum:

Segðu mér örstutta sögu um kött
Einu sinni var köttur sem hét Mjá. Hann var mjög fallegur með gullgult skinn og skærar augu. Hann lifði með fjölskyldu sinni og var mikið umhugaður. Hann var mjög nýsgjarn og kattafræðilega duglegur. Mjá elskaði að skoða umhverfi sitt og klóra á trjám. Hann var einnig sérstaklega áhugasamur um að elta skordýr og fugla. Hann var alltaf að leika sér með fjölskyldu sinni og vinum sínum úr kattabyggðinni. Þótt Mjá hafi verið mjög duglegur kattur, var hann einu sinni týndur í skógi. Hann fékk hjálp frá vinum sínum til að finna leið til baka heim. Þá urðu allir mjög glaðir og fagnaðu honum með stóru veislubodi.
Hvað þýðir það að vera kattafræðilega duglegur?
Að vera kattafræðilega duglegur þýðir að kötturinn sé sérstaklega duglegur í því sem hann gerir sem köttur. Hann er með öðrum orðum duglegur að klóra, skoða, elta skordýr, finna fæðu og vera virkur og áhugasamur um umhverfi sitt. Hann er einfaldlega náttúrulega duglegur í að vera köttur.

Með því að spjalla við líkanið á þennan hátt kemst notandinn oft að raun um að það veit meira en fyrstu svör gefa til kynna en skortir kannski orðaforða til að skilja og leysa sum verkefni.

Nefndu mér eitt andheiti orðsins lítill
Smár
Name me one antonym of the word lítill
Stór
Hvernig segir maður „antonym“ á íslensku?
Á íslensku segir mað "andhverfa" eða "mótorð"
Nefndu mér eitt mótorð orðsins lítill
Stór

Gervigreindarbyltingin

Miðeind hefur frá stofnun sinni, árið 2015, unnið að þróun hugbúnaðar á sviði máltækni og gervigreindar fyrir íslensku. Miðeind hefur kynnt til sögu nokkrar vörur á sviði máltækni, svo sem snjall-aðstoðar-appið Emblu, málrýnina Yfirlestur.is og þýðingarvélina Vélþýðing.is, ásamt því að taka þátt í máltækniáætlun stjórnvalda og vinna að ýmsum verkefnum með íslenskum fyrirtækjum. Miðeind er umhugað um að hugbúnaður sé almennt opinn og aðgengilegur sem flestum og var stofnuð fyrst og fremst til þess að vinna að bættum hag íslenskunnar í stafrænum heimi.

Fyrirtækin tvö, Miðeind og OpenAI, eiga það sameiginlegt að hafa lagt mikla áherslu á að þróa gervigreind með ábyrgum hætti og þannig að sem flest njóti ávinnings af henni. Vonir standa til að áframhaldandi samstarf fyrirtækjanna tveggja muni leiða til þess að íslenska tungumálið standi jafnfætis stærri tungumálum í gervigreindarlíkönum á borð við GPT-4. Þá er hugmyndin að þetta tilraunaverkefni verði nýtt sem sniðmát fyrir önnur smærri tungumál svo þau fái notið sömu tækifæra. Þetta er ekki síst mikilvægt í ljósi þess að gervigreind mun líklega verða einn helsti drifkraftur framleiðniaukningar og nýsköpunar á næstu árum og áratugum. Ein helsta áskorun gervigreindarbyltingarinnar er að tryggja að tæknin sé aðgengileg fyrir alla og að ekki skapist gjá á milli þeirra sem hafa aðgang að henni og þeirra sem hafa hann ekki (e. AI Divide). Þar skiptir stuðningur við tungumál heims lykilmáli. Þá þarf að þróa tæknina þannig að hún sé örugg, þjóni hagsmunum mannkyns og festi ekki bjaga, mismunun eða ójöfnuð í sessi.

Miðeind hlakkar til að halda áfram nánu og góðu samstarfi við OpenAI og að vinna að því að styrkja stöðu íslenskunnar á öld gervigreindar.