Nýr leiðtogi í íslenskufærni gervigreindar

Miðeind fylgist með og mælir frammistöðu nýjustu gervigreindarlíkana hverju sinni í íslensku, eins og nánar var útskýrt í annarri grein á vef okkar. Við notum ýmiss konar mælipróf sem skoða m.a. hæfni líkananna í íslenskri málfræði, rökleiðslu á íslensku og þekkingu þeirra á staðreyndum um íslenska sögu og menningu. Hingað til hafa líkön frá OpenAI og Anthropic einokað efstu sætin.

En nú ber svo við (apríl 2025) að kominn er fram nýr leiðtogi á lista okkar: Google Gemini 2.5 Pro grípur efsta sætið af o1-preview frá OpenAI, með 2,3ja stiga forystu í meðalskori, sem er óvenju mikill munur á milli efstu sæta.

Efstu sætin í nýjustu leiðtogatöflu Miðeindar, sem sjá má í heild sinni á vef Hugging Face.

Gemini-líkanið stendur sig m.a. vel í því að sambeygja lýsingarorð og nafnorð og í lesskilningsprófinu Belebele. Þá nær það eftirtektarverðum árangri (52,7%) miðað við keppinautana á prófinu WikiQA-IS þar sem er spurt ýmissa (erfiðra) spurninga um staðreyndaþekkingu á íslenskum aðstæðum, sögu og menningu, upp úr íslensku Wikipediu.

Google er því að koma sterkt inn á svið spunagreindarlíkana — og það er ánægjulegt að sjá að íslenskan er svo sannarlega ekki skilin útundan þar á bæ.

Almennt má svo segja að þessi próf eru að verða of létt fyrir bestu gervigreindarlíkönin, öll nema WikiQA-IS-prófið. Þau eru m.ö.o. að verða mettuð (e. saturated); árangurinn er vel yfir 90% hjá flestum líkönum og því mæla prófin ekki mikinn mun. Og hin hliðin á þeim peningi er að í sumum prófanna má efast um að hinn dæmigerði mennski íslenski málhafi myndi skora hærra en mállíkönin; til dæmis væri forvitnilegt að vita hvort hann næði yfir 90% á sambeygingarprófinu — eins og Google Gemini gerir — þar sem sjaldgæf nafnorð og lýsingarorð eru beygð saman í öllum föllum og tölum.

Dæmi úr sambeygingarprófi Miðeindar: beygðu "framhvass lagarefur" í öllum föllum, eintölu og fleirtölu.

Sambeygingarprófið notar viljandi sjaldgæf orð og samsetningar þeirra, til að líkönin geti síður gripið til þess að afrita þjálfunardæmi og texta sem þau hafa þegar séð, heldur þurfi fremur að byggja á „máltilfinningu“ fyrir íslensku og þekkingu á beygingarkerfi og mynstrum tungumálsins.

WikiQA-IS-prófið er ennþá strembið fyrir gervigreindarlíkönin, enda eru spurningarnar þar margar hverjar býsna svínslegar. Svörin má þó öll finna í íslensku Wikipediu, enda eru bæði spurningarnar og svörin fengin þaðan; raunar er þeim safnað og þau búin til með hjálp gervigreindar. Dæmigerð spurning (samt í léttari kantinum) og svar úr WikiQA-IS mæliprófinu:

Hvaða íslenski matur er hefðbundinn á sprengidaginn?

Saltkjöt og baunir.

Google Gemini 2.5 Pro er eina líkanið sem nær yfir 50% réttum svörum í WikiQA-IS (nánar tiltekið 52,7%), en Claude Sonnet 3.7 og OpenAI o1-preview fylgja á eftir með um það bil 45%.

Góð mælipróf fyrir frammistöðu í íslensku eru mikilvæg, ekki aðeins fyrir okkur Íslendinga sjálfa til að velja bestu líkönin fyrir okkar notkun, heldur einnig til að aðstoða stóru tæknifyrirtækin í að gera líkönin betri í íslensku. Það er jú erfitt að endurbæta það sem ekki er hægt að mæla! Það er því full ástæða til að halda áfram að þróa uppfærð og erfiðari mælipróf eftir því sem gervigreindartækninni fleygir fram — og þar verður Miðeind áfram með puttann á púlsinum.

Deildu þessari grein: