Frábær árangur Erlends í vélþýðingakeppnum WMT25

Erlendur er vélþýðingalausn Miðeindar, sem þýðir milli margra tungumála og er aðgengilegur í gegnum Málstað. Erlendur nýtir gervigreind og ýmsar snjallar aðferðir til að ná fram sem allra bestum þýðingum, með sérstakri áherslu á íslensku. 

Nýverið tókum við í Miðeind þátt í vélþýðingakeppni sem haldin er sem hluti af stærstu vélþýðingaráðstefnu heims, WMT. Þar létum við reyna á getu Erlends í tvenns konar þýðingum: almennum vélþýðingum úr ensku yfir á íslensku og þýðingum með orðalistum til að tryggja tiltekið orðalag, sem er nýleg viðbót í Erlendi.

Skemmst er frá því að segja að Erlendur var á meðal efstu keppenda í báðum keppnum: Hann hafnaði í 3. sæti í almennum þýðingum á eftir mennskri þýðingu og almenna mállíkaninu Gemini 2.5 Pro, og náði 1. sæti og 3. sæti í þýðingum með orðalistum. Þetta voru gleðilegar niðurstöður sem staðfesta að Erlendur er samkeppnisfær á alþjóðlegum vettvangi og rúmlega það. Hér lýsum við aðeins keppninni og árangri Erlends, og hvernig við nýtum niðurstöðurnar til að gera Erlend enn betri.

WMT – krefjandi textar og mannleg yfirferð

WMT-keppnin (eða keppnirnar, því keppt er í ýmsum mismunandi verkefnum ár hvert) gefur fólki bæði í fræðasamfélaginu og á almennum markaði kost á að spreyta sig í að leysa krefjandi verkefni, og efla þar með rannsóknir og þróa lausnir sem eru öllu sviðinu til gagns. 

Í almennu vélþýðingakeppninni árið 2025 var keppt í þýðingum milli sextán tungumálapara, flest með ensku sem frummál. Íslenska hefur verið með í keppninni síðan árið 2021, sem hefur alið af sér ný prófunargögn sérstaklega unnin fyrir íslensku og hvatt þátttakendur til að beita sér í að efla vélþýðingar fyrir íslensku. Þetta er einn margra ávaxta máltækniáætlunar stjórnvalda, þar sem þátttaka í WMT hefur verið einn verkþátta hennar.

Í ár tóku 36 lið þátt, bæði með sérþjálfuð líkön og stór mállíkön, en ekki tóku öll þátt í íslenska þýðingarhlutanum. Annað lið frá Íslandi tók þátt, frá Stofnun Árna Magnússonar, með sérþjálfað þýðingalíkan.

Keppnin fór þannig fram að keppendur fengu texta af fjórum mismunandi gerðum til að vélþýða. Þetta voru fréttatextar, færslur af samfélagsmiðlum, bókmenntatextar og talgreindir textar (textar ritaðir sjálfvirkt upp eftir upptöku), og ýmsir aðrir sérhæfðir textar. Þetta eru erfiðir textar, sér í lagi voru talgreindu textarnir með ýmsum talgreiningarvillum, og samfélagsmiðlafærslurnar oft á mjög óformlegu máli og án mikils samhengis. Það er nauðsynlegt að textarnir séu mjög erfiðir, vegna þess hvað gervigreind ræður nú orðið vel við þýðingar, sérstaklega á ensku.

Niðurstöðurnar voru svo metnar bæði með sjálfvirkum aðferðum og handvirkt af sérfræðingum í tungumálunum sem um ræðir, en slík mennsk yfirferð er nauðsynleg til að greina bestu þýðingarnar, skilja blæbrigðamun, samhengi og annað.

Af öllum þeim sem tóku þátt í þýðingum yfir á íslensku hafnaði Erlendur í 3. sæti og var því efstur eiginlegra keppenda, þar sem mennski þýðandinn og Gemini-líkanið voru ekki eiginlegir þátttakendur í keppninni heldur höfð með til samanburðar. 

Þessar niðurstöður voru mjög ánægjulegar, ekki bara vegna þess að við náðum einu af toppsætunum, heldur fengum við hér skýra vísbendingu um getu gervigreindarlíkana í þýðingum yfir á íslensku. Lesa má meira um niðurstöðurnar í yfirlitsgreininni um keppnina.

Þegar keppnin fór fram notaði Erlendur líkanið Claude 3.5 Sonnet sem grunn, en það líkan hefur undanfarið reynst vel í að mynda íslensku. Eftir að hafa séð ótvíræðan sigurvegara keppninnar, hið nýlega Gemini 2.5 Pro frá Google, sem náði einu af efstu sætunum í fjórtán af sextán tungumálapörum, vorum við fljót að skipta um undirliggjandi mállíkan í Erlendi, yfir í Gemini 2.5 Pro. Þetta líkan, til viðbótar við þær aðferðir sem við beitum nú þegar, eru lykillinn að því að þýðingarnar í Erlendi eru nú jafnvel enn betri en áður.

Erlendur sigurvegari í kínverskum fjármálaþýðingum

Nýlega var kynnt viðbót við Erlend þar sem hægt er að óska eftir því að tiltekin hugtök séu notuð í þýðingum Erlends. Þetta er mikilvæg virkni fyrir notendur sem vilja samræma hugtakanotkun í þýðingum sínum, og hægt er að deila orðalistum innan hóps þannig að öll innan stofnunar eða fyrirtækis noti sömu hugtök.

Það var því tilvalinn prófsteinn fyrir þessa virkni að taka þátt í annarri keppni innan WMT sem snýst einmitt um hugtakaþýðingar. Við tókum þátt í báðum keppnisflokkum hennar, einföldu verkefni með stuttum textum og stökum hugtökum og erfiðara og raunhæfara verkefni þar sem gefinn er heill texti og langur hugtakalisti sem á að nota. Í því fyrra er þýtt milli ensku og þýsku, spænsku og rússnesku; í því seinna milli ensku og kínversku. 

Erlendur var eina lausnin sem náði einu af efstu þremur sætum í báðum verkefnum. Í einfaldara verkefninu, þar sem fleiri tóku þátt, lenti Erlendur í 3. sæti. Færri lögðu í flóknara verkefnið, þar sem reynir á að tryggja samhengi og góða úrvinnslu hugtakanna, en þar náði Erlendur 1. sætinu. Þar skákaði hann lausnum sem voru sérhannaðar fyrir keppnina, en engar breytingar þurfti að gera á virkni Erlends til að geta leyst verkefnin og þýtt flókna fjármálatexta með sérhæfðum hugtökum milli kínversku og ensku. Hægt er að lesa meira um niðurstöðurnar í yfirlitsgrein þessarar keppni.

Hluti af keppninni fólst í því að skrifa lýsingu á Erlendi í formi greinar sem má lesa hér í ráðstefnuriti WMT25: https://www2.statmt.org/wmt25/pdf/2025.wmt-1.31.pdf. Ráðstefnan sjálf fer fram núna 8.–9. nóvember í Suzhou í Kína, í tengslum við hina stóru EMNLP-máltækniráðstefnu, og fulltrúi Miðeindar fylgist með sem fjarþátttakandi. 

Skráðu þig á póstlistann okkar!

Efnisorð:
Deildu þessari grein: