Association for Computational Linguistics hizkuntzaren teknologiari buruzko elkarte zientifikoak Euskal Herriko Unibertsitateko (EHU) HiTZ Hizkuntza Teknologiako Zentroak eraiki duen Latxa euskararentzako hizkuntza ereduari buruzko artikulua saritu dute azken biltzarrean. Gainera, topaketa berean egindako aurkezpen batean, euskarak ikerkuntzan duen pisua aipatu da, 1.200 artikulu baina gehiagotan aipatzen baitira bere inguruko esperimentuak.

EHUko iturriek jakinarazi dutenez, Association for Computational Linguistics elkarteak Bangkoken antolatu duen biltzarrak 4.400 artikulutik gora jaso ditu, eta 5.000 ikuskatzailek baino gehiagok osatutako batzordeak 940 besterik ez ditu onartu ditu, "argitalpen gune prestigiotsuena izanda, kalitate hobereneko artikuluak besterik ez baititu argitaratzen".

Egileen artean unibertsitate, ikerketa zentro eta enpresa nagusietako ikerlariak izaten dira, hala nola Microsoft, Meta eta Apple. Onartutako ikerkuntza lanetatik 14 artikulu aukeratu dituzte sarietarako, tartean Latxa hizkuntza ereduari buruzkoa. Sari banaketa biltzarrera hurbildutako 4.000 ikerlarien aurrean egin zen.

Hizkuntza eredu handi bat (LLM ingelesez), adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu multzo masiboetatik sortutako ezagutzan oinarrituta.

EHUko HiTZ zentroak garatutako Latxa euskararentzako hizkuntza ereduen familia bat da eta lizentzia libreko testuen corpus handienarekin eta hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da.

Latxak duela bi urte abiarazitako jatorrizko ChatGPT bertsioa gainditzen du (orain GPT 3.5 gisa ezaguna), eta baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, GPT-4 gainditzen du hizkuntza gaitasunean. Latxa deskribatzen duen artikulu zientifikoan, corpusak nola bildu diren, eredua nola entrenatu den eta ebaluaziorako datu multzoen eraikuntza deskribatzen dira.