BILBO. Eneko Agirre Euskal Herriko Unibertsitateko (EHU) Informatika Fakultateko Lengoaia eta Sistema Informatikoak Saileko irakasle eta IXA ikerketa taldeko kideak Google konpainiak urtero ematen dituen Google Research Awards ikerketa sarietako bat lortu du, eta 50.000 dolarreko diru laguntza jasoko du, hitzen eta kontzeptuen hizkuntzen arteko esanahiaren irudikapenari buruzko ikerketa baterako. Ikerketa egiteko, Aitor Soroa irakaslearen, Oier Lopez de la Calle ikertzailearen eta Josu Goikoetxea doktorego ikaslearen laguntza izan du Agirrek.
EHUk jakinarazi duenez, Google konpainiak hamar sari eman ditu hizkuntza prozesamenduaren alorrean eta, hala, Agirrek ez ezik, saria eraman dute Harvardeko, Berkeleyko, Edinburgoko eta Washingtoneko unibertsitateetako ikertzaileek ere, besteak beste. Guztira, Googlek 151 proposamen saritu ditu (informatikaren 18 esparrutako 950 hautagairen artetik), 55 herrialdetako 350 unibertsitatek bidalitakoak.
Horrela, Eneko Agirre EHUko irakasleak 50.000 dolar jasoko ditu "Learning Interlingual Representations of Words and Concepts" ikerketarako, hitzen eta on line kontzeptuen hizkuntza arteko esanahia azter dezan.
Gaur egun, itzulpen automatikoen edo sareko bilaketa motorren arazoa hitzen literaltasuna da, hau da, aplikazioak hitzez hitz itzultzen edo bilatzen du hitza, esanahiari erreparatu gabe. Alabaina, Googlek saritutako lanari esker, baliteke hori nabarmen hobetzea.
Agirrek azaldu duenez, "ikerketa honen helburua hitzen esanahia irudikatzea da, hau da, jakitea bi hitzen esanahiak noiz dauden lotuta hizkuntza batean edo hizkuntza desberdinetan. Bere hitzetan, "hiztegi bat eskuetan eduki eta zein hitzek duten esanahi antzekoa eta zeinek ez jakitea bezala litzateke".
Esate baterako, Agirrek azaldu duenez, bide emango luke jakiteko 'banku' hitzaren esanahia 'aurrezki kutxa' eta 'aulki' hitzenaren antzekoa dela, zer esan nahi den, baina 'astelehen' edo 'katu' hitzenaren desberdina. "Azken batean, guk hitz baten esanahi desberdinak irudikatzen ditugu, eta bereiz dezakegu 'banku' hitzaren zentzu batek 'aurrezki kutxa'-rekin eta besteak 'aulki'-rekin duela zerikusia, baina ez alderantziz", azaldu du.
Gainera, aurkezturiko proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko, eta, "horri esker, jakin ahal izango da 'banku' hitzaren zentzu bat ingeleseko 'bank' hitzaren eta euskarazko 'kutxa' hitzaren antzekoa dela, eta beste zentzua 'chair' eta 'aulki' hitzen antzekoa, baina bi zentzu horietako bat ere ez dela 'astelehen', 'monday', 'katu' edo 'cat' hitzen antzekoa".
METODO MATEMATIKOAK
Prozesua gauzatzeko, irudikapen hori ikasi behar da agiri mordo batean oinarrituta, adimen artifizialaren metodo matematikoak baliatuz. Irudikapena ikasitakoan, sistemak datu basean begiratzen du ea zein beste hitzen antzekoa den bilatu edo itzuli nahi den hitza, eta, esanahiaren arabera, hitz hori duten dokumentuak erakusten ditu, nahiz eta zehazki ez izan idatzi dugun hitz berbera.
Horrez gain, metodo hau edozein hizkuntzatan ezar daiteke. Dena dela, ikerketan hiru hizkuntza hartu dira ardatz: gaztelania, euskara eta ingelesa. "Guk darabilgun aplikazio informatikoa erabat automatikoa da, eta, horri esker, erabiltzen dugun edozein hizkuntzatarako irudikapenak ikas ditzake", gaineratu du.
Metodo mota horiei eusten dieten metodoak dira Eneko Agirrek EHUko Donostiako Informatika Fakultateko "Language Analysis and Processing" masterrean ematen duen ikastaroaren oinarria.