PROSA arrunteko corpusa abian jarri duteEuskaltzaindiak eta beste hiru erakundek,hots, Elhuyar Fundazioak, UZEI Terminologiaeta Lexikografia Zentroak etaEuskal Herriko Unibertsitateko InformatikaFakultateko IXA taldeak. Guztiontzat erabilgarriaizango den eta, bide batez, hizkuntza aberastukoduen corpusa bideratu nahi dute. Horretarako,komunikabideetako testuetatik jasotako hiztegiajorratuko dute, beste genero batzuekin konparatuta,hiztun arruntarengandik hurbilago daudelako(oraingoz Berria, Argia, EITB, Deia eta DiarioVasco dira hornitzaileak). Honetan, lexikoarenerabileraren azterketak eta lexikoari dagozkionarauak eta gomendioak dokumentatzea eta egiteahelburu dute. “Gaur egun, Hizkuntzalaritzan jarduteko,ezinbestekoa da hizkuntzaren benetakoerabileraren berri ematen duten testuz osaturikocorpusak eratzea eta ustiatzea”, azaldu du AndoniSagarna Euskaltzaindiko kideak eta egitasmoarenburuak.
Lexikoaren Behatokia egitasmoa 2008. urtean jarrizuten martxan eta ordutik hona tresnak sortzeneta edukiz elikatzen dihardute. Hiztegigintzan jardutendirenei edota irakaskuntzan nahiz administrazioanaritzen direnei ezinbestekoa gertatzenzaie horrelako corpusak lantzea. Hori horrela delarik,taldearen eginkizunetako bat arlo horietakoprofesionalei corpusak dituen erabilera posibleakagertzea dela azaltzen du. Sagarnak dioenez, hiztegiahizkuntzaren alderdirik aldakorrena da,beraz, “sekula” bukatzen ez den lana da. Horrenkariaz, akademien lan garrantzitsuetako bat hiztegiaarautzea dela dio, hain zuzen, “hitzak jaio,sarritan aldatu eta batzuetan hil egiten baitira”.
Sagarnaren esanetan, Lexikoaren Behatokia corpusetiketatua eta linguistikoki anotatua da, hauda, testuak etiketa estandarrez hornitzen dira;hala nola, paragrafoak, aipuak, hitz arrotzak, puntuenerabilera, eta abar markaturik gelditzen dira.Gainera, hitz bakoitzaren ezaugarri linguistikoakere agertzen dira corpusean; hitzaren lema (hiztegisarreraren forma), kategoria, azpikategoriaeta kasua, esaterako. “Zorionez urrats horiek guztiakautomatikoki egiteko tresnak baditugu”, dioEuskaltzaindiko kideak. Halaber, Lexikoaren Behatokianazioartean dauden corpus nagusiekin guztizhomologagarria dela gaineratzen du.
Oro har, azken urteotan corpusen erabilerarengarrantzia azpimarratu nahi izan du. Izan ere,Euskaltzaindiak orain dela 30 urte gutxi gorabeheracorpusen erabilera hobesten du, horiek baitirahizkuntza garapenaren oinarri. Sagarnarenustetan, Hizkuntza-Teknologiako tresnen garapena,prozesamendu estatistikoan eta corpusetanoinarritzen da. Corpus horiek Orotariko EuskalHiztegia egiteko erabilitakoa, XX. mendeko euskalcorpus estatistikoa eta Lexikoaren Behatokia dira,besteak beste. “Guk notario-lana egiten dugu aldebatetik, zer gertatzen ari den jasotzeko, eta, bestetik,garia eta lastoa bereizten saiatzen gara,hizkuntza txukuna erabiltzen ahalegintzen direnekzer egiten duten ikusi eta hori hiztunen komunitatearigomendatzeko”, argitu du.
INFORMAZIO FIDAGARRIA Euskaltzaindiak EuskoJaurlaritzarekin eta EAEko hiru Foru Aldundiekinduen hitzarmenaren bitartez jasotzen dudiru-laguntza, eta horri esker, egitasmoak aurreradarrai. “Ezinezkoa litzateke bestela”, gaineratudu Sagarnak. Egitasmo honek dituen helburueidagokienez, Hiztegi Batua eta laster argitaratukoden Euskaltzaindiaren Hiztegia. Adierak eta adibideakegiteko informazio fidagarria izatea delaadierazi du. Orobat, Egungo Euskararen Erreferentziacorpusaren oinarria izatea, eta Hizkuntzalaritzakoeta Hizkuntzaren prozesamendu automatikorakobaliabide sendoak izatea ere dute xede.Finean, gaurko euskara hurbiletik ezagutzea etajarraitzea da, eta bereziki komunikabideen munduaarakatzea.
Dena den, epe luzeko helburua ere badutela aitortudu Sagarnak: Erreferentzia Corpusa. Hori lortzeko,bada, bi ezaugarri ditu oraindik lortzekeLexikoaren Behatokiak: alde batetik, tamaina -izanere, oraindik 17 milioi testu-hitz inguru ditu-; etabestetik oreka, Erreferentzia Corpus batek tamainahandiagoaz gain, erregistro, genero eta argitalpen-mota guztietako testuak izan behar ditu eta.Proiektu hau orrazten jarraituko dutela dio Sagarnak,lan hori ez baita “inoiz bukatzen”. Oraingoz,Lexikoaren Behatokia deritzon proiektua “corpusmonitore oportunista” da bere esanetan. Hala, corpusakhizkuntzaren eguneroko erabilera behatzeadu helburu baina gaur gaurkoz, ezin dituelahizkuntzaren aldaera guztiak jaso ere azaldu du.Epe luzera, Erreferentzia Corpusa gauzatu nahidute, hori da, azken finean, haien ametsa. Dagoenekocorpusaren atal bat sarean kontsulta daiteke,Orain arte, Lexikoaren Behatokian landutako guztiaeskuragarri dagowebgune honetan: http://lexikoarenbehatokia.euskaltzaindia.net/cgibin/kontsulta.py