Ikerketa eta aplikazio praktikoa uztartu nahian ekin zioten bideari Iñaki San Vicente (Iruñea, 1981) eta IXA ikerketa taldeko kideek. Sare sozialetan sortzen diren euskarazko iritziak lehengai gisa erabilita, horiek sailkatzeko tresna garatu dute. Sentimenduen analisia metodoa erabilita, Twitterren ageri diren mezuak positibo edo negatibo gisa sailkatu dituzte, horiekin hainbat datu ateratzeko. Emaitzak kasuan kasu ezberdin aplika daitezkeela azaldu du San Vicentek, proiektu eta bezero bakoitzarekin ezberdina dela.
Nondik dator proiektu honen hazia?
Proiektu hau 2011n hasi genuen, Elhuyarren hizkuntza teknologien sailean. Guk, oro har, lan egiten dugu euskararentzako hizkuntza teknologiak egiten, eta beste gauza batzuekin genbiltzala, ikusi genuen iritzien azterketa edo sentimenduen analisien kontu hau nahiko mugitzen ari zela. Euskaraz ez zegoen ezer eginda eta bideari ekin genion, ea euskararekin noraino hel gintezkeen. Hortik abiatu ginen, ikusita honek ere bazituela hainbat aplikazio mundu errealean eta bazela teknologia interesgarri bat guretzat. Ni garai berean hizkuntzaren azterketa eta prozesamenduko masterra egiten nenbilen unibertsitatean, IXA taldeak antola-tzen duena. Masterrean horra bideratu genuen lana, eta gero abiatu genuen elkarlan bat IXArekin; batera joan gara bidea osatzen.
Zein da proiektuaren helburua?
Hasiera batean gure helburua izan zen euskarazko testuetan agertzen diren iritzien azterketa egitea. Gero ohartu ginen Euskal Herriak daukan errealitate soziolinguistikoak ez digula hori baimentzen, euskararekin bakarrik ezin genuela mundu errealeko aplikazio bat lortu. Euskara hutsean ematen diren iritziak aztertuta ezin genuen tresna sortu. Aitzindaritza lan bat egin nahi genuen euskararentzako teknologia sortzen, baina nahi genuen baita ere gero mundu errealean aplikatu ahal izateko tresna edo produktu bat sortu. Hortik pasa ginen nolabait eleaniztuna izango zen tresna batera.
Aurrez ikertu da honen inguruan?
Hasi ginenean iritziaren erauzketa nola egin ikertzen, ikusi genuen honetan jada ikerketa bat bazegoela, bazela alor bat interesa pizten zuena bai enpresen munduan, eta baita erakunde publikoen eremuan ere. Eta, gurez ustez, bazela nolabait gizartean erabilgarria izan zitekeena. Interneten batez ere iritziak etengabe ematen dira, eta Interneten dagoen masa izugarri hori ezin da eskuz aztertu. Tradizionalki inkestekin egiten ziren gauza horiek automatizatu nahi genituen.
Iritzia sailkatzerakoan subjektibitateak paper handia jokatzen du eta zuek erronka batzuk aipatu dituzue. Nola kudeatu dituzue?
Ardatz ezberdinak daude. Subjektibitatea dago, batetik; eta guk polaritatea deritzoguna, bestetik. Subjektibitatea da nolabait mezu batean iritzia dagoen ala ez erabakitzea, eta beste bat da positiboa edo negatiboa izatea. Baina egia da nik esaten badut “Nelson Mandela hil da”, hori objektiboa da, baina, era berean, negatiboa da. Hor sortzen dira hainbat kontu.
Zeintzuk?
Iritzia aztertzerakoan egin genuen lehen gauza izan zen hitzei errepara-tzea. Testuak ematen zizkigun pistak bilatu, makinak erabaki dezan positiboa, negatiboa edo zer den. Horrela, hitz positiboen eta negatiboen lexiko bat sortu genuen, a priori esango zutenak testu batean iritzi on bat edo txarra zegoen. Eta gero testuak etortzen zirenean kontatu horrelako zenbat hitz zeuden, begiratu beste fenomeno linguistiko batzuk etab. Adibidez, “Pelikula hau oso ona da” ongi dago, positiboa da, baina esaten badut “pelikula hau ez da oso ona” ezeztatze horrek negatibo bihurtzen du berez positiboa den hitz bat. Gero, ironia eta horrelako kontuak ere ageri dira, makinari lana zailtzen diotenak.
Zein izan zen hurrengo urratsa?
Lexiko horiek eta beste pista batzuk erabilita, dena automatizatu nahi genuen. Ikasketa automatikoko sistemak dira adibideetan oinarritzen direnak. Aurretik egin genuen lana milaka adibide hartuta eta guk eskuz esan genuen adibide bakoitza ona edo txarra zen. Gero, makinari eman genion hori eta makinak eredu matematikoen bidez bere eredu propioa sortzen du, ondoren etortzen zaion adibide berri bakoitza ona edo txarra den erabaki ahal izateko. Makinak daukan ereduaren arabera erabakitzen du datorkion mezua gehiago hurbiltzen den negatiboetara, positiboetara edo neutroetara. Pistei dagokienez, ohartu ginen sare sozialetan, hitzez gain, beste pista batzuk ere bazeudela: emotikonoak, maiuskulak, letrak luzatzea... Horiek dira sare sozialetan polaritatea adierazteko erabiltzen ditugun estrategiak, ahozko hizkera simulatu nahian edo.
Twitterren zentratu duzue ikerketa. Zer dela eta?
Guk sare sozialekin egin nahi genuen lan, eremu bezala, eta iritziaren alorrean euskaraz ikertzeko Twitter izan da guretzat aukera nagusia edo bakarra. Egia da sare sozialetan gaur egun iritzia emateko hainbat leku daudela, baina ez dira erabilgarriak kasu honetan. Ezagutzen ditugun webgune orokorretan, edo ez dute euskara eskaintzen edo ez dago euskarazko edukirik. Hor ez genuen lehengai nahikorik. Orduan, sare sozial ohikoetara jo behar genuen. Twitter, Facebook, Instagram? Eta horietatik datuak jasotzeko erraztasunak ematen dituen bakarra Twitter da.