Bilbao. La cultura vasca vivió ayer una jornada destacada. El Instituto de Euskera de la Universidad del País Vasco (UPV/EHU) presentó Egungo Testuen Corpusa (ETC), el corpus de euskera más grande jamás elaborado con 205 millones de palabras. La creación de este corpus on-line solo es comparable con la magna tarea de compilación lexicográfica que comenzó en 1984 Koldo Mitxelena y culminó 21 años después con la publicación del último volumen del Diccionario General Vasco-Orotariko Euskal Hiztegia de Euskaltzaindia, con 5 millones de entradas.
El nuevo corpus disecciona el euskera como nunca se había hecho hasta ahora, ofreciendo a los usuarios información completa de cada palabra, los textos y las frases en las que se inserta, en qué libro o artículo aparecen, de qué autor, permite comparar entre varios términos el uso que se le da, la red semántica asociada o ver la evolución de su uso. Y todo sobre el euskera actual en base a textos de este siglo porque a partir del año 2000, fecha en que ve la luz Hiztegi Batua, el euskera se ha estabilizado.
La presentación de ETC contó con una nutrida representación de la vida política y académica de Euskadi encabezada por el lehendakari, Iñigo Urkullu. En el acto intervinieron además el rector de la UPV/EHU, Iñaki Goirizelaia; el director del Instituto de Euskera, Pello Salaburu; Pablo Mongelos, director general de Lagun Aro, y el Premio Euskadi de Investigación 2011, el profesor Ibon Sarasola, principal responsable del proyecto junto a Josu Landa en la parte informática. En la sala Baroja del Paraninfo de la UPV/EHU también estuvieron siguiendo el acto la consejera de Educación, Política Lingüística y Cultura, Cristina Uriarte, el presidente de Euskaltzaindia así como distintos parlamentarios y docentes de la universidad.
El corpus ya se puede consultar en www.ehu.es/etc. Pese a no ser uno de los corpus más grandes si se compara con los 150.000 millones de términos que tiene el de Google, sí pasa por ser uno de los más completos de un idioma. ETC "es uno de los corpus más amplios del mundo, pues aunque los hay mayores, la información que ofrecen sobre cada palabra es más básica y menos manejable", afirmó ayer Pello Salaburu, para añadir que "nuestra interfaz es muy simple, clara e intuitiva, fácil de usar".
El director del Instituto de Euskera comentó que realizar búsquedas "resulta muy sencillo, y los resultados son muy ricos". Entre sus múltiples posibilidades, ofrece un gráfico que permite observar la evolución del uso de un término, mostrando año a año si se va utilizando más o menos, lo cual "abre vías para analizar los motivos de esa evolución", apuntó Salaburu.
lengua, el alma del ser humano Según explicaron, la consulta también se puede realizar teniendo en cuenta el origen del texto: si es original o una traducción. Lo mismo sucede respecto a la fuente. ETC informa dónde se utiliza más la palabra escogida: en prensa (y, en concreto, en qué medio), en literatura, ciencia, en las enciclopedias, en televisión? Así mismo, esta herramienta facilita la red semántica, la cadena formada por otras palabras que tienen las mismas propiedades que el término buscado. "Estas redes son imprescindibles para elaborar diccionarios, que hoy en día se confeccionan utilizando información de este tipo", indicó Salaburu.
En su intervención, el lehendakari Urkullu destacó el valor del corpus y destacó la importancia del euskera en el orden de prioridades del Gobierno vasco. "La lengua es el alma del ser humano y el euskera es el cuerpo de nuestro alma", dijo Urkullu, y la UPV/EHU "ha creado el corpus del euskera, un trabajo magnífico, excelente, completo, una base magnífica para el euskera, ahora a disposición de todos". Añadió que "hoy (por ayer) el euskera ha hecho un alto en el camino y se ha contemplado a sí mismo y se ve más fuerte, más completo y vigoroso, y así no sentimos hoy todos, reconfortados con este trabajo". Para Urkullu el corpus "recoge el pasado y proyecta el futuro del euskera, un futuro más fuerte, más completo y vigoroso".
Por su parte, el rector Goirizelaia afirmó que el trabajo del Instituto de Euskera es "la mayor colección que se ha hecho euskera y, teniendo en cuenta la amplia información de cada palabra, es uno de los mayores del mundo". Dijo que la UPV/EHU está "orgullosa por haber tenido la oportunidad de impulsar este trabajo" a través de un centro que ha trabajado "sin parar, realizando estudios, jornadas y ofreciendo instrumentos para utilizar mejor el euskera, como gramáticas, corpus de textos y diccionarios". Goirizelaia manifestó que ETC "sistematiza el tremendo patrimonio lingüístico surgido en el presente siglo" y se mostró convencido de "este trabajo para clasificar, archivar y reunir se convertirá en un fructífero patrimonio de nuestra lengua en el futuro".