Tar antula { arana~ { animal: asignaci on de similitud ...

8
Tar´antula–> ara˜ na –> animal : asignaci´ on de hiper´onimos de segundo nivel basada en m´ etodos de similitud distribucional Tarantula –> spider –> animal: second level hypernymy discovery based on distributional similarity methods Rogelio Nazar, Javier Obreque, Irene Renau Instituto de Literatura y Ciencias del Lenguaje Pontifica Universidad Cat´ olica de Valpara´ ıso [email protected], [email protected], [email protected] Resumen: La asignaci´ on autom´atica de hiper´onimos sigue presentando problemas para el procesamiento del lenguaje natural. En particular, los sustantivos polis´ emicos se vinculan a distintos hiper´ onimos y por ello pueden causar problemas estructurales en una taxonom´ ıa l´ exica. Por ejemplo, el sustantivo tar´antula puede ser registrado como hip´ onimo de ara˜ na y, como este es un sustantivo polis´ emico (puede denotar a un ser vivo o a un tipo de l´ ampara), es necesario determinar cu´al es el hiper´onimo siguiente en la cadena: animal o artefacto. En el presente art´ ıculo exploramos m´ eto- dos para resolver este problema utilizando el c´ alculo de la similitud entre sustantivos utilizando como variable predictora los verbos con los que coocurren. Los mejores resultados (84 % de acierto) se obtienen con un m´ etodo simple que solo mide coocu- rrencia, sin tener en cuenta informaci´on sint´ actica. Palabras clave: hiperonimia, polisemia, similitud distribucional, taxonom´ ıa Abstract: Automatic hypernymy discovery continues to present challenges for na- tural language processing. Polysemous nouns are linked to more than one hypernym and can therefore cause structural damage on a lexical taxonomy. For instance, the Spanish noun tar´antula (‘tarantula’) is a hyponym of ara˜ na (‘spider’), but this is also a polysemous noun, as it means ‘chandelier’ as well. It is thus necessary to determine the next hypernym in the chain, that is animal (‘animal’) or artefacto (‘artifact’). In this paper we explore methods to solve this problem using a simila- rity measure that uses verb-noun co-occurrence as a predictor variable. Best results (84 % success) are obtained with a simple method that only measures co-occurrence, irrespective of any syntactic information. Keywords: distributional similarity, hypernymy, polysemy, taxonomy 1 Introducci´on El establecimiento de relaciones de hiperoni- mia entre unidades l´ exicas contin´ ua siendo un desaf´ ıo en el campo del procesamiento del lenguaje natural. Actualmente, las estrate- gias que existen alcanzan promedio de pre- cisi´ on que fluct´ ua en torno al 80% (Velardi, Faralli, y Navigli, 2013; Bordea, Lefever, y Buitelaar, 2016), lo cual deja un amplio mar- gen de mejora. En el marco de la inducci´ on autom´ atica de taxonom´ ıas l´ exicas, es decir, las estructuras que emergen de las relaciones de hiperonimia- hiponimia (Lyons, 1977), uno de los proble- mas pendientes es c´ omo tratar adecuadamen- te el fen´ omeno de la polisemia (Bordea et al., 2015; Klapaftis y Manandhar, 2010). Eso es as´ ı, al menos, en el caso de las taxonom´ ıas se- masiol´ ogicas, es decir, aquellas que se basan en unidades l´ exicas, como es usual en lexico- graf´ ıa, y no en conceptos, que es lo propio de las ontolog´ ıas (Baldinger, 1977; Sager, 1990). La polisemia es el fen´ omeno por el cual una palabra tiene m´ as de un significado, y ocurre cuando uno de los significados da ori- gen a otro u otros, por met´afora, metonimia u otro mecanismo, sin que el significado ori- ginal se anule (Ullmann, 1972; Lyons, 1977; Kilgarriff, 1992; De Miguel, 2016). As´ ı, de ara˜ na ‘animal’ se deriva ara˜ na ‘l´ ampara’ por la similitud formal entre ambas entidades. En este trabajo se aborda espec´ ıficamen- te el problema de la herencia sem´ antica en la Procesamiento del Lenguaje Natural, Revista nº 64, marzo de 2020, pp. 29-36 recibido 08-11-2019 revisado 15-01-2020 aceptado 18-01-2020 ISSN 1135-5948. DOI 10.26342/2020-64-3 © 2020 Sociedad Española para el Procesamiento del Lenguaje Natural

Transcript of Tar antula { arana~ { animal: asignaci on de similitud ...

Page 1: Tar antula { arana~ { animal: asignaci on de similitud ...

Tarantula –> arana –> animal : asignacion dehiperonimos de segundo nivel basada en metodos de

similitud distribucional

Tarantula –> spider –> animal: second level hypernymydiscovery based on distributional similarity methods

Rogelio Nazar, Javier Obreque, Irene RenauInstituto de Literatura y Ciencias del Lenguaje

Pontifica Universidad Catolica de Valparaı[email protected], [email protected], [email protected]

Resumen: La asignacion automatica de hiperonimos sigue presentando problemaspara el procesamiento del lenguaje natural. En particular, los sustantivos polisemicosse vinculan a distintos hiperonimos y por ello pueden causar problemas estructuralesen una taxonomıa lexica. Por ejemplo, el sustantivo tarantula puede ser registradocomo hiponimo de arana y, como este es un sustantivo polisemico (puede denotar aun ser vivo o a un tipo de lampara), es necesario determinar cual es el hiperonimosiguiente en la cadena: animal o artefacto. En el presente artıculo exploramos meto-dos para resolver este problema utilizando el calculo de la similitud entre sustantivosutilizando como variable predictora los verbos con los que coocurren. Los mejoresresultados (84 % de acierto) se obtienen con un metodo simple que solo mide coocu-rrencia, sin tener en cuenta informacion sintactica.Palabras clave: hiperonimia, polisemia, similitud distribucional, taxonomıa

Abstract: Automatic hypernymy discovery continues to present challenges for na-tural language processing. Polysemous nouns are linked to more than one hypernymand can therefore cause structural damage on a lexical taxonomy. For instance, theSpanish noun tarantula (‘tarantula’) is a hyponym of arana (‘spider’), but this isalso a polysemous noun, as it means ‘chandelier’ as well. It is thus necessary todetermine the next hypernym in the chain, that is animal (‘animal’) or artefacto(‘artifact’). In this paper we explore methods to solve this problem using a simila-rity measure that uses verb-noun co-occurrence as a predictor variable. Best results(84 % success) are obtained with a simple method that only measures co-occurrence,irrespective of any syntactic information.Keywords: distributional similarity, hypernymy, polysemy, taxonomy

1 Introduccion

El establecimiento de relaciones de hiperoni-mia entre unidades lexicas continua siendoun desafıo en el campo del procesamiento dellenguaje natural. Actualmente, las estrate-gias que existen alcanzan promedio de pre-cision que fluctua en torno al 80 % (Velardi,Faralli, y Navigli, 2013; Bordea, Lefever, yBuitelaar, 2016), lo cual deja un amplio mar-gen de mejora.

En el marco de la induccion automatica detaxonomıas lexicas, es decir, las estructurasque emergen de las relaciones de hiperonimia-hiponimia (Lyons, 1977), uno de los proble-mas pendientes es como tratar adecuadamen-te el fenomeno de la polisemia (Bordea et al.,

2015; Klapaftis y Manandhar, 2010). Eso esası, al menos, en el caso de las taxonomıas se-masiologicas, es decir, aquellas que se basanen unidades lexicas, como es usual en lexico-grafıa, y no en conceptos, que es lo propio delas ontologıas (Baldinger, 1977; Sager, 1990).

La polisemia es el fenomeno por el cualuna palabra tiene mas de un significado, yocurre cuando uno de los significados da ori-gen a otro u otros, por metafora, metonimiau otro mecanismo, sin que el significado ori-ginal se anule (Ullmann, 1972; Lyons, 1977;Kilgarriff, 1992; De Miguel, 2016). Ası, dearana ‘animal’ se deriva arana ‘lampara’ porla similitud formal entre ambas entidades.

En este trabajo se aborda especıficamen-te el problema de la herencia semantica en la

Procesamiento del Lenguaje Natural, Revista nº 64, marzo de 2020, pp. 29-36 recibido 08-11-2019 revisado 15-01-2020 aceptado 18-01-2020

ISSN 1135-5948. DOI 10.26342/2020-64-3 © 2020 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 2: Tar antula { arana~ { animal: asignaci on de similitud ...

Figura 1: Estructura taxonomica con un hi-peronimo de nivel 1 y 2 de nivel 2.

cadena de relaciones de hiperonimo-hiponi-mo en una taxonomıa lexica. Con el fin deilustrar la problematica, imaginemos el casode un algoritmo de asignacion de hiperonimosque establece correctamente la relacion de hi-ponimia del sustantivo tarantula con respec-to a arana. Tal como se muestra en la Figu-ra 1, serıa necesario entonces determinar deque significado especıfico del sustantivo aranase trata, ya sea el de animal (solucion correc-ta) o el de artefacto (solucion incorrecta). Eneste trabajo, se llamara hiperonimo de nivel1 al hiperonimo del tipo arana (inmediata-mente superior en la cadena hiperonımica alhiponimo, en este caso tarantula), e hiperoni-mo de nivel 2 al hiperonimo del tipo animalo artefacto (de los cuales solo uno de ellos escorrecto, en este caso animal).

El objetivo de esta investigacion es, enton-ces, proponer un algoritmo para resolver loscasos de ambiguedad de hiperonimos de nivel2. El metodo esta basado en medidas de co-ocurrencia lexica, a traves de las cuales es po-sible seleccionar el significado correcto entrelos que ofrece un hiperonimo polisemico. Paraello, en esta investigacion empleamos la co-ocurrencia sustantivo-verbo. Ası, los verboscon los que frecuentemente coocurre el sus-tantivo tarantula proporcionaran pistas sobresi se debe clasificar como animal o como arte-facto. Consideramos que la conformacion deeste metodo representa un avance en el mar-co de la induccion automatica de taxonomıasy puede contribuir a solucionar el problemade la polisemia en hiperonimos de segundonivel.

A continuacion, se presenta un breve es-tado de la cuestion (apartado 2), la me-todologıa (apartado 3), los resultados yevaluacion (apartado 4) y las conclusionesy trabajo futuro (apartado 5). El codigo

fuente del proyecto, implementado en ellenguaje Perl, se encuentra disponible enla pagina web que acompana el artıculo:http://www.tecling.com/hat

2 La asignacion automatica dehiperonimos

La hiperonimia es una de las relacionessemanticas de inclusion que acontecen en laestructura lexica de una lengua (Garcıa yPascual, 2009). Leech (1985) la describio co-mo el fenomeno por el cual una palabra inclu-ye semanticamente a otra. Ası, un hiperoni-mo se define como una unidad lexica cuyo sig-nificado esta en un nivel de abstraccion masalto que el de su hiponimo.

Una taxonomıa lexica debe presentar lassiguientes tres caracterısticas fundamentales:

1. Herencia: un nodo inferior (hiponimo) he-reda las propiedades de su nodo superior (hi-peronimo).

2. Asimetrıa: una unidad lexica no puede sersuperior (hiperonimo) e inferior (hiponimo)de otra unidad lexica al mismo tiempo.

3. Transitividad: si un hiponimo a tiene unhiperonimo directo (a→ b ) y este, a su vez,tiene otro (b → c), entonces el primero eshiponimo del ultimo (a→ c).

En linguıstica computacional se utilizaronterminos como red semantica u ontologıa pa-ra referirse a estructuras de datos relaciona-dos formalmente aplicadas al procesamientoautomatico de grandes cantidades de datos(Sowa, 2000). Cabe aclarar, sin embargo, queuna taxonomıa lexica es algo distinto a lasanteriores estructuras, ya que solo establecerelaciones de hiperonimia y ademas lo haceentre unidades lexicas, no entre conceptos.Una ontologıa no deberıa presentar proble-mas derivados de la polisemia porque pue-de identificar sus nodos conceptuales con uncodigo arbitrario, tal como un identificadornumerico. Esto le permite, ademas, asociarterminos distintos para un mismo concepto,con lo cual se evita tambien el problema de lasinonimia, otra de las complicaciones de lastaxonomıas semasiologicas.

Los primeros intentos para construir taxo-nomıas y ontologıas se desarrollaron de for-ma manual, en casos como los de CyC (Le-nat, 1995), WordNet (Fellbaum, 1998), Euro-WordNet (Vossen, 2004), Snomed (Stearns etal., 2001), entre otros. Por supuesto, el desa-rrollo en forma manual de estas estructurasde datos presenta limitaciones. Por un lado,

Rogelio Nazar, Javier Obreque, Irene Renau

30

Page 3: Tar antula { arana~ { animal: asignaci on de similitud ...

son propensas a inconsistencias, incluso conprotocolos rigurosos. Por otro lado, se vuel-ven obsoletas con relativa rapidez debido aldinamismo de la lengua, problema que se agu-diza en el caso de las taxonomıas especializa-das, que tienen una acelerada evolucion ter-minologica.

Estas limitaciones han sido motivo sufi-ciente para emprender la tarea de la genera-cion automatica de taxonomıas. Una prime-ra lınea de investigacion consistio en la ex-traccion de relaciones de hiperonimia a travesdel procesamiento automatico de diccionarios(Calzolari, 1984; Chodorow, Byrd, y Heidorn,1985; Guthrie et al., 1990; Agirre et al., 1994).Estos trabajos se basan fundamentalmenteen la elaboracion de sistemas de reglas quepuedan analizar las definiciones y extraer pa-res hiponimo-hiperonimo. Una regla de estetipo puede ser que el primer sustantivo en ladefinicion de un sustantivo sera su hiperoni-mo.

Mas tarde se aplico una idea similar, es de-cir, la utilizacion de listas de patrones prees-tablecidos, no ya sobre diccionarios sino so-bre texto libre (Hearst, 1992). Se realizaronmultiples variantes de este enfoque, tales co-mo el intento de extraer estos patrones direc-tamente del mismo corpus de manera induc-tiva (Snow, Jurafsky, y Ng, 2006).

En la actualidad, la induccion de taxo-nomıas sigue enfrentando, entre otros, pro-blemas de estructura y polisemia. En estemarco, el presente estudio contribuye a me-jorar los resultados de la induccion de taxo-nomıas mediante una propuesta metodologi-ca que se fundamenta en dos ambitos: poruna parte, en los principios de la semanticalexica, utilizando unidades lexicas de contex-tos sintagmaticos de los sustantivos en estu-dio; por otra parte, en la estadıstica de corpusfundada, en nuestro caso, en la aplicacion deuna medida de similitud distribucional (Gre-fenstette, 1994; Lin, 1998) que permitira ope-racionalizar la similitud semantica entre pa-labras con el fin de obtener mediciones cuan-tificables y comprobables empıricamente.

3 Metodologıa

En esta seccion detallamos la propuesta me-todologica para asignar relaciones de hiper-onimia de segundo nivel en los casos de poli-semia, utilizando para ello una medida de si-militud distribucional entre sustantivos. Co-mo variable para la comparacion, utilizamos

los verbos con los que estan asociados sin-tagmaticamente los sustantivos. Presentamosprimero la version mas basica del metodo yluego una serie de variantes que van anadien-do complejidad.

La seccion abre con la descripcion del pro-ceso de seleccion de la muestra para experi-mentacion (3.1). Luego se presenta el meto-do mas basico, llamado binario, que utilizavectores binarios y solo mide la frecuencia decoocurrencia entre verbos y sustantivos (3.2).A continuacion, se describe el resto de las va-riantes del metodo: ponderado, que tambienutiliza vectores binarios pero con verbos se-leccionados mediante una medida de asocia-cion (3.3); euclidiano, que en lugar de vecto-res binarios utiliza numeros reales obtenidosa partir de la medida de asociacion (3.4) y, fi-nalmente, dependencias, que utiliza vectoresbinarios pero con verbos que se obtienen porrelaciones de dependencia sintactica (3.5).

3.1 Seleccion de la muestra paraexperimentacion

Con el objeto de obtener trıadas como lasmostradas en la Figura 1 (es decir, hiponi-mo + hiperonimo de nivel 1 + dos posi-bles hiperonimos de nivel 2), implementamosun script Perl que interroga la base de da-tos WordNet en castellano (Vossen, 2004). Elscript detecta la presencia de sustantivos enmas de un synset, lo que puede ser interpreta-do como indicador de polisemia, y que mues-tren a la vez por lo menos un hiponimo. Estopermitio encontrar 26 casos que satisficieranel requerimiento de una frecuencia mınima de100 ocurrencias en el corpus de trabajo (v.apartado 3.2.1). Como se puede ver en la Ta-bla 1, en cada trıada tenemos el hiponimo,que es el sustantivo objetivo (como laucha),el sustantivo polisemico es el hiperonimo deprimer nivel (raton) y el resto son los candi-datos a hiperonimo de nivel 2 (animal o arte-facto), entre los cuales el sistema debe elegiruno.

3.2 El metodo base: binario

3.2.1 Extraccion de contextos deaparicion de los sustantivos

Por cada sustantivo analizado tomamos unamuestra de contextos de aparicion. Para elloutilizamos el corpus esTenTen (Kilgarriff yRenau, 2013), version 2011 (9.500 millonesde palabras). Hicimos muestreos aleatorios deun maximo de hasta 5.000 concordancias por

Tarántula -> araña -> animal: asignación de hiperónimos de segundo nivel basada en métodos de similitud distribucional

31

Page 4: Tar antula { arana~ { animal: asignaci on de similitud ...

Sust. Hiper. Hiper.objetivo nivel 1 nivel 2asaltante ladron humano — artefactocaniche perro animal — artefacto

chimpance mono animal — prendalaucha raton animal — artefacto

tarantula arana animal — artefacto... ... ...

Tabla 1: Ejemplos del tipo de trıada en estu-dio, con la opcion correcta en negrita.

cada sustantivo, aunque en muchos casos lamuestra fue menor debido a que no todos tie-nen tanta frecuencia de aparicion en el cor-pus. Utilizamos una ventana de contexto de10 palabras a derecha e izquierda, teniendo encuenta la distancia variable en que se puedepresentar la coocurrencia verbo-argumento y,en esta variante del metodo, nos limitamos amedir la frecuencia de coocurrencia. Para ellobasta el etiquetado morfosintactico del cor-pus EsTenTen. La Tabla 2 muestra un frag-mento de contexto del sustantivo tarantulacon el etiquetado del corpus.

Forma Categorıa gramatical LemaSi CSUBX si

una ART untarantula NC tarantula

pica VLfin picara PREP a

una ART unpersona NC persona

... ... ...

Tabla 2: Ejemplo de contexto de aparicion delsustantivo tarantula.

3.2.2 Extraccion de los verbos

Por cada uno de los sustantivos analizados,se recorrieron sus contextos de aparicion re-gistrando la frecuencia de los verbos con losque coocurren. De este modo, conservamoslos verbos en los que se observa una frecuen-cia de coocurrencia de mınimo 5 casos, um-bral arbitrario sobre el que es mas improba-ble que la observacion sea fruto de accidenteo error.

3.2.3 Conformacion de una matriz decoocurrencia con verbos

Una vez obtenidos los listados de coocurren-cia sustantivo-verbo, se conformo una matrizMi,j en la que los sustantivos son dispuestosen las filas y los verbos con los que coocu-rren en las columnas. La Tabla 3 muestra laestructura de esta matriz. Uno de los sustan-

tivos analizados, como absolutismo, coocurrecon frecuencia con el verbo abandonar, lo quetambien sucede con el sustantivo caniche pe-ro no ası con tarantula.

abandonar abarcar abogar ...absolutismo 1 0 0 ...

caniche 1 0 0 ...tarantula 0 0 0 ...

... ... ... ... ...

Tabla 3: Ejemplificacion de la matriz de co-ocurrencia sustantivo-verbo.

En esta variante del metodo optamos porvalores binarios, como se muestra en la Tabla3. El valor de la celda se define en (1), don-de la frecuencia de coocurrencia fr(i, j) debesuperar un umbral u (u = 5).

Mi,j =

{1 fr(i, j) > u)0 otherwise

(1)

3.2.4 Formacion de vectores clasepara hiperonimos de segundonivel

Los hiperonimos de segundo nivel utilizadosen la muestra (por ejemplo evento, animal,maquina, etc.) resultan demasiado abstractospara crear un vector de coocurrencia directa-mente como se explica en el apartado 3.2.3.Esto motivo que la construccion de vectoresse llevara a cabo de manera indirecta, a travesde la suma de vectores de varios sustantivospertenecientes a esas categorıas. La Tabla 4muestra algunos ejemplos de dicha seleccion,donde se ve la categorıa y 10 sustantivos per-tenecientes a ella. La seleccion de sustantivoses arbitraria, pero se trata en todos los casosde miembros prototıpicos de cada categorıa,y que tendran frecuencia alta en el corpus.

Hiper. nivel 2 Hiponimosanimal caballo, canario, canguro,

delfın, elefante, gorrion, jirafa,leon, lobo, ornitorrinco

maquina aspiradora, automovil, cocina,cortadora, estufa, horno, ju-guera, motocicleta, refrigera-dor, soldadora

prenda blusa, calcetın, calzon, cami-sa, chaleco, cinturon, corbata,pantalon, polera, sudadera

... ...

Tabla 4: Ejemplo de construccion de vectores-clase.

Por cada sustantivo de estas categorıas seextrajeron sus contextos de aparicion tal co-

Rogelio Nazar, Javier Obreque, Irene Renau

32

Page 5: Tar antula { arana~ { animal: asignaci on de similitud ...

mo se describe en (3.2.1) y se construyo unamatriz de coccurrencia sustantivo-verbo co-mo en (3.2.3). La Tabla 5 muestra la formaen que se suman los vectores-miembro paraobtener un vector-clase. Al igual que en laTabla 4, los sustantivos se disponen en las fi-las y los verbos en las columnas. La diferenciaaquı esta en que estos sustantivos (Hi) sonlos diez miembros elegidos de cada categorıa.La ultima fila, senalada con el sımbolo V C,representa el vector-clase, y consiste en la su-ma de los vectores de cada uno de sus hiponi-mos. Esto significa que cada componente deV C tendra valor 1 si existe al menos unacelda con valor 1 en la columna correspon-diente. De esta manera, por cada uno de esostipos semanticos mas abstractos, obtenemosun vector clase, representado por los verboscon los que coocurren sustantivos hiponimosde estos hiperonimos mas abstractos.

V1 V2 V3 V4 V5 ... Vn

H1 0 1 1 0 0 ... 0H2 0 0 1 0 1 ... 0H3 0 1 1 0 0 ... 1H4 0 0 1 0 1 ... 0... ... ... ... ... ... ... ...Hn 0 1 1 0 0 ... 0V C 0 1 1 0 1 ... 1

Tabla 5: Esquematizacion de la suma de vec-tores para la conformacion del vector-clase.

3.2.5 Calculo de similitud entrevectores

Una vez poblada la matriz de los sustantivosobjetivo (Tabla 3) y la de los vectores-clase(Tabla 5), el siguiente paso consiste en aplicaruna medida de similitud entre el vector quecorresponde a este sustantivo objetivo (~o) y

cada uno de los vectores-clase ( ~V C) que re-presentan a los hiperonimos de segundo nivel.Como medida de similitud aplicamos el ındi-ce de Jaccard (2), que es apropiado para lacomparacion de vectores binarios. Dados dosvectores A y B, la similitud se obtiene opo-niendo la interseccion a la union.

J(A,B) =|A ∩B||A ∪B|

(2)

Ası, en el caso de tarantula, la seleccionentre animal y artefacto (sus dos hiperoni-mos de segundo nivel) se realiza por mediode una funcion h segun el valor de similitudrecien explicado, tal como se muestra en la

Ecuacion 3, donde ~o puede ser tarantula, ~V Ck

puede ser animal y ~V Ci artefecto. Siempre seelige una de las opciones.

h(~o) =

{~V Ck J(~o, ~V Ck) > J(~o, ~V Ci)~V Ci otherwise

(3)

3.3 Aplicacion de una medida deasociacion: la varianteponderada

Tal como anticipamos al comienzo de la sec-cion, experimentamos con distintas variantesdel metodo principal con el fin de contrastarresultados.

La variante ponderada del metodo es muysimilar a la anterior, y sigue utilizando vecto-res binarios. La unica diferencia es que aho-ra poblamos esos vectores mediante una me-jor seleccion de los verbos, utilizando paraello una medida de asociacion sintagmatica(Ecuacion 4). De forma similar a la Ecuacion1, solo tendran valor 1 los pares sustantivo-verbo que tengan una ponderacion mayor aun umbral mınimo que, a diferencia del casoanterior, ahora tiene otro valor (u = 0,01).

cooc(s, v) =f(s, v)√

f(s).√f(v)

(4)

El resto del procedimiento es identico almetodo basico.

3.4 Uso de vectores con numerosreales en lugar de binarios: lavariante euclidiana

Esta tercera variante del metodo esta basadaen la anterior (ponderada), pero en lugar deutilizar valores binarios ahora son vectores denumeros reales, cuyos valores se obtienen dela ponderacion definida en la Ecuacion 4. Eluso de valores reales en lugar de binarios obli-ga a hacer ajustes en el metodo basico, comola conformacion de los vectores-clase (apar-tado 3.2.4). En este caso, los valores de losvectores-clase se obtienen sumando las pon-deraciones de los verbos asociados a cada sus-tantivo, como se indica en la Ecuacion 5.

V Cj =

|V C|∑i=1

Hi,j (5)

Otra de las diferencias en esta variante delmetodo es que al utilizar vectores con nume-ros reales podemos optar por otras medidas

Tarántula -> araña -> animal: asignación de hiperónimos de segundo nivel basada en métodos de similitud distribucional

33

Page 6: Tar antula { arana~ { animal: asignaci on de similitud ...

de similitud. En este caso optamos por la uti-lizacion de la distancia euclidiana, definida enla Ecuacion 6.

d(A,B) =

√√√√ n∑i=1

(Ai −Bi)2 (6)

Esta variante permite captar la idea segunla cual un sustantivo objetivo o y un hiperoni-mo de segundo nivel V Ck correcto deberıantener un similar perfil de coocurrencia converbos, siendo algunos verbos mas significa-tivos que otros. Con esta medida se seleccio-na un hiponimo de la misma forma que en laEcuacion 3, solo que en este caso el signo <se invierte a >, ya que se trata de una medidade distancia en lugar de similitud.

3.5 Uso de un parser sintacticopara extraer relacionesverbo-sustantivo: la variantedependencias

La ultima variante, y la mas compleja, involu-cra la utilizacion de un analizador de depen-dencias sintacticas para determinar la fun-cion gramatical que se produce entre sustan-tivos y verbos. El parser permite limitar laseleccion a las parejas sustantivo-verbo queefectivamente contraen una relacion sintacti-ca, como puede ser el caso de la relacionsujeto-verbo, verbo-objeto directo, etc.

Utilizamos para ello UDPipe, uno de losmejores y mas recientes analizadores de de-pendencias (Straka y Strakova, 2017). LaTabla 6 muestra el resultado del analisissintactico del mismo fragmento de contextodel sustantivo tarantula que se mostro en laTabla 2. En este caso se produce un error,ya que el verbo picar no es reconocido co-mo tal (lınea 96) y se etiqueta como adjetivo,perdiendose ası la informacion relativa a quetarantula es el sujeto del verbo picar. Dadala mayor complejidad de este tipo de anali-sis, cabe esperar que se produzca una altatasa de error. Sin embargo, al mismo tiem-po resulta razonable suponer tambien que lagran cantidad de contextos de aparicion delos sustantivos compense esta tasa de error.

En este caso optamos nuevamente por lautilizacion de vectores binarios, pero no apli-camos un lımite de frecuencia por ser ya estavariante muy selectiva. De este modo, si seobserva al menos una vez que existe una re-lacion sintactica entre un sustantivo y un ver-bo, el valor correspondiente a esa celda sera 1.

Lınea Forma Lema POS Dep. Func.93 Si si SCONJ 102 mark94 una uno DET 95 det95 tarantula tarantula NOUN 102 nsubj96 pica pico ADJ 95 amod97 a a ADP 99 case98 una uno DET 99 det99 persona persona NOUN 95 nmod... ... ... ... ... ...

Tabla 6: Ejemplo de analisis de dependenciascon UDPipe en que se produce un error en ladeteccion del verbo picar.

4 Resultados

La Tabla 7 muestra los resultados del metodoen sus distintas variantes, sobre la muestra desustantivos objetivo. La cobertura es igual ala precision debido a que forzamos al sistemaa elegir siempre una de las opciones.

Variante Precisionbinaria 69 %

ponderada 84 %euclidiana 73 %

dependencias 57 %aleatoria 50 %

Tabla 7: Resultados del metodo en sus dis-tintas variantes

Los mejores resultados se obtuvieron conla variante ponderada. Atribuimos este resul-tado a una mejor seleccion de los verbos co-ocurrentes, a traves de una medida de aso-ciacion sintagmatica. Esto suprimio el ruidoque introducıan en la variante binaria losverbos que tienen alta frecuencia de coocu-rrencia con muchos sustantivos diferentes. Lavariante euclidiana, con la incorporacion dela medida de distancia euclidiana, tambienmejora la variante binaria, pero con resul-tados mas modestos. Finalmente, la variantedependencias, que extrae los verbos median-te analisis sintactico y es la de mayor com-plejidad, tuvo el peor desempeno, con solo 7puntos por encima de una clasificacion alea-toria. Esto puede ser atribuible al hecho deque los textos del corpus, tomados de pagi-nas web, contienen una sintaxis y ortografıarelajadas propias de los textos de Internet.Solucionar este problema queda fuera del al-cance de la presente investigacion.

La Tabla 8 muestra los resultados con lasprimeras 9 unidades analizadas por orden al-fabetico en el caso de la variante ponderada,que fue la que produjo mejores resultados.La primera columna indica la evaluacion: 1si el ensayo es exitoso y 0 si no lo es. La si-

Rogelio Nazar, Javier Obreque, Irene Renau

34

Page 7: Tar antula { arana~ { animal: asignaci on de similitud ...

E d h1 h2 S1 absolutismo sistema concepto 16.46

maquina 8.470 acueducto canal institucion 11.55

lugar 8.120 albahaca planta lugar 14.15

servivo 11.091 ametrallador canon arma 5.56

lugar 2.581 asaltante ladron humano 11.46

artefacto 8.071 caniche perro animal 6.26

artefacto 3.841 cencerro campana instr. musical 3.07

maquina 2.971 chimpance mono animal 10.47

prenda 5.751 dedo miembro parte cuerpo 11.39

humano 10.92

Tabla 8: Ejemplos de resultados con la va-riante ponderada

guiente columna presenta el sustantivo obje-tivo (o), la siguiente el hiperonimo de primernivel (h1) y la siguiente los distintos hiperoni-mos de segundo nivel (h2). La ultima colum-na (S) indica el valor obtenido con el ındi-ce de Jaccard entre el vector de coocurren-cia del sustantivo objetivo y, en cada caso,el hiperonimo de segundo nivel (el valor masalto se presenta primero). Entre los 26 casosestudiados hay 22 exitosos, lo que represen-ta un resultado estadısticamente significativo(p = 0,0005).

5 Conclusiones y trabajo futuro

En este trabajo hemos presentado una pro-puesta metodologica para desambiguar la re-lacion entre un sustantivo y un hiperonimopolisemico en el contexto de la induccion au-tomatica de taxonomıas. El metodo, fundadoen una medida de similitud distribucional, sebasa en la idea segun la cual las palabras queaparecen en cotextos similares tienden a te-ner significados similares.

En la propuesta, se han restringido los co-textos en funcion de los verbos con los quecoocurren los sustantivos en estudio, ya quese trata de una clase abierta de palabras, peroal mismo tiempo limitada (cerca de 6.000 ver-bos aparecen con cierta frecuencia en el Es-TenTen). Esta caracterıstica convierte a losverbos en predictores utiles para obtener in-formacion semantica acerca de los sustanti-vos con los que coocurren, ya que represen-tan una matriz mas manejable que una deadjetivos o sustantivos.

Ademas del metodo basico, hemos ex-plorado distintas variantes. Utilizamos vec-tores binarios que indican la coocurrenciasustantivo-verbo, y tambien vectores con va-lores reales; probamos el uso de simple fre-cuencia de coocurrencia y luego una medidade asociacion estadıstica y, finalmente, hemosexplorado tambien la posibilidad de extraerlos verbos por medio de un analizador de de-pendencias sintacticas.

Nuestros resultados permiten concluir quela mejor variante es la que utiliza vectoresbinarios que miden frecuencia de coocurren-cia sustantivo-verbo, seleccionando los verboscon una medida de asociacion (la varianteponderado). Creemos que la tasa de exito esremarcable, teniendo en cuenta que se tratade un metodo relativamente simple. No exis-ten, que sepamos, propuestas similares parala adjudicacion de hiperonimos de segundonivel en casos de polisemia.

En cuanto a trabajo futuro, es necesariocontinuar introduciendo nuevas variantes me-todologicas y reproducir los experimentos conmuestras mas grandes de datos, ya que estopermitirıa estudiar mejor como afectan a losresultados las diferencias de frecuencia y deprototipicidad de cada significado, una varia-ble que conviene controlar en un diseno deinvestigacion de este tipo (por ejemplo, en elcaso del sustantivo perro, el sentido de ani-mal tendra mas peso que el de artefacto).Tambien serıa necesario probar la utilizacionde ventanas oracionales en lugar de venta-nas de contexto simetricas. Otra posibilidadserıa reproducir el mismo metodo pero utili-zando adjetivos o incluso sustantivos en lugarde verbos. Finalmente, proyectamos reprodu-cir los experimentos en otras lenguas (frances,ingles, etc.) en el contexto de nuestro proyec-to KIND1 de taxonomıas automatizadas envarias lenguas.

Agradecimientos

Esta investigacion ha sido posible gracias alfinanciamiento del Proyecto Fondecyt Regu-lar 1191204 “Polisemia regular de los sustan-tivos del espanol: analisis semiautomatico decorpus, caracterizacion y tipologıa”, dirigidopor Irene Renau. Agradecemos tambien a losrevisores por sus utiles comentarios.

1http://www.tecling.com/kind

Tarántula -> araña -> animal: asignación de hiperónimos de segundo nivel basada en métodos de similitud distribucional

35

Page 8: Tar antula { arana~ { animal: asignaci on de similitud ...

Bibliografıa

Agirre, E., X. Arregi, X. Artola, A. D. de Ila-rraza, y K. Sarasola. 1994. A methodologyfor the extraction of semantic knowledge fromdictionaries using phrasal patterns. En Pro-ceedings of IBERAMIA’94. IV Congreso Ibe-roamericano de Inteligencia Artificial, paginas263–270, Caracas (Venezuela).

Baldinger, K. 1977. Teorıa semantica: hacia unasemantica moderna. Coleccion Romania. Al-cala.

Bordea, G., P. Buitelaar, S. Faralli, y R. Navigli.2015. SemEval-2015 Task 17: Taxonomy ex-traction evaluation (texeval). En Proceedingsof the 9th International Workshop on Seman-tic Evaluation (SemEval 2015), paginas 902–910. ACL.

Bordea, G., E. Lefever, y P. Buitelaar. 2016.SemEval-2016 Task 13: Taxonomy extractionevaluation (texeval-2). En SemEval-2016,paginas 1081–1091. ACL.

Calzolari, N. 1984. Detecting patterns in a lexicaldata base. En Proceedings of the 10th Interna-tional Conference on Computational Linguis-tics and 22nd annual meeting on ACL, pagi-nas 170–3. ACL.

Chodorow, M. S., R. J. Byrd, y G. E. Heidorn.1985. Extracting semantic hierarchies from alarge on-line dictionary. En Proceedings of the23rd annual meeting on ACL, paginas 299–304. ACL.

De Miguel, E. 2016. Lexicologıa. En J. Gu-tierrez, editor, Enciclopedia de LinguısticaHispanica. Ariel, Barcelona, paginas 153–185.

Fellbaum, C. 1998. WordNet: An Electronic Le-xical Database. Bradford Books.

Garcıa, R. y J. Pascual. 2009. Relaciones de sig-nificado entre las palabras. En E. D. Miguel,editor, Panorama de lexicologıa. Ariel, Barce-lona, paginas 117–131.

Grefenstette, G. 1994. Explorations in Automa-tic Thesaurus Discovery. Kluwer AcademicPublishers, Norwell, MA, USA.

Guthrie, L., B. Slator, Y. Wilks, y R. Bruce.1990. Is there content in empty heads? EnProc. of the 13th International Conference onComputational Linguistics, COLING’90 (Hel-sinki, Finland), paginas 138–143.

Hearst, M. A. 1992. Automatic acquisition of hy-ponyms from large text corpora. En Procee-dings of the 14th Conference on Computatio-nal Linguistics - Volume 2, COLING ’92, pagi-nas 539–545, Stroudsburg, PA, USA. ACL.

Kilgarriff, A. 1992. Polisemy. Ph.D. tesis. Uni-versity of Sussex.

Kilgarriff, A. y I. Renau. 2013. estenten, a vastweb corpus of peninsular and american spa-nish. Procedia - Social and Behavioral Scien-ces, 95:12 – 19.

Klapaftis, I. P. y S. Manandhar. 2010. Taxonomylearning using word sense induction. En Hu-man Language Technologies: The 2010 AnnualConference of the North American Chapter ofthe ACL, paginas 82–90, Los Angeles, Califor-nia, Junio. ACL.

Leech, G. 1985. Semantica. Alianza Universal,No. 197. Alianza.

Lenat, D. 1995. Cyc: A large-scale investmentin knowledge infrastructure. Commun. ACM,38(11):33–38, Noviembre.

Lin, D. 1998. Automatic retrieval and clusteringof similar words. En Proceedings of the 17thInternational Conference on ComputationalLinguistics - Volume 2, COLING ’98, paginas768–774, Stroudsburg, PA, USA. ACL.

Lyons, J. 1977. Semantics, volumen 2. Cambrid-ge University Press.

Sager, J. C. 1990. A Practical Course in Termi-nology Processing. John Benjamins, Amster-dam/Philadelphia.

Snow, R., D. Jurafsky, y A. Y. Ng. 2006. Seman-tic taxonomy induction from heterogenousevidence. En Proceedings of the 21st Interna-tional Conference on Computational Linguis-tics, Sydney, Australia, 17-21 July 2006.

Stearns, M. Q., C. Price, K. A. Spackman, y A. Y.Wang. 2001. Snomed clinical terms: overviewof the development process and project sta-tus. En Proceedings of the AMIA Symposium,paginas 662–666. American Medical Informa-tics Association.

Straka, M. y J. Strakova. 2017. Tokenizing, POStagging, lemmatizing and parsing UD 2.0 withUDPipe. En Proceedings of the CoNLL 2017Shared Task: Multilingual Parsing from RawText to Universal Dependencies, paginas 88–99, Vancouver, Canada, Agosto. ACL.

Ullmann, S. 1972. Semantica. Aguilar.

Velardi, P., S. Faralli, y R. Navigli. 2013. On-tolearn reloaded: A graph-based algorithm fortaxonomy induction. Computational Linguis-tics, 39(3):665–707.

Vossen, P. 2004. Eurowordnet: A multilingualdatabase of autonomous and language-specificwordnets connected via an inter-lingual-index.Special Issue on Multilingual Databases, In-ternational Journal of Linguistics, 17(2):161–173, 06.

Rogelio Nazar, Javier Obreque, Irene Renau

36