Evaluaci on de un modelo transformador aplicado a la tarea ...

13
Evaluaci´on de un modelo transformador aplicado a la tarea de generaci´ on de res´ umenes en distintos dominios Evaluation of a transformer model applied to the task of text summarization in different domains Isabel Segura-Bedmar, Luc´ ıa Ruz, Sara Guerrero-Aspizua Universidad Carlos III de Madrid, Legan´ es, Spain [email protected], [email protected], [email protected] Resumen: En los ´ ultimos a˜ nos, las t´ ecnicas de deep learning han supuesto un gran impulso tecnol´ ogico en muchas de las tareas de Procesamiento de Lenguaje Natural (PLN). La tarea de generaci´ on de res´ umenes tambi´ en se ha beneficiado de estas ecnicas, y en los ´ ultimos a˜ nos se han implementado distintos modelos, logrando superar los resultados del estado de la cuesti´ on. La mayor´ ıa de estos trabajos han sido evaluados en colecciones de textos period´ ısticos. Este art´ ıculo presenta un tra- bajo preliminar donde aplicamos un modelo transformador, BART, para la tarea de generaci´ on de res´ umenes y lo evaluamos en varios datasets, uno de ellos formado por textos del dominio biom´ edico. Palabras clave: Generaci´ on de res´ umenes, Transformadores. Abstract: In recent years, deep learning techniques have provided a significant tech- nological advance in many Natural Language Processing (NLP) tasks. Text summa- rization has also benefited from these techniques. Recently, several deep learning approaches have been implemented, surpassing the previous state of the art per- formances. Most of these works have been evaluated on collections of journalistic texts. This article presents a preliminary work where we apply a transforming mo- del, BART, for text summarization. The model is evaluated on several datasets, one of them consisting of texts from the biomedical domain. Keywords: Text summarization, Transformers. 1 Introducci´on En la era del Big Data, existe una gran can- tidad de informaci´ on en formato digital, la mayor parte de ella en texto no estructura- do. Este gran volumen de datos nos aporta conocimiento, pero necesariamente primero nos enfrenta al reto de poder procesar y com- prender toda esta informaci´ on. Un resumen nos proporciona las ideas principales de un texto, por tanto, la generaci´ on de res´ umenes puede ayudarnos a la hora de acceder a la in- formaci´ on esencial de un texto o colecci´on de textos. Dado que la generaci´ on de res´ umenes de manera manual es una tarea compleja que conlleva mucho tiempo y recursos, las t´ ecni- cas de Procesamiento de Lenguaje Natural (PLN) pueden ayudar a reducir esta carga de trabajo. En la generaci´ on autom´ atica de res´ ume- nes, se distinguen dos enfoques: extractivo y abstractivo. El enfoque extractivo consis- te en la selecci´ on de las oraciones m´ as re- levantes del texto para formar el resumen. Por otro lado, el m´ etodo abstractivo gene- ra nuevas oraciones para la creaci´ on del re- sumen. En los ´ ultimos a˜ nos, las t´ ecnicas de deep learning han supuesto un gran impul- so tecnol´ ogico en muchas de las tareas de PLN (Beloki et al., 2020; Miranda-Escalada y Segura-Bedmar, 2020; Col´ on-Ruiz, Segura- Bedmar, y Mart´ ınez, 2019; Poncelas et al., 2019), en muchos casos, obteniendo mejo- res resultados que los algoritmos cl´ asicos de aprendizaje autom´atico. La generaci´ on au- tom´ atica de res´ umenes tambi´ en se ha bene- ficiado de esta tecnolog´ ıa, y en los ´ ultimos nos, muchos de los sistemas han utilizado ecnicas de deep learning como las redes con- volucionales (Zhang et al., 2019) o las redes recurrentes (Nallapati, Zhai, y Zhou, 2017). En 2017, se propone un nuevo modelo de deep learning, Transformers(Vaswani et al., Procesamiento del Lenguaje Natural, Revista nº 66, marzo de 2021, pp. 27-39 recibido 25-11-2020 revisado 28-01-2021 aceptado 02-02-2021 ISSN 1989-7553. DOI 10.26342/2021-66-2 © 2021 Sociedad Española para el Procesamiento del Lenguaje Natural

Transcript of Evaluaci on de un modelo transformador aplicado a la tarea ...

Page 1: Evaluaci on de un modelo transformador aplicado a la tarea ...

Evaluacion de un modelo transformador aplicado a latarea de generacion de resumenes en distintos

dominios

Evaluation of a transformer model applied to the task of textsummarization in different domains

Isabel Segura-Bedmar, Lucıa Ruz, Sara Guerrero-AspizuaUniversidad Carlos III de Madrid, Leganes, Spain

[email protected], [email protected], [email protected]

Resumen: En los ultimos anos, las tecnicas de deep learning han supuesto un granimpulso tecnologico en muchas de las tareas de Procesamiento de Lenguaje Natural(PLN). La tarea de generacion de resumenes tambien se ha beneficiado de estastecnicas, y en los ultimos anos se han implementado distintos modelos, lograndosuperar los resultados del estado de la cuestion. La mayorıa de estos trabajos hansido evaluados en colecciones de textos periodısticos. Este artıculo presenta un tra-bajo preliminar donde aplicamos un modelo transformador, BART, para la tarea degeneracion de resumenes y lo evaluamos en varios datasets, uno de ellos formado portextos del dominio biomedico.Palabras clave: Generacion de resumenes, Transformadores.

Abstract: In recent years, deep learning techniques have provided a significant tech-nological advance in many Natural Language Processing (NLP) tasks. Text summa-rization has also benefited from these techniques. Recently, several deep learningapproaches have been implemented, surpassing the previous state of the art per-formances. Most of these works have been evaluated on collections of journalistictexts. This article presents a preliminary work where we apply a transforming mo-del, BART, for text summarization. The model is evaluated on several datasets, oneof them consisting of texts from the biomedical domain.Keywords: Text summarization, Transformers.

1 Introduccion

En la era del Big Data, existe una gran can-tidad de informacion en formato digital, lamayor parte de ella en texto no estructura-do. Este gran volumen de datos nos aportaconocimiento, pero necesariamente primeronos enfrenta al reto de poder procesar y com-prender toda esta informacion. Un resumennos proporciona las ideas principales de untexto, por tanto, la generacion de resumenespuede ayudarnos a la hora de acceder a la in-formacion esencial de un texto o coleccion detextos. Dado que la generacion de resumenesde manera manual es una tarea compleja queconlleva mucho tiempo y recursos, las tecni-cas de Procesamiento de Lenguaje Natural(PLN) pueden ayudar a reducir esta cargade trabajo.

En la generacion automatica de resume-nes, se distinguen dos enfoques: extractivoy abstractivo. El enfoque extractivo consis-

te en la seleccion de las oraciones mas re-levantes del texto para formar el resumen.Por otro lado, el metodo abstractivo gene-ra nuevas oraciones para la creacion del re-sumen. En los ultimos anos, las tecnicas dedeep learning han supuesto un gran impul-so tecnologico en muchas de las tareas dePLN (Beloki et al., 2020; Miranda-Escaladay Segura-Bedmar, 2020; Colon-Ruiz, Segura-Bedmar, y Martınez, 2019; Poncelas et al.,2019), en muchos casos, obteniendo mejo-res resultados que los algoritmos clasicos deaprendizaje automatico. La generacion au-tomatica de resumenes tambien se ha bene-ficiado de esta tecnologıa, y en los ultimosanos, muchos de los sistemas han utilizadotecnicas de deep learning como las redes con-volucionales (Zhang et al., 2019) o las redesrecurrentes (Nallapati, Zhai, y Zhou, 2017).En 2017, se propone un nuevo modelo dedeep learning, Transformers(Vaswani et al.,

Procesamiento del Lenguaje Natural, Revista nº 66, marzo de 2021, pp. 27-39 recibido 25-11-2020 revisado 28-01-2021 aceptado 02-02-2021

ISSN 1989-7553. DOI 10.26342/2021-66-2 © 2021 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 2: Evaluaci on de un modelo transformador aplicado a la tarea ...

2017), cuya principal ventaja es que no ne-cesita procesar los textos de forma secuen-cial, como hacen las redes recurrentes. Estofacilita la paralelizacion de la tarea y reducelos tiempos de entrenamiento. Estos modelostambien han sido aplicados a la tareas de ge-neracion de resumenes (Liu y Lapata, 2019;Zhang, Wei, y Zhou, 2019), con buenos resul-tados. Sin embargo, la mayorıa de estos tra-bajos han sido evaluados sobre las coleccionesde artıculos periodısticos, como por ejemploel corpus CNN/Daily Mail.

En este trabajo, abordamos la tarea degeneracion de resumenes utilizando el mo-delo BART (Lewis et al., 2020), basadoen la arquitectura Sequential-to-Sequential.Ademas, el modelo sera evaluado sobre con-juntos de datos distintos. Este artıculo pre-senta un trabajo preliminar, cuyo principalobjetivo sera comprobar si el modelo BARTes capaz de generar resumenes automaticospara textos de otros estilos distintos al pe-riodıstico, como son los textos biomedicos.Ademas, comprobaremos si BART es capazde generar resumenes de calidad a partir deconjuntos de datos, cuyas caracterısticas enrelacion al numero de instancias y al tamanomedio de sus textos y resumenes son distin-tas a las del corpus CNN/DailyMail, que fueutilizado para preentrenar el modelo BART.

El artıculo esta organizado como sigue: laseccion 2 revisa los modelos mas recientesaplicados a la tarea de generacion de resume-nes. En la seccion 3, presentamos el modeloaplicado en este trabajo. La seccion 4 descri-be los datasets utilizados en la evaluacion delmodelo. Ademas, presenta y discute los re-sultados para cada uno de los datasets. Final-mente, las principales conclusiones y lıneas detrabajo futuro seran descritas al detalle en laseccion 5.

2 Estado de la cuestion

Como se ha indicado en la introduccion,el metodo transformador es un modelo deaprendizaje profundo que fue creado en elano 2017 (Vaswani et al., 2017). Es un mo-delo disenado para el procesamiento de da-tos secuenciales, y, por tanto adecuado paraabordar tareas del PLN, como la clasifica-cion de textos, la generacion de resumenes,entre otras muchas. A diferencia del modelode redes neuronales recurrentes (RNN), es-ta arquitectura procesa los datos de maneraparalela, sin necesidad de ser procesados en

orden. Gracias a este tipo de procesamien-to se disminuyen notablemente los tiemposde entrenamiento. Este menor coste compu-tacional, sumado a los excelentes resultadosobtenidos por los sistemas que utilizan el mo-delo, ha revolucionado el campo del PLN, re-emplazando a las RNN y a otros modelos deaprendizaje automatico profundo.

La investigacion en generacion de resume-nes no ha permanecido ajena al auge de losmodelos transformadores. Desde el 2015, dis-tintas arquitecturas de redes profundas, comopor ejemplo, las RNN han sido aplicadas parala generacion automatica de resumenes (Na-llapati, Zhai, y Zhou, 2017; Nallapati et al.,2016), estableciendo el estado de la cuestionen torno al 30 % de la media de las metricasRouge-1, Rouge-2 y Rouge-L, sobre el corpusCNN/Daily Mail. A continuacion, revisamoslos trabajos mas recientes sobre generacionde resumenes basados en modelos transfor-madores.

Zhong et al. (2019) presentan un primerestudio para la generacion de resumenes ex-tractivos mediante redes de neuronas pro-fundas, entre ellas la red recurrente Longshort-term memory (LSTM) (Hochreiter ySchmidhuber, 1997), y BERT (Devlin et al.,2019), un modelo transformador. Los experi-mentos fueron realizados sobre dos datasets:CNN/Daily Mail (Hermann et al., 2015),descrito en el apartado 4.1, y Newsroom(Grusky, Naaman, y Artzi, 2018) formadopor 1.3 millones de artıculos y resumenes ex-traıdos de 38 fuentes de noticias a lo largode los ultimos 20 anos. En este trabajo, losautores se centraron unicamente en las sietefuentes que proporcionaban un mayor nume-ro de ejemplos: New York Times (NYT), Wa-shington Post, Fox News, The Guardian, NewYork Times Daily News, The Wall StreetJournal (WSJ) y USA Today. En los experi-mentos, cada modelo es evaluado sobre cadafuente de forma separada.

Con respecto a los resultados obtenidospara el dataset CNN-Daily Mail, LSTM pro-porcionaba mejores resultados para las metri-cas Rouge-1 (41.56 %) y Rouge-L (37.83 %),mientras que el modelo transformador ob-tenıa los valores mas altos para Rouge-2 (18.85 %). Respecto a la evaluacion conlas distintas fuentes del dataset Newsroom,LSTM obtiene mejores resultados para NewYork Times (25.27 % de media), WashingtonPost (18.89 % de media) y Fox News (56.17 %

28

Isabel Segura-Bedmar, Lucía Ruz, Sara Guerrero-Aspizua

Page 3: Evaluaci on de un modelo transformador aplicado a la tarea ...

de media). El modelo transformador superaal modelo LSTM en el resto de fuentes. Paratodos los datasets, no hay una diferencia sig-nificativa entre los resultados de ambos mo-delos.

El sistema descrito en (Liu y Lapata,2019) utiliza el modelo pre-entrenado BERTpara la generacion de resumenes extractivosy abstractivos. La principal contribuciondel trabajo es que la codificacion de lostextos se hace a nivel de documento, enlugar de a nivel de oracion, como habıanhecho trabajos anteriores. La evaluaciones realizada sobre los datasets CNN-DailyMail (Rouge-1=42.13 %, Rouge-2=19.60 %,Rouge-L=39.18 %), NYT (Rouge-1=49.02 %,Rouge-2=31.02 %, Rouge-L=45.55 %) yXSum (Narayan, Cohen, y Lapata, 2018)(Rouge-1=38.81 %, Rouge-2=16.50 %,Rouge-L=31.27 %).

El sistema tambien fue evaluado por unconjunto de usuarios. Para la evaluacion hu-mana se les aporta a los participantes el re-sumen generado por el sistema y por otrossistemas de generacion de resumenes (Nara-yan, Cohen, y Lapata, 2018; See, Liu, y Man-ning, 2017; Gehrmann, Deng, y Rush, 2018).A continuacion, se les realiza una serie de pre-guntas para comprobar si el resumen contie-ne toda la informacion necesaria. A mayornumero de preguntas contestadas correcta-mente, mejor evaluacion. La evaluacion ba-sada en el usuario tambien muestra que elsistema proporciona mejores resumenes queel resto de modelos comparados en el traba-jo.

Zhang, Wei, y Zhou (2019) proponen unsistema para la generacion de resumenes ex-tractivos basado en el uso del modelo trans-formador jerarquico (HIBERT). En lugar deutilizar alguno de los modelos de lenguajesya proporcionados por BERT (Devlin et al.,2019), los autores entrenan su propio mode-lo de lenguaje. Con este objetivo crean undataset, GIGA-CM, compuesto por 6,626,842documentos, la mayor parte de ellos obteni-dos del dataset GigaWord (Graff et al., 2003)y una pequena parte extraıdos del conjun-to de entrenamiento del dataset CNN/DailyMail. En total, el dataset contiene 2,854 mi-llones de palabras. Los autores utilizan unatecnica de enmascaramiento similar a la pro-puesta por los creadores de BERT (Devlin etal., 2019), pero en este caso se enmascarantodas las palabras de las oraciones seleccio-

nadas. Una vez entrenado su propio modelode lenguaje, en una segunda fase dedicadaa adaptar el modelo para la tarea de gene-racion de resumenes, los autores utilizan losdatasets CNN/Daily Mail y New York Times(NYT) (Xu y Durrett, 2019; Durrett, Berg-Kirkpatrick, y Klein, 2016).

A la hora de realizar la evaluacion, com-paran su sistema con otros enfoques propues-tos por otros autores, que tambien han sidoevaluados sobre los mismos datasets. Los mo-delos extractivos (Gehrmann, Deng, y Rush,2018; Dong et al., 2018; Cheng y Lapata,2016) con los que se comparan estan basa-dos en el modelo transformador, pero en lu-gar de entrenar su propio modelo de lengua-je, han reutilizado alguno de los modelos delenguajes proporcionados por BERT. Respec-to a los modelos abstractivos (See, Liu, yManning, 2017; Celikyilmaz et al., 2018) conlos que se comparan, estan basados en mo-delos secuenciales con refuerzo. Los experi-mentos mostraron que HIBERT es compu-tacionalmente mas eficiente que aquellos sis-temas que utilizaban modelos de lenguajespre-entrenados con BERT. Respecto a los re-sultados, HIBERT es capaz de superar a to-dos los modelos estudiados en ambos data-sets. Las metricas para el dataset CNN/DailyMail son Rouge-1 de 43.19 %, Rouge-2 de20.46 % y Rouge-L de 39.72 %.

En el dataset NYT, los resultadosson aun mejores (Rouge-1=49.47 %, Rouge-2=30.11 %, Rouge-L=41.63 %). Los autorestambien realizaron una evaluacion basadaen usuarios sobre una muestra de 20 docu-mentos elegidos aleatoriamente, junto con losresumenes generados por el modelo HIBERTy por los modelos comparados en este estu-dio. Los usuarios debıan clasificar de peor amejor los resumenes generados, teniendo encuenta si el resumen captaba la informacionesencial y si era correcto gramaticalmente. Elresumen generado por el modelo HIBERT esseleccionado como el mejor en el 30 % de loscasos.

En un trabajo posterior, Zhang et al.(2019) proponen, ademas de utilizar BERTen el codificador, utilizar el modelo transfor-mador en el decodificador. Su decodificadoresta disenado en dos fases. En la primera fa-se, genera un resumen borrador usando el al-goritmo left-context-only-decoder, que unica-mente tiene en cuenta el contexto izquierdode cada palabra. La segunda fase tiene co-

29

Evaluación de un modelo transformador aplicado a la tarea de generación de resúmenes en distintos dominios

Page 4: Evaluaci on de un modelo transformador aplicado a la tarea ...

mo objetivo refinar el resumen borrador ge-nerado en la fase anterior. Para ello, se apli-ca una mascara a cada palabra, conservandoahora sus respectivos contextos al completo.Ademas, los autores aplican el aprendizajepor refuerzo. Este tipo de aprendizaje pre-tende premiar a aquellas acciones optimas ypenalizar a las menos validas. En este artıcu-lo, proponen como objetivo obtener la mayorevaluacion posible mediante Rouge, es decir,a mayor puntuacion mayor refuerzo positi-vo. El sistema es evaluado sobre el datasetCNN/Daily Mail y comparado con otros tra-bajos anteriores (See, Liu, y Manning, 2017;Shi et al., 2019; Chen y Bansal, 2018; Hsu etal., 2018). En el estudio, el sistema es capazde obtener mejores resultados que dichos sis-temas (Rouge-1=41.71 %, Rouge-2=19.49 %y Rouge-L=38.79 %).

Al igual que en el trabajo (Zhang etal., 2019), (Bae et al., 2019) tambien apli-ca aprendizaje por refuerzo para la seleccionde las oraciones mas relevantes de un texto.Despues de esta seleccion, los autores propo-nen una arquitectura que utiliza BERT enel codificador y una capa LSTM en el de-codificador. En una segunda fase, las oracio-nes seleccionadas son parafraseadas median-te un modelo Sequence-to-Sequence con aten-cion. El sistema fue evaluado sobre el datasetCNN/Daily Mail (Rouge-1=41.90 %, Rouge-2=19.08 %, Rouge-L=39.64 %), sin superar altrabajo descrito en (Zhang et al., 2019).

Los trabajos revisados muestran que losmodelos transformadores han sido capaces deestablecer un nuevo estado de la cuestion enla tarea de generacion de resumenes, superan-do a los resultados obtenidos por trabajos an-teriores basados en otras arquitecturas de re-des profundas (Nallapati, Zhai, y Zhou, 2017;Nallapati et al., 2016). En concreto, HIBERT(Zhang, Wei, y Zhou, 2019) es el sistema queha obtenido mejores resultados sobre el data-set CNN/Daily Mail, con una media de Rou-ge de 34.5 %- El corpus CNN/Daily Mail es eldataset utilizado por la mayorıa de los siste-mas para su evaluacion, aunque algunos tra-bajos tambien han utilizado otros datasetstales como New York Times o XSum. Todoslos datasets tienen en comun que son colec-ciones de artıculos de prensa.

3 Enfoque

El objetivo de nuestro trabajo es explorar eluso del modelo BART (Lewis et al., 2020)

para la tarea de generacion automatica deresumenes.

BART es un modelo basado en la arqui-tectura Sequence-to-Sequence (Seq2Seq), cu-yo principal objetivo es la transformacion deuna secuencia de entrada en otra secuenciade salida. La arquitectura Seq2Seq es espe-cialmente util en muchas tareas de PLN, co-mo la traduccion automatica o la generacionde resumenes. En ambas tareas, la entrada esuna secuencia de palabras. En el caso de latraduccion automatica, la secuencia de salidasera la traduccion de la secuencia de entradaa otro idioma. En el caso de la generacionde resumenes, la salida sera una secuencia depalabras que constituya el resumen de la se-cuencia de entrada.

Los dos principales componentes de unaarquitectura Seq2Seq son el codificador (en-coder) y el decodificador (decoder). El prime-ro toma la secuencia de entrada y la trans-forma en un vector. El decodificador trans-forma dicho vector en la secuencia de sali-da. Tradicionalmente, estos componentes hansido implementados con redes recurrentes, yen particular, con LSTM. Estas redes proce-san la entrada de forma secuencial. Ası, pa-ra acceder a la celula que representa la ulti-ma palabra, es necesario recorrer las anterio-res. Cuando la secuencia es muy larga, puedeocurrir que el modelo olvide la informacioncontenida en las primeras celulas. Ademas, elprocesamiento secuencial implica un alto cos-te computacional y no permite paralelizar elaprendizaje del modelo.

El modelo transformador, presentado porVaswani et al. (2017), es una alternativa alas redes recurrentes para implementar el co-dificador y el decodificador de una arquitec-tura Seq2Seq. Un transformador esta basadoen la tecnica de atencion (attention mecha-nism), que permite establecer las dependen-cias entre las secuencias de entrada y de sa-lida. El codificador se encarga de represen-tar cada posicion y aplicar el mecanismo deatencion para conectar palabras que no sonconsecutivas. El mecanismo de atencion asig-na una puntuacion a cada palabra y comparatodas las puntuaciones en la secuencia. Estopermite determinar la contribucion de cadauna de las palabras. Este mecanismo puedeser paralelizado, acelerando ası el aprendiza-je. Por tanto, esta tecnica es capaz de decidirque partes de la secuencia de entrada son lasmas importantes en cada paso. Mientras que

30

Isabel Segura-Bedmar, Lucía Ruz, Sara Guerrero-Aspizua

Page 5: Evaluaci on de un modelo transformador aplicado a la tarea ...

el modulo LSTM lee la entrada de forma se-cuencial, la principal ventaja del mecanismode atencion es que es capaz de procesar deuna sola vez el contexto de cada palabra yutilizarlo para asignar mas peso a las partesde la secuencia de entrada mas importantes.De esta forma, el decodificador sabe identi-ficar que partes de la secuencia son mas im-portantes.

Como se ha dicho anteriormente, BARTsigue una arquitectura Seq2Seq basada entransformadores. BART combina dos arqui-tecturas como BERT y GPT (GenerativePre-trained Transformer) (Radford et al.,2018). El codificador de BART implementaun modelo BERT, mientras que el decodifi-cador implementa un modelo GPT. En la fa-se de codificacion, BART primero introduceruido en la secuencia de entrada. Para elloutiliza distintas tecnicas como el enmascara-miento de palabras y de secuencias de pala-bras, el borrado de palabras o la permuta-cion de oraciones, entre otras. Una vez quela secuencia de entrada ha sido transformadaen una secuencia con ruido, BART trata deentrenar un modelo capaz de reconstruir lasecuencia de entrada. En la fase de decodi-ficacion, BART utiliza un modelo GPT quegenera los tokens de izquierda a derecha.

El modelo BART esta implementa-do en la librerıa Hugging Face.1 Estemodelo ha sido preentrenado sobre el da-taset CNN/Daily Mail. Con el objetivode facilitar la replicabilidad de nuestraexperimentacion, nuestra implementacionesta disponible en el siguiente repositoriode https://github.com/isegura/sepln2021-textsummarization.

4 Evaluacion

4.1 Datasets

Como se ha visto en el estado de la cues-tion, la mayorıa de los sistemas de genera-cion de resumenes han sido evaluados sobreel corpus CNN/Daily Mail. Uno de los obje-tivos del trabajo actual es extender la eva-luacion a otros datasets menos utilizados, eincluir ademas un nuevo dataset, como esBioMRC(Pappas et al., 2020a), cuyos textosno son artıculos de periodicos, sino documen-tos cientıficos. Esto nos permitira determinarsi el modelo, que ha sido pre-entrenado conotro modelo de lenguaje generado con textos

1https://huggingface.co/

periodısticos, es capaz de obtener resultadossimilares sobre textos de otros dominios.

Por tanto, para evaluar nuestro modelo,los experimentos han sido realizados sobrecuatro conjuntos de datos: CNN/Daily Mail(See, Liu, y Manning, 2017) (version no ano-nimizada), GigaWord (Rush, Chopra, y Wes-ton, 2015), XSum (Narayan, Cohen, y Lapa-ta, 2018) y BioMRC (Pappas et al., 2020b).Mientras que los tres primeros datasets cons-tan de artıculos periodısticos online, el ulti-mo, BioMRC, es una coleccion de textos deldominio biomedico. Los cuatro conjuntos dedatos estan formados por textos escritos eningles. Todos los resumenes son abstractivos,es decir, cada resumen se ha creado a partirde oraciones nuevas y no extraıdas del textooriginal.

Los cuatro datasets son distribuidos con lalibrerıa Hugging Face, que tambien usaremospara implementar nuestro enfoque. Para eldataset BioMRC, Hugging Face proporcionatres versiones dependiendo del tamano: lar-ge, small y tiny. Dentro de cada tamano, sedistinguen dos tipos: A y B. La principal dife-rencia es que los textos de B se han limpiadopara eliminar ruido. En nuestro trabajo, he-mos seleccionado la version large B.

La tabla 1 muestra el numero de textosde cada conjunto de datos y el tamano me-dio de sus textos de entrada y sus resumenes,que se define por el numero de tokens de untexto. GigaWord, una coleccion de artıculosperiodısticos, es el dataset con mayor numerode instancias. Sin embargo, su tamano mediodel texto de entrada y del resumen es el se-gundo mas pequeno (poco mas de 8 palabraspor resumen). La relacion entre el tamano deltexto y su resumen es aproximadamente de3.7. El segundo dataset con mayor numerode instancias es BioMRC, formado por textosdel dominio biomedico. Aunque es el segundocorpus con un tamano medio de los textos deentrada, el tamano medio de sus resumeneses el mas pequeno, con menos de 7 palabraspor resumen. En este caso, el ratio entre eltamano medio de sus textos y sus resumeneses de 37.7.

El tercer dataset con mayor numero deinstancias es CNN/Daily Mail, que como sedijo anteriormente es uno de los datasets masutilizados en la evaluacion de generacion deresumenes. Sus textos y resumenes son losque tienen un mayor tamano, con una ratiode 13.9. La principal ventaja de este data-

31

Evaluación de un modelo transformador aplicado a la tarea de generación de resúmenes en distintos dominios

Page 6: Evaluaci on de un modelo transformador aplicado a la tarea ...

set respecto al resto, es que sus textos hansido utilizados para entrenar el modelo dellenguaje utilizado en la implementacion delmodelo BART, que usamos en la experimen-tacion, y que es proporcionado por HugggingFace. XSum es el dataset con menor nume-ro de instancias. Sin embargo, tambien es eldataset con el segundo tamano medio de lon-gitud de textos de entrada. El ratio entre eltamano medio de sus textos y resumenes esde 35.9.

Los cuatro datasets se dividen en conjun-tos de entrenamiento, validacion y test.

En nuestra experimentacion, hemos utili-zado la configuracion que por defecto propor-ciona la librerıa Hugging Face, por tanto, noha sido necesario utilizar el conjunto de vali-dacion para ajustar los parametros de nuestromodelo. Por este motivo, los textos del con-junto de validacion tambien han sido inclui-dos en el conjunto de entrenamiento de cadadataset para ajustar el modelo a las tareas degeneracion de resumenes.

4.2 Resultados

El metodo propuesto ha sido evaluado en di-versas variantes de la metrica Rouge (Lin,2004) y con la metrica Bleu (Papineni et al.,2002) para todos los datasets descritos en elapartado 4.1.

La metrica Rouge es la mas utilizada paraevaluar la generacion automatica de resume-nes. Podemos encontrar 5 variantes: Rouge-N, Rouge-L, Rouge-W, Rouge-S y Rouge-Su. En este trabajo, solo utilizaremos lasmetricas Rouge-N (en particular, para N=1y N=2) y Rouge-L, porque son las metricasreportadas por la mayorıa de los artıculos.

Rouge-N mide la superposicion de N-gramas entre el resumen generado y el re-sumen del dataset. Ası para N=1, la metri-ca se refiere a la superposicion de palabras,mientras que para N=2, nos referimos a lasuperposicion de bigramas. Rouge-L es unametrica que mide la subsecuencia comun maslarga (LCS) entre el resumen original y el re-sumen generado por el sistema. Una descrip-cion detallada de estas metricas y del restode variantes de Rouge puede encontrarse enel artıculo propuesto por Lin (2004).

Como se ha indicado anteriormente, tam-bien utilizaremos la metrica Bleu (Papine-ni et al., 2002). Bleu mide el numero de n-gramas del resumen automatico que estanpresentes en el resumen de referencia, mien-

tras que Rouge contabilizael numero de n-gramas del resumen de referencia que estanpresentes en el resumen automatico. Bleu si-milar a Rouge, pero su principal diferencia esque introduce un nuevo parametro, denomi-nado penalizacion por brevedad (PB), encar-gado de sancionar aquellas predicciones cuyalongitud sea menor que la del resumen origi-nal. La penalizacion por brevedad se calculaa traves de la siguiente funcion:

PB =

1 si c > r

e(1−r/c) si c ≤ r(1)

En la formula anterior, c es la longitud dela prediccion y r la longitud del resumen dereferencia. De esta manera, la metrica Bleuse calcula de la siguiente manera:

BLEU = PB · exp(

N∑n=1

wnlogPn

)(2)

En este caso, wn = 1/N , correspondienteal peso de cada n-grama de longitud N. P esla precision de los n-gramas, es decir, es elratio entre el numero de n-gramas comunesy el numero n-gramas presentes del resumengenerado.

La tabla 2 muestra los resultados de nues-tro modelo respecto a las metricas anterior-mente descritas y para cada uno de los data-sets propuestos para nuestro estudio.

Como se ha dicho anteriormente, nuestroenfoque esta basado en el uso del modeloBART, proporcionado por la librerıa HuggingFace. En este modelo, el modelo del lenguajeha sido pre-entrenado con los textos del da-taset CNN/Daily Mail. Posteriormente, en lasegunda fase (fine tuning), el modelo es ajus-tado para la tarea de generacion de resume-nes, utilizando para ello los conjuntos de en-trenamiento de cada dataset.

Comenzamos discutiendo los resultadospara la metrica Rouge-1, que mide la super-posicion de las palabras del resumen gene-rado y su respectivo resumen de referencia.Aunque el modelo de lenguaje ha sido cons-truido a partir de los textos de CNN/DailyMail, los mejores resultados para Rouge-1 seconsiguen sobre el corpus BioMRC, siendoeste el unico dataset compuesto por textosno periodısticos, sino de dominio biomedico.Por tanto, el estilo narrativo y el lexico delos textos no parecen afectar al modelo en

32

Isabel Segura-Bedmar, Lucía Ruz, Sara Guerrero-Aspizua

Page 7: Evaluaci on de un modelo transformador aplicado a la tarea ...

DatasetConjunto de

entrenamientoConjunto devalidacion

Conjuntode Test

Tamanotextos

Tamanoresumenes

CNN/Daily 287.113 13.368 11.490 781 56GigaWord 3.803.957 189.651 1.951 31,4 8,3

XSum 204.017 11.327 11.333 431 12BioMRC 700.000 50.000 62.707 254,01 6,72

Tabla 1: Descripcion de los datasets utilizados en este trabajo.

Datasets Rouge-1 Rouge-2 Rouge-L BLEUCNN/Daily 38.48 17.74 37.52 31.35GigaWord 24.93 9.88 24.02 37.32

XSum 32.2 9.7 27.11 66.50BioMRC 39.58 13.08 34.28 57.73

Tabla 2: Resultados.

lo que se refiere a la superposicion de pala-bras. El segundo mejor resultado, con una di-ferencia unicamente de 1.1, se obtiene parael dataset CNN/Daily Mail, con una Rouge-1 de 39.58 %, mas de 3.5 por debajo del es-tado de la cuestion en dicho dataset (Rouge-1=43.19 % en el trabajo (Zhang, Wei, y Zhou,2019)).

Para los otros dos datasets, GigaWord yXSum, los resultados de Rouge-1 son signifi-cativamente mas bajos que los obtenidos paraBioMRC. Es de esperar que los resultados ob-tenidos con el dataset CNN/Daily Mail seansuperiores a la de estos datasets, debido a queel modelo de lenguaje fue entrenado utilizan-do el dataset CNN/Daily Mail. Sin embar-go, llama la atencion que el modelo obtengala mejor Rouge-1 para la coleccion de textosbiomedicos, y no de estilo periodıstico. Un ta-mano pequeno en los resumenes de referencia(con solo 6.5 palabras en el caso de BioMRC)parece tener un efecto positivo sobre la metri-ca Rouge-1. Otra posible razon de los bue-nos resultados obtenidos sobre BioMRC esque, como se explico anteriormente, el data-set BioMRC ha sido limpiado para reducirruido, y eso podrıa redundar en una mejorcalidad de los textos y resumenes de referen-cia.

Respecto a Rouge-2, que se refiere alnumero de bigramas que comparten el resu-men generado con el resumen de referencia,como era previsible, obtiene los mejores pa-ra el dataset CNN/Daily Mail, por lo ya ex-plicado anteriormente. Respecto al estado dela cuestion, el modelo consigue una puntua-cion menor que el sistema HIBERT, con unaRouge-2 de 20.46 %. La diferencia de Rouge-2respecto a los otros tres datasets es muy sig-

nificativa, llegando alcanzar una diferencia dehasta 8 puntos en el caso del dataset XSum.El modelo pre-entrenado con textos de estiloperiodıstico deberıa proporcionar mejores re-sultados para los corpus GigaWord y XSum,que para el corpus BioMRC. Sin embargo, ladiferencia de Rouge-2 con la obtenida sobreBioMRC es solo de 4 puntos, muy por deba-jo que las diferencias respecto a GigaWord yXSum.

Respecto a los resultados de XSum, conla Rouge-2 mas baja de los 4, en un prin-cipio podrıamos suponer que se debe a quees el conjunto de datos mas pequeno de en-trenamiento. Sin embargo, ese no parece serel motivo real porque GigaWord, el datasetcon un mayor numero de ejemplos, muestrauna Rouge-2 muy similar a la obtenida sobreXSum.

De manera general, en Rouge-N podemosapreciar que, a medida que aumenta el nume-ro de n-gramas, el resultado de la metricadisminuye a menos de la mitad para todoslos datasets. Es previsible esperar que, al au-mentar el tamano de los n-gramas, el numerode coincidencias entre el resumen generado yel de referencia sea menor. Como se muestraen la tabla 2, los resultados de Rouge-N so-bre el corpus CNN/Daily Mail son considera-blemente superiores que los obtenidos sobrelos datasets GigaWords y XSum. Esto podrıadeberse a dos causas distintas: 1) el mode-lo del lenguaje usado en el enfoque fue pre-entrenado sobre CNN/Daily Mail, y 2) el ta-mano medio de los textos y los resumenes enCNN/Daily Mail es considerablemente mayoral de los otros datasets, lo que podrıa bene-ficiar a la hora de encontrar co-ocurrenciasentre los resumenes generados y los de refe-

33

Evaluación de un modelo transformador aplicado a la tarea de generación de resúmenes en distintos dominios

Page 8: Evaluaci on de un modelo transformador aplicado a la tarea ...

rencia.

Con la metrica Rouge-L, que tiene encuenta la subsecuencia comun mas larga(LCS) entre el resumen original y el resumengenerado por el sistema, el modelo vuelve aobtener los mejores resultados sobre el data-set CNN/Daily Mail. Este dataset contieneel mayor tamano medio del resumen referen-cia (56), y por tanto es mas probable quelas subsecuencias comunes sean mas largas.Tambien, como se puede comprobar, el ta-mano medio de los textos es mas del dobleque en el resto de datasets. Como consecuen-cia, la extension de los resumenes propuestossera mayor. Al ser ambos resumenes mas ex-tensos que en el resto de datasets, es de espe-rar que la subsecuencia comun sea mas larga.El modelo obtiene una Rouge-L de 37.52 %,2.2 puntos por debajo del estado de la cues-tion reportado en el artıculo de Zhang, Wei,y Zhou (2019), con una Rouge-2 de 39.72 %.De nuevo, el modelo obtiene los mejores re-sultados para el dataset BioMRC, a pesar depertenecer a un dominio distinto.

Como se explico anteriormente, la metri-ca BLEU introduce un parametro de penali-zacion para aquellas predicciones mas cortasque el resumen de referencia. El modelo con-sigue la mejor puntuacion sobre el datasetXSum (Bleu=66.50), seguido de la puntua-cion obtenida en BioMRC (Bleu=57.73 %).Una posible causa podrıa estar relacionadacon el ratio entre el tamano medio de lostextos y el tamano medio de los resumenes.Ambos datasets muestran un ratio conside-rablemente alto (por encima de 35), mientrasque los otros datasets presentan ratios muchomenores. Ası la relacion entre el tamano re-sumen del texto y del resumen es solo de 3.9en en GigaWord y 13.9 en CNN/Daily Mail.

En nuestra evaluacion, tambien hemosquerido estudiar el tiempo de entrenamien-to para cada uno de los datasets, que sonmostrados en la tabla 3. Como era de espe-rar, el tiempo de entrenamiento esta directa-mente relacionado con el tamano del corpus.Ası, el dataset GigaWord tiene un tiempode entrenamiento mucho mayor que el res-to de datasets, porque su tamano tambienes mucho mayor. Para una coleccion de ca-si 4 millones de instancias de entrenamiento,que su tiempo de entrenamiento sea de pocomas de una hora parece bastante razonable ydemuestra que los modelos transformers sonmas eficientes en relacion a otras arquitectu-

ras profundas como las RNN. Por la mismarazon, XSum, el dataset mas pequeno, requie-re solo 8 minutos de entrenamiento. En todoslos datasets, el tiempo medio para generar unnuevo resumen es aproximadamente de 15 se-gundos.

Tiempo entrenamientoCNN/Daily 14 minutosGigaWord 1 hora y 13 minutos

XSum 8 minutosBioMRC 23 minutos

Tabla 3: Tiempo de entrenamiento para cadaconjunto de datos.

La tabla 4 muestra un ejemplo de resumenautomatico del corpus BioMRC, junto consu correspondiente texto original y resumende referencia. Este corpus contiene un grannumero de conceptos del dominio biomedi-co, que probablemente no estan representa-dos en el corpus CNN/Daily Mail, utilizadopara pre-entrenar el modelo BART. A pesarde eso, podemos ver que el resumen genera-do es bastante similar al resumen de referen-cia, tanto en contenido semantico como enlongitud. Por tanto, podemos concluir que eluso del modelo BART es capaz de generarresumenes para textos del dominio biomedi-co.

La tabla 5 muestra un ejemplo tomado delcorpus GigaWord. Como se muestra en la ta-bla 1, este es el corpus con el tamano maspequeno de textos (un tamano medio de 31.4palabras) y de resumenes, con solo 8.3 pala-bras de media. Hemos observado que las pre-dicciones generadas por el modelo automati-co suelen ser demasiado largas en compara-cion a los resumenes de referencia, incluso aveces llegando a superar el tamano del tex-to original. En el ejemplo mostrado, conside-ramos que el resumen generado automatica-mente ofrece mas informacion que el resumenoriginal, aunque contiene algunas incoheren-cias y errores gramaticales (President’s invi-tation of China’s President Hu Jintao’s).

En el caso del corpus XSum (tabla 6),el resumen automatico es completamente co-rrecto desde el punto de vista sintactico, ytambien puede ser considerado correcto encuanto a su significado, aunque difiera delcontenido del resumen de referencia. Mien-tras que el resumen automatico pone el focoen que la visita fue realizada por los duquesde Cambridge, el resumen de referencia des-

34

Isabel Segura-Bedmar, Lucía Ruz, Sara Guerrero-Aspizua

Page 9: Evaluaci on de un modelo transformador aplicado a la tarea ...

Texto originalThe case is reported of a sixty-four-year-old @entity0 with DeBakey type I aorticdissection in whom postoperative extensive intra-aortic balloon pumping was applied.Surgical repair involved replacing the ascending aorta with a Medtronic Hall valvedconduit. After surgery severe @entity2 occurred. Despite the use of high-dose inotropicdrugs the @entity0 could not be hemodynamically stabilized. An intra-aortic balloonpump was finally applied as a therapeutical last resort. Within three days, undercounterpulsation, the @entity0 reached a stable hemodynamic condition. After twenty-one days in the intensive care unit, he could be transferred to a normal ward. The@entity0 was discharged on the fifty-fourth postoperative day. During counterpulsationthere were no balloon- or catheter-induced complications. Follow-up at five monthsshowed the @entity0 in good general health: echocardiography did not identify anylesions of the thoracic aorta which could be linked to counter-pulsation. It is concludedthat the postoperative use of intra-aortic balloon pump in the event of DeBakey typeI dissecting @entity1 of the aorta, and adversely affected @entity0 hemodynamics, isa justifiable therapeutical alternative.Resumen originalThe use of intra-aortic balloon pump after surgical treatment of DeBakey type I dis-secting XXXX of the aorta.Resumen automaticoPostoperative use of intra-aortic balloon pumping in the event of DeBakey type Idissecting XXXX of the aorta.

Tabla 4: Ejemplo tomado del corpus BioMRC.

Texto originalUS President George W. Gush arrived here saturday evening for a three-day visit tochina at the invitation of chinese President Hu JintaoResumen originalUS President arrives in BeijingResumen automaticoBush arrives in China for three-day visit at President’s invitation of China’s PresidentHu Jintao’s

Tabla 5: Ejemplo tomado del corpus GigaWord.

Texto originalThe White Garden, at Kensington Palace, was planted to mark 20 years since PrincessDiana died in a car crash.The Duchess of Cambridge joined the princes on the gardentour... Members of the public have been leaving tributes and flowers at the gatesof the palace to mark the anniversary of Diana’s death. ...It is the fourth Londonmemorial created in tribute to Diana - the others are the Diana Memorial Playgroundat Kensington Palace, the Diana Memorial Fountain in Hyde Park, and the DianaMemorial Walk at St James’s Palace.Resumen originalPrince William and Prince Harry have visited a London memorial garden for theirmother on the eve of the 20th anniversary of her death.Resumen automaticoThe Duke and Duchess of Cambridge have visited the White Garden at KensingtonPalace to mark the 20th anniversary of Princess Diana’s death.

Tabla 6: Ejemplo tomado del corpus XSum.

taca que la visita fue realizada por los prınci-pes, William y Harry. Ambos resumenes soncorrectos.

5 Conclusiones

Este artıculo presenta un trabajo preliminardonde exploramos el uso de un modelo trans-

35

Evaluación de un modelo transformador aplicado a la tarea de generación de resúmenes en distintos dominios

Page 10: Evaluaci on de un modelo transformador aplicado a la tarea ...

formador para abordar la tarea de generacionde resumenes. Dicho modelo esta basado en laarquitectura BART y su implementacion esproporcionada por la librerıa Hugging Face.Mientras que la mayorıa de los trabajos ante-riores se han centrado en evaluar sus enfoquessobre el dataset CNN/Daily Mail, en nues-tro estudio ampliamos la evaluacion a cuatrodatasets con distintas caracterısticas. Uno delos datasets esta formado por textos biomedi-cos, mientras que los otros tres son colec-ciones de artıculos periodısticos. Ademas, loscuatro datasets presentan caracterısticas dis-tintas en relacion al numero de instancias yal tamano medio de sus textos y resumenes.El modelo ha sido evaluado por las metricasRouge y Bleu.

Como era de esperar la mejor media deRouge (31.2 %) sobre el dataset CNN/DailyMail. La principal razon es porque el mode-lo de lenguaje usado ha sido pre-entrenadosobre esta misma coleccion de textos. Estamedia es similar a la obtenida por otros tra-bajos previos basados tambien en transfor-madores(Bae et al., 2019; Zhang et al., 2019),pero no llega a superar el estado de la cues-tion actual conseguido por el trabajo descritoen (Zhang, Wei, y Zhou, 2019).

Debemos destacar que la segunda mejormedia (28.98) en Rouge es obtenida sobreel dataset BioMRC, compuesto por textosbiomedicos. Esta media es significativamen-te superior a las obtenidas en los otros dosdatasets, XSum y GigaWord, que sı estanformados por artıculos periodısticos como eldataset CNN/Daily Mail. Esto podrıa decir-nos que el estilo narrativo y el vocabulariode los textos no parece asegurar unos mejo-res resultados. Tambien nos permite concluirque el modelo BART puede ofrecer buenosresultados en la generacion de resumenes au-tomaticos en dominios como el biomedico.

Un mayor numero de instancias en el cor-pus de entrenamiento, como es el caso de Gi-gaWord, no parece garantizar la obtencion demejores resultados. De hecho, el modelo ob-tiene la peor media sobre dicho dataset, a pe-sar de ser el dataset que tiene mayor numerode textos. Por el contrario, la relacion entreel tamano de los textos y el de sus resumenespodrıa estar afectando de alguna manera alos resultados, ya que se ha observado que amayor ratio entre estos tamanos, tambien esmayor la puntuacion obtenida en Rouge-L.

Como trabajo futuro, nos planteamos ex-

plorar otros enfoques recientes de transferlearning, tales como T5 (Raffel et al., 2020)y estudiar su adaptacion a la tarea de gene-racion de resumenes. Ademas, debido a queencontrar las causas de por que un modelofunciona mejor sobre un determinado datasetno siempre es una tarea trivial, como hemosvisto en nuestra experimentacion preliminar,tambien nos gustarıa realizar una experimen-tacion con usuarios. Este tipo de evaluacionnos podrıa arrojar mas luces sobre las ven-tajas y las desventajas de cada modelo, y laposible relacion entre las caracterısticas de unconjunto de datos y los resultados obtenidospor un modelo.

La investigacion descrita en este artıcu-lo forma parte del proyecto NLP4Rare(NLP4Rare-CM-UC3M). El proyecto esta fi-nanciado por la Comunidad de Madrid y laUniversidad Carlos III de Madrid, que pre-tenden estimular la investigacion de natura-leza interdisciplinar de jovenes doctores. Elproyecto NLP4Rare tiene como principal ob-jetivo aumentar el conocimiento sobre las en-fermedades raras mediante el uso de tecni-cas de PLN. Para ello, entre los objetivos es-pecıficos persigue la generacion automaticade resumenes, tanto para medicos como pa-cientes, que faciliten la comprension de todala informacion publicada al respecto a unaenfermedad o conjunto de enfermedades ra-ras. Debido a que en la actualidad no exis-te ningun dataset para este dominio, otrode nuestros principales retos sera la crea-cion de una dataset para un dominio distin-to al periodıstico, como es el de las enferme-dades raras. Nuestro objetivo es que inclu-ya no solo textos en ingles, sino tambien deotras lenguas como el espanol. Esto nos per-mitira evaluar nuestros enfoques de genera-cion de resumenes para otros idiomas distin-tos al ingles.

Agradecimientos

Este trabajo ha sido financiado por el Pro-grama de Investigacion del Ministerio de Eco-nomıa y Competitividad del Gobierno de Es-pana, (Proyecto DeepEMR TIN2017-87548-C2-1-R) y por el Programa para proyectosinterdisciplinares para jovenes doctores en laUniversidad Carlos III de Madrid financia-do por la Comunidad de Madrid (ProyectoNLP4Rare-CM-UC3M).

36

Isabel Segura-Bedmar, Lucía Ruz, Sara Guerrero-Aspizua

Page 11: Evaluaci on de un modelo transformador aplicado a la tarea ...

Bibliografıa

Bae, S., T. Kim, J. Kim, y S.-g. Lee. 2019.Summary level training of sentence rew-riting for abstractive summarization. EnProceedings of the 2nd Workshop on NewFrontiers in Summarization, paginas 10–20, Hong Kong, China, Noviembre. Asso-ciation for Computational Linguistics.

Beloki, Z., X. Saralegi, K. Ceberio, y A. Co-rral. 2020. Grammatical error correctionfor basque through a seq2seq neural archi-tecture and synthetic examples. Procesa-miento del Lenguaje Natural, 65:13–20.

Celikyilmaz, A., A. Bosselut, X. He, yY. Choi. 2018. Deep communicatingagents for abstractive summarization. EnProceedings of the 2018 Conference of theNorth American Chapter of the Associa-tion for Computational Linguistics: Hu-man Language Technologies, Volume 1(Long Papers), paginas 1662–1675, NewOrleans, Louisiana, Junio. Association forComputational Linguistics.

Chen, Y.-C. y M. Bansal. 2018. Fast abstrac-tive summarization with reinforce-selectedsentence rewriting. En Proceedings of the56th Annual Meeting of the Associationfor Computational Linguistics (Volume 1:Long Papers), paginas 675–686.

Cheng, J. y M. Lapata. 2016. Neural sum-marization by extracting sentences andwords. En Proceedings of the 54th AnnualMeeting of the Association for Compu-tational Linguistics (Volume1: Long Pa-pers), paginas 484–494.

Colon-Ruiz, C., I. Segura-Bedmar, yP. Martınez. 2019. Analisis de senti-miento en el dominio salud: analizandocomentarios sobre farmacos. Proces. delLeng. Natural, 63:15–22.

Devlin, J., M.-W. Chang, K. Lee, y K. Touta-nova. 2019. Bert: Pre-training of deep bi-directional transformers for language un-derstanding. En NAACL-HLT (1).

Dong, Y., Y. Shen, E. Crawford, H. vanHoof, y J. C. K. Cheung. 2018. Ban-ditSum: Extractive summarization as acontextual bandit. En Proceedings of the2018 Conference on Empirical Methodsin Natural Language Processing, paginas3739–3748, Brussels, Belgium, Octubre-Noviembre. Association for Computatio-nal Linguistics.

Durrett, G., T. Berg-Kirkpatrick, y D. Klein.2016. Learning-based single-documentsummarization with compression andanaphoricity constraints. En Proceedingsof the 54th Annual Meeting of the Associa-tion for Computational Linguistics (Volu-me 1: Long Papers), paginas 1998–2008.

Gehrmann, S., Y. Deng, y A. Rush. 2018.Bottom-up abstractive summarization.En Proceedings of the 2018 Conference onEmpirical Methods in Natural LanguageProcessing, paginas 4098–4109, Brussels,Belgium, Octubre-Noviembre. Associationfor Computational Linguistics.

Graff, D., J. Kong, K. Chen, y K. Maeda.2003. English gigaword. Linguistic DataConsortium, Philadelphia, 4(1):34.

Grusky, M., M. Naaman, y Y. Artzi. 2018.Newsroom: A dataset of 1.3 million sum-maries with diverse extractive strategies.En Proceedings of the 2018 Conference ofthe North American Chapter of the As-sociation for Computational Linguistics:Human Language Technologies, Volume 1(Long Papers), paginas 708–719.

Hermann, K. M., T. Kocisky, E. Grefenstet-te, L. Espeholt, W. Kay, M. Suleyman, yP. Blunsom. 2015. Teaching machinesto read and comprehend. En Advancesin neural information processing systems,paginas 1693–1701.

Hochreiter, S. y J. Schmidhuber. 1997. Longshort-term memory. Neural computation,9(8):1735–1780.

Hsu, W.-T., C.-K. Lin, M.-Y. Lee, K. Min,J. Tang, y M. Sun. 2018. A unified modelfor extractive and abstractive summariza-tion using inconsistency loss. En Procee-dings of the 56th Annual Meeting of theAssociation for Computational Linguistics(Volume 1: Long Papers), paginas 132–141.

Lewis, M., Y. Liu, N. Goyal, M. Ghazvini-nejad, A. Mohamed, O. Levy, V. Stoya-nov, y L. Zettlemoyer. 2020. BART: De-noising sequence-to-sequence pre-trainingfor natural language generation, transla-tion, and comprehension. En Proceedingsof the 58th Annual Meeting of the Associa-tion for Computational Linguistics, pagi-nas 7871–7880, Online, Julio. Associationfor Computational Linguistics.

37

Evaluación de un modelo transformador aplicado a la tarea de generación de resúmenes en distintos dominios

Page 12: Evaluaci on de un modelo transformador aplicado a la tarea ...

Lin, C.-Y. 2004. ROUGE: A package forautomatic evaluation of summaries. EnText Summarization Branches Out, pagi-nas 74–81, Barcelona, Spain, Julio. Asso-ciation for Computational Linguistics.

Liu, Y. y M. Lapata. 2019. Text summari-zation with pretrained encoders. En Pro-ceedings of the 2019 Conference on Em-pirical Methods in Natural Language Pro-cessing and the 9th International JointConference on Natural Language Proces-sing (EMNLP-IJCNLP), paginas 3730–3740, Hong Kong, China, Noviembre. As-sociation for Computational Linguistics.

Miranda-Escalada, A. y I. Segura-Bedmar.2020. One stage versus two stages deeplearning approaches for the extraction ofdrug-drug interactions from texts. Proces.del Leng. Natural, 64:69–76.

Nallapati, R., F. Zhai, y B. Zhou. 2017. Sum-marunner: A recurrent neural network ba-sed sequence model for extractive summa-rization of documents. En S. P. Singhy S. Markovitch, editores, Proceedings ofthe Thirty-First AAAI Conference on Ar-tificial Intelligence, February 4-9, 2017,San Francisco, California, USA, paginas3075–3081. AAAI Press.

Nallapati, R., B. Zhou, C. dos Santos,C. GuI‡lcehre, y B. Xiang. 2016. Abstrac-tive text summarization using sequence-to-sequence RNNs and beyond. En Pro-ceedings of The 20th SIGNLL Conferen-ce on Computational Natural LanguageLearning, paginas 280–290, Berlin, Ger-many, Agosto. Association for Compu-tational Linguistics.

Narayan, S., S. B. Cohen, y M. Lapata.2018. Don’t give me the details, just thesummary! topic-aware convolutional neu-ral networks for extreme summarization.En Proceedings of the 2018 Conference onEmpirical Methods in Natural LanguageProcessing, paginas 1797–1807, Brussels,Belgium, Octubre-Noviembre. Associationfor Computational Linguistics.

Papineni, K., S. Roukos, T. Ward, y W.-J.Zhu. 2002. Bleu: a method for auto-matic evaluation of machine translation.En Proceedings of the 40th annual mee-ting of the Association for ComputationalLinguistics, paginas 311–318.

Pappas, D., P. Stavropoulos, I. Androutso-poulos, y R. McDonald. 2020a. Biomrc:A dataset for biomedical machine readingcomprehension. En Proceedings of the19th SIGBioMed Workshop on BiomedicalLanguage Processing, paginas 140–149.

Pappas, D., P. Stavropoulos, I. Androutso-poulos, y R. McDonald. 2020b. BioMRC:A dataset for biomedical machine readingcomprehension. En Proceedings of the19th SIGBioMed Workshop on Biome-dical Language Processing, paginas 140–149, Online, Julio. Association for Compu-tational Linguistics.

Poncelas, A., K. Sarasola, M. Dowling,A. Way, G. Labaka, y I. Alegria. 2019.Adapting NMT to caption translation in-wikimedia commons for low-resource lan-guages. Proces. del Leng. Natural, 63:33–40.

Radford, A., K. Narasimhan, T. Salimans, yI. Sutskever. 2018. Improving languageunderstanding by generative pre-training.

Raffel, C., N. Shazeer, A. Roberts, K. Lee,S. Narang, M. Matena, Y. Zhou, W. Li,y P. J. Liu. 2020. Exploring the limitsof transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res.,21:140:1–140:67.

Rush, A. M., S. Chopra, y J. Weston. 2015.A neural attention model for abstracti-ve sentence summarization. En Procee-dings of the 2015 Conference on Empiri-cal Methods in Natural Language Proces-sing, paginas 379–389, Lisbon, Portugal,Septiembre. Association for Computatio-nal Linguistics.

See, A., P. J. Liu, y C. D. Manning. 2017.Get to the point: Summarization withpointer-generator networks. En Procee-dings of the 55th Annual Meeting of theAssociation for Computational Linguistics(Volume 1: Long Papers), paginas 1073–1083, Vancouver, Canada, Julio. Associa-tion for Computational Linguistics.

Shi, J., C. Liang, L. Hou, J. Li, Z. Liu, yH. Zhang. 2019. Deepchannel: Salien-ce estimation by contrastive learning forextractive document summarization. EnProceedings of the AAAI Conference onArtificial Intelligence, volumen 33, pagi-nas 6999–7006.

38

Isabel Segura-Bedmar, Lucía Ruz, Sara Guerrero-Aspizua

Page 13: Evaluaci on de un modelo transformador aplicado a la tarea ...

Vaswani, A., N. Shazeer, N. Parmar, J. Usz-koreit, L. Jones, A. N. Gomez, L. Kaiser,y I. Polosukhin. 2017. Attention is all youneed. En Advances in neural informationprocessing systems, paginas 5998–6008.

Xu, J. y G. Durrett. 2019. Neural extractivetext summarization with syntactic com-pression. En Proceedings of the 2019 Con-ference on Empirical Methods in Natu-ral Language Processing and the 9th In-ternational Joint Conference on NaturalLanguage Processing (EMNLP-IJCNLP),paginas 3283–3294.

Zhang, H., J. Cai, J. Xu, y J. Wang. 2019.Pretraining-based natural language ge-neration for text summarization. EnProceedings of the 23rd Conference onComputational Natural Language Lear-ning (CoNLL), paginas 789–797, HongKong, China, Noviembre. Association forComputational Linguistics.

Zhang, X., F. Wei, y M. Zhou. 2019. HI-BERT: Document level pre-training of hie-rarchical bidirectional transformers for do-cument summarization. En Proceedings ofthe 57th Annual Meeting of the Associa-tion for Computational Linguistics, pagi-nas 5059–5069, Florence, Italy, Julio. As-sociation for Computational Linguistics.

Zhang, Y., D. Li, Y. Wang, Y. Fang, yW. Xiao. 2019. Abstract text summariza-tion with a convolutional seq2seq model.Applied Sciences, 9(8):1665.

Zhong, M., P. Liu, D. Wang, X. Qiu, yX. Huang. 2019. Searching for effecti-ve neural extractive summarization: Whatworks and what’s next. En Proceedings ofthe 57th Annual Meeting of the Associa-tion for Computational Linguistics, pagi-nas 1049–1058, Florence, Italy, Julio. As-sociation for Computational Linguistics.

39

Evaluación de un modelo transformador aplicado a la tarea de generación de resúmenes en distintos dominios