An alisis de Art culo: Get To The Point: Summarization with...

46
Resumen Introducci´ on Trabajos relacionados Background Metodolog´ ıa propuesta An´ alisis de Art´ ıculo: Get To The Point: Summarization with Pointer-Generator Networks Autores: 1 Abigail See, 2 Peter J. Liu y 1 Christopher D. Manning 1 Universidad de Stanford 2 Grupo de Google Analiza: Fernando Pech May Instituto Tecnol´ ogico Superior de los R´ ıos Noviembre 2018 Fernando Pech May An´ alisis de art´ ıculo Noviembre 2018 1/46

Transcript of An alisis de Art culo: Get To The Point: Summarization with...

Page 1: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Analisis de Artıculo:Get To The Point: Summarization with

Pointer-Generator Networks

Autores: 1Abigail See, 2Peter J. Liu y 1Christopher D. Manning

1Universidad de Stanford2 Grupo de Google

Analiza: Fernando Pech MayInstituto Tecnologico Superior de los Rıos

Noviembre 2018

Fernando Pech May Analisis de artıculo Noviembre 2018 1/46

Page 2: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Informacion

Abigail See, Peter J. Liu, and Christopher D. Manning.Get to the point: Summarization with pointer-generatornetworks.In Proceedings of the 55th Annual Meeting of the Associationfor Computational Linguistics (Volume 1: Long Papers), pages1073–1083. Association for Computational Linguistics, 2017.

Enlace: https://arxiv.org/pdf/1704.04368.pdf

Fernando Pech May Analisis de artıculo Noviembre 2018 2/46

Page 3: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Resumen

En este artıculo presentan una nueva arquitectura deaprendizaje profundo para la extraccion de resumenes,abstractivo, de texto en documentos no estructurados.

Fernando Pech May Analisis de artıculo Noviembre 2018 3/46

Page 4: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Tipos de generacion de resumenes

Procesamiento de lenguaje natural (PLN)

El procesamiento de lenguaje natural proporciona tecnicaspara el analisis y representacion del lenguaje humano

Con el PLN se puenden realizar tareas como:1 Analisis morfologico (POS)2 Reconocimiento de entidades nombradas (NER)3 Generacion de resumenes4 Segmentacion de texto5 Traduccion automatica6 Analisis de sentimientos7 Sistemas de dialogos, etc.

Este artıculo trata sobre lageneracion de resumenes

Fernando Pech May Analisis de artıculo Noviembre 2018 4/46

Page 5: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Tipos de generacion de resumenes

Resumen

Un resumen puede definirse como untexto producido de uno o mas textos,que contiene una porcion significati-va de la informacion respecto al textooriginal.

Fernando Pech May Analisis de artıculo Noviembre 2018 5/46

Page 6: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Tipos de generacion de resumenes

Resumen

Dos enfoques para la extraccion de resumen:

Abstractivo. Genera oracionesnuevas a partir del documentooriginal.

Extractivo. Seleccionafragmentos del texto original yluego los organiza para formarun resumen.

Conjunto de documentos D

d1 d2 d3 dn...

S1: Clasificación de sentencias

...c1 c2 c3 cm

S2: Generación de sentencias para el resumen

...c1 c2 c3 cm

Extractivo Abstractivo

...c1 c2 c3 cm

Sentencias

Fernando Pech May Analisis de artıculo Noviembre 2018 6/46

Page 7: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Tipos de generacion de resumenes

Resumen

La mayorıa de los enfoques sonextractivos. Implica seleccionary reorganizar oraciones deldocumento original.

El Abstractivo es muy complejopor el hecho de generar textodesde cero.

Este artıculo genera resumenabstractivo

Conjunto de documentos D

d1 d2 d3 dn...

S1: Clasificación de sentencias

...c1 c2 c3 cm

S2: Generación de sentencias para el resumen

...c1 c2 c3 cm

Extractivo Abstractivo

...c1 c2 c3 cm

Sentencias

Fernando Pech May Analisis de artıculo Noviembre 2018 7/46

Page 8: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Trabajos relacionados

Extractive Summarization using Deep Learning (2017)

Abstractive text summarization using sequence-to-sequencernns and beyond (2016)

SummaRuNNer: A Recurrent Neural Network Based SequenceModel for Extractive Summarization of Documents (2017)

A Deep Reinforced Model for Abstractive Summarization(2016)

Fernando Pech May Analisis de artıculo Noviembre 2018 8/46

Page 9: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Enfoques para la extraccion de resumenes

Metodos estadısticos

Basados en caracterısticas

Aprendizaje automatico

Logica difusa

Basado en grafos

Semantica Distribucional

LSA (Analisis de semantica latente)NMF (Factorizacion de matriz no-negativa)Word2Vec

Fernando Pech May Analisis de artıculo Noviembre 2018 9/46

Page 10: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Red Neuronal Artificial

Paradigma de programacion que permite auna computadora aprender de los datosobservados.

Compuesto por un gran numero de elementosde procesamiento interconectados y quetrabajan conjuntamente para resolver unproblema.

Fernando Pech May Analisis de artıculo Noviembre 2018 10/46

Page 11: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Red Neuronal Artificial

Conformado por 3capas

1 Capa deentrada

2 Capa oculta3 Capa de salida

...

x1

x2

x3

xn

X

Capa de entrada

...

Capa oculta Capa desalida

Y

Salidas

y1

y2

Red Neuronal

Fernando Pech May Analisis de artıculo Noviembre 2018 11/46

Page 12: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Red Neuronal Artificial (RNA)

Conformado por 3capas

1 Capa deentrada

2 Capa oculta3 Capa de salida

...

x1

x2

x3

xn

X

Entradas

...

Capa oculta

...

Capa desalida

Y

Salidas

y1

y2

Red Neuronal

Fernando Pech May Analisis de artıculo Noviembre 2018 12/46

Page 13: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Red neuronal artificial (RNA)

Inconvenientes:1 Numero

limitado decapas

2 Imposiblerepresentarproblemascomplejos

3 No es escalable

...

x1

x2

x3

xn

X

Entradas

...

Capa oculta

...

Capa desalida

Y

Salidas

y1

y2

Red Neuronal

Fernando Pech May Analisis de artıculo Noviembre 2018 13/46

Page 14: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Aprendizaje profundo

Las RNAs que consisten de mas de capas se le denominanredes neuronales profundasEl entrenamiento de las RNA profundas se denominaaprendizaje profundo

Fernando Pech May Analisis de artıculo Noviembre 2018 14/46

Page 15: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Aprendizaje profundo

El aprendizaje profundo son conjunto de tecnicas poderosaspara el aprendizaje en redes neuronales y con ella es posibleresolver problemas complejos de prediccion y clasificacion.Existen distintas metodos de aprendizaje profundo paraanalisis de imagenes, texto y sonido.

Fernando Pech May Analisis de artıculo Noviembre 2018 15/46

Page 16: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Aprendizaje profundo

Redes Neuronales recurren-tes (RNN)

Excelentes para el PLN

Construyen unarepresentacion vectorialpara cada token

Son redes con bucles quepermiten que lainformacion persista y soncapaces de manejar datossecuenciales

Redes Neuronales convolu-cionales (CNN)

Principalmente alprocesamiento deimagenes

Utilizado en vision porcomputadora

Se ha usado en PLN conexito

Fernando Pech May Analisis de artıculo Noviembre 2018 16/46

Page 17: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Red neuronal Recurrente -RNN

Este artıculo utiliza RNN.RNN tiene distintas versiones

1 La version simple

2 LSTM (Long Short Term Memory)

3 GRU (Gated Recurrent Units)

La diferencia entre ellas radica en la arquitectura de la unidad dememoria.

Fernando Pech May Analisis de artıculo Noviembre 2018 17/46

Page 18: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Red neuronal Recurrente simple

Xt-1

Ht-1

tanh

Xt

Ht

tanh

Xt+1

Ht+1

tanhcelda

Xt

Ht

H

a)

=

...

...

b)

Output

Input

Fernando Pech May Analisis de artıculo Noviembre 2018 18/46

Page 19: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

Red neuronal Recurrente simple

Problema:no guarda informacion de celdas anterioresSon incapaces de aprender a largo plazo

celda

X0

H0

celda

X2

H2

celda

X3

H3

celda

X1

H1

celda

X0

H0

celda

X1

H1

celda

X2

H2

celda

Xt

Ht

celda

Xt+1

Ht+1

...

a) b)

Francisco was born ... His mother tongue .... in child

Fernando Pech May Analisis de artıculo Noviembre 2018 19/46

Page 20: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

RNN-LSTM

Son RNN con memoria a largo plazo

Capaces de aprender dependencias a largo plazo, recordarinformacion por periodos largos de tiempo

Consta de cuatro capas que interactuan entre sı; esto permiteque recuerde dependencias a largo plazo.

Fernando Pech May Analisis de artıculo Noviembre 2018 20/46

Page 21: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

RNN-LSTM

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt

Yt

σ tanh Capas

Operaciones puntualesX +tanh

Fernando Pech May Analisis de artıculo Noviembre 2018 21/46

Page 22: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

RNN-LSTM

Es un estandar para distintas tareas de PLN... pero

Problema:no guarda informacion de celdas anterioresEs unidireccional, solo es capaz de conservar informacion delpasadoNo proporciona buenos resultados para NER, similitud ycontexto semantico

Fernando Pech May Analisis de artıculo Noviembre 2018 22/46

Page 23: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

RNN-LSTM

Por ejemplo, si se desea extraer el contexto de una entidad,solamente puede detectar el contexto izquierdo.

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

X1

H1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

Francisco was ... ...

Fernando Pech May Analisis de artıculo Noviembre 2018 23/46

Page 24: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

RNN-LSTM bidireccional

Se constituye de dos capas1 Una capa que aprende representaciones previas2 Otra que retrocede en el el tiempo, para aprender

representaciones futuras

Capaces de analizar oraciones hacia adelante (forward) yhacia atras (backward)

La primera capa analiza el texto hacia adelante →La segunda capa analiza texto hacia atras ←

Fernando Pech May Analisis de artıculo Noviembre 2018 24/46

Page 25: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Enfoques para la extraccion de resumenesAprendizaje profundo

RNN-LSTM bidireccional

CeldaLSTM

X0

H0

X0

H0

X0

H0

Francisco was born ...

X0

H0

Forward CeldaLSTM

CeldaLSTM

CeldaLSTM

CeldaLSTM

CeldaLSTM

CeldaLSTM

CeldaLSTMBackward

+ + + +

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

Celda LSTM

Fernando Pech May Analisis de artıculo Noviembre 2018 25/46

Page 26: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

...

Atte

ntio

nDi

strib

utio

n

<START>

VocabularyDistribution

Context Vector

Germany

a zoo

Partial Summary

"beat"

Germany emerge victorious in 2-0 win against Argentina on Saturday ...

Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text

Fernando Pech May Analisis de artıculo Noviembre 2018 26/46

Page 27: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

1 Leen el texto origen palabra por palabra, produciendo unasecuencia de estados ocultos encoder. La lectura de laentrada es bidireccional

2 Despues de leer todo el texto, el decoder genera una secuenciade palabras que debe formar un resumen.

...

<START> Germany

Partial Summary

Germany emerge victorious in 2-0 win against Argentina on Saturday ...

Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text

Fernando Pech May Analisis de artıculo Noviembre 2018 27/46

Page 28: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

En cada paso, el decoder recibe como entrada la palabraanterior del resumen y lo usa para actualizar el estado ocultodel decodificador y tambien se utiliza para calcular ladistribucion de la atencion (una distribucion de probabilidadsobre las palabras).

...

Atte

ntio

nDi

strib

utio

n

<START>

VocabularyDistribution

Context Vector

Germany

a zoo

Partial Summary

"beat"

Germany emerge victorious in 2-0 win against Argentina on Saturday ...

Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text

Fernando Pech May Analisis de artıculo Noviembre 2018 28/46

Page 29: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

Distribucion de atencion

Le dice a la red donde buscar para producir la siguiente palabraSe usa para producir una suma ponderada de los estadosocultos del codificador, conocido como vector de contexto.

...

Atte

ntio

nDi

strib

utio

n

<START>

VocabularyDistribution

Context Vector

Germany

a zoo

Partial Summary

"beat"

Germany emerge victorious in 2-0 win against Argentina on Saturday ...

Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text

Fernando Pech May Analisis de artıculo Noviembre 2018 29/46

Page 30: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

El vector de contexto y el el estado oculta del decoder seutilizan para calcular la distribucion del vocabulario

La distribucion del vocabulario es una distribucion deprobabilidad sobre todas las palabras en un vocabulario fijogrande.

...

Atte

ntio

nDi

strib

utio

n

<START>

VocabularyDistribution

Context Vector

Germany

a zoo

Partial Summary

"beat"

Germany emerge victorious in 2-0 win against Argentina on Saturday ...

Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text

Fernando Pech May Analisis de artıculo Noviembre 2018 30/46

Page 31: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

Esta arquitectura es una buena solucion para resumenextractivo

Pero es solo temporal

Problemas que los autores obtuvieron1 El resumen generado es inexacto (e.g. Germany beat

Argentina 3-2)2 Los resumenes se repiten (e.g. Germany beat Germany beat

Germany beat. . . )

Fernando Pech May Analisis de artıculo Noviembre 2018 31/46

Page 32: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

Motivos de la Inexactitud. Uso de seq2sec

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

X1

H1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

Francisco was ... ...Encoder

END

Vector

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt

Ht

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

He is ... ...Decoder

END

START

Fernando Pech May Analisis de artıculo Noviembre 2018 32/46

Page 33: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura -Seq2sec

Encoder. Convierte una

secuencia de sımbolos en

un vector de carac-

terısticas. Procesa pala-

bra por palabra y emite

un contexto.

Decoder. Genera una se-

cuencia de salida, una

palabra a la vez, mien-

tras mira el contexto y la

palabra anterior durante

cada paso del tiempo.

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

X1

H1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

Francisco was ... ...Encoder

END

Vector

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt

Ht

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

He is ... ...Decoder

END

START

Fernando Pech May Analisis de artıculo Noviembre 2018 33/46

Page 34: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura -Seq2sec

Motivo del problema 1El modelo seq2sec hace que sea

muy difıcil copiar una palabra w des-

de el texto de origen.

La red debe recuperar de algun mo-

do la palabra original despues de

que la informacion haya pasado por

varias capas.

si w es una palabra rara que aparecio

con poca frecuencia durante el en-

trenamiento, por lo tanto, tiene una

mala insercion de palabras. Lo hace

imposible reproducir.

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

X1

H1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

Francisco was ... ...Encoder

END

Vector

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt

Ht

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

He is ... ...Decoder

END

START

Fernando Pech May Analisis de artıculo Noviembre 2018 34/46

Page 35: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

Motivo del problema 2

La repeticion puede deberse a la dependencia excesiva deldecodificacion en la entrada del decoder (es decir, la palabrade resumen anterior).

Una sola palabra repetida comunmente desencadena un ciclorepetitivo sin fin.

Fernando Pech May Analisis de artıculo Noviembre 2018 35/46

Page 36: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Segunda propuesta -Solucion de problemas

Source Text

Germany emerge victorious in 2-0 win against Argentina on Saturday ...

...

<START>

Vocabulary Distribution

Context Vector

Germany

a zoo

beat

a zoo

Partial Summary

Final Distribution

"Argentina"

"2-0"

Atte

ntio

nDi

strib

utio

n

Enco

der

Hid

den

Stat

es

Decoder Hidden States

Fernando Pech May Analisis de artıculo Noviembre 2018 36/46

Page 37: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Segunda propuesta -Solucion de problemas

Se calcula la probabilidad de generacion pgen

Source Text

Germany emerge victorious in 2-0 win against Argentina on Saturday ...

...

<START>

Vocabulary Distribution

Context Vector

Germany

a zoo

beat

a zoo

Partial Summary

Final Distribution

"Argentina"

"2-0"

Atte

ntio

nDi

strib

utio

n

Enco

der

Hid

den

Stat

esDecoder H

idden States

Fernando Pech May Analisis de artıculo Noviembre 2018 37/46

Page 38: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Segunda propuesta -Solucion de problemas

Probabilidad de generacion

Representa la probabilidad de generar una palabra del vocabulario, enlugar de copiar una palabra de la fuente

Se utiliza para ponderar y combinar la distribucion del vocabulario(pgen), que es para generar w y la distribucion de la atencion (a), que espara senalar el origen w .

Esto da una distribucion final Pfinal .

Vocabulary Distribution

Context Vector

a zoo

a zoo

Final Distribution

"Argentina"

"2-0"

Atte

ntio

nDi

strib

utio

n

Fernando Pech May Analisis de artıculo Noviembre 2018 38/46

Page 39: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Segunda propuesta -Solucion de problemas

La formula de la distribucion final indica:

La probabilidad de producir la palabra w ≡ probabilidad de generarla apartir del vocabulario (multiplicada por la probabilidad de generacion) +la probabilidad de senalarla en cualquier lugar que aparezca en el texto deorigen (multiplicada por la probabilidad de copia) .

Vocabulary Distribution

Context Vector

a zoo

a zoo

Final Distribution

"Argentina"

"2-0"

Atte

ntio

nDi

strib

utio

n

Fernando Pech May Analisis de artıculo Noviembre 2018 39/46

Page 40: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Segunda propuesta -Solucion de problemas

1 Facilita la copia de palabras del texto de origen. La redsimplemente necesita poner suficiente atencion en la palabrarelevante y hacer un pgen suficientemente largo.

2 Es capaz de copiar palabras fuera de vocabulario del texto deorigen.

3 Es mas rapido de entrenar respecto al seq2sec.

4 Se puede combinar abstraccion y extraccion en el resumen

Hasta ahora, solo solucional el problema de inexactitud.

Fernando Pech May Analisis de artıculo Noviembre 2018 40/46

Page 41: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Solucion de resumenes repetidos

Utilizan una tecnica llamada coberturaIdea. Usar la distribucion de atencion para hacer unseguimiento de lo que se ha cubierto hasta ahora, y penalizar ala red por atender a las mismas partes nuevamente.En cada paso del tiempo t del decoder, el vector decobertura c t es la suma de toda la distribucion de atencion

at . c t =t−1∑t′=0

at′

Fernando Pech May Analisis de artıculo Noviembre 2018 41/46

Page 42: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Solucion de resumenes repetidos

La cobertura de una palabra fuente particular es igual a lacantidad de atencion que ha recibido hasta ahora

Fernando Pech May Analisis de artıculo Noviembre 2018 42/46

Page 43: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Solucion de resumenes repetidos

Utilizan perdida adicional para penalizar cualquiersuperposicion entre el vector de cobertura ct y la nuevadistribucion de atencion at

Fernando Pech May Analisis de artıculo Noviembre 2018 43/46

Page 44: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Metricas

ROUGE. Benchmark para evaluar aplicaciones de resumenesautomaticos y traduccion automatica.

METEOR. Metricas de evaluacion de traduccion automatica.

Usan 256 dimensiodes de estados ocultos y 128 dimensionesword embedding

50k palabras de vocabulario

Fernando Pech May Analisis de artıculo Noviembre 2018 44/46

Page 45: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Resultados

Fernando Pech May Analisis de artıculo Noviembre 2018 45/46

Page 46: An alisis de Art culo: Get To The Point: Summarization with …rios.tecnm.mx/cdistribuido/recursos/AnalisisPaper.pdf · 2020-04-01 · Resumen Introducci on Trabajos relacionados

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

¿Preguntas?

CÓMPUTODistribuidoC A Cuerpo Académico

Fernando Pech May Analisis de artıculo Noviembre 2018 46/46