Evaluación de sistemas de monitorización de contenidos generados por usuarios
-
Upload
damiano-spina-valenti -
Category
Documents
-
view
177 -
download
0
description
Transcript of Evaluación de sistemas de monitorización de contenidos generados por usuarios
![Page 1: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/1.jpg)
Evaluación de sistemas de monitorización de contenidos generados por usuarios
Enrique Amigó, Damiano Spina
Grupo PLN y RI de la UNED
{enrique,damiano}@lsi.uned.es
nlp.uned.es
Bernardino Beotas
Grupo ALMA
www.grupoalma.com
Workshop on Opinion Mining and Sentiment AnalysisCAEPIA 2009
Sevilla, España
![Page 2: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/2.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Evaluación de sistemas de monitorización de contenidos generados por usuarios (UGCs)
Introducción
› Gestión de reputación online
› Informe de monitorización
Estado del arte
› Modelos para la monitorización de temas
› Evaluación de modelos
Propuesta de metodología de evaluación
Conclusiones y posibilidades futuras
![Page 3: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/3.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Contenido Generado por Usuario
› User Generated Content (UGC)
› Blogs, Foros, Sitios de valoraciones, redes sociales
UGCs y Gestión de reputación online
![Page 4: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/4.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Contenido Generado por Usuario
› User Generated Content (UGC)
› Blogs, Foros, Sitios de valoraciones, redes sociales
Gestión de la reputación online (Online Reputation Management, ORM)
› Auditoría de imagen
Fotografía: la entidad en la Web
› Monitorización
Alertas
Análisis continuo
› Definición de Estrategia
Participación en las conversaciones
Generación de Contenido
UGCs y Gestión de reputación online
![Page 5: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/5.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Contenido Generado por Usuario
› User Generated Content (UGC)
› Blogs, Foros, Sitios de valoraciones, redes sociales
Gestión de la reputación online (Online Reputation Management, ORM)
› Auditoría de imagen
Fotografía: la entidad en la Web
› Monitorización
Alertas
Análisis continuo
› Definición de Estrategia
Participación en las conversaciones
Generación de Contenido
UGCs y Gestión de reputación online
![Page 6: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/6.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Monitorización de la reputación online
UGCs
![Page 7: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/7.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Monitorización de la reputación online
UGCs
Informe de monitorización
![Page 8: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/8.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
El informe de monitorización
Informe de monitorización› Opiniones más relevantes en un intervalo de tiempo
› Estructurado por fuentes
› Referencias a los documentos
![Page 9: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/9.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
El informe de monitorización
Informe de monitorización› Opiniones más relevantes en un intervalo de tiempo
› Estructurado por fuentes
› Referencias a los documentos
Relevancia de un documento› Polaridad a nivel de reputación
"Las acciones de X han bajado un 40%"
› Autoridad de la fuente
Nº de comentarios, posicionamiento en buscadores, nº de visitas…
› Novedad
› Propagabilidad
![Page 10: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/10.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
![Page 11: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/11.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
![Page 12: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/12.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
![Page 13: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/13.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Opinión Factual
Monitorización: ¿Qué tienen en cuenta los expertos?
![Page 14: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/14.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Ambigüedad (IR)
Subjetividad
Polaridad
Frecuencia
Temas
Temporalidad
Autoridad
Opinion Mining & Sentiment Analysis
TREC Blog Track, MOAT NTCIR
SemEval2007
Swotti
Feature-basedOpinion mining
Monitorización: ¿Qué tienen en cuenta los expertos?
Opinión Factual
![Page 15: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/15.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Ambigüedad (IR)
Subjetividad
Polaridad
Frecuencia
Temas
Temporalidad
Autoridad
Opinion Mining & Sentiment Analysis
Análisis de la blogosfera
BlogPulse, Technorati
HerramientasSEO
Monitorización: ¿Qué tienen en cuenta los expertos?
Opinión Factual
![Page 16: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/16.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Ambigüedad (IR)
Subjetividad
Polaridad
Frecuencia
Temas
Temporalidad
Autoridad
Opinion Mining & Sentiment Analysis
Análisis de la blogosfera
Monitorización de temas
distribución de términos,modelos probabilísticos
Monitorización: ¿Qué tienen en cuenta los expertos?
Opinión Factual
![Page 17: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/17.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Ambigüedad (IR)
Subjetividad
Polaridad
Frecuencia
Temas
Temporalidad
Autoridad
Opinion Mining & Sentiment Analysis
Análisis de la blogosfera
Monitorización de temas
Informe de monitorización
Monitorización: ¿Qué tienen en cuenta los expertos?
Opinión Factual
![Page 18: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/18.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Ambigüedad (IR)
Subjetividad
Polaridad
Frecuencia
Temas
Temporalidad
Autoridad
Opinion Mining & Sentiment Analysis
Análisis de la blogosfera
Monitorización de temas
Informe de monitorización
Monitorización: ¿Qué tienen en cuenta los expertos?
Opinión Factual
![Page 19: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/19.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Opinión Factual
Ambigüedad (IR)
Subjetividad
Polaridad
Frecuencia
Temas
Temporalidad
Autoridad
Opinion Mining & Sentiment Analysis
Análisis de la blogosfera
Monitorización de temas
Informe de monitorización
Monitorización: ¿Qué tienen en cuenta los expertos?
![Page 20: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/20.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Ambigüedad (IR)
Subjetividad
Polaridad
Frecuencia
Temas
Temporalidad
Autoridad
Opinion Mining & Sentiment Analysis
Análisis de la blogosfera
Monitorización de temas
Informe de monitorización
Monitorización: ¿Qué tienen en cuenta los expertos?
Opinión Factual
![Page 21: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/21.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Requisitos del problema
Requisitos› Agregación
Identificación de temas tratados en las opiniones
Conocer los temas nuevos y las tendencias
› Temporalidad
Identificación de fenómenos temporales
Novedad
› Interpretabilidad
Interpretar los temas identificados
› Accesibilidad
Exploración de documentos asociados a los temas
Selección de documentos para el informe de monitorización
![Page 22: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/22.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Estado del arte
Modelos para la monitorización de temas› Tema ≈ término
tfcidf (Gruhl et al., 2004)
› Tema ≈ variable oculta en una red bayesiana
pLSI (Chou & Chen, 2008)
Mixture models (Mei et al., 2006)
Topics Over Time (Wang & McCallum, 2006)
Dynamic Topic Model (Blei & Lafferty, 2006)
Multiscale Topic Tomography (Nallapati et al., 2007)
![Page 23: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/23.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Estado del arte
Metodologías de evaluación› Evaluación cualitativa de los resultados
Subjetiva
No permite comparar modelos
› Evaluación intrínseca
No permiten evaluar todos los requisitos
Métricas de clustering
Perplejidad -> sólo modelos probabilísticos
› Evaluación extrínseca
Temas extraídos automaticamente vs. Temas extraídos manualmente– Gold standard para subtemas
Topic Detection and Tracking (TDT) – Centrada en eventos periodísticos
– documento-evento: relación uno-a-uno
![Page 24: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/24.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Propuesta de metodología de evaluación
Métricas: › Temporalidad y agregación
› Accesibilidad
› Capacidad predictiva e Interpretabilidad
P(x|y): distribución de probabilidad de x dada una instancia de la variable y.
![Page 25: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/25.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Métrica 1: Temporalidad
Identificación de fenómenos temporales
Documentos conectados por un tema deberían de estar temporalmente próximos
Dos documentos están conectados si hablan de un mismo tema
: Distancia temporal entre los documentos d y d’
![Page 26: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/26.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Métrica 2: Agregación
Capacidad de agrupar documentos que comparten un mismotema
Documentos explícitamente relacionados deberían de compartir temas
Relaciones explícitas:› Fuente
› Autor
› Enlaces
<da,da> : explícitamente relacionados<db,dc> : no explícitamente relacionados
’
’
![Page 27: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/27.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Métrica 3: Accesibilidad
Capacidad de dar acceso a los n documentos más relevantesde cada tema
Anotación de los expertos
Curvas de precisión y cobertura
: conjunto de los n documentos con mayor P(d|θ) de cadatema
: conjunto de documentos relevantes según el experto
![Page 28: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/28.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Métrica 4: Capacidad predictiva
Capacidad de predecir el comportamiento de los temas en un futuro próximo
P(t|θ)
Evaluación indirecta (Wang & McCallum, 2006)
› Un modelo capaz de predecir la fecha de un documento tiene más capacidad predictiva en general
› P(t|d)
![Page 29: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/29.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Métrica 5: Interpretabilidad
Capacidad de generar temas interpretables por el usuario
P(w| θ)
No es posible anotar manualmente todas las palabrasrepresentativas posibles
Evaluación manual con usuarios de prueba
![Page 30: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/30.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Conclusiones
Factores importantes para la
monitorización de la reputación online› autoridad, polaridad, novedad, propagabilidad
› Contenido Generados por Usuarios (UGCs)
Esbozo de una metodología de evaluación› Comparar modelos de monitorización de temas
› Temporalidad y agregación
› Accesibilidad
› Capacidad predictiva e interpretabilidad
![Page 31: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/31.jpg)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es
Grupo ALMAwww.grupoalma.com
Posibilidades futuras
Aplicar métricas a modelos existentes de monitorización de temas (temporalidad y agregación)
Definir un modelo que tenga en cuenta la autoridad de lasfuentes
Definir una metodología de anotación para aplicar la métricade accesibilidad
Aplicación de las métricas capacidad predictiva e interpretabilidad› Definición de interfaces de usuario comunes para los modelos
existentes
![Page 32: Evaluación de sistemas de monitorización de contenidos generados por usuarios](https://reader031.fdocuments.in/reader031/viewer/2022013101/559a52001a28abe9788b456b/html5/thumbnails/32.jpg)
Evaluación de sistemas de monitorización de contenidos generados por usuarios
Enrique Amigó, Damiano Spina
Grupo PLN y RI de la UNED
{enrique,damiano}@lsi.uned.es
nlp.uned.es
Bernardino Beotas
Grupo ALMA
www.grupoalma.com
Workshop on Opinion Mining and Sentiment AnalysisCAEPIA 2009
Sevilla, España
¡Muchas gracias!