Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula...
-
Upload
carlitos-resendez -
Category
Documents
-
view
0 -
download
0
Transcript of Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula...
![Page 1: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/1.jpg)
Categorización de documentos del Centro Virtual Cervantes
Fernando García
Eddy Rodriguez
Paula Zitinski
![Page 2: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/2.jpg)
Introducción del proyecto
Clasificación de las páginas web del Centro Virtual Cervantes
La clasificación actual - incompleta: Música Enseñanza Artes Literatura Lengua
![Page 3: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/3.jpg)
Alcance
Crear un clasificador que se pueda aplicar a las páginas del CVC
Este clasificador tendrá que cumplir los siguientes requisitos: Entrada desde un fichero de texto Salida a una base de datos Usar, en la medida posible, distintos frameworks La clasificación debe producirse sin (demasiados)
errores Debe terminar en tiempo aceptable
![Page 4: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/4.jpg)
Entorno software
1. Eclipse (Java) Entorno de desarrollo integrado de código
abierto
![Page 5: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/5.jpg)
2. Lucene es un framework de código abierto para
recuperación de información Búsqueda de palabras en documentos Problema – analizador en inglés
Solución – adaptación de la librería a través de un fichero externo (300 palabras)
![Page 6: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/6.jpg)
3. SVN Sistema de control de versiones Compatible con Eclipse
![Page 7: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/7.jpg)
4. Google code Espacio web para el almacenamiento de proyectos
de código abierto Página web:
http://code.google.com/p/proyectoil2010
![Page 8: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/8.jpg)
5. JUnit Librerías de código para hacer pruebas unitarias y
de integración
![Page 9: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/9.jpg)
6. Jericho HTML Parser
Librería de Java para el tratamiento de páginas web
Al final no lo utilizamos – sacaba información irrelevante
![Page 10: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/10.jpg)
Sistema desarrollado
Estructura general del proyecto
![Page 11: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/11.jpg)
Ficheros de entrada: Base – páginas web, ya categorizadas SpanishSmart – lista de palabras ruido Test – páginas web no clasificadas
Salida del programa: Base de datos
![Page 12: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/12.jpg)
Objetos del proyecto (despliegue)
![Page 13: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/13.jpg)
Lista de funcionalidades de la aplicación hasta el momento
![Page 14: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/14.jpg)
![Page 15: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/15.jpg)
![Page 16: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/16.jpg)
![Page 17: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/17.jpg)
Pendiente de desarrollo
Cambiar el modo de introducción de páginas web a categorizar
Implementar la función de similitud Implementar el almacenamiento de resultados Calcular la validez del código (JUnit)
![Page 18: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/18.jpg)
Bibliografía
Código de nuestra página web: http://proyectoil2010.googlecode.com/svn/trunk
http://junit.sourceforge.net http://www.adictosaltrabajo.com http://www.googlecode.com http://lucene.apache.org http://www.ibm.com/developerworks/opens
ource/library/os-ecl-subversion http://jericho.htmlparser.net
![Page 19: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.](https://reader036.fdocuments.in/reader036/viewer/2022081602/54cff4c649795911798b4cce/html5/thumbnails/19.jpg)
¡Ahora, vosotros!