Recuperacion de la Informacion y tecnicas de social bookmarking

Informe Técnico - Technical ReportDPTOIA-IT-2008-01

diciembre, 2008

Recuperación de la Información y Técnicas deSocial Bookmarking

Creada por Beatriz del Carmen Pacheco Fortínez

Revisada por Carlos García Figuerola

Departamento de Informática y Automática

Universidad de Salamanca

Revisado por:Carlos G. FiguerolaVivian F. LópezEladio SanzAngel Luis SánchezDepto. de Informática y Automática,Universidad de Salamanca.

Aprobado en el Consejo de Departamento del 10 de diciembre 2008.

Información de los Autores:

Beatriz Pacheco Fortínez

Estudiante del Master en Sistemas Inteligentes

Depto. de Informática y Automática

Facultad de Ciencias -Universidad de Salamanca

Plaza de la Merced S/N 37008 -Salamanca-

[email protected]

Carlos García Figuerola

Informática y Automática Facultad de Ciencias

Universidad de Salamanca

[email protected]

Este documento puede ser libremente distribuido.(c) 2008 Departamento de Informática y Automática - Universidad deSalamanca.

Resumen

El campo de la recuperación de la información en la actualidad se orientahacia esquemas colaborativos de recuperación, teniendo como foco de interés alusuario en su dimensión de consumidor de información tanto como generadorde la misma. Los sistemas de social bookmarking emergentes de la Web 2.0,Delicious como caso de estudio, brinda al usuario de búsquedas especí�cas yavanzadas una gamma de herramientas que faciliten la búsqueda, organizacióny categorización de la información. Se desarrollan las técnicas de bookmarking,que por medio de tags o etiquetas identi�can recursos y enlaces del interés in-dividual y colectivo. Surgen las folksonomías que clasi�can la información demanera �exible puesto que se dejan de lado las estructuras formales de clasi�-cación antes usadas.Esta nueva clase de esquema le da al usuario poder en elmanejo de información, selecciona sus fuentes y �ltra sus resultados con criterioshumanos apoyados en el proceso algorítmicos previo, sustentando la base socialde Internet.

Abstract

Nowdays, the information retrieval's �eld is oriented to collaborative schemes,they are focus in the user as a information consumer and producer. Bookmarkingsystems provide to the user tools for the searching, organization and clasi�cationof the information. It's been developed tagging techniques that identify sourcesand links of interest for the individual and colective use. Emerge the conceptof Folksonomy that classi�es the information in a �exible way and not formalstructure which it's understood by the user community. This kind of schemegives to the user management and power over the information, he selects and�lters his sources with human criteria far from the old fashion way that it wasused to, this is based on the social sense of internet.

DPTOIA-IT-2008-01 i

Índice general

Índice de �guras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii

Indice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv

1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. Aspectos Generales de Recuperación de Información . . . . . . . . . . . 11.2. Alcances y Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3. Estructura del Trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2. Esquema Clásico de la Recuperación de Información . . . . . . . . . . . . . . . . 32.1. Marco Teórico de la RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2. Taxonomía y Modelos de la RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3. Semántica de la Web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Tendencias Colaborativas en el Campo de la Recuperación deInformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.1. Web 2.0, nuevos paradigmas para la recuperación de la

información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.2. Semánticas Sociales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.3. Taxonomías vs. Folksonomías . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.4. Nuevos Modelos de Recuperación Utilizando el Conocimiento

Colectivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.5. Delicious, Servicio de Bookmarking . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.5.1. Antecedentes de Delicious . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.5.2. Uso de Delicious, Perspectiva de Usuario . . . . . . . . . . . . . . . . 183.5.3. Evaluando los Servicios de Bookmarking . . . . . . . . . . . . . . . . 22

4. Futuros Trabajos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225. Conclusiones y Tendencias Actuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Índice de �guras

1. Etapas del proceso clásico RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42. Esquema Clásico RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53. Descripción de la Arquitectura Google. . . . . . . . . . . . . . . . . . . . . . . . . . . . 84. Modelo de la Web Semántica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95. Concepto visual de la segmentación por bloques . . . . . . . . . . . . . . . . . . . . 96. Directorio de Servicios Web 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117. Esquema de los Servicios Bookarking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158. Directorio de Servicios Bookmarking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169. Visualización de nube de etiquetas en Delicious . . . . . . . . . . . . . . . . . . . . 1710. Registro y Acceso a cuenta Delicious. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1811. Barra de herramientas Delicious. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1912. Opciones para Bookmarks en Delicious. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2013. Almacenamiento de registro para bookmark . . . . . . . . . . . . . . . . . . . . . . . 2014. Subscripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2115. Opciones de búsqueda avanzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Indice de tablas

1. Herramientas de Búsqueda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72. Características de la Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123. Herramientas de Delicious . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

B. Fortínez et al

1. Introducción

1.1. Aspectos Generales de Recuperación de Información

La recuperación de la información (RI por sus siglas en español) es tan an-tigua como la civilización misma, ya desde los sumerios contamos con sistemasde almacenamiento y clasi�cación de información para su posterior recuperaciónde acuerdo a las necesidades informativas del usuario. La recuperación de la in-formación, en su concepción actual, es un sistema de extracción de documentosen formato electrónico relevantes a una temática especí�ca, por medio de téc-nicas y modelos algorítmicos. Surge en la década de los años cincuenta con losprimeros sistemas RI experimentales aplicados a los catálogos de biblioteca ya colecciones documentales reducidas, dichos sistemas en los últimos cuarentaaños han madurado notablemente en técnica y en el desarrollo de modelos debúsquedas[1]. Actualmente se dispone de diferentes Sistemas RI como: Motoresde búsqueda; Directorios y Meta buscadores, diariamente utilizados en la web. Laefectividad de los Sistemas RI se mide de acuerdo los conceptos de Exhaustivi-dad y Presición [2]. En ambas medidas se toma como referencia la relevancia deldocumento. El concepto de relevancia es asociado al criterio humano de clasi�-cación categórica y jerárquica. De tal forma que el proceso cognitivo de búsqueday selección de información sea más sencillo para el usuario. Este mecanismo esutilizado en los Directorios o webguides (por ejemplo los directorios de Yahoo![3]y de Google[4]). Donde los especialistas realizan una clasi�cación manual de lainformación. El esquema clásico de la RI distingue la importancia del desarrollode técnicas y modelos algorítmicos[5] cada vez más e�cientes, posibles graciasa la evolución de los componentes tecnológicos que propician el desarrollo deherramientas y servicios de mayor rapidez, dando pie a que emerjan actividadescolaborativas. Despertando el interés de la comunidad de usuarios las cualescomparten y desarrollan conocimientos mediante diversidad de servicios exis-tentes en la web, para ser más puntuales hablamos de los servicios de la Web 2.0o llamada también web social. Se promueve la participación activa del usuarioen el mundo virtual de Internet: Foros; Blogs; Wikis[6]; redes sociales; etiqueta-dos colaborativos; bibliotecas digitales y folksonomías. Han de�nido a la nuevageneración de servicios de la Informática Colaborativa, donde existe un traba-jo de cooperación de los individuos para potenciar la inteligencia colectiva y lacontribución humana en los Sistemas RI, que dicho sea de paso esta asociado aotras disciplinas recientes en el campo de las ciencias computacionales, Interac-ción Hombre-Máquina (IHM) y visualización de la información (VI). Las cualescontribuyen en el tratamiento e interfaz de información presentada al usuario.

1.2. Alcances y Objetivos

Se pretende el estudio del estado del arte de las tendencias colaborativas en laweb. Realizando un análisis comparativo entre los esquemas clásicos de RI y las

DPTOIA-IT-2008-01 1

RI y Técnicas de Social Bookmarking

nuevas técnicas y herramientas de recuperación presentes en Internet. Ademásse busca establecer la relación entre los métodos tradicionales y las folksonomías,utilizando los �ltros considerados por la comunidad web. Integrando lo mejor deambas metodologías. El objetivo principal de esta investigación es explorar losservicios de la Web 2.0 para la RI y la utilización conjunta de estos servicioscon los esquemas tradicionales, con el �n de que los usuarios maximicen el usode las herramientas a disposición, haciendo énfasis en las herramientas de eti-quetado colaborativo y el surgimiento de las folksonomías en contraste con lastaxonomías clásicas de recuperación. La realización de este objetivo se llevará acabo mediante los siguientes puntos:

Realizar la revisión bibliográ�ca de la Web 2.0 en el campo de la recuperaciónde la información, investigar el estado del arte y estudiar las propuestasactuales.Revisar los mecanismos y herramientas de búsqueda y recuperación de in-formación basadas en el conocimiento de la comunidad digital, caso concretosocial bookmarking.Comparar las taxonomías tradicionales con las folksonomías y técnicas co-laborativas de recuperación de información.

1.3. Estructura del Trabajo

La revisión bibliográ�ca se divide en dos partes. La primera parte es una des-cripción de los aspectos generales de la Recuperación de Información en el esque-ma clásico, tal como es tradicionalmente conocido y estudiado. Se hace un breverepaso de los conceptos fundamentales partiendo de su de�nición más acertadade los sistemas de RI; características y etapas del proceso de recuperación; hace-mos una revisión a las taxonomías y modelos. En la segunda parte, se presentanlas herramientas de Social bookmarking o Anotaciones Colaborativas los cualesrecolectan de los usuarios y de las redes sociales el conocimiento que ha sido clasi-�cado previamente por ellos, la importancia es el �ltro humano de la informacióny la construcción del conocimiento colectivo. Se introduce el concepto de folk-sonomías en el campo de la recuperación de la información. Las clasi�cacionesson realizadas por medio de votaciones y elecciones de la comunidad virtual, lascuales no siempre cumplen con las técnicas formales de ranking de información.Por lo que la tendencia a la utilización de servicios de social bookmarking escada vez más popular, dada la �exibilidad y facilidad de organización y accesode la información. El auge del etiquetado de enlaces ha marcado un fenómenoen la búsqueda de información, una forma de etiquetar, almacenar y recuperarcontenidos web que ya han sido valorados por otros usuarios. La dimensión socialque suponen los servicios de Social Bookmarking, ofrecen mayores expectativas ala hora de realizar búsquedas más exitosas y puntuales de acuerdo a la necesidadinformativa. La subjetividad de estas tecnologías permite �exibilidad de acceso einnovación en las tareas de recuperación de la información web.La integración de

2 DPTOIA-IT-2008-01

B. Fortínez et al

motores de búsqueda a los servicios de Social Bookmarking potencian búsquedasy recuperación de información efectivas, además de establecer paradigmas cadavez mas �exibles y efectivos para la comunidad de usuarios.

2. Esquema Clásico de la Recuperación de Información

2.1. Marco Teórico de la RI

Las necesidades informativas humanas se vuelven cada vez más complejas yexigentes en el mundo actual, se tiene a disposición una gran cantidad de datosy colecciones documentales la mayoría de ellas existentes en Internet, por lo queel desarrollo de sistemas orientados a la recuperación de información en mediosdigitales ha ido cobrando auge ya desde hace medio siglo. Diferentes investi-gadores han hecho sus aportes en este campo de la informática, con la creaciónde algoritmos y técnicas tanto de almacenamiento como de recuperación de infor-mación. El propósito de un sistema de Recuperación de Información es recolectarla mayor cantidad de documentos relevantes, para la consulta realizada por unusuario. En su concepción clásica un Sistema de Recuperación de Informaciónse de�ne como el proceso de búsqueda de una colección de documentos con el�n de identi�car el documento que se relaciona con la consulta. Sin embargose ha de establecer la diferencia entre un Sistema RI y un Sistema Question -Answering[1]. Pues el propósito del primero, como se ha mencionado en un prin-cipio cumple la tarea de encontrar información más que contestar preguntas. Larecuperación de información realiza la selección de documentos relacionados conla consulta y se recuperan los que mejor coincidan con ella, el problema centrales determinar la relevancia del documento dentro de la colección de documentosrecuperada. Algunas de las características de la Recuperación de informaciónson:

La fundamentación de los sistemas RI es mediante términos índices y pala-bras claves.Filtro documental a través de la relevancia de los documentos, determinadopor el posicionamiento del documento, ejemplo: pagerank.

El proceso de recuperación de información tiene las etapas, �gura 1. Las pági-nas web y los recursos son indexados y clasi�cados por técnicas formales. LosCrawlers1 ejecutan la tarea de rastrear la información a través de toda la red deInternet, clasi�cándolos. Los motores de búsqueda y los directorios por medio deinterfacesamigables que permiten al usuario introducir su búsqueda, por mediode palabras claves a partir de las cuales las diferentes técnicas algorítmicas rea-lizan la selección de documentos de acuerdo a la necesidad informativa intro-ducida por el usuario. La presentación de datos es desplegada en una lista de1 es un programa que inspecciona las páginas del World Wide Web de forma metódicay automatizada.

DPTOIA-IT-2008-01 3


resultados que dependen del ranking de la página web, según la consulta real-izada. Los resultados son presentados tomando en cuenta el posicionamiento delenlace, mostrando una colección de documentos que serán en última instanciaevaluados por el usuario según la utilidad considerada.

Figura 1. Etapas del proceso clásico RI

A partir de cada una de las etapas anteriores, se de�ne el esquema clásico deinteracción entre el usuario y el sistema RI basado en el paradigma de relaciónentre un query o consulta y el método de recuperación, �gura 2. Donde el interésradica en el número de documentos relevantes extraídos en la recuperación. Entremayor sea el número de documentos relevantes y mínimo el número de documen-tos no relevantes se considera la efectividad del paradigma. De ahí observamosel creciente interés por el desarrollo de mejores técnicas algorítmicas de recu-peración. Sin embargo cabe preguntarse si en realidad este esquema satisface lanecesidad informativa del usuario[5].

Las limitaciones del esquema anterior, utilizado en décadas anteriores, mejo-ran en la actualidad poniendo el foco de interés en los patrones y comportamien-tos de búsqueda por parte del usuario. La investigación de estos patrones em-plea a las ciencias cognitivas para descubrir las características relevantes de losjuicios realizados por los usuarios referentes a la RI. Se puede notar que diver-sas disciplinas psicológicas, sociológicas y antropológicas están involucradas en

4 DPTOIA-IT-2008-01

B. Fortínez et al

Figura 2. Esquema Clásico RI

la reestructuración del paradigma de RI en conjunto con otras disciplinas delas ciencias computacionales la Interacción Hombre - Máquina (IHM) y Visua-lización de la Información (VI). Se busca la integración entre el usuario y lamáquina, desarrollando un esquema que sea entendido por ambos componentes.

2.2. Taxonomía y Modelos de la RI

Dentro de las herramientas de búsquedas de consultas se distinguen los mode-los clásicos de recuperación de documentos indexados y clasi�cados en la web[7],accesibles al usuario mediante motores de búsqueda, Directorios y Meta bus-cadores. Se identi�ca en la taxonomía clásica de la RI:

Modelo BooleanoModelo VectorialModelo Probabilístico

De los tres modelos mencionados, el modelo vectorial[8] goza de la mayorpopularidad en la comunidad web y entre los investigadores. Una de las ventajases el desempeño en la recuperación de información sobre los demás modelos. Cadadocumento es representado por un vector de n dimensiones cuyos componentesson los términos que aparecen en el texto, Di (di1, di2,�,dik); dik representa elpeso para los términos Tk contenidos en el documento Di. Los términos puedenser palabras, frases derivadas del documento de texto por algún procedimientode indexación automática, el peso de los términos son calculados tomando encuenta las características ocurridas de los términos en el documento individualy en la colección de documentos. Los resultados del modelo vectorial están enfunción del grado de similitud entre los documentos y la consulta. Los demásmodelos de recuperación han sido estudiados con anterioridad por autores comoBaeza[2,5], donde se encuentran la descripción de sus mecanismos, ya que elpropósito del presente trabajo es una revisión de los aspectos generales de larecuperación de información en su esquema clásico, realizo a continuación unabreve descripción de ellos.

El modelo booleano es de los métodos de recuperación más simples, esta fun-damentado en el algebra de Boole y en la teoría de conjuntos. El modelo crea

DPTOIA-IT-2008-01 5


una expresión booleana para formalizar la consulta. Se utilizan los operadoresbooleanos AND, OR, y NOT. La relevancia de los documentos recuperados de-penderá de la operación booleana realizada para la consulta. El modelo proba-bilístico fue introducido en el 1976 por Robertston y Sparck Jones[9], calculala probabilidad de que un documento sea relevante o no, se hace mediante lafórmula P (relevancia)= m/ N; m es el conjunto de documentos relevantes y Nel conjunto de todos los documentos. El modelo fundamentalmente opera sobreun conjunto ideal de respuestas, dicha colección contiene los documentos rele-vantes, dada la consulta del usuario, el modelo trata de estimar la probabilidadde que se encuentre el documento en ese conjunto. La taxonomía de los modelosclásicos de recuperación dan pie a las nuevas tendencias de recuperación: rele-vance feedback, recuperación basada en el lenguaje natural, redes de inferenciay los basados en la lógica difusa las cuales están aun en etapa de investigacióny experimentación.

En la RI debemos considerar no solo el desarrollo de los modelos de recu-peración sino que también la estructura de la información. De ello depende que elproceso de extracción de documentos sea rápido y fácil de realizar. La estructurade la información en la actualidad es uno de los problemas fundamentales queenfrenta la RI. La estructura de la información se discute en la siguiente sección.Para realizar las tareas de recuperación, disponemos de técnicas y de herramien-tas. Dentro de las técnicas identi�camos los motores de búsqueda, Directorios yMeta buscadores que a través de los navegadores de Internet (por ejemplo In-ternet Explorer, Mozilla Firefox) localizan la información. Existen dos métodospara localizar información: Browsing y Searching [2], ambos utilizan herramien-tas de búsqueda como las descritas en la tabla 1. El trabajo colaborativo es deimportancia en esta actividad controla las actividades realizadas por los demásusuarios de la red, mejor visualización de la información y promueve la efecti-va comunicación del proceso de búsqueda. De las herramientas disponibles enla red de redes, resaltamos los motores de búsqueda; Directorios y los Metabuscadores[10].

De las herramientas de búsqueda anteriores, la innovación de Google[11] enla búsqueda lo convirtió rápidamente en el indiscutible líder del mercado de labúsqueda, fue PageRank el método para usar la propia estructura de los enlacesde la web para proporcionar mejores resultados de búsqueda, en lugar de usarsólo las características de los documentos.

Google[12] esta diseñado para ser un motor de búsqueda escalable, la metaprimaria es proveer de una búsqueda de alta calidad en los resultados sobreel incremento de la rapidez en Internet. Mas allá de ello, google es una arqui-tectura completa para explorar páginas web, indexarlas y ejecutar consultas debúsquedas sobre ellas. La arquitectura de crawling en Google, �gura 3, es rea-lizado por crawlers distribuidos. Los cuales gestionan el manejo y depósito deURL's2 que serán identi�cados por un docID que servirá para administrar los

2 URL,Uniform Resource Locator

6 DPTOIA-IT-2008-01

B. Fortínez et al

Tabla 1. Herramientas de Búsqueda

Tipo Concepto Ventajas Desventajas EjemploMotores deBúsqueda

Son buscadoresque examinansu propia basede datos. Tieneun mecanismoautomático deindexación.

Apropiados parabúsquedas especí�casy complejas; Accesoa un gran número depáginas; las páginasrelevantes aparecen alinicio de la lista deresultados.

No se obtienen resul-tados precisos; Retor-nan documentos irrele-vantes.

Google

Directorios(webguides)

Son listasagrupadas yordenadas porcategorías ysubcategorías.Son elaboradosy organizadospor personas.

Fáciles de usar; in-cluyen vínculos de cal-idad y relevancia eval-uados por especialis-tas; agrupan sitios sim-ilares.

La base de datos esmas pequeña que la delos motores de búsque-da; las actualizaciónno son rápidas; Lasdescripciones son gen-erales sobre los sitios.

Yahoo!

Meta bus-cadores

Realizan unabúsqueda si-multánea en lasbases de datosde diversosbuscadores ydirectorios.

Utilies para búsquedassimples y para termi-nos complicados; revi-sion simultánea de var-ios motores de búsque-da.

No se recuperan to-dos los resultados delos buscadores revisa-dos; no existe estrate-gia común para todoslos meta buscadores.

ixquick

DPTOIA-IT-2008-01 7


contenidos de los enlaces, calculando también el posicionamiento de las páginasweb indexadas. Dentro de la arquitectura se considera también la parte lexicográ-�ca, que es usada por el usuario para la consulta de sus necesidades informativas.La ampliación de la operabilidad de Google se encuentra en el artículo[11]. Elpresente documento solo hace una breve reseña del funcionamiento.

Figura 3. Descripción de la Arquitectura Google.

2.3. Semántica de la Web

El estudio de las técnicas de recuperación incluye también la estructura dela información. Esta es una de las áreas clave para la recuperación efectiva deenlaces y recursos, a partir de una estructura bien de�nida se busca la normali-zación y estandarización de la web[13], los mecanismos de recolección e identi�-cación de contenidos convierte la actividad de la búsqueda más productiva. Sinembargo la popularidad de Internet trae consigo un excedente de informacioncon formatos y estructuras no estandarizadas, donde abunda la diversidad deesquemas de páginas web volviendo la extracción más complicada por la incon-sistencia estructural de sus representaciones. La semántica de la web, tal como laha concebido Tim Berners Lee, trata de un modelo semántico de información en-tendido por humanos y máquinas, de�nido en un marco estructurado basado enestándares, permitiendo un trabajo cooperativo en el manejo y descripción de dedatos. Tres componentes principales de la semántica de la web son: Ontologías,RDF y XML, de�nidas por W3C's (World Wide web consortium). Estos com-ponentes sirven para mapear la información contenida en las páginas web. El rol

8 DPTOIA-IT-2008-01

B. Fortínez et al

de la semántica de la web puede ser entendido con el siguiente modelo[14,15],�gura 4:

Figura 4. Modelo de la Web Semántica.

El modelo captura la información colectada que será almacenada en estruc-turas y estándares de información que posibiliten cálculos más poderosos debúsqueda que permitan compartir recursos a través de aplicaciones web sociales,independientes y heterogéneas. Diferentes tecnologías basadas en la semánticade la web extraen patrones, entidades y relaciones de las páginas web a partirde información no estructurada. El desarrollo de aplicaciones permite identi-�car bloques informativos, identidades, meta datos y bloques de ruido (publi-cidad, juegos, copyright, etc.). Existen algoritmos dedicados a la extracción,localización y análisis de estructuras de sitios web. Los algoritmos basados en lasegmentación de bloques analizan el cuerpo de la página web, VIPS (VIsion basedpage segmentación)[16] particiona en bloques lógicos de datos la segmentaciónvisual, parecido al análisis humano de las páginas web. Fig. 5.

Figura 5. Concepto visual de la segmentación por bloques

DPTOIA-IT-2008-01 9


Existen otros métodos que analizan la semántica del documento en su forma-to HTML3 estos métodos realizan el análisis del código para �ltrar y extraer losbloques informativos, sin embargo consumen tiempo computacional y resultansensibles al formato del documento, el cual no siempre se encuentra estandariza-do. Al margen de esta nota, las tecnologías en semántica de la web prometenmejorar el descubrimiento de información, automatización de búsquedas comple-jas y la innovación en la navegación. Dada la introducción del Esquema clásicode los Sistemas RI, se tienen parámetros estructurales y formales para la com-paración y evolución de estos sistemas RI dentro de la Web 2.0.

3. Tendencias Colaborativas en el Campo de laRecuperación de Información

3.1. Web 2.0, nuevos paradigmas para la recuperación de la

información

La era digital proporciona nuevas alternativas para la organización de la in-formación en las que el usuario es el administrador de la misma; a partir deSistemas RI jerárquicos tradicionales, descritos en la sección anterior, hasta losSistemas colaborativos de la RI. Lo cual ha cambiado la forma de producir infor-mación y agrupar el conocimiento del colectivo gracias a los servicios interactivosde la Web 2.0[17,18]. La evolución que ha experimentado la web desde sus inicios,es percibida por sus usuarios con la nueva generación de servicios colaborativosen escenarios personales, comunidades web y colaboraciones abiertas; todos estosse agrupan en lo que llamamos Web 2.0, como parte de estos servicios tenemos:

BlogsSocial Bookmarking (Anotaciones social)[19]Wikis (wikipedia)Bibliotecas digitales

En materia de la RI, contamos con servicios que permiten la organizacióny clasi�cación de material en formato electrónico más allá de formatos pre-existentes, los métodos[20]:

Bookmarking de URLs (Etiquetado de enlaces).Categorización de multimedia y datos.

Estos servicios especializados, agrupados en un directorio , son diseñadospara el etiquetado de información y de multimedia (fotografías, videos, blogs,etc.), �gura 6, proveen al usuario de interfaces grá�cas y de herramientas paramarcar, categorizar, almacenar y posteriormente recuperar información.3 hypertext markup language

10 DPTOIA-IT-2008-01

B. Fortínez et al

Figura 6. Directorio de Servicios Web 2.0

Para la recuperación de información dentro del marco colaborativo y alter-nativo en los sistemas RI actuales de la Web 2.0, consideramos caso de estudiolos servicios de etiquetado colaborativo de enlaces con una de las herramien-tas del social bookmarking más representativa en este campo, Delicious[21]. Lossitios de social bookmarking son una forma de folksonomía y categorización decontenidos web por medio de un proceso abierto de etiquetado.

La tendencia es hacia a utilización de métodos de almacenamiento, organi-zación, búsqueda y manejo de etiquetas de páginas Web con la ayuda de los metadatos. Social Bookmarking es un método que reúne todas las características an-teriores. En un sistema como este los usuarios guardan los enlaces de las páginasWeb que quieren recordar, y lo más importante, compartir[22]. Las anotacionesen los Sistemas de Bookmarking son usualmente públicos, pueden ser salvadosde manera privada y ser compartidos a un grupo especí�co de personas o a unared social. Las personas con acceso a los bookmarks pueden visualizar los en-laces de manera cronológica, por categorías o etiquetas facilitando el acceso a lainformación[23,24,25].

Considerando ventajas sobre las herramientas tradicionales como los motoresde búsqueda. La clasi�cación y selección de los recursos es efectuada por sereshumanos en lugar de máquinas que procesan la información de manera automáti-ca. El posicionamiento o ranking de los recursos son determinados a criterio delos mismos usuarios. Sin embargo es un sistema basado en etiquetas o tags, queno proporcionan estructura prede�nida alguna, lo que provoca confusión e in-exactitud en los resultados. Sin embargo la popularidad de estos sistemas crece yhace que se ofrezcan servicios mas allá de compartir enlaces y permitan votos, co-mentarios, importar o exportar, añadir notas, crear grupos y redes sociales, etc.Con el �n de establecer nuevos paradigmas en la recuperación de información.

DPTOIA-IT-2008-01 11


Esta nueva clase de servicios están cambiando la forma de acceder y recuperarinformación desde Internet, haciendo uso de las redes sociales y de sistemas derecuperación de información cada vez más efectivos y populares. Así mismo,privilegian otro tipo de navegación de los sitios que se denomina navegaciónfacetada, donde se ofrece un universo de recursos que el usuario debe ir �ltrandoo acotando de acuerdo a sus intereses.

Características de los Servicios de Social Bookmarking (Anotaciones So-ciales):

Presencia de un buen volumen de usuarios, que hacen relevante el aspectosocial.El servicio posee una extensiva documentación del mismo.Posibilidades de importación y exportación de bookmarks.Un buen servicio de bookmarking deberá tener feeds, agregadores tal como:RSS1.

Un Sistema de Social Bookmarking trata de un trabajo de cooperación, desumar el esfuerzo individual al de otros para aumentar la productividad en labúsqueda y recuperación de información. Sin embargo para dimensionar el im-pacto de las prácticas sociales en la web, hemos de establecer paradigmas decomparación entre la Web 1.0 y la Web 2.0[26].

Tabla 2. Características de la Web

Clasi�cación Característica PeríodoWeb 1.0 Considerada una web de

servicios planosDesde los inicios de Internethasta los años noventa.

Web 2.0 Basada en contribucionese interacciones sociales

Fénomeno que surge en elsiglo XXI.

El paradigma clásico RI esta orientado a los procesos de recuperación, al-goritmos, técnicas y métodos. El paradigma de la Web 2.0, dirige el foco deatención al usuario en el desarrollo de servicios de connotación interactiva ycolaborativa[5]. En este nuevo paradigma ya no somos meros consumidores deinformación[27] sino que productores de la misma. La presencia de comunidadesweb en la generación de conocimiento es cada vez más in�uyente en la web.El surgimiento de estos sitios web son a partir de una necesidad individual, lacual realiza el salto al compartir enlaces de interés personal con la comunidad

1 Really Simple Syndication, nueva tecnología que permite actualización de la infor-mación suscrita.


B. Fortínez et al

de usuarios de los Servicios de Social Bookmarking. Lo cual supone todo unfenómeno para la búsqueda y navegación de información en Internet. A partirde estos podemos encontrar patrones de consumo de información, categorizaciónde enlaces, preferencia de términos que al �nal de cuentas se convierten en unconsenso por cada miembro de la red de usuarios.

3.2. Semánticas Sociales

El concepto clave de la semántica social de �ltrado colaborativos descasa enlas comunidades en línea, puesto que sus características son orientadas al usuariocon el �n de permitir búsquedas e�cientes[28]. Los objetivos de las comunidadesen línea son:

Proveer de contenidos a los usuariosEstimular la participación y contribución de los usuariosFacilitar la comunicación e interacción entre los miembros.

Las semánticas sociales consisten en la idea básica de conexión entre las di-versas comunidades web[14,29]. La conexión de dichas comunidades promuevensemánticas basadas en el intercambio social de etiquetas, emergiendo ontologías[30]a partir de folksonomías aún en lenta evolución linguistica a falta del control devocabularios.

3.3. Taxonomías vs. Folksonomías

Las folksonomías se componen de dos términos: folk y taxonomía, clasi�-caciones realizadas por el público a partir de colecciones personales llamadaspersonomies[31]. Estas clasi�caciones se realizan sobre los contenidos web me-diante etiquetas, dando lugar al fenómeno del etiquetado o marcado social. Lasfolksonomías describen estructuras parecidas a las taxonomías, de�nen estruc-turas conceptuales de bajo peso las cuales emergen de comunidades de usuariosque colectan recursos, re�ejando la visión de las comunidades, de atributos aso-ciados supliendo la categorización formal de los recursos[31,32]. Enriquecen elconocimiento base con descripciones y categorización de intereses, recursos yenlaces compartidos a través de los Sistemas de social Bookmarking.

De las taxonomías se han de identi�car los límites en la difusión de infor-mación, recursos disponibles y niveles de experticia encontrados en sus sistemastradicionales. Frente a las desventajas y fortalezas de las folksonomías se permiteuna conexión estrecha con el uso de términos y recursos que describen; tambiénson menos costosos en cuanto desarrollo dado que emergen de las decisiones deetiquetado de los usuarios. El poder descriptivo de las folksonomías construye re-comendaciones para la red de usuarios según sus per�les, hay un intercambio de



contenidos generados por �ltros humanos y por el consenso de la comunidad[27].Las folksonomías están basadas en el sistema de anotaciones por medio de etique-tas, en las que el usuario utiliza su propio vocabulario, que permiten al usuarioañadir un signi�cado explícito y propio entendimiento, expresando opiniones yperspectivas de los bookmarks almacenados. Estas anotaciones se convierten enun indicador con�able de intereses y preferencias de los participantes activos.Con el uso de las folsonomías viene el planteamiento de anotaciones e�cientes,consistentes y de calidad; lo que exige el control y regulación del vocabulario. Elvocabulario utilizado dentro de las comunidades de usuarios de estos servicioses característico del grupo. En los sistemas de RI se hace necesario el controldel vocabulario utilizado por los usuarios para representar los enlaces y los re-cursos de interés a través de las etiquetas. Como lo indica el título, trata de losdistintos aspectos del control del vocabulario en el contexto de la RI. Se cen-tra en el tesauro (sistema de control más utilizado en los últimos 20 años). Sinembargo otros aspectos son considerados una vez que los recursos son identi�ca-dos han de ser organizados y controlados de modo que puedan ser identi�cadosy localizados en respuesta a la demanda de los usuarios. Las actividades de laorganización y control incluyen la clasi�cación, categorización, catalogación, in-dexación y resumen de los enlaces y recursos etiquetados por el usuario. Loselementos importantes son la descripción del recurso y el enlace URL, para elacceso a través de la red de redes. Todo este proceso implica las fases: análisisconceptual (�ltro humano del recurso de acuerdo a los intereses de informa-ción); traducción, utilizar el vocabulario indicado para etiquetar y describir elrecurso, para la comprensión individual y colectiva por parte de la comunidadde usuarios[31,33]. El vocabulario controlado es mediante las etiquetas de su-gerencia, populares y ciegas, según el juicio del usuario. El análisis conceptualde la petición traducido al lenguaje del sistema, es la estrategia de búsqueda,que puede considerarse como una representación de la petición del mismo modoque una etiqueta es la representación de una temática. El problema a enfrentares la ambigüedad de términos, por los sinónimos o cuasi sinónimos y términosambiguos fuera de su contexto. Cuando el vocabulario es controlado la actividaddel etiquetado puede ser más consistente. Será más fácil identi�car los términospara una necesidad de información si son tomados de un vocabulario común.Al hablar del vocabulario necesitamos contar con la estructura y presentación.Consideremos clasi�caciones abiertas, vocabularios proporcionados por la comu-nidad de usuario con intereses comunes. Lo importante es construir un esquemade clasi�cación para las etiquetas. Sin embargo el vocabulario ha de satisfacerlos requisitos de búsqueda del usuario a partir del vocabulario controlado. Nopodemos considerar clasi�cación jerarquizadas en estos modelos de etiquetadocolaborativa, dada la �exibilidad de la misma clasi�cación. Ahora, la in�uenciadel vocabulario en el funcionamiento de un sistema RI en el contexto clásicoconsidera las medidas de precisión y exhaustividad; para la evaluación del sis-tema. Al igual que la calidad, esfuerzo y tiempo de respuestas cuciales paraellos. Dentro del modelo de etiquetado colaborativo, consideremos los fallos devocabularios, si hay una base inconsistente de análisis conceptual del recurso,


B. Fortínez et al

fallos en la especí�cidad de las etiquetas o la interpretación por la comunidadde usuarios dado un recurso común.

3.4. Nuevos Modelos de Recuperación Utilizando el Conocimiento

Colectivo.

La evolución en la clasi�cación de la información con el etiquetado de enlacesde interés, cambia la relación entre usuario e información. Tradicionalmente lasbúsquedas son realizadas en base palabras claves en motores de búsquedas, di-rectorios, catálogos digitales, etc. Posteriormente el usuario etiqueta los enlacesy son almacenados en la carpeta de favoritos del navegador utilizado. La recu-peración de este material solo es posible en una máquina determinada.

El nuevo modelo de recuperación con servicios de bookmarking transciende elalmacenado de los favoritos a sistemas de colaboración de etiquetado, agregandoa los Sistemas RI una dimensión social y convirtiendo la actual web en una webparticipativa. La idea de un Sistema Social Bookmarking rueda alrededor de lacreación de un conjunto de recursos que pueden ser accesados y actualizados encualquier ordenador conectado a Internet, recursos que son compartidos entre lacomunidad virtual[34].Esquema de un servicio de Bookmarking (�gura 7):

Figura 7. Esquema de los Servicios Bookarking.

Bajo este esquema la valoración del material ya ha sido considerada porel �ltro humano para dar continuidad a la categorización de la información.Lo que permite formar grupos sociales según similaridades, intereses y puntosde vista. El proceso de crear etiquetas para contenidos en línea es a lo quellamamos Sistemas de Social Bookmarking o de Marcado Social. Los usuariosgeneran y clasi�can su propia información, la cual es accesible desde los sitiosde bookmarking, �gura 8.

Criterios de uso:

Almacenamiento e�ciente de bookmarks.Medio para compartir recursosMantiene un archivo de las paginas de interésAyuda a descubrir nuevos contenidosIndependientes del navegadorInterfaces orientados al usuario



Figura 8. Directorio de Servicios Bookmarking.

Las ventajas del etiquetado consisten en:

Personalizar búsquedas.Realizar búsquedas avanzadas.El etiquetado simpli�ca la identi�cación de los contenidos.Dentro del volumen de información los sistemas RI encuentran documentosrelevantes para la comunidad de usuarios.Selectividad, utilización de criterio discriminatorio como la popularidad entrela network.Técnicas de localización y acceso a documentos y recursos de informaciónpertinentes a la resolución de un problema.

3.5. Delicious, Servicio de Bookmarking

Delicious[25] es considerado dentro de la categoría de software social. El quefacilita la interacción social, intercambio de colaboraciones y de información, pro-mueven las comunidades, basadas en actividades de grupos de usuarios. Es eneste sentido amplio que el software social incluye herramientas que reúne gentey da soporte a grupos de interacción. Social bookmarking permite tecnológica-mente compartir recursos a través de enlaces almacenados o de hiperlinks paraconectar personas con una base común de intereses, almacenando tags para des-cribir el recurso en sitios como Delicious. Por lo que las conexiones sociales sonmediadas por la tecnología. Delicious es un sitio para compartir enlaces y recur-sos con un grupo de la comunidad de usuarios de Internet que realizan búsquedasmás avanzadas y especi�cas según el interés y la necesidad informativa. Aunquelas ventajas de estos servicios colaborativos de información son identi�cables,mencionamos aspectos negativos del sitio, como un sistema basado en etiquetasasignadas por los usuarios encontramos que el problema del etiquetado es la po-breza de contenido o relevancia para efectuar búsquedas, la homogeneidad de laspalabras claves utilizadas o falta de contexto hacen que la tarea de recuperación


B. Fortínez et al

sea difícil; por lo que se hace necesario el control del vocabulario, ya comentadoen la sección anterior.

3.5.1. Antecedentes de Delicious El origen de Delicious es una colecciónheterogénea y caótica de enlaces personales es considerado uno de los serviciosde social bookmarking más populares en la red creado por Joshua Schachter enel año 2001, lo adquiriría Yahoo! en el año 2003, el cual a través de los añosha captado la atención a la comunidad de usuarios. Este sitio de etiquetado esuna forma de organizar la información a través de la red. Emerge a partir de lanecesidad individual de almacenado de información y trasciende a la creación decomunidades virtuales que comparten y generan una base de conocimiento parael uso del colectivo, con�riendo el poder de la información a la gente[35].

El funcionamiento de esta clase de servicio necesita la creación de una cuenta,para el caso especí�co en Delicious el sistema esta basado en el uso de palabrasclaves llamadas etiquetas, �gura 9. las etiquetas han sido seleccionadas libre-mente por los usuarios para la organización de los enlaces, es a lo que llamamosfolksonomías mas que categorización predeterminada de información.

Figura 9. Visualización de nube de etiquetas en Delicious

Como parte de los servicios de la Web 2.0 se utilizan tecnologías feed, RSSpara la suscripción de actualizaciones de etiquetas logrando un rastreo de las tagsagregadas por la comunidad. Estos servicios son fuentes colaborativas de infor-mación y de conocimiento colaborativo, consideradas ventajas de uso. No hemosde escapar a algunos problemas que traen la �exibilidad y la falta de estructurasformales. La principal fuente de adquisición de recursos son los usuarios y lacomunidad de usuarios de dichos recursos. Utilizan un sistema de etiquetado de



connotación personal en primera instancia que por la naturaleza del servicio seextiende al uso colectivo de las comunidades que comparten intereses comunes.

3.5.2. Uso de Delicious, Perspectiva de Usuario Delicious es el serviciode social bookmarking más popular, que guarda los favoritos de los usuariosen Internet pudiendo acceder a ellos desde cualquier sitio y compartirlos con lacomunidad y la propia network. Se descubre también lo que los demás etiquetanpara una búsqueda más puntual de temas de interés para el usuario[36,24].

Las propiedades del sitio son:

Las múltiples facetas de exhaustividad.Reducción de esfuerzos en la navegación.Calidad en el etiquetado.

La creación de una cuenta de usuario, �gura 10, permite la disposición deherramientas para la administración de Bookmarks, Network y Tags.

Figura 10. Registro y Acceso a cuenta Delicious.


B. Fortínez et al

El servicio provee herramientas de Bookmarks, People y Tags, �gura 11.Se describe cada una en la tabla 3. Son elementos de inicio para la búsquedapersonalizada de información, el acceso y administración de enlaces personales ypúblicos que permiten una exploración más dedicada de los recursos disponiblespara una determinada necesidad informativa.

Figura 11. Barra de herramientas Delicious.

Tabla 3. Herramientas de Delicious

Bookmarks Permite el acceso a bookmarks o en-laces marcados de connotación person-al, popular, reciente y personalizada entodo lugar.

People La creación de una network deja alusuario explorar y descubrir los book-marks y tags de los demás miembros,encontrando intereses comunes.

Tags La información se organiza en tags queson descripciones de los contenidos enlos enlaces.

El servicio facilita bookmarks populares y recientes, �gura 12, con sus res-pectivas tags y etiquetadores. Se descubren los intereses de la comunidad deusuarios delicious y propicia la creación de grupos con intereses comunes quecomparten y generan enlaces de acceso.

La creación de bookmarks puede ser de tres maneras:

Complementos instalados en los navegadores de Internet.botones de marcado.



Figura 12. Opciones para Bookmarks en Delicious.

Manualmente en la página de Delicious.

Los elementos a guardar son: URL, título, notas y tags. Fig.13.

Figura 13. Almacenamiento de registro para bookmark

El elemento clave de este conjunto son las etiquetas, base de este Sistema RIde Social Bookmarking. Las etiquetas son palabras claves individuales o com-puestas que identi�can y categorizan el enlace. A la actividad del bookmarkingrelacionamos las folksonomías, que es la construcción, no formal, de estructurasde información. El usuario puede optar por usar etiquetas recomendadas por elsistema a base de popularidad y a la estructura semántica del sitio web. Quedaa discreción del usuario las palabras a utilizar, punto discutible en este tipo desistemas revisado en la sección de Taxonomías vs. Folksonomías. La adminis-tración de las etiquetas es de las herramientas más notables eetiquetas, las denuestra network y del resto de la comunidad de usuarios. Delicious nos brinda


B. Fortínez et al

una opción más para la recuperación y monitoreo de información, las subscrip-ciones. Estas nos permiten visualizar las etiquetas de nuestro interés en un sólolugar, Delicious mostrará todos los bookmarks relacionados con la subscripción,proporciona mayor facilidad en el �ltro de temas (�gura 14).

Figura 14. Subscripción

La navegación y búsqueda de información en Delicious puede ser una ex-periencia muy grata, para el usuario que recién inicia la actividad del socialbookmarking, encontrará una serie de recursos de búsqueda sencillos e intui-tivos. Localizar bookmarks tanto dentro de Delicious, en la network y en losbookmarks personales es fácil y rápido. Las búsquedas pueden ser a partir deenlaces URL, tags y palabras claves (�gura 15).

Figura 15. Opciones de búsqueda avanzada.



Esta sección esta al margen de resaltar las bondades y virtudes del servicio,considerando que Delicious es uno de los pioneros del Social Bookmarking. Unareferencia mas profunda de sus utilidades puede ser consultada en la sección deayuda del mismo sitio.

3.5.3. Evaluando los Servicios de Bookmarking ¾Cómo evaluar estosservicios?, Investigadores en el campo de los sistemas RI, trabajan por sistemashíbridos o combinados, que utilicen lo mejor de los sistemas tradicionales y lainnovación tanto tecnológica y social de los técnicas colaborativas en la recu-peración de información.

Al tratarse de un sistema de connotación social, es la misma comunidad deusuarios la que se encargar de determinar, mediante estadísticas de uso, sí elservicio mantiene su popularidad. En el caso de Delicious se descubre que si biensu uso se ha desacelerado, este mantiene su comunidad de usuarios frecuentes,que utilizan al máximo las herramientas proporcionadas lo que nos dice quela importancia descansa en el número de usuarios y en la participación de lacomunidad web, en este nuevo estadio de la línea evolutiva de Internet.

4. Futuros Trabajos

Futuros trabajos a partir de este estudio bibliográ�co de los Sistemas RIalternos bajo el esquema de los Servicios de Social Bookmarking, orientados alusuario y a técnicas cognitivas para la extracción de información, se vislumbrael desarrollo de una Tesis Doctoral en la que se pretende investigar la utilizaciónde las estructuras sociales de clasi�cación de recursos, con el uso de etiquetas, enconjunto con Sistemas RI convencionales con el �n de generar recomendacioneso sugerencias de resultados de acuerdo a las necesidades informativas.

La era social de Internet se encuentra ante nuestros ojos y es el momento decanalizar las contribuciones del público en Sistemas de Información que maxi-micen la utilización de recursos y herramientas presentes en Internet y a la vezidenti�car los aportes cientí�cos a partir de metodologías de información más�exibles y asequibles al usuario común de Internet.

5. Conclusiones y Tendencias Actuales

La revisión bibliográ�ca realizada sobre los Sistemas de Recuperación de In-formación con base social, en especí�co los Servicios de Social Bookmarking,representan un cambio en el esquema tradicional de almacenamiento y recu-peración de información. A nivel de usuario se tiene a disposición herramientas y


B. Fortínez et al

recursos para realizar búsquedas efectivas y satisfactorias[37]. El nuevo paradig-ma descansa en la etapa social de Internet con el advenimiento de serviciosinteractivos derivados de la Web 2.0[17], actualmente observamos en Internet elintercambio y generación de información a partir de las comunidades de usuariosy público en general que hace uso de la red de redes. El crecimiento de Inter-net se justi�ca con el desarrollo de tecnologías y el dinamismo de los serviciosofrecidos.

Ahora con los nuevos esquemas y paradigmas cognitivos en los Sistemas RI,Delicious se nos presenta como una herramienta, en principio de propósito in-dividual, que permite marcar y etiquetar enlaces y tenerlos disponibles desdecualquier ordenador. Sin embargo esta idea alcanza la dimensión social de com-partir e intercambiar información desde este portal de marcado. Cambiamosmétodos de almacenamiento, administración y recuperación de información apartir de categorizaciones y clasi�caciones manuales con el valor agregado deljuicio humano, desde este punto podemos considerar el proceso de �ltro y cate-gorización de recursos como un proceso de connotación cognitiva y orientado alusuario. Utilizamos patrones de búsquedas �exibles y entendibles tanto para elhumano como para la máquina. La organización y clasi�cación previa de infor-mación realizada por los Sistemas RI tradicionales realizan procesos automáticosde búsqueda y selección de documentos que satisfagan más o menos la consultadel usuario, se establecen paradigmas de efectividad y medidas de presición queevalúan el desempeño de estos sistemas, sin embargo la naturaleza social de losservicios interactivos de la web 2.0 atraen a más usuarios y por ende más con-tribuciones que facilitan cada vez más el rastreo de información convirtiendo laWeb en algo mas dinámico y personalizado.

El valor agregado de la web social es la cobertura de perspectivas individualesy colectivas, las cuales generan una independencia de organizaciones y de enti-dades in�uyentes en el World Wide Web, es el poder del público el que producey demanda conocimiento en blogs, Wikis y servicios bookmarking. El individuose especializa en temas puntuales, descentralizando las fuentes generadoras deinformación tradicionales. No hemos de desvincular el uso de los motores debúsqueda tradicionales, pues son a partir de ellos que localizamos la informa-ción y posteriormente la marcamos con etiquetas sugeridas por la comunidad deusuarios y por el contenido de la página web seleccionada.

Trabajos futuros en esta línea de investigación apuntan a la colaboración con-junta de Sistemas RI tradicionales y alternos, dada la interrelación que guardanentre sí. Sistemas de recomendación que combinan lo mejor de ambos esquemas,de los Sistemas RI tradicionales conservamos la base cientí�ca para la búsquedaalgorítmica de colecciones de documentos que son seleccionados y clasi�cadosde acuerdo a consultas lanzadas por los usuarios y de los sistemas de marcadocolaborativo las ventajas de una clasi�cación previa del material realizado porhumanos, sin costo computacional adicional y sin límites en cuanto cantidad deinformación; desventajas presentes en los Directorios que son más o menos elmodelo previo al esquema de categorización de información en la que participa



el humano. Aunque la iniciativa de estos Sistemas de Recomendación basadosen el �ltro colaborativo datan de la años noventa, investigaciones y trabajos endesarrollo maduran en concepto y técnica; incorporan matrices de similitud yalgoritmos de solución derivados de la inteligencia arti�cial que permitirán laactualización en tiempo real de per�les y sugerencias[38].


Referencias

[1] C. J. van RIJSBERGEN. INFORMATION RETRIEVAL. Dept. of Com-puter Science, University of Glasgow, 2da. Edición 1979.

[Citado en págs. 1 y 3.]

[2] B. Baeza-Yates, F. y Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, Harlow, England., 2000. [Citado en págs. 1, 5 y 6.]

[3] http://dir.yahoo.com/. [Citado en pág. 1.]

[4] http://www.google.com. [Citado en pág. 1.]

[5] Carol A. Hert. Understanding information retrieval interactions: theori-cal and practical implications. Ablex Publishing Corporation, Greenwhich,Connecticut Londo, England, 1997. [Citado en págs. 1, 4, 5 y 12.]

[6] Jane Klobas. Wikis: Tools for Information Work and Collaboration. Chan-dos Publishing (Oxford), 2006. [Citado en pág. 1.]

[7] Maria Hernandez de Juan. Modelos de recuperacion de la informacion:Recuperacion y acceso a la informacion. pagina web actualizada, mayo2008. [Citado en pág. 5.]

[8] Mandar Mitra Gerard Salton, Amit Singhal and Chris Buckley. Automatictext structuring and summarization. Information Processing & Manage-men, Vol. 33, No. 2:pp. 193�207, 1997. [Citado en pág. 5.]

[9] K. Spark Jones S.E. Robertson. Relevance weighting of search terms. Jour-nal of America Society for information science, 27:129�146, 1976.

[Citado en pág. 6.]

[10] J Alonso Arévalo. Recuperación de la información: La búsqueda bibliográ-�ca. E-LIS Library and Information Science (LIS), 2004. [Citado en pág. 6.]

[11] Lawrence Page Sergey Brin. The anatomy of a large-scale hypertextualweb search engine. Computer Science Department, Stanford University,Stanford, CA 94305, USA, 1997. [Citado en págs. 6 y 8.]

[12] Inc. [email protected] Amit Singhal Google. Modern information re-trieval: A brief overview. Bulletin of the IEEE Computer Society TechnicalCommittee on Data Engineering, 2001. [Citado en pág. 6.]

[13] José Antonio Merlo Vega Eva Maria Méndez Rodríguez. Localización, iden-ti�cación y descripción de documentos web: tentativas hacia la normal-ización. [Citado en pág. 8.]

[14] Thomas Gruber. Collective knowledge systems: Where the social web meetsthe semantic web. Journal of Web Semantics, julio, 2007.


[15] web semantica: integration and services. [Citado en pág. 9.]

[16] Jinbeom Kang and Joongmin Choi. Detecting informativeweb page blocksfor e�cient information extraction using visual block segmentation. IEEE2007 International Symposium on Information Technology Convergence,2007. [Citado en pág. 9.]


[17] Tim O'Reilly. What is web 2.0 design patterns and business models forthe next generation of software. O'Reilly online magazine, September 2005.


[18] Eneko Astigarraga. Social bookmarking - compartiendo enlaces de internet.online magazine, febrero 2005. [Citado en pág. 10.]

[19] Alex Iskold. The social bookmarking faceo�. Read Write Web online mag-azine, september 2006. [Citado en pág. 10.]

[20] Lee Rainie. 28dewey and his decimals, internet users are revolutionizing theway we classify information � and make sense of it. P EW I NT E R N ET & AME R I CA N L I F E P R O J E C T, january 2007. January 31,2007. [Citado en pág. 10.]

[21] Delicious. [Citado en pág. 11.]

[22] 7 things you should know about... social bookmarking.www.educause.edu/eli/, mayo 2005. [Citado en pág. 11.]

[23] Susan Gunelius. Overview of del.icio.us. web blog, , About.com.[Citado en pág. 11.]

[24] Delicious Handout. [Citado en págs. 11 y 18.]

[25] Matt Biddulph. Introducing del.icio.us what is del.icio.us?, november 2004.[Citado en págs. 11 y 16.]

[26] Mary Madden and Susannah Fox. Riding the waves of web 2.0 more than abuzzword, but still not easily de�ned. Pew Internet Project, October, 2006.


[27] Filippo Lanubile Giovanni Semeraro Pierpaolo Basile, Domenico Gendarmi.Recommending smart tags in a social bookmarking system. University ofBari,, pages 22�29, 2007. [Citado en págs. 12 y 14.]

[28] Sebastian Ryszard Kruk and Stefan Decker. Jeromedl and foafrealm - tak-ing advantage of semantic social collaborative �ltering in digital libraries.Digital Enterprise Research Institute, NUIG, Ireland http://www.deri.org,September, 2005. [Citado en pág. 13.]

[29] kevin Kelly. We are the web. Revista online Wired, 2005.[Citado en pág. 13.]

[30] Simone Braun;Andreas Schmidt;Andreas Walter. Ontology maturing: a col-laborative web 2.0 approach to ontology engineering. 2007.


[31] Christoph Schmitz Gerd Stumme Andreas Hotho, Robert J¨aschke.Folkrank: A ranking algorithm for folksonomies. in Proc. FGIR 2006, 2006.


[32] Thomas Vander Wal. Folksonomy, february 2007. [Citado en pág. 13.]

[33] Cattuto C. Alani H. O�Hara K. Baldassarri A. Loreto V. Szomszor, M. andV. D. P. Servedio. Folksonomies, the semantic web, and movie recommen-dation. 2007. [Citado en pág. 14.]

[34] Frederick W. Lancaster. El control del vocabulario en la recuperacion deinformacion. Universidad de Valencia, 1995. [Citado en pág. 15.]

[35] Javier Cremades. MICROPODER La fuerza del ciudadano en la era digital.Editorial Espasa Calpe S.A., 2007. [Citado en pág. 17.]


B. Fortínez et al

[36] David Muir. Simply del.icio.us online social bookmarking, or: Tagging forteaching. 2005. [Citado en pág. 18.]

[37] Don Turnbull. [Citado en pág. 23.]

[38] Anne Yun-An Chen and Dennis McLeod. Collaborative �ltering for infor-mation recommendation systems. Anne Yun-An Chen and Dennis McLeodDepartment of Computer Science and Integrated Media System Center Uni-versity of Southern California, Los Angeles, California, USA, 2005.


[39] JONM. KLEINBERG. Authoritative sources in a hyperlinked environment.Journal of the ACM, Vol. 46, No. 5, 1999. [No citado: usado como referencia]

[40] Daniel G. Teivelis. Semantic web: information and services integration.Technical report, CONSIST Business information technology, 2005.

[No citado: usado como referencia]

[41] http://compete.com/. [No citado: usado como referencia]


Recuperacion de la Informacion y tecnicas de social bookmarking

Documents

Transcript of Recuperacion de la Informacion y tecnicas de social bookmarking