Data Science & Big Data
-
Upload
ernesto-mislej -
Category
Technology
-
view
403 -
download
5
description
Transcript of Data Science & Big Data
![Page 1: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/1.jpg)
Data Science & Big Data Ernesto Mislej - @fetnelio [email protected]
Buenos Aires, 24 de Julio de 2014
![Page 2: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/2.jpg)
1
By Gage (Own work) [Public domain], via Wikimedia Commons
![Page 3: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/3.jpg)
2
Experimentación
blog.optimizely.com/2010/11/29/how-obama-raised-60-million-by-running-a-simple-experiment/
![Page 4: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/4.jpg)
3
The Expression of Emotions in 20th Century Books Acerbi, A, Lampos, V, Garnett, P, Bentley, AR, 2013
![Page 5: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/5.jpg)
4
Referencias: The Expression of Emotions in 20th … - Michel J-P, Shen YK, Aiden AP, Veres A, Gray MK, et al. (2011) Quantitative analysis of culture using millions of digitized books. Science 331: 176–182. - Lieberman E, Michel J-P, Jackson J, Tang T, Nowak MA (2007) Quantifying the evolutionary dynamics of language. Nature 449: 713–716. - Pagel M, Atkinson QD, Meade A (2007) Frequency of word-use predicts rates of lexical evolution throughout Indo-European history. Nature 449: 717–720. - DeWall CN, Pond RS Jr, Campbell WK, Twenge JM (2011) Tuning in to Psychological Change: Linguistic Markers of Psychological Traits and Emotions Over Time in Popular U.S. Song Lyrics. Psychology of Aesthetics, Creativity and the Arts 5: 200–207
![Page 6: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/6.jpg)
5
Wikileaks Data-Journalism
![Page 7: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/7.jpg)
6
Qué es Data Science?
“El futuro le pertenece a las compañías y a las personas que convierten datos en productos.”
Mike Loukides, O’Reilly Radar 2010 Data science is a discipline that incorporates varying degrees of Data Engineering, Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset, and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data Scientists solve complex data analysis problems.
Wikipedia, 2014
![Page 8: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/8.jpg)
7
“…on any given day, a team member could author a multistage processing pipeline in Python, design a hypothesis test, perform a regression analysis over data samples with R, design and implement an algorithm for some data-intensive product or service in Hadoop, or communicate the results of our analyses to other members of the organization”
Information Platforms as Dataspaces, by Jeff Hammerbacher
Data Scientist: The Sexiest Job of the 21st Century
Harvard Business Review article by Thomas H. Davenport and D.J. Patil
Data Scientist: The sexiest job of 21st century!
![Page 9: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/9.jpg)
8
A
B
![Page 10: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/10.jpg)
9
A
B
![Page 11: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/11.jpg)
10
A
B
Google PageRank
![Page 12: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/12.jpg)
11
A
B
Google Twitter
PageRank
![Page 13: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/13.jpg)
12
Web Buzz!
“…Scientific hindsight shows that Google Flu Trends far overstated this year's flu season…”
David Wagner, Atlantic Wire, Feb 13 2013
![Page 14: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/14.jpg)
13
“La radio pasa Whitney, voy a llorar! Qué canción triste” “Whitney no murió, qué tristeza, Dios!” “Realmente Whitney murió? Qué mal” “Whitney Houston y Michael Jackson, quién tenía más problemas?” “Cuando canta Whitney me pongo muy triste” “Te amamos Whitney”
Pobre Whitney…
![Page 15: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/15.jpg)
14
Límites: Correlación vs. Causalidad
Correlation does not imply causation
![Page 16: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/16.jpg)
15
Principio de Bonferroni
![Page 17: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/17.jpg)
16
Big Data Buzz!
![Page 18: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/18.jpg)
17
![Page 19: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/19.jpg)
18
Las 4V Big Data: Volumen, Velocidad, Variedad, Veracidad
![Page 20: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/20.jpg)
19
Volumen ¿Cuánto es mucho?
"Big data sizes are a constantly moving target" "Hoy en 2 días generamos tanta información como toda la que se generó en la historia de la civilización hasta el año 2003" Los exabytes (mucho más que mega, giga, tera o peta) que generan a diario nuestras máquinas en red exceden ampliamente toda la información junta generada hasta el siglo XXI Escalabilidad
![Page 21: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/21.jpg)
20
Velocidad - Análisis del Stream de datos - Los autos modernos tienen más de 100 sensores que generan datosd desde nivel de combustible, presión de neumáticos, etc. - La NY Stock Exchange captura 1 TB de información de trading durante cada sesión. - Para el 2016 se esperan tener 19900 Millones de aparatos conectados. 2.5 aparatos por persona en el planeta.
Nuevos requerimientos a las DB Transaccionales. Consistencia eventual
![Page 22: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/22.jpg)
21
![Page 23: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/23.jpg)
22
Variedad – Información en distintos formatos
- En 2011, la industria de la Salud generó +150 Exabytes (1000 Millones de Gigabytes) de documentación médica, tratamientos e historias clínicas. - 30Mil Millones de contenido compartido en Facebook por mes. - En 2014 se esperan vender 420 Millones de Health Monitors portátiles - 4Mil Millones de horas de video en YouTube vistas por mes y 400 Millones de tuits por día.
![Page 24: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/24.jpg)
23
Veracidad – Incerteza en los datos
- múltiples fuentes que compiten por la verdad, - inconsistencia, - ambigüedad, - modelos aproximados
Cómo manejarse en un mundo de incertezas
![Page 25: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/25.jpg)
24
Modelos analíticos según la complejidad Data inputs
Balances
Filtro Colaborativo
Social Media Stream
BI - OLAP
Cart Analysis
Internet of Things
![Page 26: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/26.jpg)
25
+ Optimización + Innovación
Erupcción del Géiser Strokkur, by Andreas Tille
![Page 27: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/27.jpg)
26
¿Qué información derivada de nuestro
negocio puede interesarles a nuestros clientes o proveedores?
![Page 28: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/28.jpg)
27
Los skills de LinkedIn
Un tiempo atrás LinkedIn agregó la sección de skills permit iendo definir nuestras habil idades profesionales de manera más precisa y a la vez nuestros colegas nos las validan y sugieren nuevas. ¿Qué skills tienen mis colegas que aún yo no tengo? ¿Qué otros skills pueden llegar a interesarme adquirir? o bien, visto en red ¿qué capacidades está demandando el mercado laboral en Latinoamérica? ¿Esas demandas estarán cubiertas en los próximos años?
![Page 29: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/29.jpg)
28
Diseño de Data-Products
El diseño de nuevos productos es en sí una aventura ya que debemos ampliar las fronteras del negocio conocido. Tomémos el caso de los logs de acceso: anteriormente descartados, archivados o relegados a una función de monitor de actividad; hoy en día son la base para realizar análisis de click-stream, mejorar la usabilidad y experiencia de usuario, inducir patrones de consumo, personalización, etc.
A R2D2 blueprint Lucasfilm Image Archives
![Page 30: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/30.jpg)
29
Big Data en Agro
![Page 31: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/31.jpg)
30
The Climate Corporation Monsanto
Trilla del trigo en el Antiguo Egipto, By Carlos E. Solivérez
![Page 32: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/32.jpg)
31
Big Data en La conquista del Espacio
![Page 33: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/33.jpg)
32
Big Data en Medicina
![Page 34: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/34.jpg)
33
Jawbone & Wearables
![Page 35: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/35.jpg)
34
Big Data en Energía
![Page 36: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/36.jpg)
35
NEST & Google
![Page 37: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/37.jpg)
36
Tu información puede ser valiosa para algún vecino de tu ecosistema productivo,
¿cómo podrías productizar esa información? ¿Qué datos genera tu core business a los que
aún no les has encontrado valor?
Reserva Nacional Esteros del Ibera, Argentina, por Joshua Stone
![Page 38: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/38.jpg)
37
Volveré y seré millones (de datos)
![Page 39: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/39.jpg)
38
Un astrónomo, un físico y un matemático estaban viajando en tren por Escocia cuando uno dice “una oveja negra…”
![Page 40: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/40.jpg)
39
El caso del submarinista calcinado Se cuenta que alguien, tras un gran incendio forestal, encuentra un cuerpo quemado y, al acercarse, descubre que tiene puesto un equipo de buceo, traje de neopreno, mascarilla y botellas de oxígeno y pies de rana…
![Page 41: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/41.jpg)
40
La lógica forense
![Page 42: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/42.jpg)
41
![Page 43: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/43.jpg)
42
![Page 44: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/44.jpg)
43
El razonamiento lógico: El esquema deductivo Regla general: "Todos las monedas de la bolsa negra son falsas". Caso: "Estas monedas provienden de la bolsa negra". Resultado: "Estas monedas son falsas". La deducción mantiene la verdad.
![Page 45: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/45.jpg)
44
El razonamiento lógico: El esquema inductivo Regla general: "Estas monedas provienen de la bolsa negra". Caso: "Estas monedas son falsas". Resultado: "Todas las monedas de la bolsa negra son falsas". A partir de unas observaciones se construyen reglas más generales que pueden llevar a resultados falsos
![Page 46: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/46.jpg)
45
El razonamiento lógico: El esquema abductivo Regla general: "Todas las monedas de la bolsa negra son falsas". Caso: "Estas monedas son falsas". Resultado: "Estas monedas provienen de la bolsa negra". Un razonamiento abductivo ofrece una hipótesis que lo explica. Esa conjetura busca ser, a primera vista, la mejor explicación, o la más probable.
![Page 47: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/47.jpg)
46
Big Data en Redes Sociales
![Page 48: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/48.jpg)
47
¿Es posible inducir características de usuario a partir de su comportamiento en las redes sociales?
![Page 49: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/49.jpg)
48
You Are Where You Tweet: A Content-Based Approach to Geo-locating Twitter Users Yi Zhu, 2010
Un modelo para estimar la ubicación de los usuarios de Twitter utilizando el contenido de los tweets. Se utilizan palabras clave que identifican las ciudades. 100 tweets son suficientes para validar la ubicación.
![Page 50: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/50.jpg)
49
Palabras clave locales en los Tweets
![Page 51: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/51.jpg)
50
Inferring gender of movie reviewers: exploiting writing style, content and metadata Otterbacher, 2010
El trabajo utilizó los comentarios realizados por usuarios de IMDb. El modelo de detección de género se basa en métricas de estilo del lenguaje y feedback social; y es independiente de la longitud de la crítica. En contraposición de otros dominios, como la literatura o textos científicos, el modelo de discriminación de género del aficionado de películas alcanzó un 73.7% de certeza.
![Page 52: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/52.jpg)
51
An Exploration of Observable Features Related to Blogger Age Burger & Henderson, 2006 El modelo predictor de edad utilizó, además del texto de los posts, indicadores cuantitativos como: 1. La hora y día de la semana de publicación 2. La cantidad de Links e imágenes 3. La cantidad de seguidores 4. La cantidad y tipo de comentarios 5. Los intereses
![Page 53: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/53.jpg)
52
“How Old Do You Think I Am?”: A Study of Language and Age in Twitter Nguyen, Gravel, Trieschnigg, Meder, 2013 Las variables que cambian según la edad: 1. TODO EN MAYUSCULAS: HAHA, LOL 2. Prolongación alfabética: niiiiiice vs. nice 3. Intensificadores: so, really & awful 4. Referencias personales: I, me, mine, my, myself 5. Conversaciones, RE, 6. RT, likes, #hashtags
![Page 54: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/54.jpg)
53
Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter + A Machine Learning Approach to Twitter User Classiffication Pennacchiotti, Popescu, 2011 El modelo general de profile toma en cuenta: 1. perfil del usuario, 2. comportamiento en mensajes, 3. contenido de los mensajes, 4. estructura de la red social (seguidores/
seguidos)
Los resultados del trabajo: 1. Political Affiliation. precision (0.989) &
recall (~0.872) 2. Starbucks precision (0.763) & recall
(0.759) 3. Etnia: precision (0.878) & recall (0.799)
![Page 55: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/55.jpg)
54
Our Twitter Profiles, Our Selves: Predicting Personality with Twitter Quercia, Kosinski, Stillwell, Crowcroft, 2011
The Big Five Personality Test – OCEAN
![Page 56: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/56.jpg)
55
Big Data en Agro
Inteligencia Colectiva
![Page 57: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/57.jpg)
56
¿Qué define a una red social?
Las características escenciales de una red social son: 1. Las entidades que participan de la red son típicamente personas. 2. Las relaciones entre esas entidades toman referencia a una relación de la vida real como
amigos, familiares, colegas. 3. Existe la noción de nonrandomness or locality
Esa condición es compleja de formalizar, pero la idea intuitiva es que los nodos tienden a formar clusters o comunidades; esto es si la entidad A está relacionada con B y con C, luego la probabilidad que B y C estén relacionados es mayor que el promedio.
![Page 58: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/58.jpg)
57
Detección de comunidades en grafos Fortunato, 2010 Los grafos sociales no son regulares como las lattices. Tampoco son random, donde la distribución de ejes es uniforme en todos los nodos. Los grafos sociales están estructurados en comunidades revelando un alto nivel de orden y organización. El grado nodal tiene una distribución de power law, esto es muchos nodos con pocos ejes conviven con muy pocos con alto grado..
![Page 59: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/59.jpg)
58
Detecting communities by label propagation Raghavan et al, 2007 Cada nodo está asociado con una etiqueta con un número entero. 1. Al inicio cada vértice tiene una etiqueta distinta. 2. Luego, se itera, cada vértice x actualiza su etiqueta reemplazándola por la etiqueta más
popular entre sus vecinos. Si hay más de una etiqueta con el mismo número de vecinos, se escoje alguna aleatoriamente. Luego de varias iteraciones, la misma etiqueta tiende a ser asociada a todos los miembros de la comunidad.
3. Todos los vértices con la misma etiqueta pertenecen a la misma comunidad. Para asegurar que la fase de propagación termine, Raghavan et al propone el uso de una actualización “asincrónica”.
![Page 60: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/60.jpg)
59
Modelos de propagación de mensajes y comunidades Leskovec, 2006 Existen numerosos modelos de propagación de mensajes en redes sociales. Los siguientes 2 son los más populares: 1. Basado en saturación. Cada nodo tiene un umbral definido. Un nodo cambia su estado
cuando la suma de sus vecinos supera el umbral.
2. Modelo de Cascada. En cada ocasión que un vecino cambia su estado, el nodo puede cambiar su estado bajo una probabilidad dada.
![Page 61: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/61.jpg)
60
The Gaydar Project MIT, 2009 El estudio demostró que es posible determinar –de manera muy precisa- la orientación sexual del usuario, analizando la información expuesta por su red de contactos. El modelo observa sólo la información pública de los vínculos (no la información del usuario, sino el de tus vínculos). Y eso funciona aunque seas muy reservado que no publicás nada, ni fotos, ni likes a fotos de Lady Gaga, ni nada.
![Page 62: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/62.jpg)
61
Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook Backstrom, Kleinberg, 2013
¿Es posible reconocer el amor sólo viendo la estructura del grafo social? ¿Cuánto dura el amor?
![Page 63: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/63.jpg)
62
Private traits and attributes are predictable from digital records of human behavior Kosinskia, Stillwella, Graepel, 2013 El modelo usa los likes de los usuarios para alimentar un modelo de inferencia. Se trabajó con 58000 voluntarios que proveyeron sus likes y datos demográficos e intereses. Para categorías dicotómicas tiene los siguientes resultados: • African Americans vs. Caucasian 95% • Género 93% • Hombres homo/heterosexual 88% • Demócratas vs. republicanos 85% • Cristianos vs. Islam 82%
![Page 64: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/64.jpg)
63
No Country for Old Members: User Lifecycle and Linguistic Change in Online Communities Leskovec, 2013
![Page 65: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/65.jpg)
64
Sistemas de Recomendación
![Page 66: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/66.jpg)
65
The Long Tail • Recomendaciones de items muy poco populares y aún
desconocidos por el usuario, pero que serán de su agrado!
• 20 % de los items acumulan el 80 % de los votos
• Serendipia (a.k.a chiripa) ocurre cuando encontrás algo supuestamente inesperado.
![Page 67: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/67.jpg)
66
The Long Tail
![Page 68: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/68.jpg)
67
![Page 69: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/69.jpg)
68
Juan Carlos
![Page 70: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/70.jpg)
69
René
![Page 71: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/71.jpg)
70
Ejemplos de sistemas de recomendación
• Ofrecer artículos periodísticos en sitios de noticias online basados en los intereses del lector.
• Ofrecer sugerencias de productos en una tienda online basados en el historial de compra. • Encontrar cuál es el grupo de fans con más ganas para viajar a ver un recital. • Ofrecer cursos de capacitación a personas conociendo sus capacidades y su historia
curricular. • Sugerir destinos de viaje en relación a las búsquedas realizadas en una agencia de viajes
online.que participan de la red son típicamente personas.
![Page 72: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/72.jpg)
71
Paradigmas de los sistemas de recomendación
Los recsys utilizan diferentes tecnologías, podemos clasificarlas dentro de este grupo de 2 (+1) categorías. • Basados en Contenido el sistema encuentra características de los ítems pertenecientes al
catálogo y encuentra ítems aún no vistos. Por ejemplo, si el usuario vio muchas peliculas cowboys, el sistema recomendará otras películas de ese género.
• Filtros Colaborativos el sistema encuentra otros usuarios similares respecto de sus historiales de compra y recomendará items aún no vistos.
• Basados en Conocimiento el sistema emula el comportamiento de un vendedor realizando preguntas para conocer cuáles son nuestros intereses
![Page 73: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/73.jpg)
72
Basados en contenido
¿Donde está el gato
en los videos de gatos?
![Page 74: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/74.jpg)
73
Filtros Colaborativos Cold Start, Feedback
![Page 75: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/75.jpg)
74
Basados en Conocimiento Modelar la conversación
![Page 76: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/76.jpg)
75
Duplicados
Explicación Contexto
![Page 77: Data Science & Big Data](https://reader034.fdocuments.in/reader034/viewer/2022042510/5457e824af7959de728b4a51/html5/thumbnails/77.jpg)
7puentes.com +54 11 4202 5487 Alem 1303 - Banfield, Buenos Aires, Argentina
Ernesto Mislej - @fetnelio [email protected]