Growth hacking - Introducción al scraping

34
Nuestros Hacks y sus resultados Growth Hack Spain WEB SCRAPPING 101 Martes 16 – Junio – 2015

Transcript of Growth hacking - Introducción al scraping

Page 1: Growth hacking - Introducción al scraping

Nuestros Hacks y sus resultados

Growth Hack Spain

WEB SCRAPPING 101

Martes 16 – Junio – 2015

Page 2: Growth hacking - Introducción al scraping

¿Scrapping?

Page 3: Growth hacking - Introducción al scraping

“Obtener y acumular datos extraidos de servicios online de forma automática”

Definición de Scraping

@Joviwap - #GHSMad

Page 4: Growth hacking - Introducción al scraping

Utilidad – Generación de Leads

@Joviwap - #GHSMad

Page 5: Growth hacking - Introducción al scraping

Utilidad – Generación de Leads

@Joviwap - #GHSMad

Page 6: Growth hacking - Introducción al scraping

Utilidad – Análisis de mercado

@Joviwap - #GHSMad

Page 7: Growth hacking - Introducción al scraping

Utilidad – Buscadores

@Joviwap - #GHSMad

Page 8: Growth hacking - Introducción al scraping

Ventajas

• Ahorra mucho tiempo.• Estandariza los datos.• Permite cotejar la validez de los datos si hay

varias fuentes.

@Joviwap - #GHSMad

Page 9: Growth hacking - Introducción al scraping

Desventajas

• Pueden haber datos incompletos.• Pueden haber datos incorrectos.• Pueden haber duplicidades.• Puede ser ilegal.

@Joviwap - #GHSMad

Page 10: Growth hacking - Introducción al scraping

Cuando es ilegal el scrapping

American Airllines vs FareChase (USA)

FareChase vendía un software que recopilaba los

precios de los vuelos de AA

Caso:

Actividad:

@Joviwap - #GHSMad

Page 11: Growth hacking - Introducción al scraping

Cuando es ilegal el scrapping

American Airllines vs FareChase (USA)

FareChase vendía un software que recopilaba los

precios de los vuelos de AA

Caso:

Actividad:

@Joviwap - #GHSMad

Page 12: Growth hacking - Introducción al scraping

Cuando es ilegal el scrapping

American Airllines vs FareChase (USA)

FareChase vendía un software que recopilaba los

precios de los vuelos de AA

Caso:

Actividad:

@Joviwap - #GHSMad

Page 13: Growth hacking - Introducción al scraping

Cuando es ilegal el scrapping

Ryanair vs Atrápalo (España)

Atrapalo realizaba busquedas de vuelos, agrupaba

los precios y los publicaba a sus usuarios.

Caso:

Actividad:

@Joviwap - #GHSMad

Page 14: Growth hacking - Introducción al scraping

Cuando es ilegal el scrapping

Ryanair vs Atrápalo (España)

Atrapalo realizaba busquedas de vuelos, agrupaba

los precios y los publicaba a sus usuarios.

Caso:

Actividad:

NOT GUILTY

@Joviwap - #GHSMad

Page 15: Growth hacking - Introducción al scraping

Cuando es ilegal el scrapping

Google News vs EADE(España)

Google News buscaba noticias en diferentes medios

que se habían dado de alta en su servicio para

despues mostrar los resultados a sus usuarios de

forma gratuita.

Caso:

Actividad:

@Joviwap - #GHSMad

Page 16: Growth hacking - Introducción al scraping

Cuando es ilegal el scrapping

Google News vs EADE(España)

Google News buscaba noticias en diferentes medios

que se habían dado de alta en su servicio para

despues mostrar los resultados a sus usuarios de

forma gratuita.

Caso:

Actividad:

@Joviwap - #GHSMad

Page 17: Growth hacking - Introducción al scraping

¿Cuándo es legal el scrapping?

No hay norma común de lo que está permitido y lo que no.

-Mandar emails.-Llamar por teléfono.-Seguir en Twitter!!!!

A personas que no lo hayan solicitado, no se puede:

No se puede vulnerar en ningún caso la ley de propiedad intelectual .

@Joviwap - #GHSMad

Page 18: Growth hacking - Introducción al scraping

WTF!!

Page 19: Growth hacking - Introducción al scraping

Ven al lado oscuro!!!

Page 20: Growth hacking - Introducción al scraping

¿Porque es posible el Web Scrapping?Respuesta

HTTP/1.1 200 OKDate: Fri, 31 Dec 2003 23:59:59 GMTContent-Type: text/htmlContent-Length: 1221 ---------------------[Línea en blanco]------------------<html><body><h1>Página principal que quiero leer</h1>(Contenido) . .</body></html>

PeticiónGET /index.html HTTP/1.1 Host: www.example.com User-Agent: nombre-cliente -------------[Línea en blanco]---------------

Page 21: Growth hacking - Introducción al scraping

¿Porque es posible el Web Scrapping?

HTML<html> <head> -------------------- </head> <body> -------------------- </body></html>

@Joviwap - #GHSMad

Page 22: Growth hacking - Introducción al scraping

¿Porque es posible el Web Scrapping?

HTML<html> <head> -------------------- </head> <body> -------------------- </body></html>

@Joviwap - #GHSMad

Page 23: Growth hacking - Introducción al scraping

Métodos de búsqueda de datos

<div class=“articulo” id=“1”> <div class=“titulo”>titulo</div> <div class=“fecha”>16/06/2015</div> <div class=“contenido”>

<p> Parrafo 1 </p><a> Enlace 1 </a><p> Parrafo 2 </p><img> Imagen 1 </img>

</div></div>

@Joviwap - #GHSMad

• Xpath

/div/div/a• Query Selectors

.articulo.titulo• Regex

/(\d\d\/){2}20(\d\d)/gmi

Page 24: Growth hacking - Introducción al scraping

Herramientas

Page 25: Growth hacking - Introducción al scraping

Herramientas

@Joviwap - #GHSMad

Page 26: Growth hacking - Introducción al scraping

Herramienta Offline JS Session Training Speed Parallel API Capcha Price

Import.IO ✓ ✓ ✓ Paid ✓ ✗ Free

Kimono Labs ✓ ✗ ✗ Paid ✓ ✗ Free

WebScrapper ✗ ✗ ✗ − ✗ ✗ ✗ Free

Fminer ✗ ✓ ✓ ✗ ✗ ✓ ≈$200

Request ? ✗ ✗ ✓ ? ? Server

PhantomJS ? ✓ ✓ ✓ ? ? Server

Selenium ? ✓ ✓ − ✓ ? ? Server

@Joviwap - #GHSMad

Page 27: Growth hacking - Introducción al scraping

DEMO TIME!!!!

Page 28: Growth hacking - Introducción al scraping

Preguntas

@Joviwap - #GHSMad

Page 29: Growth hacking - Introducción al scraping

“La potencia sin control no sirve de nada”

@Joviwap - #GHSMad

Page 30: Growth hacking - Introducción al scraping

“La potencia sin control no sirve de nada”automatización

@Joviwap - #GHSMad

Page 31: Growth hacking - Introducción al scraping

“La potencia sin control no sirve de nada”automatización

propósito

@Joviwap - #GHSMad

Page 32: Growth hacking - Introducción al scraping
Page 33: Growth hacking - Introducción al scraping

Gracias!!

@Joviwap - #GHSMad

Page 34: Growth hacking - Introducción al scraping

@Joviwap - #GHSMad