Data Scraping, Data Organization

30
Milano, 13.12.2012 Milano, 13.12.2012 DATA SCRAPING, DATA ORGANIZATION Ovvero PERCHÉ EXCEL È NOSTRO AMICO

Transcript of Data Scraping, Data Organization

Page 1: Data Scraping, Data Organization

Milano, 13.12.2012Milano, 13.12.2012

DATA SCRAPING, DATA ORGANIZATION

OvveroPERCHÉ EXCEL È NOSTRO AMICO

Page 2: Data Scraping, Data Organization

Milano, 13.12.2012

Chi sono?

• Marco Montanari@ingmmo, [email protected], sirmmo.blogspot.com

• Sviluppatore, Appassionato di giochi, Nerd…– passione per i dati

• “I am a journalist looking for coder friends.”– Jens Finnäs (HacksHackers Helsinki)

• “I am a coder with journalist friends.”– Marco Montanari

Page 3: Data Scraping, Data Organization

Milano, 13.12.2012

Indice

• Il Fatto• Le Dimensioni

• DEMO• Descrivere fatti• Aggregazioni

• DEMO

• I Formati

• DEMO• Trovare dati on-line

• DEMO

Page 4: Data Scraping, Data Organization

Milano, 13.12.2012

Il Fatto

Page 5: Data Scraping, Data Organization

Milano, 13.12.2012

Il Fatto

• 5W: – Who is it about?– What happened?– When did it take place?– Where did it take place?– Why did it happen?

Page 6: Data Scraping, Data Organization

Milano, 13.12.2012

Le Dimensioni

Fatto

Chi

Cosa

QuandoPerché

Dove

Page 7: Data Scraping, Data Organization

Milano, 13.12.2012

Le Dimensioni

Vendita di un

prodotto

Cliente1

ProdottoX

12.12.2012 09:24:22

Amazon.it

Page 8: Data Scraping, Data Organization

Milano, 13.12.2012

Le Dimensioni

Utente visita sito

Nome utente: sirmmo

Pagina: /area1/p2

Orario di ingresso:

13.12.2012 09:24:22

Orario di uscita:

13.12.2012 09:27:12

Durata: 2m50s

Modalità di uscita: clic su

link

Destinazione: /area1/p3

Page 9: Data Scraping, Data Organization

Milano, 13.12.2012

Analisi delle dimensioni del fatto

DEMO

Page 10: Data Scraping, Data Organization

Milano, 13.12.2012

Descrivere i fatti

Pro• Disaggregato• Semplice• Atomico

Contro• Disaggregato• Tanti elementi • Da tenere sempre

organizzato

Ogni dimensione è una colonna

Page 11: Data Scraping, Data Organization

Milano, 13.12.2012

Descrivere i fatti

Pro• Disaggregato• Semplice• Atomico

Contro• Disaggregato• Tanti elementi • Da tenere sempre

organizzato

Ogni dimensione è una colonna

Page 12: Data Scraping, Data Organization

Milano, 13.12.2012

• Dal mondo del management

• Tabella Pivot (analisi multidimensionale)– Impossibile con dati già aggregati– Le dimensioni sono correlabili come si vuole

Aggregazioni

DataCube

Page 13: Data Scraping, Data Organization

Milano, 13.12.2012

AggregazioniPivoting

Dati disaggregati

Pivoting

Page 14: Data Scraping, Data Organization

Milano, 13.12.2012

AggregazioniPivoting

Criteri di aggregazione

Risultato: la tabella pivot

Page 15: Data Scraping, Data Organization

Milano, 13.12.2012

AggregazioniPivoting

Page 16: Data Scraping, Data Organization

Milano, 13.12.2012

Si utilizza un dataset molto disaggregato per vedere come giocare con le tabelle pivot

DEMO

Page 17: Data Scraping, Data Organization

Milano, 13.12.2012

I Formati

• Tabellari– xls xlsx csv tsv ods dbf

• Strutturati– xml json (shp)

• Linked data– RDF

• Altro…– HTML

75%

20%

5%

50%

Page 18: Data Scraping, Data Organization

Milano, 13.12.2012

I Formati

• Tabellari– xls xlsx csv tsv ods dbf

• Strutturati– xml json (shp)

• Linked data– RDF

• Altro…– HTML

75%

20%

5%

50%

Page 19: Data Scraping, Data Organization

Milano, 13.12.2012

Analisi rapida dei principali formati: • CSV, TSV• SHP• HTML

DEMO

Page 20: Data Scraping, Data Organization

Milano, 13.12.2012

• Il browser (non IE) come strumento di analisi • Chrome

– Scraper • https://

chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd

– Table Capture• https://chrome.google.com/webstore/detail/table-capt

ure/iebpjdmgckacbodjpijphcplhebcmeop

Trovare dati on-lineLa versione facile

Page 21: Data Scraping, Data Organization

Milano, 13.12.2012

• Firefox– Outwit

• http://www.outwit.com/products/hub/

Trovare dati on-lineLa versione facile

Page 22: Data Scraping, Data Organization

Milano, 13.12.2012

• Strumenti più specialistici ma anche più «fragili»• Excel

Trovare dati on-lineLa versione intermedia

Page 23: Data Scraping, Data Organization

Milano, 13.12.2012

• Google Refine - https://code.google.com/p/google-refine/

Trovare dati on-lineLa versione intermedia

Page 24: Data Scraping, Data Organization

Milano, 13.12.2012

Trovare dati on-lineLa versione difficile

Amico sviluppatore

(Vincenzo Patruno)

Page 25: Data Scraping, Data Organization

Milano, 13.12.2012

Esperimenti di importazione dati• Plugin per Chrome• Excel• Refine

DEMO

Page 26: Data Scraping, Data Organization

Milano, 13.12.2012

• Decidere le dimensioni di interesse

• Descrivere i fatti in base alle dimensioni

• Trovare i dati, pulirli e adattarli alle dimensioni

• Analizzare le aggregazioni

Riassumendo

Page 27: Data Scraping, Data Organization

Milano, 13.12.2012

• Decidere le dimensioni di interesse

• Descrivere i fatti in base alle dimensioni

• Trovare i dati, pulirli e adattarli alle dimensioni

• Analizzare le aggregazioni

Riassumendo

Parlate con il

vostro amico

programmatore!!!

Page 28: Data Scraping, Data Organization

Milano, 13.12.2012

Qualche link utile

• http://dataist.wordpress.com/ - Jens Finnäs– Ottimo blog dove seguire le escursioni in terra di

codice di un giornalista• https://code.google.com/p/google-refine/ -

Google Refine – Strumento di Google per l’elaborazione e la pulizia

dei dati

Page 29: Data Scraping, Data Organization

Milano, 13.12.2012

Qualche link utile

• https://scraperwiki.com/ - ScraperWiki– Strumento per trovare e collezionare script di

scraping scritti in python, ruby o php• https://github.com/ - GitHub

– Repository di progetti open source tra i quali anche tantissimi strumenti di scraping più specifici

Page 30: Data Scraping, Data Organization

Milano, 13.12.2012

GRAZIE!

Per qualsiasi domanda:

That’s all folks!

@[email protected], …sirmmohttp://it.linkedin.com/in/montanarim/

marco.montanari