Sissa 2015

11
Data Retrieval Marco Montanari

Transcript of Sissa 2015

Data RetrievalMarco Montanari

Dove sono I dati?I dati possono trovarsi sul web in tanti formati ● Tabellari

○ xls xlsx csv tsv ods dbf● Strutturati

○ xml json (shp)● Linked data

○ RDF● Altro…

○ HTML, PDF

70%

20%

10%

50%

Scraping

● Excel● Chrome

○ table extractor○ Scraper

● Firefox – outwit

● I PDF… ○ Zamzar○ Tabula

● Scraperwiki

Scraping

● Excel● Chrome

○ table Capture○ Scraper

● Firefox – outwit

● I PDF… ○ Zamzar○ Tabula

● Scraperwiki

Sporchiamoci le mani!

Partiamo dai PDF

Partiamo da qualcosa di facile: http://goo.gl/Wrc9ud

More difficult:http://augusto.digitpa.gov.it/

E ora HTML...

Sarà più facile…..http://it.wikipedia.org/wiki/Presidenti_della_Repubblica_Italiana

o no? http://journalismgrants.org/portfolio_tags/round-1

And now something completely different

Ma c’è solo Google Maps...

… oppure no:OpenStreetMap => http://www.openstreetmap.org/

umap =>http://umap.openstreetmap.fr/it/

That’s all folks!

GRAZIE! Per qualsiasi domanda:

@[email protected], …sirmmohttp://it.linkedin.com/in/montanarim/https://www.facebook.com/marco.montanarimarco.montanari