Growing a Data Pipeline for Analytics

20

Growing a Data Pipeline for Analytics Roberto Vitillo, Staff Data Engineer @ Mozilla 26th PyData London Meetup

Upload
roberto-agostino-vitillo
Category

Data & Analytics
view
114
download
0

Embed Size (px):

Transcript of Growing a Data Pipeline for Analytics

Page 1: Growing a Data Pipeline for Analytics

Growing a Data Pipeline for Analytics

Roberto Vitillo, Staff Data Engineer @ Mozilla26th PyData London Meetup

Page 2: Growing a Data Pipeline for Analytics

Page 3: Growing a Data Pipeline for Analytics

Page 4: Growing a Data Pipeline for Analytics

brew install apache-spark

Page 5: Growing a Data Pipeline for Analytics

Page 6: Growing a Data Pipeline for Analytics

Don’t do it yourself!

Page 7: Growing a Data Pipeline for Analytics

Input OutputETL

Storage

Page 8: Growing a Data Pipeline for Analytics

JSON

JSON?

Page 9: Growing a Data Pipeline for Analytics

Page 10: Growing a Data Pipeline for Analytics

Page 11: Growing a Data Pipeline for Analytics

Page 12: Growing a Data Pipeline for Analytics

Page 13: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig …

Page 14: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig … ???

Page 15: Growing a Data Pipeline for Analytics

“The easier it is to ask questions, the more questions will be asked”

Page 16: Growing a Data Pipeline for Analytics

Page 17: Growing a Data Pipeline for Analytics

Modern SQL supports Map, Arrays & Structs

Page 18: Growing a Data Pipeline for Analytics

Page 19: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig …

Presto, Re:dash

Page 20: Growing a Data Pipeline for Analytics

TLDR;

• Don’t build your own pipeline unless you really have to

• Use schemas

• Exploit columnar storage

• Use SQL

Building an Analytics-Driven Organization - Accenture/media/accenture/...Building an Analytics-Driven Organization Organizing, Governing, Sourcing and Growing Analytics Capabilities

Building an Analytics-Driven Organization - Accenture/media/accenture/...Building an Analytics-Driven Organization Organizing, Governing, Sourcing and Growing Analytics Capabilities

Growing the IT Talent Pipeline

Growing the IT Talent Pipeline

In-transit analytics on distributed Clouds: applications ... · Autonomic Streaming Pipeline • Streaming pipeline –No “blocking” semantics –Continuous data transmission

In-transit analytics on distributed Clouds: applications ... · Autonomic Streaming Pipeline • Streaming pipeline –No “blocking” semantics –Continuous data transmission

Big Data Pipeline and Analytics Platform

Big Data Pipeline and Analytics Platform

Gaze Analytics Pipeline for Unity 3D Integrationceur-ws.org/Vol-1241/paper02.pdf · Gaze Analytics Pipeline for Unity 3D Integration Signal Filtering and Analysis Andrew T. Duchowski

Gaze Analytics Pipeline for Unity 3D Integrationceur-ws.org/Vol-1241/paper02.pdf · Gaze Analytics Pipeline for Unity 3D Integration Signal Filtering and Analysis Andrew T. Duchowski

Open Source LinkedIn Analytics Pipeline - BOSS 2016 (VLDB)

Open Source LinkedIn Analytics Pipeline - BOSS 2016 (VLDB)

Crowdfunding Your Fundraising: Growing Your Donor Pipeline

Crowdfunding Your Fundraising: Growing Your Donor Pipeline

Streaming Analytics Pipeline - s3. · PDF fileArchitecture Overview ... Amazon Elasticsearch Service ... The Streaming Analytics Pipeline AWS Lambda function processes data at a default

Streaming Analytics Pipeline - s3. · PDF fileArchitecture Overview ... Amazon Elasticsearch Service ... The Streaming Analytics Pipeline AWS Lambda function processes data at a default

Building Analytics Infrastructure for Growing Tech Companies

Building Analytics Infrastructure for Growing Tech Companies

Improving Iteration, Maintainability, and Analytics in the Build Pipeline

Improving Iteration, Maintainability, and Analytics in the Build Pipeline

Query-able Kafka: An agile data analytics pipeline for ... · Query-able Kafka: An agile data analytics pipeline for mobile wireless networks Eric Falk University of Luxembourg eric.falk@uni.lu

Query-able Kafka: An agile data analytics pipeline for ... · Query-able Kafka: An agile data analytics pipeline for mobile wireless networks Eric Falk University of Luxembourg [email protected]

ELK for KPI’s - Indico · Elastic Search A distributed, RESTful search and analytics engine capable of solving a growing number of use cases. Logstash Data processing pipeline that

ELK for KPI’s - Indico · Elastic Search A distributed, RESTful search and analytics engine capable of solving a growing number of use cases. Logstash Data processing pipeline that

A pipeline for functional and visual analytics of ...ceur-ws.org/Vol-1229/dynak2014_paper2.pdf · A pipeline for functional and visual analytics of microbial genetic networks ...

A pipeline for functional and visual analytics of ...ceur-ws.org/Vol-1229/dynak2014_paper2.pdf · A pipeline for functional and visual analytics of microbial genetic networks ...

Pipeline Unified Big Data Analytics - GitHub Pagesfrank19900731.github.io/downloads/file/Unified Big Data... · 2017-02-13 · Unified big data analytics pipeline for Batch / interactive

Pipeline Unified Big Data Analytics - GitHub Pagesfrank19900731.github.io/downloads/file/Unified Big Data... · 2017-02-13 · Unified big data analytics pipeline for Batch / interactive

Medicines Differentiation Analytics Increasing Pipeline Returns Medicines Differentiation Analytics Methodology Review with ……. Date, 2011 Add any Logo.

Inspire 2013 - Growing your Alteryx ROI with Predictive Analytics- AbsolutData

Inspire 2013 - Growing your Alteryx ROI with Predictive Analytics- AbsolutData

Pipeline analytics concept for posting on linked in

Pipeline analytics concept for posting on linked in

Scalable Data Analytics Pipeline for Real-Time Attack ...publish.illinois.edu/science-of-security-lablet/files/2015/09/10062015-Eric-Badger...Pipeline Design Pipeline Deployment Validation

Scalable Data Analytics Pipeline for Real-Time Attack ...publish.illinois.edu/science-of-security-lablet/files/2015/09/10062015-Eric-Badger...Pipeline Design Pipeline Deployment Validation

LNR - Liquid Newsroom. News Pipeline & Predictive Analytics

LNR - Liquid Newsroom. News Pipeline & Predictive Analytics

What We Learned Building an R-Python Hybrid Predictive Analytics Pipeline

What We Learned Building an R-Python Hybrid Predictive Analytics Pipeline

Languages

Pages

Legal

Copyright © 2022 FDOCUMENTS