Spark + HBase

Spark + HBaseBringing HBase Data Efficiently into Spark with DataFrame Support Zhan ZhangSoftware Engineer04/08/2016

© Hortonworks Inc. 2014

About Zhan Zhang

Zhan Zhang (Software Engineer at Hortonworks)

Currently Focus on Apache Spark and Hadoop, etc

Contribute to Apache Spark, Yarn, HBase, Ambari, etc

Experiences on Computer Networks, Distributed System and Machine Learning Platform


Why Revamp the Existing HBase Connector?

Limited Spark Support in HBase Upstream– Scalability– RDD level, but Spark is moving to DataFrame/Dataset– Data Loss and Data Duplication

Stability– Correctness– Stability Impact with Co-processor.– Serialized RDD Lineage to HBase– Maintenance Overhead: Internal Hacks


What Improvement Have We Made? Combine Spark and HBase

– Spark Catalyst Engine for Query Plan and Optimization– HBase for Fast Access KV Store– Implement Standard External Data Source with Built-in Filter

High Performance– Data Locality: Move Computation to Data– Partition Pruning: Task only Performed in RS Holding Requested Data– Column Pruning / Predicate Pushdown: Reduce Network Overhead

Full Fledged DataFrame Support– Spark-SQL– Integrated Language Query

Run on Top of Existing HBase Table– Native Support Java Primitive Types


More …

Composite Key

Avro Format

Customized Serdes


Usage - Define the Catalog

Header (Calibri Bold 28 pt)


Usage– Write to HBase


Usage– Construct DataFrame


Usage - Language Integrate Query


Usage - Spark SQL


Usage - With Other Data Sources


Header (Calibri Bold 28 pt)


Spark HBase Connector Architecture


Byte Array Order: SHORT/INT/LONG

0 21 … … MAX -2 -1MIN … …

WHERE X <= 2

WHERE X >= -2


Implementation

Partition Pruning: – Split into Multiple Range, e.g., WHERE X < 2

Data Locality: – Each RDD Partition Has Preferred Location

Column Pruning: – Required Column in Scan/BulkGet

Predicate Pushdown: – HBase Built-in Filters

Scan/BulkGets: – Grouped by Region Server


BACK UP


Kerberos Cluster Kerberos Ticket

Token Retrieval and Renewal

Long Running Service


FLOAT/DOUBLE: IEEE-754

0.0 0.2… … … MAX -2.0… MIN…

WHERE X <= 2.0D

WHERE X >= -2.0D

-0.0


HBase Meta Table

Spark + HBase

Technology

Transcript of Spark + HBase