Efficient Parallel Set-Similarity Joins Using Hadoop

Chen Li

Joint work with Michael Carey and Rares Vernica

Motivation: Data Cleaning

Star Title Year GenreKeanu Reeves The Matrix 1999 Sci-FiTom Hanks Toy Story 3 2010 AnimationSchwarzenegger The Terminator 1984 Sci-FiSamuel Jackson The man 2006 Crime

Find movies starring Tom Hanks

Movies starring S..warz…ne…ger?

Star Title Year GenreKeanu Reeves The Matrix 1999 Sci-FiTom Hanks Toy Story 3 2010 AnimationSchwarzenegger The Terminator 1984 Sci-FiSamuel Jackson The man 2006 Crime

Similarity Search

Star Title Year GenreKeanu Reeves The Matrix 1999 Sci-FiSamuel Jackson Iron man 2008 Sci-FiSchwarzenegger The Terminator 1984 Sci-FiSamuel Jackson The man 2006 Crime

Find movies with a star “similar to” Schwarrzenger.

Record linkage

StarKeanu ReevesSamuel JacksonSchwarzenegger

Table R Table S

StarKeanu ReevesSamuel L. JacksonSchwarzenegger

Step 2: Verification

Two-step solution

Table R Table S

Step 1:Similarity Join

Similarity join for large data setsTechniques applicable to other domains,

e.g.:› Finding similar documents› Finding customers with similar patterns

Focus of this talk

Formulation: set-similarity joinHadoop-based solutionsExperiments

More results: see SIGMOD2010 paper

Talk Outline

Set-Similarity Join

Finding pairs of records with a similarity on their join attributes > t

Why this formulation?

“Samuel L. Jackson” {Samuel, L., Jackson}“Samuel Jackson” {Samuel, Jackson}

Word tokens:

Gram tokens:S c h w a r z e n e g g e r

Set-similarity functions

Jaccard Dice Cosine Hamming …

All solvable in this framework

BAJaccard

Formulation of set-similarity join Hadoop-based solutionsExperiments

Talk Outline

Large amounts of data Data or processing does not fit in one machine

Assumptions: › Self join: R = S› Two similar sets share at least 1 token

Why Hadoop?

Map: <23, (a,b,c)> (a, 23), (b, 23), (c, 23)

A naïve solution

Too much data to transfer Too many pairs to verify .

Reduce:(a,23),(a,29),(a,50), … Verify each pair

Solving frequency skew: prefix filtering

prefix

Prefixes of similar sets should share tokens

Sort tokens by frequency (ascending)

Prefix of a set: least frequent tokens

Sorted by frequency

Chaudhuri, Ganti, Kaushik: A Primitive Operator for Similarity Joins in Data Cleaning. ICDE 2006: 5

Prefix filtering: example

Each set has 5 tokens “Similar”: they share at least 4 tokens Prefix length: 2

Record 1

Record 2

Stage 1: Order tokens by frequency

Stage 2: Finding “similar” id pairs

Stage 3: id pairs record paris

Hadoop Solution: Overview

Stage 1: Sort tokens by frequency

Compute token frequencies Sort them

MapReduce phase 1 MapReduce phase 2

Stage 2: Find “similar” id pairs

Partition using prefixes Verify similarity

Stage 3: id pairs record pairs (phase 1)

Bring records for each id in each pair

Stage 3: id pairs record pairs (phase 2)

Join two half filled records

Formulation of set-similarity joinHadoop-based solutions Experiments

Talk Outline

Hardware› 10-node IBM x3650 cluster› Intel Xeon processor E5520 2.26GHz with four cores› Four 300GB hard disks› 12GB RAM

Software› Ubuntu 9.06, 64-bit, server edition OS› Java 1.6, 64-bit, server› Hadoop 0.20.1

Datasets: publications (DBLP and CITESEERX)

Experimental Setting

Running time

Stage 2Stage 1

Stage 3

Speedup

Speedup Breakdown

Stage 2 has good speedup

Scaleup

Good scaleup

Other methods for the 3 stages Case: R <> S Dealing with limited memory

Additional results

Set-similarity joins in Hadoop: Three-stage approach using HadoopExperimental study

Summary

Thank you

Chen Li @ UC Irvine

Source code available at: http://asterix.ics.uci.edu/fuzzyjoin-mapreduce/

Acknowledgements: NSF, Google, IBM.

Efficient Parallel Set-Similarity Joins Using Hadoop

Documents

Transcript of Efficient Parallel Set-Similarity Joins Using Hadoop

Efficient Exact Set-Similarity Joins Arvind Arasu Venkatesh Ganti Raghav Kaushik DMX Group, Microsoft Research.

Pass-Join: A Partitionbased Method for Similarity Joinsdbgroup.cs.tsinghua.edu.cn/dd/papers/vldb2012-passjoin.pdf · Pass-Join: A Partitionbased Method for Similarity Joins Guoliang

Data Integration Using Similarity Joins and a Word-Based

Efficient Parallel Set-Similarity Joins Using MapReduce

Ed-Join: An Efficient Algorithm for Similarity Joins With ...lxue/paper/vldb08_chuan.pdf · Similarity joins with edit distance thresholds pose serious algorithmic challenges. Computing

1 A Partition-based Method for String Similarity Joins ...dd903/papers/tods13.pdf · A Partition-based Method for String Similarity Joins with Edit-Distance Constraints 1:3 2. PROBLEM

A Cluster-Based Approach to XML Similarity · PDF file · 2009-07-21A Cluster-Based Approach to XML Similarity Joins ... 12, 17, 25, 33]. However, ... structure and existing clusters

Joins for Hybrid Warehouses: Exploiting Massive ...taozou/edbt15/paper-56.pdf · Joins for Hybrid Warehouses: Exploiting Massive Parallelism in Hadoop and Enterprise Data Warehouses

Top-k Set Similarity Joins

MapReduce Based Personalized Locality Sensitive Hashing ......Keywords: Locality Sensitive Hashing, MapReduce, Similarity Joins 1 Introduction A fundamental problem in data mining

Auto-FuzzyJoin: Auto-Program Fuzzy Similarity Joins ...

Hadoop at Yahoo!...Evergreen 2008 Hadoop Timeline • 2004 – HDFS & map/reduce started in Nutch • Dec 2005 – Nutch ported to map/reduce • Jan 2006 – Doug Cutting joins Yahoo

BIG DATA DIPLOMA - epsiloneg.com · I- Introduction to Big Data, Developing with Spark and Hadoop • Introduction to Hadoop and MapReduce SQL JOINS o Hadoop Ecosystems o Hadoop Clusters

The Similarity Join Database Operatorfaculty.washington.edu/mhali/Publications/documents... · database operators to answer similarity joins. Unfortunately, there has not been much

Efficient Graph Similarity Joins - School of Computinglifeifei/cs6931/graphjoin.pdfFilter and verify candidates . ... q-gram for String Similarity Joins Fixed Length ... X. Yan, P.

Spatio-Textual Similarity Joins - VLDB · Spatio-Textual Similarity Joins Panagiotis Bouros, Shen Ge, and Nikos Mamoulis Department of Computer Science University of Hong Kong Pokfulam

A Primitive Operator for Similarity Joins in Data Cleaningdc-pubs.dbs.uni-leipzig.de/files/Chaudhuri2006APrimitiveOperator... · A Primitive Operator for Similarity Joins in Data

Efficient Parallel Set-Similarity Joins Using MapReduce - SIGMOD 2010 Slides

DataLinkage1 - Compatibility Modevizclass/classes/infsci2711/Slides/DataLinkage1.pdf · Similarity Joins in Relational Database Systems, Augsten and Bohlen and Semantic Web for Working

Fast and Scalable Distributed Set Similarity Joins for Big ...