Survey of different approaches for computing KNN on top of Map Reduce

J.ROCHAS,GE SONG, F.HUET

PROJET

SOUS LA DIRECTION :

SURVEY OF DIFFERENT APPROACHES FOR COMPUTING KNN ON TOP OF MAP REDUCE LEA EL BEZE

DEFINITIONS :

KNN = K nearest neighbors

KNN(r,S) = set KNN of r from S

KNNJ(R,S) = {r,KNN(r,S) | for all r in R}

Exemple

exemple pour k =3

Exemple

exemple pour k =3

Exemple

exemple pour k =3

Problèmes :Data deluge

Parallelisme!

MAP REDUCE7

Map Reduce

MapReduce est un patron d'architecture de développement informatique, popularisé par Google, dans lequel sont effectués des calculs parallèles, et souvent distribués, de données potentiellement très volumineuses (Wikipedia)

Map Reduce

Idee :

Map<K1,V1> —> list <K2, V2>

Reduce<K2,list<V2>> —> list <K3, V3>

KNN : DIFFERENTS ALGORITHMES

2 types d’AlgorithmesKNN

reel K plus proche voisins

approximatif plus proche voisins

KNN : REEL

1. HBKNNJ : BASIC 2. HBNLJ : BLOC NESTED

HBKNNJHadoop Basic K Nearest Neighbors Join

HBKNNJ : Hadoop Basic K Nearest Neighbors Join

PRINCIPE :

2 Dataset R et S

Joindre R a S

calculer les K plus proches voisins de R dans S

Toulouse

Quels sont les 2 plus proches voisins de R dans S ?

HBKNNJ : Hadoop Basic K 1 JOB

nice, <43, 7>toulouse,<43, 1>

reims<49,4>paris,<48,2>tours,<47,1>,R

reims<49,4>paris,<48,2>tours,<47,1>,R tours,<47,1>,S

nice, <43, 7>,R

reims,<49,4>,S

paris, <48,2>,S

toulouse<43,1> R

input map

reims<49,4>paris,<48,2>tours,<47,1> tours,<47,1>,S

nice, <43, 7>,R

nice|nice,reims| = 6.7|nice,paris| = 7|nice,tours| = 6!!

toulouse| toulouse,reims| = 6.7 |toulouse,paris| = 5| toulouse,tours| = 2

reims,<49,4>,S

paris, <48,2>,S

toulouse<43,1> R

input map reduce

reims<49,4>paris,<48,2>tours,<47,1> tours,<47,1>,S

nice, <43, 7>,R

nice|nice,reims| = 6.7|nice,paris| = 7|nice,tours| = 6!!

toulouse| toulouse,reims| = 6.7 |toulouse,paris| = 5| toulouse,tours| = 2

reims,<49,4>,S

paris, <48,2>,S

toulouse<43,1> R

nice,tours 6

nice,reims 6.7

toulouse,paris 5

toulouse,tours 2

input map reduce output

Toulouse

HBKNNJ : Hadoop Basic K Nearest Neighbors Join

INCONVENIENTS :

seul la phase map est mise en parallèle

AVANTAGES :

1 seul job map reduce

EN PRATIQUE :

utile pour des petits dataset mais devient très vite cher en temps pour des plus grand dataset

HBNLJHadoop Block Nested Loop Join

"Efficient Parallel kNN Joins for Large

HBNLJ : Hadoop Block Nested Loop Join

On veut mettre le phase reduce en parallèle en découpant le travail

Methode :

Découper R et S en n*n reducer

Decoupage :

R1 R1 R1

R2 R2 R2

R3 R3 R3

distribue R en ligne

distribue S en colonne

paristourslyon

reimsnancy

toulouse

1er JOB

paristourslyon

reimsnancy

toulouse

1er JOBPhase map

toulouse toulouse

paristourslyon

reimsnancy

toulouse

1er JOB

toulouse toulouse

nice nice

paristourslyon

reimsnancy

toulouse

1er JOBPhase map

toulouse toulouse

nice nice

paristourslyon

reimsnancy

toulouse

1er JOBPhase map

toulouse toulouse

nice nice

parisnancy

paristourslyon

reimsnancy

toulouse

1er JOBPhase map

toulouse toulouse

nice nice

tours nancy

reimslyon

1er JOBPhase reduce

toulouse toulouse

nice nice

tours nancy

reimslyon

1er JOB

toulouse toulouse

nice nice

reimslyon

1er JOBoutput

toulouse toulouse

nice nice

reimslyon

toulouse,paris

toulouse,lyon

1er JOBoutput

toulouse toulouse

nice nice

reimslyon

toulouse,reims

toulouse,tours

toulouse,paris

toulouse,lyon

1er JOBoutput

toulouse toulouse

nice nice

reimslyon

toulouse,reims

toulouse,tours

toulouse,paris

toulouse,lyon

nice,reims

nice,nancy

nice,paris

nice,lyon

candidats

2eme JOB

toulouse,reims

toulouse,tours

toulouse,paris

toulouse,lyon

nice,reims

nice,nancy

nice,paris

nice,lyon36

2eme JOB

toulouse,reims

toulouse,tours

toulouse,paris

toulouse,lyon

nice,reims

nice,nancy

nice,paris

nice,lyon

<toulouse>reims,tours,paris,lyon

<nice>reims,nancy,paris,lyon

2eme JOB

toulouse,reims

toulouse,tours

toulouse,paris

toulouse,lyon

nice,reims

nice,nancy

nice,paris

nice,lyon

<toulouse>reims,tours,paris,lyon

<nice>reims,nancy,paris,lyon

nice,lyon

nice,paris

toulouse,lyon

toulouse,tours

JOB 1: calcul des candidats KNN( R ,S)

JOB 2: calcul des KNN( R ,S)

INPUTR

INPUTS

Avantage :

On découpe le travail en n*n reducer donc la phase reduce peut être mis en parallèle.

Inconvenient :

replication de R et S n fois

on a en sortit que les cKNN(R, S) , c’est a dire les candidats pour les KNN(R,S)

implique un 2nd job pour les KNN(R,S)

HVKNNJHadoop Voronoi K Nearest Neighbors Join

"Efficient processing of k

HVKNNJ : Hadoop Voronoi K Nearest Neighbors Join

Voronoi ?

c est une structure qui permet de diviser notre espace en cellule…

selection pivots

diagrame voronoi

Pb : la replication de S

pour k = 3

Pb : la replication de S

pour k = 3

JOB 2: selection du pivot

le plus proche +statistique

ETAPE: grouping

INPUTR

INPUTS

JOB 1: generer les pivots

INPUTR JOB 3:

calcul des KNN

HVKNNJ : Hadoop Voronoi K Nearest Neighbors

strategie de pivots

Farthest :

sur un échantillon on prend le plus loin

KMeans :

sur un échantillon on prend un nombre de centroides qui seront les pivots

Grouping ???

Probleme ?

on a n reducer et p cellule pivots comment distribuer p dans n ?

regrouper les pivots pour minimiser la replication de S

avoir un bon balancing (temps equivalent pour les slots)

Grouping ???

Probleme ?

on a n reducer et p cellules de pivots

comment distribuer p dans n ?

4 reducers 52

Grouping ???

éviter la replication de S

avoir des cellule qui prennent le meme temps:good balancing

Grouping ???

2 strategies

Greedy

Grouping ???Geo

Geo : Regrouper les pivots les plus proches

Grouping ???Geo

Geo : Mais les cellules non pas la meme repartion

Prendra plus longtemps

que les autres

Grouping ???Greedy

Greedy :repartir suivant les scores et les cellules qui ont le plus de replication commun

grace au stat : on peut borner les réplications des cellules et donc la complexité en temps

c(v) = complexité d une cellule

c(v)=#r*(#s+#rep)

Grouping ???Greedy

pivots rep scoreA E,B 28B A,E,D,C 40C B,D 15D E,B,C 25E A,B,D 44

2 reducersgroupe score

Grouping ???Greedy

etape 3: grouping

Resultat :

Greedy meilleur

avec plus de reducer

ANN : APPROXIMATIVE

1. HZKNNJ : Z-VALUE 2. LSH : LOCALITY

HZKNNJHadoop Z-Value K Nearest Neighbors Join

"Efficient Parallel kNN Joins for Large

HZKNNJ : Hadoop Z-Value K Nearest Neighbors Join

Idee :

Transformer d-dimension en 1 dimension grace au Z value

On mappe les 1 dimension pour trouver les KNNJ

depart creation des copiestransformation basé sur le space filling = mappe sur 1-D

Z-valuez_q

z+(z_q)z-(z_q)

candidats de q

Comment faire la partition ?

2-NNcopy

BTree BTree BTree

cKNN cKNNcKNN74

JOB 1: copies

+z_value————-

statistiquesINPUT

etape 0: creation des vectors

INPUTR

JOB 2: calcul des candidats

JOB 3:calcul des

HLSHHadoop Locality Sensitive Hashing

"Parallel Similarity Join »

HLSH : Hadoop Locality Sensitive Hashing

1,0,-4

6,-8,7

9,0,-8

Idee : • hash nos objets • les objets qui ont le meme

hashing sont dans le meme bucket

• =cherche de collision

1,0,-4

6,-8,7

9,0,-8

calcul des KNN des objets R avec les objets S, du meme bucket

bucket vide (pas de R) = eliminé

La fonction de hashing

g est une famille de hash de longueur M

L famille de g

longueur M

h1,h2…,hm

h1,h2…,hmhash L fois

a = random gaussian vector

b in [0,W]

W = définit la taille du bucket

h(v) = a• v + bW

⎢⎣⎢

⎥⎦⎥

3 parametres

L = augmente la precision, mais augmente le temps

M = augmente probabilité que les elements proches sont dans le meme bucket

W = la taille de la fenêtre

JOB 1: générer les

hash et calcul statistique

ETAPE 2: définir la

partition grace aux statistiques

INPUTS

etape 0: definir les hash value

INPUTR JOB 2:

calcul des KNN

des buckets=candidats

JOB 3:calcul des

Partition

on a plus de buckets que de reducers

Hadoop fait mal sa partition

Définir une partition pour que chaque reducer ait la meme complexité en temps

soit P reducer tmps(P) = Sum(#ri*#si) i=bucket

rapide et moins de calcul

la fonction de hash est dataset dépendantmais il a été prouvée que ce type de fonctions étaient plus efficace

on n a pas l’idée de replication des buckets si pas assez d'éléments.

peut être améliorer (Multi probe, LSH forest, ….)

RESUME

1. KNN 1. HBKNNJ : BASIC 2. HBNLJ : BLOC NESTED

LOOP 3. HVKNNJ : VORONOI

RESUME

HBKNNJ:Basic

HBNLJ:bloc nested loop

HVKNNJ: Voronoi

HZKNNJ:zvalue

HLSH:locality sensitve hashing

pivots

fct hash

shifts,reduction dimension

Preprocessing

calcul du partitionement/grouping

calcul KNN

calcul des candidats

partition candidats86

EXPERIMENTATIONS

Contexte

Réalisé Hadoop 1.3

Sur Grid5000

Datasets

2 datasets

Open street map : OSM

Mesures

Temps Precision

#data #nodes#plus proches

voisins

Precision

recall = | A(q)∩ I(q) || I(q) |

A = Actual dataset

I = Ideal dataset

GEOGRAPHIC DATA…92

OSM DATA

Donnée géographiques

latitude,longitude

2 dimensions

IMPACT SUR NOMBRE DE NODES

4x10ˆ3m data

#nodes

3 10 15 18

HBKNNJ

Impact du nombre de nodes …

4x10ˆ3m data

#nodes

3 10 15 18

HBKNNJ : Basic HBNLJ: Bloc nested loop

4x10ˆ3m data

#nodes

3 10 15 18

HBKNNJ : Basic HBNLJ: Bloc nested loop HVKNNJ: Voronoi

4x10ˆ3m data

#nodes

3 10 15 18

4x10ˆ3 data

#nodes

3 10 15 18

HBKNNJ : Basic HBNLJ: Bloc nested loop HVKNNJ: Voronoi HZKNNJ : Zvalue

200x10ˆ3 data

#nodes

3 10 15 18

4000x10ˆ3 data

#nodes

3 10 15 18

4x10ˆ3 data

#nodes

3 10 15 18

HBKNNJ : Basic HBNLJ: Bloc nested loop HVKNNJ: Voronoi HZKNNJ : ZvalueHLSH : LSH

200x10ˆ3 data

#nodes

3 10 15 18

4000x10ˆ3 data

#nodes

3 10 15 18

IMPACT SUR NOMBRE DE DONNEES

CONFIGURATION

20 nodes

1 slots/node

K = 20 trouver K voisins le plus proches

change taille des données

mesure le temps

Impact du nombre de données … : temps

Impact du nombre de données 4x10ˆ3 data

50 100 200 400 800 1600

HBNLJ: bloc nested loop102

50 100 200 400 800 1600

HBNLJ: Bloc nested loop HVKNNJ: Voronoi103

50 100 200 400 800 1600

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HLSH : LSH104

50 100 200 400 800 1600

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HLSH : LSH HZKNNJ : Zvalue105

50 100 200 400 800 1600

HLSH : LSH HZKNNJ : Zvalue106

Impact du nombre de données ac

50 200 400 800 1600

HLSH : LSH HZKNNJ : Zvalue107

IMPACT SUR 'K' K = LE NOMBRE DE VOISINS SOUHAITES

4x10ˆ3 data

2 20 200 400

HBNLJ: Bloc nested loop

Impact du nombre de K … - temps

4x10ˆ3 data

2 20 200 400

HBNLJ: Bloc nested loop HVKNNJ: Voronoi

4x10ˆ3 data

2 20 200 400

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HZKNNJ : Zvalue

4x10ˆ3 data

2 20 200 400

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HZKNNJ : Zvalue HLSH : LSH

Mais, la précision …

4x10ˆ3 data

2 20 200 400

Impact du nombre de K … - précision

4x10ˆ3 data

2 20 200 400

4x10ˆ3 data

2 20 200 400

Mais si on modifie les paramètres de la fonction de hash …

4x10ˆ3 data

#nodes

2 20 200 400

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HZKNNJ : Zvalue HLSH : LSHHLSH

4x10ˆ3 data

#nodes

2 20 200 400

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HZKNNJ : ZvalueHLSH : LSH HLSH HLSH : avec params changes

et par rapport au temps…

4x10ˆ3 data

#nodes

2 20 200 400

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HZKNNJ : Zvalue HLSH : LSHHLSH

4x10ˆ3 data

#nodes

2 20 200 400

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HZKNNJ : ZvalueHLSH : LSH HLSH HLSH : avec params changes

4x10ˆ3 data

#nodes

2 20 200 400

HLSH : LSH HLSH : avec params changes

DATA SURF…124

DONÉE SURF

descriptor générés par l'algorithme de Speeded Up Robust Features (SURF)

dimension 128

2 algorithmes partent

HBKNNJ - Basic : trop lent

HZKNNJ - Z-Value : une precision < 5% pour un dataset de haute dimension(>30)

IMPACT SUR NOMBRE DE DONNEES

Impact du nombre de données !

1;49724;1186657;1.0;0h19min46sec 2;100039;2276780;1.0;0h37min56sec 4;207402;4665689;1.0;1h17min45sec 8;409052;9273714;1.0;2h34min33sec

images

100 200 400 800 1600

HVKNNJ: Voronoi128

images

100 200 400 800 1600

HVKNNJ: Voronoi HBNLJ: Bloc nested loop129

images

100 200 400 800 1600

HVKNNJ: Voronoi HBNLJ: Bloc nested loop HLSH : LSH130

4x10ˆ3 data

images

100 200 400 800

HVKNNJ: Voronoi HBNLJ: Bloc nested loop HLSH : LSH131

IMPACT SUR LE NOMBRE DE NODES

Impact du nombre de nodes !

#nodes

10 20 30 40

HVKNNJ: Voronoi HBNLJ: Bloc nested loop HLSH : LSH

IMPACT SUR 'K' K = LE NOMBRE DE VOISINS SOUHAITES

100x100 images : 49724 descriptors

2 20 200 2000

Contexte : 20 nodes, 1 slot/nodes

2 20 200 2000

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HLSH : LSH

2 20 200 2000

HBNLJ: Bloc nested loop HVKNNJ: Voronoi HLSH : LSH HLSH with best acc

2 20 200 2000

HVKNNJ: Voronoi HBNLJ: Bloc nested loop HLSH : LSH HLSH with best acc

DIFFICULTES DE TROUVER LES PARAMETRES POUR CHAQUE ALGORITHME …

HBKNNJ : BASIC • NOMBRE DE SLOTS

4x10ˆ3 data

#nodes

3 10 15 18

HBKNNJ

HBKNNJ - BASIC : I.Nombre Contexte : K=20, 20 nodes, 1 slot/nodes,dimension=2

HBNNLJ : BLOC NESTED LOOP • CHOIX DU NOMBRE DE

REDUCER • BALANCING

HBNNLJ : BLOC NESTED tim

0400800

12001600200024002800320036004000

nombre de reducers

5x5 6x6 7x7 8x8 9x9

5m 50m 100m

Contexte : K=20, 15 nodes, 1 slot/nodes

on découpe en n*n reducers le travail

optimiser le parallélisme le plus possible , en découpant le travail suivant le nombre de slots disponibles :

on a 15 nodes :

choisir 5x5 est pas optimal car on fait travailler 15 nodes puis 10 nodes , 5 resteront inactif

choisir 7x7 est mieux 49 : 15+15+15 juste 4 reste inactif

8x8 = 64 = 15 *4 +4 mieux pr good balancing

mais plus de reducer = moins de travail par case

HBNNLJ : BLOC NESTED

0400800

12001600200024002800320036004000

nombre de reducers

5x5 6x6 7x7 8x8 9x9

5m 50m 100m

HBNNLJ : BLOC NESTED

Contexte : K=20, 15 nodes, 1 slot/nodes, 100000 donnéesHBNNLJ : BLOC NESTED

HVKNNJ : VORONOI • STRATEGIE DE PIVOT • NOMBRE DE PIVOT • STRATEGIE DE GROUPING

1.CHOIX DE LA STRATEGIE DE PIVOTS

Contexte : K=20, 15 nodes, 1 slot/nodes, dimension=2

farthest kmeans

HVKNNJ : VORONOI:

2.IMPACT DU NOMBRE DE PIVOTS

#pivots

6 30 300 500 1500 3000 4000

5M 50M 100M

e pivo

HVKNNJ : VORONOI:

3.CHOIX DE LA STRATEGIE DE GROUPING

GEO VS GREEDY

HVKNNJ : VORONOI:

geo avec 20 reducers

HVKNNJ : VORONOI:

greedy avec 20 reducers

HVKNNJ : VORONOI:

greedy avec 50 reducers

HVKNNJ : VORONOI:

HZKNNJ : ZVALUE • #DONNÉES VS PRECISION • DIMENSION VS PRECISION

1.#Données vs PRECISION

#data*1000

50 100 400 800 1600

time (sec) accurancy

Contexte : K=20, 15 nodes, 1 slot/nodes, dimension=2, 1 copie

HZKNNJ : ZVALUE

1 2 3 4

time (sec) accurancy161

Contexte : K=20, 15 nodes, 1 slot/nodes, dimension=2, 1 copie

HZKNNJ : ZVALUE

2.Dimension vs PRECISION

1 4 Sans titre 1 8 10

time (s) accurancy(%)

Contexte : K=20, 15 nodes, 1 slot/nodes, file surf , dimension=128,#donnés=50000

nombre limité de copie

HZKNNJ : ZVALUE

HLSH : LOCALITY SENSITIVE HASHING

• FONCTION DE HASHING

1.Partition

Contexte : K=20, 20 nodes, 1 slot/nodes, file osm , dimension=2,#donnés=100000

HLSH : Locality Sensitive

2.La fonction de hashing

La fonction de Hashing

Difficulté:

trouver une bonne precision

un bon temps

La fonction de Hashing

change W impact sur la nombre des bucket

- buckets => + elements/buckets

L=1,M=2

5000000 15000000

M=7,W= 5000000

1 2 4 6

L=1,W= 5000000

2 6 14

Contexte : K=20, 8 nodes, 1 slot/nodes, file surf , dimension=128,#donnés=400000

RESUMONS

A chacun ses problèmesHBKNNJ :

Basicpas assez de parallèles,

trop de calcul

HBNLJ :Bloc Nested

trop de replications, trop de calcul inutiles

HVKNNJ:Voronoi

beaucoup de calcul,

et long pour HD

peut etre risqué si mauvais choix de pivots Mieux pr data disperse

HZKNNJZ-Value precision pas stable pour #data

très bon pour petite dimension < 30très mauvais pour HD

HLSHLocality

Sensitive Hashing

precision pas stable pour K

• difficultés des choix des paramètres:• depend de K • depend du dataset

tres utile pour l'use case des matching, car debase de beaucoup de candidats

CONCLUSION

Expérimentations très difficiles,

beaucoup de paramètres.

Aucun algorithme est meilleur que tous les autres

dépendent du dataset

USE CASESIMILARITE ENTRE DES IMAGES ALGORITHME : NEAREST NEIGHBORS RATIO

Les descripteurs ?

Calculer la similarité

Exemple :

Similarité entre les images

ETAPE 1: calcul des des

matchinggrace a nos différents

algorithmes

ETAPE 2: calcul des K plus hauts

scoresimages

ImagesR

OUTPUTles K images

similaires pour chaque images

Impact du nombre de données tim

#image/category

1 2 4 6 8 16

HBNLJ HVKNNJ HLSH179

JOB 3: KNN

assignation a son groupe

KNN(r2,S)

g_r2,[r2, s1,s2…]

KNN(r5,S)

p_s,s decide a quel groupe de r s

doit etre répliqu'e

ETAPE: grouping

g_r1,[r5, s1,s2…]

hash,r1

hash,r2

hash,s3

hash,s2

hash,s1

statistique des buckets,

et suppression des buckets

hash,s1

hash,r1

hash,r2

hash,s2

hash,s3

HLSH : Hadoop Locality sensitiveJOB 1: hash et statistique

hash,r1

hash,r2

hash,s3

hash,s2

hash,s1

calcul du partitionnement

des buckets

knndefinit a quel

reducer le hash va

calcul des cKNN

HLSH : Hadoop Locality sensitiveJOB 1: calul des candidats

JOB 2 : calcul des KNN

calculknn

map reduce

output182

Survey of different approaches for computing KNN on top of Map Reduce

Data & Analytics

Transcript of Survey of different approaches for computing KNN on top of Map Reduce

Current Pharmacological Approaches to Reduce Chorea in … · REVIEW ARTICLE Current Pharmacological Approaches to Reduce Chorea in Huntington’s Disease Emma M. Coppen1 • Raymund

Rooftop Solar-KNN

kNN & Naïve Bayes

Project SN-3 Participatory Research Approaches to Reduce ...

Integrating approaches to reduce mycotoxin contamination ... - USAID...Integrating approaches to reduce mycotoxin contamination of crops Jagger Harvey, PhD Director Feed the Future

Ecological and Resource Recovery Approaches to Reduce the Envi

Polymer Technology in lubrication and approaches to reduce ...

KNN NSU H APER

An Evaluation of Alternative Approaches to Reduce Odors from

Sweet KNN: An Efficient KNN on GPU through Reconciliation ...yufeiding/publication/icde17.pdf · Sweet KNN: An Efﬁcient KNN on GPU through Reconciliation between Redundancy Removal

Approaches to Reduce Your Application and OLTP Costs€¦ · Approaches to Reduce Your Application and OLTP Costs ... data growth with fast ... Cost Savings Potential Compared to

Effective Approaches to Reduce and Replace Challenging ...

Large scale biomedical texts classification: a kNN and an ......- 1 - Large scale biomedical texts classification: a kNN and an ESA-based approaches Khadim Dramé1*, Fleur Mougin1,

Knn promo materials

kNN Imputation

KNN (K-Nearest Neighbors)

KNN News 042715

Spatial Data Approaches to Improve Production and Reduce ...

Lecture 11: Cross validation - Stanford UniversityScenario2 KNN!1 KNN!CV LDA Logistic QDA 0.25 0.30 0.35 0.40 0.45 SCENARIO 1 KNN!1 KNN!CV LDA Logistic QDA 0.15 0.20 0.25 0.30 SCENARIO

Sweet KNN: An Efficient KNN on GPU through Reconciliation ... · Sweet KNN: An Efﬁcient KNN on GPU through Reconciliation between Redundancy Removal and Regularity Guoyang Chen,