Spark Summit Europe Wrap Up and TASM State of the Community

Spark Summit Europe, a wrap-up

Jean Georges Perrin@jgperrin

TASM, Durham, NCDecember 12th 2017

And the State of our community

JGP • Jean Georges Perrin๏ @jgperrin๏ Chapel Hill, NC๏ I 🏗 SW • Since 1983๏ #Knowledge =

𝑓 ( ∑ (#SmallData, #BigData), #DataScience)& #Software

๏ #IBMChampion x9 • #KeepLearning ๏ @ http://jgp.net

http://twitter.com/jgperrin

https://twitter.com/hashtag/Knowledge

https://twitter.com/hashtag/SmallData

https://twitter.com/hashtag/BigData

https://twitter.com/hashtag/DataScience

https://twitter.com/hashtag/Software

https://twitter.com/hashtag/IBMChampion

https://twitter.com/hashtag/KeepLearning

http://jgp.net

DiffTool is now DataQ๏ Dhiraj Peechara presented DiffTool๏ Now DataQ๏ Now Open Source๏ http://dataq.io

http://dataq.io

http://bit.ly/spark-clego

http://bit.ly/spark-clego

Title Text

Links (they gotta make ‘em shorter)๏ https://databricks.com/blog/2017/12/06/spark-summit-is-

becoming-the-spark-ai-summit.html ๏ https://databricks.com/sparkaisummit/north-america

https://databricks.com/blog/2017/12/06/spark-summit-is-becoming-the-spark-ai-summit.html

https://databricks.com/blog/2017/12/06/spark-summit-is-becoming-the-spark-ai-summit.html

https://databricks.com/sparkaisummit/north-america

Latest versions๏ Spark 2.2.1 released (Dec 01, 2017)๏ Spark 2.1.2 released (Oct 09, 2017)

Quick Survey๏ Introduction๏ Who is a Java developer?๏ Who uses Spark?๏ Who uses Python with Spark?๏ Who uses Scala with Spark?๏ Who uses Java with Spark?

On Facebook too

facebook.com/TriangleSpark

https://www.facebook.com/TriangleSpark/

Spark+Java book๏ Spark with lots of Java examples๏ Written by me๏ Available in MEAP early 2018

Speakers๏ Jean Georges Perrin - Oplo๏ Ian Pointer - TASM founder๏ Scott Gerard - IBM Research

Spark Summit Dublin

Logistics๏ October 24-26 2017๏ The Convention Center Dublin, Ireland๏ About 1200 attendees๏ 3 tutorials๏ 5 tracks on day 1: developer, data science, technical deep dives, and

data engineering๏ 6 tracks on day 2: developer, Spark ecosystem, AI, sponsored

sessions, research, and enterprise๏ Introduced levels: beginner, intermediate, and advanced

Title Text

Irish food is easy

Title Text

Title Text

Spark Bench

Title Text

Title Text

All the videos are on YouTube

Press

P

r

i

n

t

e

d

i

n

E

U

-

I

m

p

r

i

m

é

e

n

U

E

-

B

E

L

G

I

Q

U

E

7

€

-

C

a

n

a

d

a

9

,

8

0

$

C

A

N

-

S

U

I

S

S

E

1

3

,

1

0

F

S

-

D

O

M

S

u

r

f

7

,

5

0

€

-

T

O

M

1

0

2

0

X

P

F

-

M

A

R

O

C

5

5

D

H

PROGRAMMEZ!#

2

1

3

-

d

é

c

e

m

b

r

e

2

0

1

7

l

e

m

a

g

a

z

i

n

e

d

e

s

d

é

v

e

l

o

p

p

e

u

r

s

©

B

l

i

z

n

e

t

s

o

v

L

e

s

d

é

v

e

l

o

p

p

e

u

r

s

v

o

n

t

n

o

u

s

s

a

u

v

e

r

.

.

.

C

h

r

o

m

e

L

e

s

o

u

t

i

l

s

m

é

c

o

n

n

u

s

d

e

s

D

e

v

t

o

o

l

s

enfi n on l’espère

D

é

fi

J

e

d

iJe code mon IDE !

C

Y

B

E

R

G

U

E

R

R

E

L

e

t

o

p

1

0

d

e

s

e

r

r

e

u

r

s

J

a

v

a

3’:HIKONB=^U[ZUY:?a@m@b@d@k";

M 0431

9 - 213

- F: 6,

50 E

- RD

C

#

7

.

2

/

C

#

8

.

0

T

o

u

t

e

s

l

e

s

n

o

u

v

e

a

u

t

é

s

# 213conférence8

programmez! - décembre 2017

La surveillance est omniprésente, mais aucunnouvel outil n’est réellement sorti du lot.Cependant, Michael McCune de RedHat a mon-tré une interface entre Spark et Prometheus. Lucaa également expliqué comment accéder facile-ment au journal de Spark, en utilisant Spark, avecun dataframe.La science des données est également très vivan-te, au sein de nombreuses sociétés comme Shell,Hotels.com… De plus en plus de trucs et astucesy compris quelques livres sont publiés... Et cer-tains conférenciers font preuve d’autopromotionpas très subtile - et non, je ne pense pas à toi,Holden. Tous ces signes montrent clairement quele produit mûrit et que les utilisateurs sont plusexigeants : on passe de l’expérimentation à l’ex-ploitation.

CommunautéLa communauté se renforce également avec l’ai-de de mon ami Jules Damji (@2twitme). Nousallons essayer de rendre l’année prochaine enco-re plus intéressante pour cette communauté enpleine croissance. J’en appelle aux utilisateursfrançais : contactez-moi, organisons-nous ! PourDatabricks, comme pour IBM, les deux princi-paux contributeurs de Spark : il faut désormaisencourager cette communauté à grandir. Lesmembres des Meetups dans le monde ontpresque doublé depuis le Spark Summit de SanFrancisco en juin, mais ces rencontres sont-ellessuffisantes ?

Un futur radieux ?Je n’ai pas de boule de cristal. Mes connaissancesen apprentissage profond ne sont pas encore àun niveau qui me permet de prévoir l’avenir.Cependant, le nombre d’utilisateurs de Spark esten pleine croissance, l’écosystème grossit, l’intérêtaussi et c’est dans ce contexte que je publierai, en2018, un livre sur Spark avec Java dont les entre-prises ont tant besoin. •

Spark franchit une nouvelle étape : de plusen plus d’utilisateurs s’intéressent au moni-toring, à l’optimisation, à l’extension de la

plateforme... Pour moi, c’est un signe clair quenotre projet Apache préféré gagne en maturité.

MaturitéDe nombreuses sessions ont porté sur les bench-marks et les performances, y compris unenouvelle version de Spark Bench, construite et ou-verte par IBM et l’équipe d’Emily Curtin(@emilymaycurtin), d’Atlanta, GA, (ATL comptebeaucoup pour Emily). C’est un outil impression-nant qui permet de tester différentesconfigurations (et variantes de configuration)d’Apache Spark. L’outil permet de s’assurer « au-tomagiquement » de la configuration optimale dela charge de travail pour Spark. Je dois absolu-ment réussir à convaincre mon « Product Owner »d’allouer du temps pour implémenter SparkBench sur notre projet.J’ai assisté aux sessions de Luca Canali(@LucaCanaliDB) et de Jakub Wozniak du CERN.L’équipe du CERN a donné plusieurs sessions surcomment optimiser, passer en production, définirl’architecture et benchmarker Spark... tout en uti-lisant Java. Oui, en production avec Spark et Java.Leur but est de traiter 900 Go de données parjour et ce n’est qu’une première étape, sachantque les expériences peuvent générer plus d’unpéta octet de données par seconde. C’est pas mal,non ? Vous savez désormais à quoi vous attendresi vous devez aider Sheldon Cooper dans ses ex-périences !

ExtensibilitéHolden Karau (@holdenkarau), Boo(@BooProgrammer) et Nick Pentreath (@MLnick)ont parlé de l’extension des pipelines ML(Machine Learning, apprentissage automatisé) etde l’ajout de vos propres algorithmes. En effet,l’équipe ML de Spark sait qu’elle ne pourra ja-

mais ajouter tous les algorithmes. La contributionde votre humble serviteur, avec une conférenceintitulée « Étendre l’ingestion d’Apache Spark :construire sa propre source de données avecJava », est également à placer dans le domainegénéral de l’extensibilité du produit.

ÉcosystèmeL’écosystème est en train de mûrir : de plus enplus de produits apparaissent comme DatabricksDelta annoncé par Matei Zaharia (@matei_zaha-ria), précédé il y a quelques mois par IBM EventStore, et le support commercial de GridGain pourApache Ignite : tous les trois dans le domaine desbases de données mémoire se connectant àSpark (ok, je sursimplifie). Il apparaît de plus enplus, dans certains scénarios, d’avoir une base dedonnées plus proche du moteur. Et Matei d’ajou-ter : Cette année, lors de Spark Summit Europe, lesparticipants étaient très intéressés par la perfor-mance et la facilité de gestion des données denotre nouveau produit, Delta. Au lieu d’avoir àconnecter un bus de message, comme parexemple Apache Kafka, un Data Lake (parexemple S3) ou un entrepôt de données, les utili-sateurs peuvent désormais télécharger leursdonnées via Delta et obtenir automatiquementl’évolutivité et le faible coût d’exploitationd’Amazon S3. [..] Cela économise énormémentd’efforts pour gérer les données et permet auxorganisations d’exécuter de nouvelles applicationsqui analysent des volumes de données encoreplus importants.

Tests et MonitoringLes tests sont également présents dans tous lesesprits avec des exemples concrets et l’utilisationde frameworks précieux pour le batch et le strea-ming, comme lors de la première présentation deHolden : « Test d’Apache Spark - Eviter le naufra-ge au-delà des RDDs ».

Fin octobre, juste avant leur fête sacrée d’Halloween,les Irlandais recevaient Spark Summit Europe 2017. Le3e sommet de l’année et premier (en 2017) en Europe,a réuni sur 3 jours, 102 conférenciers et 1200 visiteurs.

Apache Spark : vers une maturité méritée

Jean GeorgesPerrin lors de saconférence surl’extensibilité deSpark.

© Da

tabari

cks

• Jean Georges Perrin (@jgperrin) est un architecte freelance (data and software architect).Auparavant, Jean Georges a fondé et dirigé plusieurs startups dans ledomaine d'Internet, du Web, des outils de développements, des outilse-marketing… Il a été le premier français (ex-aequo) à être nomméIBM Champion en 2009. Il vit aujourd'hui en Caroline du Nord.

Logic

iel p

rofes

sionn

el.Lo

giciel

pro

fessio

nnel.

Docu

ment

non

contr

actue

l.

008_009_213 23/11/17 08:58 Page8

Thanks@jgperrin

http://twitter.com/jgperrin

Backup

No more slidesYou’re on your own!

Spark Summit Europe Wrap Up and TASM State of the Community

Technology

Transcript of Spark Summit Europe Wrap Up and TASM State of the Community