DevCommerce Conference 2016: Busca e Data Lake Analytics
Transcript of DevCommerce Conference 2016: Busca e Data Lake Analytics
Big Data no Magazine Luiza
Gleicon MoraesBig Data, Infrastructure@[email protected]
• 786 lojas físicas
• 8 centros de distribuição
• +18 mil colaboradores
• +40 milhões de clientes
• ~16 milhões de visitantes únicos mês
Big Data
Data lake
• ~200MM linhas novas/dia
• 6 nós: 56 cores + 458GB RAM (AWS)
• 11 TB storage hot, 1 TB S3 arquivos comprimidos
• 1200 Jobs/dia
• 400MB/dia transfer S3 -> HDFS
Volume de informações - Datalake
Recomendações
Sistemas de recomendação
Sistema de recomendação
• Grafo com informações sobre a interação do cliente
• Coleta de informações da navegação dos clientes no site
do magazine:
• Visualização de produtos
• Cálculo de frete
• Adições ao carrinho
• Compras
• ~40k visitantes únicos hora
• ~300k interações com produtos por hora (~5k
minuto)
• Informações salvas no formato de grafo
• ~700 milhões de vértices
• ~ 2.8 bilhões de arestas
Volume de informações - Grafo
Detalhe de produtos
• Resultados iniciais:
• 30% de incremento de vendas em A/B teste com
a ferramenta anterior
Detalhe de produtos
Home personalizada
• Resultados:
• Mudança de layout e mensagem trouxe um
incremento de 7x a venda anterior
Home personalizada
Emails personalizados
• Resultados
• Taxa de abertura de ~24%
• Alguns emails com taxas ~35%
• Conversão 5x maior do que segmentados
Emails personalizados
Push notification
Busca
• Coleta de todas as queries e resultados para o
datalake (~1.8K queries/min)
• Engines: SOLR e Elasticsearch
• Interface administrativa para edição de termos
• Realtime top queries com mais resultados e top
queries com resultado vazio (Intelie)
Busca de produtos