Hadoop, Big Data e Cloud Computing
-
Upload
amazon-web-services-latin-america -
Category
Technology
-
view
2.027 -
download
0
description
Transcript of Hadoop, Big Data e Cloud Computing
Hadoop, Big Data
e Cloud Computing
Hadoop Users Group SP
José Papo
AWS Tech Evangelist
@josepapo
4 bytes x 1.000.000 domicílios x 1 medição/mês x 10 anos
480 MBytes
4 bytes x 1.000.000 domicílios x 1 medição/min x 10 anos
220 TBytes
Onde se vê Big Data
Mídia/
Propaganda
Anuncios Dirigidos
Processa-mento de vídeos e imagens
Óleo e Gás
Análise Sismica
Varejo
Recomen-dações
Análise de Transações
Telecom
Cobrança
Log de Ligações
Uso dos Produtos
Instituições Financeiras
Simulações de Monte
Carlo
Análise de Riscos
Segurança
Anti-virus
Detecção de Fraudes
Reconheci-mento de Imagens
Marketing e Jogos
(sobretudo social)
Analise Comporta-
mental
Análise de Uso
Métricas “In-game”
“Running 30 Hadoop machines on-premises costs less
than $500,000 vs. at least $7 million for an appliance. No
wonder everyone is looking out for Hadoop talent… It’s a
no-brainer when you plug in real numbers”.
Por que novas soluções para Big Data?
Amazon Elastic MapReduce: Clusters já criados por clientes
5.5 M clusters desde Maio de 2010
Alguns clientes do Elastic MapReduce
Sobre o Papel da AWS e
Benefícios alcançados
• 4 bilhões de requisições por mês;
• +300 mil requisições por minuto;
• +200 milhões de recomendações todos os dias;
• Spot instances: -20% custo aws.
Apontador e MapLink
e AWS
Apoio:
• Hive (~ 40 instancias spot m3.large)
90% - Utilidades diárias
• Streaming
10% - Solr, MapReduces mais complexos (MCMC, FastFourier, e.g.)
• Estrutura usada
Hive ( ~ 40 instancias spot m3.large), Elastic MapReduce S3 (aproximadamente 7 Tb de dados estruturados em diversos buckets) RDS (dados de organização dos dados do S3)
O QUE usam?
Coleta e Storage
Processamento e ETL
Buscas e Machine Learning
Visualização e Relatórios
Coleta e Storage
Processamento e ETL
Buscas e Machine Learning
Visualização e Relatórios
Relacional NoSQL
Como Cloud facilita
Coleta e Storage?
Amazon S3: Mais de 2 Trilhões de Objetos
1.1M requisições por segundo
288 servidores com Cassandra
1.100.000 transações / segundo
Benchmarking Cassandra Scalability on AWS - Over a million writes per second
41 dólares / hora (Instâncias Reservadas)
DynamoDB é um Banco de
Dados NoSQL “as a service”
sem complexidades
Armazene e recupere qualquer quantidade de dados
Sirva níveis gigantescos de tráfego e requisições
Sem instalações de software
Não é necessário configurar clusters
Custos mínimos de administração
Coleta e Storage
Processamento e ETL
Buscas e Machine Learning
Visualização e Relatórios
"Hadoop é um storage confiável e um sistema analítico"
HDFS MapReduce
Como Cloud facilita
Processamento e ETL?
Implantar um cluster hadoop é difícil
Reduz complexidade/custo da gestão do Hadoop
Integra diretamente com Serviços AWS (EC2, S3,
DynamoDB, etc)
Facilita a elasticidade para Big Data
AMAZON ELASTIC MAPREDUCE
Elasticidade
Aumenta
para 25
instancias
Data Warehouse
(Estável)
Data Warehouse
(Processo Batch)
Diminui
para
9
instancias
Data Warehouse
(Estável)
AWS Elastic MapReduce
Map reduce
HDFS
Input data
S3, DynamoDB, Redshift
Elastic
MapReduce
Code
Input data
S3, DynamoDB, Redshift
Elastic
MapReduce
Code Name
node
Input data
S3, DynamoDB, Redshift
Elastic
MapReduce
Code Name
node
Input data
Elastic
cluster
S3, DynamoDB, Redshift
S3/HDFS
Elastic
MapReduce
Code Name
node
Input data
S3/HDFS Queries
+ BI
Via JDBC, Pig, Hive
S3, DynamoDB, Redshift
Elastic
cluster
Elastic
MapReduce
Code Name
node
Output
Input data
Queries
+ BI
Via JDBC, Pig, Hive
S3, DynamoDB, Redshift
Elastic
cluster
S3/HDFS
Output
Input data
S3, DynamoDB, Redshift
• Retailer came to Razorfish 3.5 billion records, 71 million unique cookies, 1.7 million targeted ads
required per day
Targeted Ad
User recently
purchased a
sports movie and
is searching for
video games (1.7 Million per day)
Leveraged Elastic MapReduce to analyze billions of customer clicks and impressions
DEMOS
FERRAMENTAS DE APOIO
PARA HADOOP E EMR
Amazon S3
logs
Custom
Precondition
EMR usage-by-geo job
Amazon EC2
report generation
Amazon
DynamoDB
event data
Amazon RDS
demographics
Amazon Redshift
DW table
Amazon
Redshift
DW table
Hive
script
Elastic MapReduce, DynamoDB e Hive
http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html
Clusters Elásticos
Provisiona rápido
Stack Hadoop completo e com diversas opções
Sem o peso da gestão de hardware e clusters
Otimizações de custos com
instancias on-demand, reservadas e spot
Benefícios do Elastic MapReduce
Coleta e Storage
Processamento e ETL
Buscas e Machine Learning
Visualização e Relatórios
Como Cloud facilita
Buscas e Machine
Learning?
Coleta e Storage
Processamento e ETL
Buscas e Machine Learning
Visualização e Relatórios
Como Cloud facilita
Visualização e
Relatórios?
Soluções SaaS
interessantes para
Big Data que rodam
na Nuvem da AWS
RECURSOS TÉCNICOS
awshub.com.br
www.bigdatahpc.com
aws.amazon.com/pt/big-data
OBRIGADO! aws.typepad.com/brasil
slideshare.net/AmazonWebServicesLATAM
José Papo
AWS Tech Evangelist
@josepapo