Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan Oliveira | allan @chaordic .com.br
tópico 1 Emails personalizados
Campanha Redução de Preço
Campanha Indecisos
O Desafio dos Emails Personalizados
Pageviews +600 milhões
Usuários +42 milhões
tópico 2 Evolução de uma arquitetura de emails personalizados
Evolução da arquitetura A base de tudo
Evolução da arquitetura A base de tudo
Evolução da arquitetura A base de tudo
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura O início da história
Evolução da arquitetura Quando o Hadoop chegou
Evolução da arquitetura Quando o Hadoop chegou
Evolução da arquitetura Quando o Hadoop chegou
Evolução da arquitetura Quando o Hadoop chegou
Evolução da arquitetura Quando o Hadoop chegou
Evolução da arquitetura Quando o Hadoop chegou
tópico 3 gasm
Sparkgasm! Uma só plataforma para todos os seus problemas
Sparkgasm! Uma só plataforma para todos os seus problemas
Sparkgasm! Uma só plataforma para todos os seus problemas
Sparkgasm! Uma só plataforma para todos os seus problemas
Sparkgasm! Uma só plataforma para todos os seus problemas
Sparkgasm! Como Spark é mais rápido que Hadoop 6.75 1 82.5 11
tópico 4 As dificuldades ao se usar o Spark
Hadoop-client O presente de grego para o Spark
Bugs do Spark
Bugs do Spark
operação necessita investimento
tópico 5 Ignition: o nosso aprendizado
Projetos open-source da Chaordic Ignition-Template github.com/chaordic/ignition-template Job Runner: Job/Setup Advanced Cluster Examples Organization Control Ignition-Core github.com/chaordic/ignition-core Cluster Utilitary Multi-Setup Management & Functions Runner Job Execution
montando um cluster robusto
Algoritmo Escolher a melhor máquina na melhor AZ cujo preço spot não é muito volátil; ● Levantar o cluster; ● Fazer um teste de sanidade no cluster; ● ● Rodar o Job (1 ou infinitas vezes); Quando falhar, refazer teste de sanidade; ● Recriar cluster caso teste de sanidade falhe, usando uma AZ/máquina diferente. ●
organizando projetos
Setups Puro I/O Mail Builder Non-realtime Realtime Setup Setup Setup
Setups Puro I/O Mail Builder Non-realtime Realtime Setup Setup Setup Jobs Sem efeitos colaterais! User Mail Entities Campaign A History Builder Job Update Job Job Job
Setups Puro I/O Mail Builder Non-realtime Realtime Setup Setup Setup Jobs Sem efeitos colaterais! User Mail Entities Campaign A History Builder Job Update Job Job Job Reusable Libraries Realtime Mail-team library Chaordic library Ignition-core Setup
como a não-saída é tão importante quanto a saída
Validated Rec Products Success Success Success Failed Product Product Product Product Reason Validated Base Success Success Failed Product Failed Product Products Product Product Reason Reason Success! (Email)
Reason: numberOfValidRecommendationsIsLessThanMinimum Validated Rec Products Failed Product Failed Product Failed Product Failed Product Reference Reason Reason Reason Reason Validated Base Products Success Success Failed Product Failed Product Reference Product Product Reason Reason Failure (Email Reason)
lidando com dados mal-comportados
Dado normal
Dados enviesados
Outliers: os vilões
Tratando outliers rdd.groupByKey()
Tratando outliers rdd.groupByKey()
Tratando outliers rdd.groupByKey() rdd.groupByKeyAndTake(max)
Batches near-realtime com Secor, Kafka e S3 S3 http://github.com/pinterest/secor
Venha aprender junto com a gente! monkeys . chaordic .com.br allan @chaordic.com.br github.com/ chaordic #QCONBIGDATA
Recommend
More recommend