sai hadoop entra spark
play

Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan - PowerPoint PPT Presentation

Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan Oliveira | allan @chaordic .com.br tpico 1 Emails personalizados Campanha Reduo de Preo Campanha Indecisos O Desafio dos Emails Personalizados Pageviews +600


  1. Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan Oliveira | allan @chaordic .com.br

  2. tópico 1 Emails personalizados

  3. Campanha Redução de Preço

  4. Campanha Indecisos

  5. O Desafio dos Emails Personalizados

  6. Pageviews +600 milhões

  7. Usuários +42 milhões

  8. tópico 2 Evolução de uma arquitetura de emails personalizados

  9. Evolução da arquitetura A base de tudo

  10. Evolução da arquitetura A base de tudo

  11. Evolução da arquitetura A base de tudo

  12. Evolução da arquitetura O início da história

  13. Evolução da arquitetura O início da história

  14. Evolução da arquitetura O início da história

  15. Evolução da arquitetura O início da história

  16. Evolução da arquitetura O início da história

  17. Evolução da arquitetura O início da história

  18. Evolução da arquitetura O início da história

  19. Evolução da arquitetura O início da história

  20. Evolução da arquitetura O início da história

  21. Evolução da arquitetura O início da história

  22. Evolução da arquitetura Quando o Hadoop chegou

  23. Evolução da arquitetura Quando o Hadoop chegou

  24. Evolução da arquitetura Quando o Hadoop chegou

  25. Evolução da arquitetura Quando o Hadoop chegou

  26. Evolução da arquitetura Quando o Hadoop chegou

  27. Evolução da arquitetura Quando o Hadoop chegou

  28. tópico 3 gasm

  29. Sparkgasm! Uma só plataforma para todos os seus problemas

  30. Sparkgasm! Uma só plataforma para todos os seus problemas

  31. Sparkgasm! Uma só plataforma para todos os seus problemas

  32. Sparkgasm! Uma só plataforma para todos os seus problemas

  33. Sparkgasm! Uma só plataforma para todos os seus problemas

  34. Sparkgasm! Como Spark é mais rápido que Hadoop 6.75 1 82.5 11

  35. tópico 4 As dificuldades ao se usar o Spark

  36. Hadoop-client O presente de grego para o Spark

  37. Bugs do Spark

  38. Bugs do Spark

  39. operação necessita investimento

  40. tópico 5 Ignition: o nosso aprendizado

  41. Projetos open-source da Chaordic Ignition-Template github.com/chaordic/ignition-template Job Runner: Job/Setup Advanced Cluster Examples Organization Control Ignition-Core github.com/chaordic/ignition-core Cluster Utilitary Multi-Setup Management & Functions Runner Job Execution

  42. montando um cluster robusto

  43. Algoritmo Escolher a melhor máquina na melhor AZ cujo preço spot não é muito volátil; ● Levantar o cluster; ● Fazer um teste de sanidade no cluster; ● ● Rodar o Job (1 ou infinitas vezes); Quando falhar, refazer teste de sanidade; ● Recriar cluster caso teste de sanidade falhe, usando uma AZ/máquina diferente. ●

  44. organizando projetos

  45. Setups Puro I/O Mail Builder Non-realtime Realtime Setup Setup Setup

  46. Setups Puro I/O Mail Builder Non-realtime Realtime Setup Setup Setup Jobs Sem efeitos colaterais! User Mail Entities Campaign A History Builder Job Update Job Job Job

  47. Setups Puro I/O Mail Builder Non-realtime Realtime Setup Setup Setup Jobs Sem efeitos colaterais! User Mail Entities Campaign A History Builder Job Update Job Job Job Reusable Libraries Realtime Mail-team library Chaordic library Ignition-core Setup

  48. como a não-saída é tão importante quanto a saída

  49. Validated Rec Products Success Success Success Failed Product Product Product Product Reason Validated Base Success Success Failed Product Failed Product Products Product Product Reason Reason Success! (Email)

  50. Reason: numberOfValidRecommendationsIsLessThanMinimum Validated Rec Products Failed Product Failed Product Failed Product Failed Product Reference Reason Reason Reason Reason Validated Base Products Success Success Failed Product Failed Product Reference Product Product Reason Reason Failure (Email Reason)

  51. lidando com dados mal-comportados

  52. Dado normal

  53. Dados enviesados

  54. Outliers: os vilões

  55. Tratando outliers rdd.groupByKey()

  56. Tratando outliers rdd.groupByKey()

  57. Tratando outliers rdd.groupByKey() rdd.groupByKeyAndTake(max)

  58. Batches near-realtime com Secor, Kafka e S3 S3 http://github.com/pinterest/secor

  59. Venha aprender junto com a gente! monkeys . chaordic .com.br allan @chaordic.com.br github.com/ chaordic #QCONBIGDATA

Recommend


More recommend