big data deep learning and other allegories scalability
play

Big Data, Deep Learning and Other Allegories: Scalability - PowerPoint PPT Presentation

Big Data, Deep Learning and Other Allegories: Scalability and Fault-tolerance of Parallel and Distributed Infrastructures Divy Agrawal Professor of


  1. Big ¡Data, ¡Deep ¡Learning ¡and ¡Other ¡Allegories: ¡ Scalability ¡and ¡Fault-­‑tolerance ¡of ¡Parallel ¡and ¡ Distributed ¡Infrastructures ¡ ¡ Divy ¡Agrawal ¡ Professor ¡of ¡Computer ¡Science ¡ VisiFng ¡ScienFst, ¡Ads ¡Data ¡Infrastructure ¡ UC ¡Santa ¡Barbara ¡ Google ¡Inc. ¡ Research ¡Director, ¡Data ¡AnalyFcs ¡ Qatar ¡CompuFng ¡Research ¡InsFtute ¡ With: ¡Sanjay ¡Chawla ¡et ¡al. ¡(QCRI), ¡Amr ¡El ¡Abbadi ¡et ¡al. ¡ ¡(UCSB), ¡& ¡ ¡ Shiv ¡Venkataraman ¡et ¡al. ¡(Google) ¡ ¡

  2. MoFvaFon ¡ • Availability ¡of ¡vast ¡amounts ¡of ¡data: ¡ – Hundreds ¡of ¡billions ¡of ¡text ¡documents ¡ – Billions ¡of ¡images/videos ¡with ¡descripFve ¡annotaFons ¡ – Tens ¡of ¡trillions ¡of ¡log ¡records ¡capturing ¡human ¡acFvity ¡ ¡ ¡ • Machine ¡Learning ¡+ ¡Big ¡Data ¡transforming ¡ficFon ¡into ¡ reality: ¡ – Self-­‑driven ¡automobiles ¡ – Automated ¡image ¡understanding ¡ – And ¡most ¡recently, ¡deep ¡learning ¡to ¡simulate ¡a ¡human ¡ brain ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 2 ¡ CompuFng ¡and ¡Big ¡Data ¡

  3. Big Data Challenges X 1 ¡ X 2 ¡ … ¡ X d ¡ StaFsFcal ¡Hardness ¡ ¡ ¡ ¡ { C } f : { C } 2 → x 1 ¡ x 11 ¡ x 12 ¡ … ¡ x 1d ¡ ¡ ¡ x 2 ¡ x 21 ¡ x 22 ¡ … ¡ x 2d ¡ ¡ ¡ ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ x n ¡ x n1 ¡ x n2 ¡ … ¡ x nd ¡ ¡ ¡ ¡ ¡ ComputaFonal ¡Complexity ¡ T : S S { 0 , 1 } × → dup

  4. Data ¡Analy0cs, ¡Data ¡Mining, ¡and ¡Machine ¡Learning ¡ • Data: ¡ “The ¡apple ¡of ¡my ¡eye ¡is ¡hooked ¡on ¡Apple’s ¡smart ¡ phone ¡and ¡loves ¡apple ¡and ¡yogurt.” ¡ ¡ • Database ¡Query: ¡ how ¡many ¡Fmes ¡does ¡ apple ¡appear ¡ in ¡the ¡data? ¡ ¡ • Data ¡Mining ¡Query : ¡what ¡are ¡the ¡most ¡frequent ¡items ¡ that ¡appear ¡together ¡in ¡the ¡data? ¡ ¡ • Machine ¡Learning: ¡ how ¡many ¡Fme ¡does ¡the ¡ fruit:<apple> ¡ appear ¡in ¡the ¡data? ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 4 ¡ CompuFng ¡and ¡Big ¡Data ¡

  5. ApplicaFons ¡ Analysis ¡ ReporFng ¡ ¡ Learning ¡ X 1 ¡ X 2 ¡ … ¡ X d ¡ ¡ ¡ x 1 ¡ x 11 ¡ x 12 ¡ … ¡ x 1d ¡ ¡ ¡ x 2 ¡ x 21 ¡ x 22 ¡ … ¡ x 2d ¡ ¡ ¡ ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ x n ¡ x n1 ¡ x n2 ¡ … ¡ x nd ¡ ¡ ¡ ¡ ¡ Discovery ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 5 ¡ CompuFng ¡and ¡Big ¡Data ¡

  6. X 1 ¡ X 2 ¡ … ¡ X d ¡ ¡ ¡ x 1 ¡ x 11 ¡ x 12 ¡ … ¡ x 1d ¡ ¡ ¡ x 2 ¡ x 21 ¡ x 22 ¡ … ¡ x 2d ¡ ¡ ¡ ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ x n ¡ x n1 ¡ x n2 ¡ … ¡ x nd ¡ ¡ ¡ ¡ ¡ BIG ¡DATA ¡MANAGEMENT ¡(UCSB) ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 6 ¡ CompuFng ¡and ¡Big ¡Data ¡

  7. Paradigm ¡Shih ¡in ¡CompuFng ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 7 ¡ CompuFng ¡and ¡Big ¡Data ¡

  8. Cloud ¡CompuFng: ¡Why? ¡ • Experience ¡with ¡very ¡large ¡datacenters ¡ – Unprecedented ¡economies ¡of ¡scale ¡ – Transfer ¡of ¡risk ¡ • Technology ¡factors ¡ – Pervasive ¡broadband ¡Internet ¡ – Maturity ¡in ¡VirtualizaFon ¡Technology ¡ ¡ • Business ¡factors ¡ – Minimal ¡capital ¡expenditure ¡ ¡ – Pay-­‑as-­‑you-­‑go ¡billing ¡model ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 8 ¡ CompuFng ¡and ¡Big ¡Data ¡

  9. Economics ¡of ¡Cloud ¡CompuFng ¡ ¡ • Pay ¡by ¡use ¡instead ¡of ¡provisioning ¡for ¡peak ¡ Capacity ¡ Resources Resources Capacity ¡ Demand Demand Time ¡ Time ¡ StaFc ¡data ¡center ¡ Data ¡center ¡in ¡the ¡cloud ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 9 ¡ CompuFng ¡and ¡Big ¡Data ¡

  10. Scaling ¡in ¡the ¡Cloud ¡ Client ¡Site ¡ Client ¡Site ¡ Client ¡Site ¡ HAProxy ¡(Load ¡Balancer) ¡ ElasFc ¡IP ¡ Apache ¡ Apache ¡ Apache ¡ Apache ¡ Apache ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ Server ¡ Server ¡ Server ¡ Server ¡ Server ¡ Database ¡becomes ¡the ¡ ReplicaFon ¡ MySQL ¡ MySQL ¡ Scalability ¡BoTleneck ¡ Master ¡DB ¡ Slave ¡DB ¡ Cannot ¡leverage ¡elas0city ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 10 ¡ CompuFng ¡and ¡Big ¡Data ¡

  11. Scaling ¡in ¡the ¡Cloud ¡ Client ¡Site ¡ Client ¡Site ¡ Client ¡Site ¡ HAProxy ¡(Load ¡Balancer) ¡ ElasFc ¡IP ¡ Apache ¡ Apache ¡ Apache ¡ Apache ¡ Apache ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ Server ¡ Server ¡ Server ¡ Server ¡ Server ¡ ReplicaFon ¡ MySQL ¡ MySQL ¡ Master ¡DB ¡ Slave ¡DB ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 11 ¡ CompuFng ¡and ¡Big ¡Data ¡

  12. Scaling ¡in ¡the ¡Cloud ¡ Client ¡Site ¡ Client ¡Site ¡ Client ¡Site ¡ HAProxy ¡(Load ¡Balancer) ¡ ElasFc ¡IP ¡ Apache ¡ Apache ¡ Apache ¡ Apache ¡ Apache ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ + ¡App ¡ Server ¡ Server ¡ Server ¡ Server ¡ Server ¡ Scalable ¡and ¡Elas0c ¡ Key ¡Value ¡Stores ¡ But ¡limited ¡consistency ¡and ¡ opera0onal ¡flexibility ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 12 ¡ CompuFng ¡and ¡Big ¡Data ¡

  13. Two ¡approaches ¡to ¡scalability ¡ • Scale-­‑up ¡ – Classical ¡enterprise ¡selng ¡ (RDBMS) ¡ – Flexible ¡ ACID ¡transac0ons ¡ – TransacFons ¡in ¡a ¡single ¡node ¡ • Scale-­‑out ¡ – Cloud ¡friendly ¡(Key ¡value ¡stores) ¡ – ExecuFon ¡at ¡a ¡single ¡server ¡ • Limited ¡funcFonality ¡& ¡guarantees ¡ – No ¡ mul0-­‑row ¡or ¡ mul0-­‑step ¡ transacFons ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 13 ¡ CompuFng ¡and ¡Big ¡Data ¡

  14. Key-­‑value ¡Stores: ¡Design ¡Principles ¡ • Separate ¡System ¡and ¡Applica0on ¡State ¡ ¡ • Limit ¡Applica0on ¡interac0ons ¡to ¡a ¡single ¡ node ¡ ¡ • Decouple ¡Ownership ¡from ¡Data ¡Storage ¡ ¡ • Limited ¡distributed ¡synchroniza0on ¡is ¡ prac0cal ¡ ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 14 ¡ CompuFng ¡and ¡Big ¡Data ¡ ¡

  15. Scalable ¡Data ¡ManagemenFn ¡the ¡Cloud ¡ RDBMS ¡ Key ¡Value ¡Stores ¡ ¡Fission ¡ Fusion ¡ ElasTraS [HotCloud G-Store [SoCC ‘10] ¡ ’09,TODS’13] MegaStore ¡[CIDR ¡‘11] ¡ Cloud ¡SQL ¡Server ¡[ICDE ¡’11] ¡ ecStore ¡[VLDB ¡‘10] ¡ RelaFonalCloud ¡ ¡[CIDR ¡‘11] ¡ Google ¡F1 ¡(SIGMOD’12, ¡VLDB’13) ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 15 ¡ CompuFng ¡and ¡Big ¡Data ¡

  16. Data ¡Fission ¡ • Basic ¡building-­‑block: ¡ – Data ¡ParFFoning ¡(Table ¡level ¡ è ¡Distributed ¡ TransacFons) ¡ ¡ • Three ¡Example ¡Systems ¡ – ElasTraS ¡(UCSB) ¡ – SQL ¡Azure ¡(MSR) ¡ – RelaFonal ¡Cloud ¡(MIT) ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 16 ¡ CompuFng ¡and ¡Big ¡Data ¡

  17. Schema ¡Level ¡ParFFoning ¡ • Pre-­‑ defined ¡ • Workload ¡driven ¡ parFFoning ¡scheme ¡ parFFoning ¡scheme ¡ – e.g.: ¡Tree ¡schema ¡ ¡ – e.g.: ¡Schism ¡in ¡ – ElasTras, ¡ ¡ RelaFonalCloud ¡ SQLAzure, ¡F1 ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 17 ¡ CompuFng ¡and ¡Big ¡Data ¡

  18. ElasTraS ¡Architecture ¡ Metadata ¡ TM ¡Master ¡ Manager ¡ Lease ¡ ¡ Management ¡ Health ¡and ¡Load ¡ Master ¡and ¡MM ¡Proxies ¡ Management ¡ Txn ¡Manager ¡ OTM ¡ OTM ¡ DB ¡ OTM ¡ P 1 ¡ P 2 ¡ P n ¡ Partitions ¡ Log ¡Manager ¡ Durable ¡Writes ¡ Distributed ¡Fault-­‑tolerant ¡Storage ¡ 2015 ¡KTH ¡Summer ¡School: ¡Cloud ¡ 8/7/15 ¡ 18 ¡ CompuFng ¡and ¡Big ¡Data ¡

Recommend


More recommend