Sunrise ¡or ¡Sunset: ¡Exploring ¡the ¡Design ¡ Space ¡of ¡Big ¡Data ¡So7ware ¡Stack ¡ ¡ ¡ ¡ HPBDC ¡2017 ¡panel ¡ Panel moderator: Dr. Jianfeng Zhan INSTITUTE O Professor, ¡ ¡ICT, ¡Chinese ¡ ¡Academy ¡of ¡Sciences ¡ OF C and ¡ ¡University ¡of ¡Chinese ¡Academy ¡of ¡Sciences ¡ COMPUTING T ¡ May ¡29. ¡2017 ¡ TECHNOLOGY Orlando ¡, ¡USA ¡ ¡
The ¡past ¡panel ¡(2015) n Wide ¡AdopGon ¡of ¡HPC ¡Techniques ¡in ¡Big ¡Data: ¡Hype ¡ or ¡Reality? ¡ n Panel ¡Moderator: ¡ Jianfeng ¡Zhan ¡ n Panellists: ¡ n D. ¡K. ¡Panda, ¡The ¡Ohio ¡State ¡University ¡ n Dan ¡Stanzione, ¡Texas ¡Advanced ¡CompuJng ¡Center ¡ n Zhiwei ¡Xu, ¡InsJtute ¡of ¡CompuJng ¡Technology, ¡ Chinese ¡Academy ¡of ¡Sciences, ¡China ¡ n Xiaodong ¡Zhang, ¡The ¡Ohio ¡State ¡University ¡ HPBDC’ 17 Panel
The ¡past ¡panel ¡(2016) n Merge ¡or ¡Split: ¡Mutual ¡Influence ¡between ¡Big ¡Data ¡ and ¡HPC ¡Techniques ¡ n Panel ¡Moderator: ¡ Jianfeng ¡Zhan ¡ n Panellists: ¡ n Chaitanya ¡Baru , ¡San ¡Diego ¡Supercomputer ¡Center ¡ ¡ ¡ Slides ¡ n Pete ¡Beckman , ¡Argonne ¡NaJonal ¡Laboratory, ¡The ¡University ¡of ¡ Chicago ¡ n Andrew ¡A. ¡Chien , ¡The ¡University ¡of ¡Chicago, ¡Argonne ¡NaJonal ¡ Laboratory ¡ ¡ Slides ¡ n Geoffrey ¡C. ¡Fox , ¡Indiana ¡University ¡Bloomington ¡ ¡ ¡ Slides ¡ n D. ¡K. ¡Panda , ¡The ¡Ohio ¡State ¡University ¡ ¡ ¡ Slides ¡ HPBDC’ 17 Panel
This ¡year’s ¡panel n Sunrise ¡or ¡Sunset: ¡Exploring ¡the ¡Design ¡Space ¡of ¡Big ¡ Data ¡So7ware ¡Stack ¡ n Panel ¡Moderator: ¡ Jianfeng ¡Zhan ¡ n Panellists: ¡ n Prof. ¡Geoffrey ¡C. ¡Fox, ¡Indiana ¡University ¡Bloomington ¡ ¡ ¡ ¡ n Prof. ¡Satoshi ¡Matsuoka, ¡Tokyo ¡InsJtute ¡of ¡Technology ¡ ¡ ¡ ¡ n Dr. ¡Ren ¡Wu, ¡NovuMind ¡ n Prof. ¡D. ¡K. ¡Panda, ¡The ¡Ohio ¡State ¡University ¡ ¡ ¡ ¡ HPBDC’ 17 Panel
Topics n Are ¡big ¡data ¡so]ware ¡stacks ¡mature ¡or ¡not? ¡ n If ¡yes, ¡what ¡are ¡the ¡new ¡technology ¡challenge? ¡ ¡ n If ¡not, ¡what ¡are ¡the ¡main ¡driving ¡forces ¡for ¡ ¡new-‑ generaJon ¡big ¡data ¡so]ware ¡stacks? ¡ n What ¡chances ¡are ¡provided ¡for ¡the ¡academia ¡ communiJes ¡in ¡exploring ¡the ¡design ¡spaces ¡of ¡ big ¡data ¡so]ware ¡stacks? ¡ HPBDC’ 17 Panel
Two ¡driving ¡forces n ApplicaJon-‑driven ¡ n One-‑size-‑fits-‑a-‑bunch ¡ ¡ • SQL, ¡NoSQL, ¡DW ¡ n Need ¡Benchmarks ¡ ¡ n Technology-‑driven ¡ n Super ¡computers ¡and ¡Big ¡Data ¡enable ¡deep ¡ learning. ¡ ¡ HPBDC’ 17 Panel
BigDataBench ¡summary n An ¡open-‑source ¡Big ¡Data ¡Benchmark ¡suite ¡ • hbp:// ¡ n L. ¡Wang, ¡J. ¡Zhan ¡and ¡etc. ¡BigDataBench: ¡a ¡Big ¡Data ¡Benchmark ¡ Suite ¡from ¡Internet ¡Services. ¡HPCA’ ¡14, ¡February ¡15-‑19, ¡2014, ¡ Orlando, ¡Florida, ¡USA. ¡ n Gao, ¡W., ¡Luo, ¡C., ¡Zhan, ¡J., ¡Ye, ¡H., ¡He, ¡X., ¡Wang, ¡L., ¡... ¡& ¡Tian, ¡X. ¡ (2015). ¡IdenJfying ¡Dwarfs ¡Workloads ¡in ¡Big ¡Data ¡ AnalyJcs. ¡ arXiv ¡preprint ¡arXiv:1505.06872 . HPBDC’ 17 Panel
BigDataBench ¡3.2 ¡ ¡ BDGS(Big ¡Data ¡Generator ¡Suite) ¡for ¡scalable ¡data ¡ Wikipedia ¡ ¡Entries Amazon ¡Movie ¡Reviews Google ¡Web ¡Graph ¡ Facebook ¡Social ¡Network E-‑commerce ¡ ¡TransacGon ¡ ProfSearch ¡Resumes ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ImageNet DVD ¡Input ¡Streams English ¡broadcasGng ¡audio ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Image ¡scene Genome ¡sequence ¡data Assembly ¡of ¡the ¡human ¡genome ¡ SoGou ¡Data MNIST MovieLens ¡Dataset ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡15 ¡ ¡ 个真实数据集 ¡ ¡ ¡ ¡ NoSql Impala ¡ ¡ ¡ Social Search ¡ ¡ E-commerce Engine Network ¡ ¡ Shark ¡ ¡ Hadoop ¡RDMA MulJmedia Bioinformatics MPI ¡ ¡ DataMPI ¡ ¡ 37 ¡ 个负载 软件栈 HPBDC’ 17 Panel
The ¡BigData ¡100 ¡project n hbp:// index.html ¡ n Using ¡BigDataBench ¡data ¡sets ¡and ¡workloads ¡ HPBDC’ 17 Panel
Requirement-‑Driven n Human ¡acJviJes ¡in ¡terms ¡of ¡hundreds ¡milliseconds ¡ n Nature ¡of ¡our ¡nervous ¡and ¡motor ¡systems ¡ ¡ n Computers ¡or ¡smart ¡devices ¡consistently ¡provide ¡ informaJon ¡and ¡knowledge ¡to ¡human ¡being ¡in ¡the ¡ order ¡of ¡a ¡few ¡tens ¡milliseconds. ¡ n We ¡coin ¡a ¡new ¡term ¡ 10-‑ms ¡compuGng ¡ to ¡call ¡abenJon ¡to ¡ this ¡class ¡of ¡workloads ¡ n Lu, ¡G., ¡Zhan, ¡J., ¡Hao, ¡T., ¡& ¡Wang, ¡L. ¡(2016). ¡10-‑ millisecond ¡CompuJng. ¡arXiv ¡preprint ¡arXiv: 1610.01267. HPBDC’ 17 Panel
Millisecond-‑scale ¡compuJng n Grand ¡Challenges ¡to ¡both ¡big ¡data ¡so]ware ¡ stack ¡and ¡hardware ¡stack ¡ n Go ¡game ¡is ¡only ¡one ¡of ¡benchmarks ¡ n Energy ¡efficiency ¡of ¡human ¡brain! ¡ HPBDC’ 17 Panel
Cost ¡of ¡deep ¡learning n hbps:// 6b64u4/d_nvidia_k80_training_Jme_performance/ ¡ n Imagenet ¡120 ¡epochs ¡256 ¡batch_size ¡(~4k ¡batches ¡per ¡ epoch) ¡~ ¡3 ¡or ¡4 ¡gpus ¡for ¡a ¡Resnet ¡50 ¡(batchsize ¡64 ¡per ¡ gpu). ¡ n With ¡mxnet ¡this ¡sepng ¡it ¡takes ¡around ¡1.1 ¡sec ¡per ¡batch ¡ 4.4K ¡sec ¡per ¡epoch ¡(say ¡1.2 ¡hours) ¡x120 ¡epoch ¡-‑-‑-‑> ¡ 144hours ¡*4 ¡*1$ ¡ ~ ¡570$$ ¡of ¡training ¡Gme ¡!!! ¡ n Human ¡being ¡is ¡sJll ¡much ¡expensive! ¡ HPBDC’ 17 Panel
Workload ¡driven ¡ n Internet ¡services ¡have ¡much ¡simple ¡workloads ¡ n Select, ¡aggregaJon ¡ ¡and ¡etc. ¡ ¡ n Hive, ¡SparkSQL ¡and ¡etc ¡ ¡ ¡ n We ¡need ¡consider ¡more ¡broader ¡workloads HPBDC’ 17 Panel
Big ¡data ¡dwarfs ¡in ¡BigDataBench ¡ Linear ¡Algebra Sampling Transform ¡operaJon ¡ Graph ¡operaJon ¡ Logic ¡operaJon ¡ Set ¡operaJon StaJsJc ¡operaJon ¡ Sort ¡ HPBDC’ 17 Panel
Paradigm ¡change n SMB ¡just ¡rent ¡infrastructure ¡ ¡ ¡ n Big ¡data ¡in ¡cloud ¡ n Alibaba ¡ ¡ n Can ¡not ¡tolerate ¡100 ¡ms ¡service ¡interrupJon ¡ HPBDC’ 17 Panel
Schedules ¡ n PosiJons ¡from ¡the ¡panelists ¡(each ¡one ¡has ¡10 ¡ minutes) ¡ n ¡First ¡round ¡of ¡rebubals ¡(each ¡one ¡has ¡4 ¡ minutes) ¡ n ¡Second ¡round ¡of ¡rebubals ¡(each ¡one ¡has ¡4 ¡ minutes) ¡ n QuesJons ¡from ¡the ¡audience ¡ HPBDC’ 17 Panel
HPBDC’ 17 Panel
More recommend