scien6fic big data benchmark suite
play

Scien6fic Big Data Benchmark Suite Xinhui Tian, Shaopeng Dai, - PowerPoint PPT Presentation

BigDataBench-S: An Open-source Scien6fic Big Data Benchmark Suite Xinhui Tian, Shaopeng Dai, Zhihui Du, Wanling Gao, Rui Ren, Yaodong Cheng, Zhifei Zhang, Zhen Jia, Peijian Wang and Jianfeng Zhan


  1. BigDataBench-­‑S: ¡An ¡Open-­‑source ¡ Scien6fic ¡Big ¡Data ¡Benchmark ¡Suite ¡ Xinhui Tian, Shaopeng Dai, Zhihui Du, Wanling Gao, Rui Ren, Yaodong Cheng, Zhifei Zhang, Zhen Jia, Peijian Wang and Jianfeng Zhan INSTITUTE O OF C COMPUTING T TECHNOLOGY

  2. Big ¡Data ¡in ¡Scien,fic ¡Domains Astronomy ¡ High ¡Energy ¡Physics Bioinforma,cs ¡ ~10,000,000 events each night for 10 years 100 ¡PB ¡ 40 ¡PB ¡gene ¡data ¡in ¡EBI ¡in ¡2014 ¡ 140 ¡PB ¡up ¡to ¡2014 ¡ 15 ¡PB ¡new ¡data ¡per ¡year ¡ 2017 2 HPBDC

  3. Challenges ¡to ¡Data ¡Management ¡and ¡Analy,cs n Data ¡Management ¡ n System ¡Requirements ¡ ¡ n PB ¡level ¡data ¡storage ¡ Good ¡Scalability ¡ • Effec,ve ¡Data ¡Organiza,on ¡ • n Low-­‑latency ¡DBMS ¡opera,ons ¡processing ¡ ¡& ¡efficient ¡query ¡processing ¡ ¡ n Data ¡Analy,cs ¡ n Support ¡for ¡complex ¡analy,cs ¡ • Linear ¡Algebra ¡ • Machine ¡Learning ¡ • Flexible ¡support ¡for ¡various ¡types ¡ of ¡complex ¡analy,c ¡opera,ons ¡ • … ¡ • In-­‑situ ¡data ¡processing ¡ n Different ¡types ¡of ¡analy,c ¡opera,ons ¡on ¡ the ¡same ¡data ¡set ¡ • Low ¡cost ¡data ¡sharing ¡ 2017 HPBDC

  4. Big ¡Data ¡Systems n Scalable ¡storage ¡system: ¡ ¡ n Hadoop ¡Distributed ¡File ¡System ¡ n Various ¡subsystems ¡for ¡different ¡types ¡of ¡analy,c ¡opera,ons ¡ n General-­‑purpose ¡frameworks ¡ • Spark, ¡MapReduce, ¡Flink, ¡… ¡ n DBMS ¡components ¡ • Hive, ¡SparkSQL, ¡… ¡ n Machine ¡Learning ¡ • Mahout, ¡Spark ¡Mllib… ¡ n … ¡ 2017 HPBDC

  5. Do ¡current ¡big ¡data ¡management ¡and ¡analy@c ¡systems ¡ perform ¡well ¡in ¡the ¡context ¡of ¡scien@fic ¡big ¡data ¡? A ¡Comprehensive ¡Scien@fic ¡Big ¡Data ¡ Benchmark ¡Suite 2017 HPBDC

  6. Exis,ng ¡Scien,fic ¡Benchmarks n SS-­‑DB: ¡[Stanford, ¡xldb10] ¡ n Simulate ¡an ¡astronomical ¡data ¡management ¡scenario ¡ n Queries ¡including ¡raw ¡data ¡cooking ¡and ¡observa,on ¡data ¡ analysis ¡ Only ¡consider ¡one ¡scenario ¡ Only ¡include ¡DBMS ¡opera@ons ¡ 2017 HPBDC

  7. Exis,ng ¡Scien,fic ¡Benchmarks n GenBase ¡[MIT, ¡Sigmod14] ¡ n Simulate ¡genomics ¡research ¡ n Five ¡mixed ¡data ¡management ¡and ¡analy,cs ¡workloads ¡ • Data ¡selec,on ¡ à ¡data ¡analy,cs ¡ à ¡results ¡extrac,on ¡ ¡ Also ¡only ¡one ¡scenario ¡ ¡ Unable ¡to ¡be ¡used ¡to ¡compare ¡subsystems ¡with ¡ same ¡func@ons ¡ • SparkSQL ¡vs ¡Hive? ¡ • Mahout ¡vs ¡Spark ¡MLlib? ¡ 2017 HPBDC

  8. BigDataBench-­‑S n A ¡new ¡scien,fic ¡big ¡data ¡benchmark ¡suite ¡for ¡current ¡ big ¡data ¡analy,cs ¡systems ¡ n Various ¡representa,ve ¡scien,fic ¡analy,c ¡workloads ¡from ¡ different ¡typical ¡scien,fic ¡research ¡areas ¡ n Comparison ¡among ¡various ¡components ¡designed ¡for ¡the ¡ same ¡opera,on ¡types ¡ 2017 HPBDC

  9. Methodology Benchmark ¡ Decomposi ,on ¡ n Inherit ¡from ¡BigDataBench ¡[Wang, ¡HPCA2014] ¡ ¡ ¡ ¡ Benchmark ¡ Scien,fic ¡ Benchmark ¡ Benchmark ¡ Decomposi,on ¡ Subset ¡1 ¡ Domain ¡1 Specifica,on ¡1 ¡ ¡ ¡ Workloads ¡ Typical ¡Opera,on ¡Analysis ¡ ¡ With ¡ Scien,fic ¡ Benchmark ¡ Benchmark ¡ DataSets ¡ Workload ¡Pa^ern ¡Analysis Diverse ¡ Subset ¡i Selec,on ¡ Domain ¡i Specifica,on ¡i Implementa ¡ Data ¡Model ¡Analysis ,ons ¡ ¡ Workloads ¡With ¡ Scien,fic ¡ Benchmark ¡ Benchmark ¡ Diverse ¡ Subset ¡N ¡ Domain ¡N Specifica,on ¡N Implementa,ons 2017 HPBDC

  10. Data ¡Analysis ¡in ¡typical ¡Scien,fic ¡Search ¡Areas n High ¡Energy ¡Physics ¡ n LHC ¡Events ¡Discrimina,on: ¡Classifica,on ¡and ¡Regression ¡ n Astronomy ¡ n Telescope ¡Image ¡Analysis ¡ n Genomics ¡ n Microarray ¡Data ¡Analysis 2017 HPBDC

  11. Data ¡Flow Online ¡Events ¡ Acquisi,on Offline ¡Data ¡ Reconstruc,on Data ¡Analysis Result ¡ [J.-R. Vlimant, 2016] Extrac,on 2017 HPBDC

  12. Data ¡Flow 2017 HPBDC

  13. Overview 3 ¡data ¡sets, ¡17 ¡workloads 2017 HPBDC

  14. More ¡Scien,fic ¡Domains n Gravita,onal ¡Waves ¡ n Neuroscience ¡ n … ¡ 2017 HPBDC

  15. Comparison ¡Study n Performance ¡comparison ¡between ¡numbers ¡of ¡widely-­‑used ¡big ¡ data ¡analy,cs ¡systems ¡using ¡a ¡subset ¡of ¡BigDataBench-­‑S ¡ n Hadoop ¡(MapReduce ¡and ¡Tez), ¡Spark ¡ n Both ¡DBMS ¡queries ¡and ¡complex ¡analy,cs ¡workloads ¡ n Different ¡data ¡formats: ¡Row-­‑based ¡vs ¡Column-­‑based ¡ n Different ¡data ¡sizes ¡ 2017 HPBDC

  16. Comparison ¡Study n Data ¡Set ¡ n Simulated ¡microarray ¡data ¡using ¡GenBase ¡data ¡generator ¡ n Schema ¡ CREATE TABLE geo( CREATE TABLE go( geneid INT, geneid INT, Matrix ¡data patientid INT, goid INT, expr_value FLOAT); belongs INT); CREATE TABLE genes( CREATE TABLE patients( geneid INT, patientid INT, target INT, age INT, pos BIGINT, gender INT, Meta ¡data len INT, zipcode INT, func INT); disease INT, response FLOAT); 2017 HPBDC

  17. Queries n Query ¡1: ¡Selec,on ¡ n Select ¡data ¡based ¡from ¡matrix ¡table ¡based ¡on ¡condi,ons ¡on ¡the ¡ metadata ¡table ¡ • Map ¡join ¡based ¡data ¡filter SELECT ¡geo.* ¡FROM ¡genes ¡ JOIN ¡geo ¡ON ¡(geo.geneid=genes.geneid) ¡WHERE ¡genes.func ¡< ¡X; 2017 HPBDC

  18. Queries n Query ¡2: ¡Aggrega,on ¡ n An ¡aggregated ¡opera,on ¡on ¡all ¡data ¡in ¡a ¡matrix ¡data ¡table ¡ SELECT ¡geneid, ¡avg(expr_value) ¡as ¡avg_expr_value ¡FROM ¡geo ¡ GROUP ¡BY ¡geneid; 2017 HPBDC

  19. Queries n Query ¡3: ¡Join ¡ n Join ¡data ¡from ¡the ¡geo ¡and ¡go ¡tables ¡ ¡ SELECT ¡go.goid ¡AS ¡go_col, ¡go.pid ¡AS ¡pid, ¡ ¡go.belongs ¡AS ¡cat, ¡gp.ev ¡AS ¡val ¡ FROM ¡ (SELECT ¡g.geneid ¡AS ¡gid, ¡ p.pa@en@d ¡AS ¡pid,g.expr_value ¡AS ¡ev ¡FROM ¡geo ¡g, ¡pa@ents ¡p ¡ WHERE ¡p.pa@en@d ¡< ¡5 ¡ AND ¡g.pa@en@d ¡= ¡p.pa@en@d ¡) ¡gp, ¡go ¡ WHERE ¡go.geneid ¡= ¡gp.gid; 2017 HPBDC

  20. Join ¡Plan ¡in ¡Spark Job1 Stage3 go.geneid = Shu ffl eJoin gp.geneid g.patientid = p.patendid Stage1 Stage2 Job0 go MapJoin Stage0 Filter geo patients 2017 HPBDC

  21. Complex ¡Analy,cs n Covariance ¡ n Analyze ¡the ¡relevance ¡of ¡mul,dimensional ¡data ¡ n SVD ¡ n Eliminate ¡the ¡interference ¡data ¡in ¡raw ¡data ¡ n QR ¡Decomposi,on ¡ n Common ¡matrix ¡decomposi,on ¡used ¡in ¡linear ¡regression, ¡eigenvalue ¡ calcula,on ¡… ¡ 2017 HPBDC

  22. Compare ¡with ¡GenBase GenBase BigDataBench-­‑S Workload ¡Category Mixed Either ¡data ¡queries ¡or ¡complex ¡ analy,cs Workload ¡Number 5 ¡mixed ¡workloads 3 ¡data ¡manipula,on ¡queries ¡ 3 ¡complex ¡analy,cs ¡workloads Supported ¡Systems Tradi&onal ¡row ¡and ¡ Large-­‑scale ¡data ¡analy,cs ¡ column ¡stores ¡+ ¡R/ systems, ¡including ¡ ¡ Madlib, ¡ ¡ Hadoop ¡(MapReduce ¡+ ¡Tez), ¡ Hadoop, ¡ Spark ¡SciDB 2017 HPBDC

  23. Experiments n Configura,ons ¡ Config Node Number 10 ¡Huawei ¡RH2285 ¡servers CPU Intel ¡Xeon ¡E5645, ¡12 ¡cores Memory 32 ¡GB Disk 1TB ¡SATA 2017 HPBDC

  24. Experiments n Configura,ons ¡ n 10 ¡servers, ¡each ¡with ¡12 ¡cores, ¡32 ¡GB ¡memory ¡and ¡1TB ¡disk Hadoop ¡ Tez Spark MapReduce Version 2.7.1 0.8.3 2.0.1 Query ¡ Hive ¡2.0.0 Hive ¡2.0.0 SparkSQL Processing Machine ¡ Mahout ¡ MLlib Learning 2017 HPBDC

  25. A ¡Brief ¡View ¡of ¡Execu,on ¡Model MapReduce Map ¡ Map ¡ Reduce ¡ Reduce ¡ HDFS ¡ HDFS ¡ Map ¡ HDFS ¡ Map ¡ Reduce ¡ Reduce ¡ Map ¡ Map ¡ Tez Map ¡ Reduce ¡ Reduce ¡ HDFS ¡ Map ¡ HDFS ¡ Reduce ¡ Reduce ¡ Map ¡ 2017 HPBDC

  26. A ¡Brief ¡View ¡of ¡Execu,on ¡Model n Spark iter. ¡1 ¡ iter. ¡2 ¡ . ¡ ¡. ¡ ¡. ¡ Input ¡ query ¡1 ¡ one-­‑time ¡ processing ¡ query ¡2 ¡ query ¡3 ¡ Input ¡ . ¡ ¡. ¡ ¡. ¡ [ M ¡Zaharia, ¡2012 ] 2017 HPBDC

Recommend


More recommend