OpenNebula: Experiences at KTH With a deeper dive into emerging data analytics stacks Åke ¡Edlund ¡ KTH ¡PDC-‑HPC ¡ ¡Center ¡for ¡ High ¡Performance ¡Computing ¡ KTH ¡HPCViz ¡ Data-‑Intensive ¡Computing ¡ Group ¡ 1 KTH ¡PDC-‑HPC ¡ Cloud
Outline of this talk Cloud computing and data-intensive computing at PDC - a brief overview OpenNebula at PDC - examples Apache Spark at PDC - what I use our cloud for 2
Cloud computing and data-intensive computing at PDC - a brief overview � OpenNebula at PDC - examples Apache Spark at PDC - what I use our cloud for 3
Cloud computing and data-intensive computing at PDC - a brief overview Cloud ¡research ¡since ¡2007 ¡ • – Cloud ¡provider ¡since ¡2009 ¡– ¡national ¡and ¡international ¡users ¡ Spark ¡user ¡since ¡May ¡2012 ¡(more ¡in ¡the ¡last ¡section) ¡ • – Version ¡0.6 ¡released ¡in ¡October ¡15, ¡2012 ¡ Research ¡and ¡Development ¡ • – Distributed ¡and ¡federated ¡clouds ¡and ¡data ¡analytics ¡stacks ¡ – Bioinformatics ¡and ¡LifeScience ¡applications ¡ – Scalable ¡statistics ¡ – Self-‑improving ¡systems ¡ – Strong ¡and ¡usable ¡security ¡factors ¡to ¡enable ¡researchers ¡to ¡store ¡sensitive ¡data ¡in ¡the ¡Cloud ¡ Projects ¡(many) ¡ • – SNIC ¡Cloud ¡Infrastructure ¡(co-‑Initiator ¡and ¡Coordinator) ¡– ¡the ¡Swedish ¡roll ¡out ¡of ¡cloud ¡for ¡ eScience ¡ – NeIC ¡Nordic ¡Cloud ¡(co-‑Initiator ¡and ¡coordinator ¡Swedish ¡part) ¡ – BioBankCloud ¡(WP ¡leader) ¡– ¡PaaS ¡for ¡biobanking ¡ – EGI ¡Federated ¡Cloud ¡task ¡force ¡(development ¡and ¡resource ¡provider) ¡ – VENUS-‑C ¡(WP-‑Leader) ¡(2010 ¡– ¡2012) ¡ – … 4
Cloud Resources at PDC PDC ¡Cloud ¡has ¡been ¡in ¡ production ¡ (with ¡external ¡users) ¡since ¡2010 ¡and ¡is ¡ today ¡an ¡installation ¡of ¡364 ¡cores ¡ � -‑ 12 ¡nodes, ¡each ¡consisting ¡of ¡32 ¡cores ¡– ¡1 ¡TB ¡x ¡2 ¡disk ¡and ¡64 ¡GB ¡RAM ¡ -‑ 20 ¡TB ¡shared ¡(through ¡Infiniband) ¡by ¡the ¡12 ¡nodes ¡using ¡Ceph ¡(RBD ¡(block ¡ devices), ¡S3 ¡(Object ¡Storage) ¡-‑ ¡ this ¡is ¡under ¡reconstruction ¡(from ¡SAN ¡to ¡ dedicated ¡Ceph ¡storage ¡nodes ¡-‑> ¡36 ¡TB) ¡ -‑ Cloud ¡middlewares ¡used ¡over ¡the ¡years ¡range ¡from ¡Eucalyptus, ¡ OpenNebula, ¡and ¡now ¡a ¡ mix ¡of ¡OpenNebula ¡and ¡OpenStack ¡ -‑ Users ¡access ¡their ¡resources ¡using ¡web ¡panel ¡and/or ¡CLI/API ¡ � Users ¡(so ¡far) ¡are ¡Nordic ¡and ¡European ¡researchers. ¡PDC ¡Cloud ¡is ¡leading ¡ partner ¡in ¡a ¡number ¡of ¡Swedish, ¡Nordic ¡and ¡European ¡cloud ¡projects, ¡e.g. ¡ being ¡one ¡of ¡the ¡first ¡certified ¡cloud ¡resource ¡providers ¡to ¡EGI ¡Federated ¡ Cloud. 5
Data-Intensive Computing at PDC HPCViz ¡Data-‑Intensive ¡Computing ¡Group ¡(started ¡2012) ¡is ¡a ¡ research ¡ group ¡building ¡on ¡the ¡experiences ¡from ¡PDC. ¡ � -‑ 9 ¡group ¡members ¡(7 ¡researchers, ¡2 ¡developers) ¡ -‑ Collaborating ¡mainly ¡with ¡Uppsala ¡University ¡(bioinformatics), ¡KI ¡ (SciLifeLab) ¡on ¡ applying, ¡and ¡further ¡expand, ¡emerging ¡novel ¡ techniques ¡for ¡iterative ¡and ¡interactive ¡in-‑memory ¡data ¡analytics ¡ stacks ¡(Spark, ¡Stratosphere, ¡H2O, ¡…) ¡ -‑ Other ¡areas ¡of ¡interest ¡include ¡anomaly ¡detection ¡in ¡streaming ¡data, ¡ with ¡applications ¡in ¡performance ¡improvement ¡of ¡distributed ¡systems, ¡ and ¡security ¡(intrusion ¡detection). 6
Our Cloud Learning Curve Public ¡ ¡ ¡IaaS Private ¡IaaS Public ¡ ¡ ¡PaaS Private ¡PaaS 2001 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2004 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2007 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2010 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2011 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2012 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2014 SNIC ¡Cloud ¡ Infrastructure ¡ Nordic ¡cloud ¡ project , ¡NEON ¡ SNIC ¡Cloud ¡ project ¡(2011.6-‑2012.6+) ¡ SNIC ¡Galaxy ¡ project ¡ KTH ¡PDC ¡Cloud ¡ (long-‑term, ¡started ¡Jan ¡2014). ¡ (2010) ¡ Enabled ¡cloud ¡access ¡(public ¡and ¡ (2013.3-‑2014.3). ¡The ¡goal ¡of ¡ experimentation A ¡(generic) ¡IaaS ¡on ¡which ¡ Practical ¡evaluation ¡[1], ¡ private) ¡to ¡SNIC ¡users. ¡ ¡14 ¡(some ¡ the ¡project ¡is ¡to ¡deliver ¡Galaxy ¡ communities/users ¡can ¡build ¡ testing ¡public ¡vs ¡private ¡ recurring) ¡users ¡of ¡SNIC ¡Cloud ¡for ¡ as ¡a ¡service, ¡using ¡the ¡Galaxy ¡ their ¡PaaS. ¡Strong ¡emphasize ¡ cloud ¡for ¡eScience ¡users ¡ Amazon ¡ ¡(e.g. ¡running ¡Galaxy) ¡and ¡54 ¡ cloud ¡management ¡platform, ¡ on ¡user ¡communities ¡and ¡their ¡ (bioinformatics) on ¡the ¡private ¡cloud ¡(currently ¡only ¡ Cloudman, ¡on ¡local ¡cloud ¡ commitment. ¡ PDC ¡Cloud, ¡partially ¡from ¡outside ¡ installations ¡(private ¡clouds). ¡ SNIC) Grid ¡Computing ¡projects ¡(DataGrid, ¡EGEE, ¡EGI) ¡– ¡including ¡EGI ¡Federated ¡Clouds ¡TF PDC-‑HPC ¡(since ¡1989) [1] ¡"Practical ¡Cloud ¡Evaluation ¡from ¡a ¡Nordic ¡eScience ¡User ¡Perspective", ¡VTDC'11, ¡ACM ¡conference ¡San ¡Jose ¡(2011) ¡by ¡Åke ¡Edlund ¡and ¡Maarten ¡Koopman, ¡Zeeshan ¡Ali ¡Shah, ¡ Ilja ¡Livenson, ¡Frederik ¡Orellana, ¡Jukka ¡Kommeri, ¡Miika ¡Tuisku, ¡Pekka ¡Lehtovuori, ¡Klaus ¡Marius ¡Hansen, ¡Helmut ¡Neukirchen, ¡ ¡Ebba ¡Þóra ¡Hvannberg ¡ 7
Our Cloud Learning Curve Public ¡ ¡ ¡IaaS Private ¡IaaS Public ¡ ¡ ¡PaaS Private ¡PaaS 2001 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2004 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2007 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2010 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2011 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2012 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2013 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2014 Public ¡IaaS ¡ à Private ¡IaaS ¡ Large ¡amount ¡of ¡sensitive ¡data, ¡ SNIC ¡Cloud ¡ Infrastructure ¡ Nordic ¡cloud ¡ project , ¡NEON ¡ SNIC ¡Cloud ¡ project ¡(2011.6-‑2012.6+) ¡ SNIC ¡Galaxy ¡ project ¡ KTH ¡PDC ¡Cloud ¡ often ¡too ¡cumbersome ¡for ¡ (long-‑term, ¡started ¡Jan ¡2014). ¡ (2010) ¡ Enabled ¡cloud ¡access ¡(public ¡and ¡ (2013.3-‑2014.3). ¡The ¡goal ¡of ¡ experimentation A ¡(generic) ¡IaaS ¡on ¡which ¡ Practical ¡evaluation ¡[1], ¡ private) ¡to ¡SNIC ¡users. ¡ ¡14 ¡(some ¡ the ¡project ¡is ¡to ¡deliver ¡Galaxy ¡ practical ¡use ¡of ¡public ¡clouds. ¡ communities/users ¡can ¡build ¡ testing ¡public ¡vs ¡private ¡ recurring) ¡users ¡of ¡SNIC ¡Cloud ¡for ¡ as ¡a ¡service, ¡using ¡the ¡Galaxy ¡ their ¡PaaS. ¡Strong ¡emphasize ¡ cloud ¡for ¡eScience ¡users ¡ Amazon ¡ ¡(e.g. ¡running ¡Galaxy) ¡and ¡54 ¡ cloud ¡management ¡platform, ¡ on ¡user ¡communities ¡and ¡their ¡ (bioinformatics) on ¡the ¡private ¡cloud ¡(currently ¡only ¡ Cloudman, ¡on ¡local ¡cloud ¡ commitment. ¡ PDC ¡Cloud, ¡partially ¡from ¡outside ¡ installations ¡(private ¡clouds). ¡ SNIC) Iaas ¡ à PaaS ¡ Grid ¡Computing ¡projects ¡(DataGrid, ¡EGEE, ¡EGI) ¡– ¡including ¡EGI ¡Federated ¡Clouds ¡TF PDC-‑HPC ¡(since ¡1989) Security ¡concerns. ¡Service ¡to ¡our ¡users. ¡ [1] ¡"Practical ¡Cloud ¡Evaluation ¡from ¡a ¡Nordic ¡eScience ¡User ¡Perspective", ¡VTDC'11, ¡ACM ¡conference ¡San ¡Jose ¡(2011) ¡by ¡Åke ¡Edlund ¡and ¡Maarten ¡Koopman, ¡Zeeshan ¡Ali ¡Shah, ¡ Easier ¡to ¡manage ¡larger ¡user ¡ groups . Ilja ¡Livenson, ¡Frederik ¡Orellana, ¡Jukka ¡Kommeri, ¡Miika ¡Tuisku, ¡Pekka ¡Lehtovuori, ¡Klaus ¡Marius ¡Hansen, ¡Helmut ¡Neukirchen, ¡ ¡Ebba ¡Þóra ¡Hvannberg ¡ 8
Recommend
More recommend