big data analy cs in the eubrazil cloud connect project
play

Big data analy+cs in the EUBrazil Cloud Connect project - PowerPoint PPT Presentation

Big data analy+cs in the EUBrazil Cloud Connect project EGI CF 2014, Helsinki, May 19-23, 2014 S. Fiore 1 , D. Lezzi 2 , R. Badia 2 , I. Blanquer 3


  1. Big ¡data ¡analy+cs ¡in ¡the ¡EUBrazil ¡ Cloud ¡Connect ¡project ¡ EGI ¡CF ¡2014, ¡Helsinki, ¡May ¡19-­‑23, ¡2014 ¡ S. ¡Fiore 1 , ¡D. ¡Lezzi 2 , ¡R. ¡Badia 2 , ¡I. ¡Blanquer 3 , ¡G. ¡Aloisio 1,4 ¡ ¡ 1 ¡ Euro ¡Mediterranean ¡Center ¡on ¡Climate ¡Change ¡(CMCC) ¡ 2 ¡ Barcelona ¡Supercompu+ng ¡Center ¡(BSC) ¡ 3 ¡ Universitat ¡Politecnica ¡de ¡Valencia ¡(UPVLC) ¡ 4 ¡ University ¡of ¡Salento ¡(U. ¡Salento) ¡ ¡

  2. EUBrazil ¡Cloud ¡Connect ¡ � The ¡main ¡objec+ve ¡is ¡the ¡crea+on ¡of ¡a ¡federated ¡e-­‑infrastructure ¡for ¡ research ¡using ¡a ¡user-­‑centric ¡approach. ¡ � To ¡achieve ¡this, ¡we ¡need ¡to ¡pursue ¡three ¡objec+ves: ¡ � Adapta&on ¡of ¡exis+ng ¡applica+ons ¡to ¡tackle ¡ new ¡scenarios ¡ emerging ¡from ¡ coopera+on ¡between ¡Europe ¡and ¡Brazil ¡relevant ¡to ¡both ¡regions. ¡ � Integra+on ¡of ¡frameworks ¡and ¡programming ¡models ¡for ¡ scien&fic ¡gateways ¡and ¡ complex ¡workflows . ¡ � Federa+on ¡of ¡resources, ¡to ¡build ¡up ¡ a ¡general-­‑purpose ¡infrastructure ¡comprising ¡ exis&ng ¡and ¡heterogeneous ¡resources ¡ � Addi+onally, ¡EUBrazilCC ¡will: ¡perform ¡an ¡ac+ve ¡ dissemina&on ¡ campaign, ¡ analyse ¡ innova&on , ¡foster ¡the ¡involvement ¡of ¡Brazilian ¡ins+tu+ons ¡in ¡ cloud ¡ standards ¡defini&on , ¡and ¡bring ¡the ¡EU ¡Cloudscape ¡series ¡to ¡broader ¡ interna+onal ¡audience. ¡ ! 20/5/2014 ¡ 614048 ¡-­‑ ¡EUBrazilCC ¡ 2 ¡

  3. EUBrazilCC ¡consor+um ¡ EU ¡Coordinator ¡ Ignacio ¡Blanquer-­‑Espert, ¡iblanque@dsic.upv.es ¡ Universitat ¡Politècnica ¡de ¡València , ¡Spain ¡ BR ¡Coordinator ¡ Francisco ¡Vilar ¡Brasileiro, ¡fubica@dsc.ufcg.edu.br ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡UPV, ¡ES ¡ Universidade ¡Federal ¡de ¡Campina ¡Grande, ¡ Brazil ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡UFCG, ¡CG ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡BSC, ¡ES ¡ ¡LNCC, ¡RJ ¡ ¡ ¡ ¡ ¡Trust-­‑IT, ¡UK ¡ ¡ ¡CRIA, ¡SP ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡UNEW, ¡UK ¡ ¡FIOCRUZ, ¡RJ ¡ ¡ ¡CMCC, ¡IT ¡ ¡ ¡ ¡ ¡PUC-­‑Rio, ¡RJ ¡ ¡ ¡ ¡ ¡ ¡ ¡UvA, ¡NL ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ISCIII, ¡ES ¡ A ¡minimum ¡of ¡5500 ¡CPU ¡and ¡400TB ¡of ¡storage ¡ 20/5/2014 ¡ 614048 ¡-­‑ ¡EUBrazilCC ¡ 3 ¡

  4. Use ¡Case ¡on ¡Biodiversity ¡ and ¡Climate ¡Change ¡ � Objec&ve : ¡Understand ¡the ¡impact ¡of ¡climate ¡change ¡on ¡ ¡ terrestrial ¡biodiversity ¡through ¡two ¡workflows ¡based ¡on ¡ ¡ Earth ¡observa+on ¡and ¡ground ¡level ¡data. ¡ � Technical ¡Challenge : ¡Integrate ¡parallel ¡data ¡analysis ¡with ¡other ¡processing ¡workflows ¡ in ¡a ¡geographically ¡distributed ¡environment. ¡ � Interna&onal ¡Added ¡Value : ¡Integra+on ¡of ¡biodiversity ¡data ¡and ¡modelling ¡with ¡ mul+spectral ¡and ¡remote ¡sensing ¡data ¡for ¡studying ¡the ¡cross-­‑correla+on ¡of ¡ biodiversity ¡and ¡climate ¡change. ¡ Climate ¡& ¡Biodiversity ¡Clearing-­‑house ¡ ¡ Parallel ¡Data ¡ Species-­‑ CMCC ¡ Imaging ¡ Analysis ¡ Link ¡ CIMP5 ¡ Data ¡ ¡Federated ¡Infrastructure ¡ & ¡PlaKorm ¡ 20/5/2014 ¡ 614048 ¡-­‑ ¡EUBrazilCC ¡ 4 ¡

  5. Ver+cal ¡view ¡of ¡the ¡use ¡case ¡

  6. Data ¡analy+cs ¡requirements ¡ A set of requirements have been jointly discussed with project partners to carry out data analysis on climate and satellite data. ¡ Preliminary ¡requirements ¡and ¡needs ¡focus ¡on: ¡  Time ¡series ¡analysis ¡  Data ¡reduc+on ¡(e.g. ¡by ¡aggrega+on) ¡  Model ¡intercomparison ¡  Data ¡subsegng ¡  Mul+model ¡means ¡  Massive ¡experiments ¡(the ¡same ¡task ¡applied ¡on ¡a ¡set ¡of ¡data) ¡  Worflow ¡experiments ¡(processing ¡chains) ¡  Massive ¡data ¡reduc+on ¡  Climate ¡indicators ¡computa+on ¡  Compare ¡historical ¡data ¡and ¡future ¡scenarios ¡  Maps ¡genera+on ¡

  7. Climate ¡change ¡domain: ¡the ¡current ¡scien+fic ¡ workflow ¡and ¡the ¡ESGF ¡use ¡case ¡ Workflow: search, locate, download, analyze, display results ¡ J. Chen, A. Choudhary, S. Feldman, B. Hendrickson, C.R. Johnson, R. Mount, V. Sarkar, V. White, D. Williams. “Synergistic Challenges in Data- Intensive Science and Exascale Computing,” DOE ASCAC Data Subcommittee Report, Department of Energy Office of Science, March, 2013.

  8. Parallel ¡data ¡analysis ¡ • In the EUBrazilCC project we will provide a parallel data analysis service exploiting scalable VM-based solutions for the management of large volumes of scientific multidimensional data : • Climate data from CMIP5 federated data archive • Landsat5-7-8 satellite data repository • The platform exploits high performance database management paradigms and efficient storage models to address data analysis • The platform is designed to address data post-processing, analysis and mining, time series extraction, sub-setting and data reduction (e.g. data aggregation). • The front-end is designed to provide multiple interfaces : WS-I + (default, available), GSI/VOMS (in progress, EGI interoperability), OGC WPS (in progress, geo-sciences infrastructure interoperability), … .

  9. PDAS ¡(aka ¡‘Ophidia’) ¡Architecture ¡ Declarative language ¡ Front Standard interfaces end ¡ Compute Analytics Framework layer ¡ Array-based primitives ¡ I/O layer ¡ I/O server instance ¡ New storage model ¡ Storage layer ¡ Partitioning/hierarchical data mng System catalog ¡

  10. Array ¡based ¡primi+ves ¡ • The array data type support is not enough to provide scientific data management capabilities… primitives are needed as well. • A set of array-based primitives have been implemented • By definition, a primitive is applied to a single fragment • They come in the form of plugins (I/O server extensions) • So far, Ophidia provides a wide set of plugins (about 100) to perform data reduction (by aggregation), sub-setting, predicates evaluation, statistical analysis, compression, and so forth. • Plugins can be nested to get more complex functionalities • Compression is provided as a primitive too

  11. Array ¡based ¡primi+ves: ¡OPH_BOXPLOT ¡ oph_gsl_boxplot (measure, "OPH_DOUBLE”); Ophidia storage level view ¡ Scientific point of view ¡

  12. Array ¡based ¡primi+ves: ¡nes+ng ¡feature ¡ oph_boxplot(oph_subarray(oph_uncompress(measure), 1,18), "OPH_DOUBLE”) Storage level view ¡ subarray(measure, 1,18) ¡ Scientific point of view ¡

  13. Architecture ¡(compute ¡layer) ¡ Analytics Framework Front end ¡ Compute layer ¡ I/O layer ¡ I/O server instance ¡ Storage layer ¡ System catalog ¡

Recommend


More recommend