iPlant + iRODS: Enabling data driven collaborations Nirav Merchant iPlant Collaborative/Univ. of Arizona nirav@email.arizona.edu VAMP 2012 Utrecht
Topic Coverage • About iPlant • 4 th Paradigm • Technology challenges for life sciences • iPlant Data Store (iDS) • Challenges of Sharing Data • iPlant Atmosphere (cloud) • Future: Identity+Group+Network with Openflow
What is iPlant • The iPlant Cyberinfrastructure Collaborative is building a comprehensive informatics infrastructure for plant biology. • Funded by the National Science Foundation (NSF) 2008 (and continuing till 2018) • This rapidly evolving infrastructure is sometimes very visible to users (researchers), and sometimes absolutely transparent to them (projects powered by iPlant components).
The ¡iPlant ¡Collabora/ve ¡ Cyberinfrastructure ¡Philosophy ¡ We ¡have ¡designed ¡iPlant ¡to ¡be ¡ consistent ¡with ¡the ¡pillars ¡of ¡CIF21* ¡ ¡ ü High ¡Performance ¡Compu?ng ¡ ü Data ¡and ¡Data ¡Analysis ¡ ü Virtual ¡Organiza?on ¡ ü Learning ¡and ¡Workforce ¡
Science Paradigms 1. Thousand years ago: science was empirical describing natural phenomena, observations 2. Last few hundred years: theoretical branch using models, generalizations 3. Last few decades: a computational branch simulating complex phenomena 4 . Today: data exploration (eScience) unify theory, experiment, and simulation Based on the transcript of a talk given by the late Jim Gray to the National Research Council – Computer Science and Telecommunication Board in Mountain View, CA, on January 11, 2007 5
The Fourth Paradigm: Data-Intensive Scientific Discovery • Increasingly, scientific breakthroughs will be powered by advanced computing capabilities that help researchers manipulate and explore massive datasets . • The speed at which any given scientific discipline advances will depend on how well its researchers collaborate with one another, and with technologists , in areas of eScience such as databases, workflow management, visualization, and cloud computing technologies. 6 http://research.microsoft.com/en-us/collaboration/fourthparadigm/
The Discovery Lifecycle 7 The Fourth Paradigm: Data-Intensive Scientific Discovery
Big ¡Data ¡(yes ¡we ¡have ¡it ¡!) ¡ ¡
Data-‑intensive ¡biology ¡necessitates ¡biologists ¡ become ¡comfortable ¡with ¡new ¡technology ¡ ¡ (rather ¡quickly)… ¡
∧ 10
One ¡key ¡goal ¡in ¡our ¡infrastructure, ¡training ¡and ¡outreach ¡is ¡ to ¡minimize ¡the ¡emphasis ¡on ¡technology ¡and ¡return ¡the ¡ focus ¡to ¡biology. ¡ 1973 ¡ Sharp, ¡Sambrook, ¡Sugden ¡ Gel ¡Electrophoresis ¡Chamber, ¡ 1958 ¡ $250 ¡ ¡MaG ¡Meselson ¡& ¡ Ultracentrifuge, ¡$500,000 ¡
Ways ¡for ¡users ¡to ¡access ¡iPlant ¡ • Atmosphere: ¡cloud ¡compu?ng ¡ plaQorm ¡ • Data ¡Store: ¡ secure, ¡cloud-‑based ¡data ¡storage ¡ ¡ • Discovery ¡Environment: ¡a ¡web ¡portal ¡to ¡many ¡integrated ¡ applica?ons ¡(combine ¡data ¡+ ¡compute) ¡ ¡ • DNA ¡Subway: ¡genome ¡annota?on, ¡DNA ¡bar-‑coding ¡(and ¡ more) ¡for ¡science ¡educators ¡ • Founda/on ¡API: ¡ For ¡programmers ¡embedding ¡iPlant ¡ infrastructure ¡capabili?es ¡(Auth, ¡IO, ¡Apps, ¡Jobs, ¡Dir. ¡etc) ¡ • Command ¡line: ¡for ¡expert ¡access ¡(thru ¡TeraGrid/XSEDE)
The ¡iPlant ¡Cyberinfrastructure ¡ End ¡Users ¡ Teragrid XSEDE Computa?onal ¡ ¡ Users ¡
The ¡iPlant ¡Discovery ¡Environment ¡ • A ¡rich ¡web ¡client ¡ – Consistent ¡interface ¡to ¡ bioinforma?cs ¡tools ¡ – Portal ¡for ¡users ¡who ¡won’t ¡ want ¡to ¡interact ¡with ¡lower ¡ level ¡infrastructure ¡ • An ¡integrated, ¡extensible ¡ system ¡of ¡applica?ons ¡and ¡ services ¡ ¡ – Addi?onal ¡intelligence ¡ above ¡low ¡level ¡APIs ¡– ¡ Provenance, ¡Collabora?on, ¡ etc. ¡
Scalable ¡Computa/on ¡for ¡High-‑Throughput ¡Inquiry ¡ • 90,000 ¡ Compute ¡Cores ¡ • Up ¡to ¡1TB ¡ TACC ¡Lonestar ¡ TACC ¡Ranger ¡ shared ¡ memory ¡ • Growing ¡to ¡ ~500,000 ¡cores ¡ by ¡end ¡of ¡2012 ¡ PSC ¡Blacklight ¡ EBI ¡Web ¡Services ¡ TACC ¡Corral ¡
iPlant Layered Services and Access � End Users iPlant Data Store � Scalable � Computational Users Reliable � Redundant � High-Throughput �
Powered by iPlant • The iPlant CI is designed as infrastructure. This means it is a platform upon which other projects can build. • Use of the iPlant infrastructure can take one of several forms: – Authentication (~IdM/P, Shib, CAS etc) – Storage – Computation – Application Hosting – Web Services – Scalability 17
Powered by iPlant • Other major projects are beginning to adopt the iPlant CI as their underlying infrastructure (some completely, some in limited ways): – BioExtract (computation) – CiPRES (authentication, computation) – Gates Integrated Breeding Platform (hosting, development, authentication) – Galaxy ( storage, for now) – CoGE (authentication, data store, hosting) – Many more (check http://www.iplantcollaborative.org/discover/powered-by-iplant) 18
CIPRES Portal Federation
iRODS • Developed by Data Intensive Cyber Environments (DICE) Directed by Reagan Moore • Developed SRB, the Storage Resource Broker at SDSC, the San Diego Supercomputer Center • Most of the group migrated to UNC Chapel Hill in 2008-2009 (The group is bi-coastal: DICE-UNC, DICE-UCSD) • Released iRODS, the integrated Rule-Oriented Data System, in 2009 • Primary development funding from NSF (and other agencies)
iRODS • Data grid middleware • Data management infrastructure • A framework for procedural implementation of data management policy (policy-driven data management)
Resource + Catalogue Server(s) http://e-irods.org/dev/wp-content/uploads/2012/08/irods-getting-started.pdf
iPlant Data Store � Free Your Data � Different Users, � Different Access Needs: � One Data Store �
iPlant Data Store (iDS) � WebDAV DE API i-commands iDrop
The ¡iPlant ¡Data ¡Store ¡ Fast ¡data ¡transfers ¡via ¡parallel, ¡ file ¡transfer ¡ Move ¡large ¡(>2 ¡GB) ¡files ¡with ¡ease ¡ • ¡ Mul?ple, ¡consistent ¡access ¡ modes ¡ iPlant ¡API ¡ • iPlant ¡web ¡apps ¡ • Desktop ¡mount ¡(FUSE/DAV) ¡ • Java ¡applet ¡(iDrop) ¡ • Command ¡line ¡(icommands) ¡ • Tickets ¡and ¡tokens ¡ • ¡ Fine-‑grained ¡ACL ¡permissions ¡ Sharing ¡made ¡simple ¡ • Access ¡and ¡a ¡storage ¡alloca/on ¡is ¡ ¡automa/c ¡with ¡every ¡iPlant ¡account ¡
Some Challenges • Allowing 3 rd party apps to users data – Used irods rules for ACL handling – E.g. Bisque Image Analysis (updates their web app of data deposition in bisque_data iPlant Data Store) – SSO allowed jumping between 3 rd party apps (and internal) • *Users want to give access to files, directories for download & upload ! (anonymous/non iplant/apps) – Integrated tickets (tokens) – Foundation API (REST access) • *Users want fine grain access to permission – Restrict access from certain domain (*.arizona.edu) for jobs running on other compute grids (UWisc, OSG) – Enhanced tickets to allow host, group, file count, size based control * Funded by NSF OCI :1032468 (Klingenstien, Koranda, Merchant)
iticket ! • Niravs-MacBook-Air:$ iticket • iticket>ls • id: 62173279 • write byte limit: 0 • expire time: none • string: X23MQI8I5H70O0e • collection name: /iplant/home/nirav/ticket-incoming • ticket type: write • No host restrictions • obj type: collection • No user restrictions • owner name: nirav • No group restrictions • owner zone: iplant • uses count: 0 • uses limit: 0 • write file count: 0 • write file limit: 10 • write byte count: 0
iRODS+Shib • Building on the ASPiS solution from King's College, which allows web-based applications to be Shib enabled • This solution leverages the Apache SP, and manages user accounts based on provided Shib attributes and entitlements • Allows customization of behavior by providing a standard set of iRODS rules and micro services • The ASPiS solution is being updated for inclusion in the Java Jargon library, and the out-of-the-box iDrop web interface. • ASPiS option will run by setting a configuration option that runs a Shibboleth-aware servlet filter. • Testing is currently underway on the integration of the ASPiS approach and this integration should be available by end of September 2012. Funded by NSF OCI :1032468 (Klingenstien, Koranda, Merchant)
Customized cloud platform for computing on your terms !
Recommend
More recommend