gUSE ¡Data ¡Staging ¡ Ákos ¡Hajnal, ¡István ¡Márton, ¡Peter ¡ Kacsuk ¡
The ¡workflow ¡ • The ¡workflow ¡to ¡illustrate ¡data ¡exchange ¡ between ¡jobs ¡– ¡potenFally ¡-‑ ¡running ¡in ¡different ¡ DCIs ¡ ¡ • Job1 ¡has ¡output ¡only, ¡Job2 ¡has ¡input ¡only, ¡ connected ¡via ¡a ¡“channel” ¡
Data ¡exchange ¡via ¡ data ¡avenue -‑ managed ¡remote ¡storage ¡ DCI ¡1 ¡ gUSE ¡ Job1 ¡ WF ¡ local ¡ Interpreter ¡ disk ¡ DCI ¡ Bridge ¡ remote ¡ Data ¡ storage ¡ Internal ¡ Avenue ¡ (SFTP, ¡GridFTP, ¡ Storage ¡ S3, ¡iRODS, ¡ SRM, ¡…) ¡ DCI ¡2 ¡ file ¡ ¡ file ¡ system ¡ system ¡ Job2 ¡ local ¡ disk ¡
Steps ¡ 1. WFI ¡schedules ¡Job1 ¡and ¡sends ¡to ¡DCI ¡Bridge ¡for ¡ submission ¡ 2. DCI ¡Bridge ¡requests ¡an ¡HTTP ¡alias, ¡ alias1 ¡for ¡the ¡output ¡of ¡ Job1 ¡ 3. DCI ¡Bridge ¡submits ¡Job1 ¡to ¡DCI ¡1 ¡ 4. When ¡Job1 ¡is ¡complete, ¡its ¡output ¡is ¡uploaded ¡via ¡Data ¡ Avenue ¡alias ¡alias1 ¡to ¡the ¡remote ¡storage ¡(wrapper) ¡ 5. WFI ¡schedules ¡Job2 ¡and ¡sends ¡to ¡DCI ¡Bridge ¡ 6. DCI ¡Bridge ¡requests ¡an ¡HTTP ¡alias ¡for ¡the ¡input ¡of ¡Job2, ¡ alias2 ¡(stored ¡in ¡step ¡4) ¡ 7. DCI ¡Bridge ¡submits ¡Job2 ¡to ¡DCI ¡2 ¡for ¡execuFon ¡ 8. Job2 ¡(wrapper) ¡downloads ¡its ¡input ¡via ¡Data ¡Avenue ¡alias ¡ alias2 ¡and ¡executes ¡
Pros: ¡ • DCIs ¡require ¡no ¡pre-‑installed ¡tools ¡sFll ¡can ¡ access ¡a ¡wide ¡range ¡of ¡storage ¡resources ¡ (including ¡cloud ¡storages) ¡only ¡HTTP ¡(curl) ¡ • DCIs ¡can ¡cooperate ¡as ¡Data ¡Avenue ¡offers ¡ access ¡to ¡the ¡same ¡storage ¡ • CredenFals ¡are ¡not ¡delegated ¡to ¡worker ¡nodes ¡ • Workflow ¡is ¡portable ¡(separated ¡data ¡access) ¡ Cons: ¡ • Data ¡Avenue ¡can ¡be ¡a ¡boaleneck ¡on ¡massive, ¡ concurrent ¡use ¡
A ¡Scalable ¡Data ¡Avenue ¡Service ¡ Architecture ¡ 8. Data Elastic pool of VMs ¡ Transfer via Data ¡ DA ¡ 3. Data DA-1 ¡ VM ¡ Storage ¡ Requests - Client ¡ HTTP ¡ Monitor ¡ Client ¡ DA ¡ Tomcat ¡ Client ¡ WS-‐‒ 7. Data PGRADE/ ¡ Requests – mod_cluster ¡ ¡ gUSE ¡ SFTP/HTTP ¡ 6. Alias 1. HTTP VM ¡ DA-2 ¡ Requests ¡ Monitor ¡ DAS ¡ De-cipher DA ¡ Tomcat ¡ VM ¡ Alias ¡ To ¡facilitate ¡ h2pd ¡ ¡ 4. Consult DB 2. redirections ¡ mod_cluster ¡ ¡ – create Alias ¡ MySQL ¡ auto-‑scaling ¡ mod_cluster ¡ ¡ Metrics ¡ by ¡acFng ¡on ¡ Metrics collection from 5. Alias ¡ Load ¡ VMs through ¡ LB_Enactor ¡ monitors ¡ calculated ¡by ¡ DA-N ¡ VM ¡ mod_cluster ¡ Monitor ¡ OCCO ¡-‐‒ ¡API ¡ DA ¡ Tomcat ¡ VM start/stop ¡ Sztaki Open SDNs and VM images mod_cluster ¡ ¡ Nebula ¡ management ¡
Recommend
More recommend