Alignment ¡of ¡ ¡ High-‑Throughput ¡Sequencing ¡Data ¡ ¡ Inside ¡In-‑Memory ¡Databases ¡ D. ¡FIRNKORN, ¡P. ¡KNAUP, ¡J. ¡LORENZO ¡BERMEJO, ¡ M. ¡GANZINGER ¡ ¡ Ins7tute ¡of ¡Medical ¡Biometry ¡and ¡Informa7cs, ¡Heidelberg ¡University, ¡Germany ¡
Mo7va7on ¡ Terabytes ¡of ¡data ¡by ¡NGS ¡plaLorms ¡produced ¡each ¡day ¡ Ø Adequate ¡analysis ¡of ¡high ¡throughput ¡data ¡ Ø DNA ¡alignment, ¡variant ¡calling ¡and ¡annota7on ¡ ¡ more ¡7me-‑consuming ¡than ¡DNA ¡sequencing ¡ ¡ DNA sequencing Analysis ~ 2-7 hours ~ 1-2 days Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 2
In-‑Memory ¡Compu7ng ¡ • Data, ¡procedures, ¡etc. ¡are ¡kept ¡in ¡main ¡memory ¡ • Compu7ng ¡opera7ons ¡within ¡the ¡database ¡itself ¡ • No ¡IO ¡between ¡applica7on ¡and ¡database ¡layer ¡ working ¡unit ¡ working ¡unit ¡ IO ¡unit ¡ IO ¡unit ¡ hard ¡disk ¡drive ¡ main ¡memory ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 3
Objec7ve ¡ • Inves7ga7on ¡of ¡in-‑memory ¡databases ¡for ¡DNA ¡alignment ¡ – SAP ¡HANA ¡appliance ¡ – MySQL ¡with ¡in-‑memory ¡engine ¡ ¡ • Development ¡of ¡stored ¡procedures ¡for ¡alignment ¡ – Test ¡case: ¡Burrows-‑Wheeler-‑Aligner ¡(BWA) ¡ – Performance ¡of ¡both ¡systems ¡evaluated ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 4
Data ¡Transforma7on ¡and ¡Bulk ¡Load ¡Process ¡ e ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 5
Methods ¡and ¡Tools ¡ • Reference ¡genome ¡precalcula7ons ¡for ¡BWA: ¡ – Construc7on ¡of ¡suffix ¡array ¡(SA) ¡ – Construc7on ¡of ¡burrows-‑wheeler-‑transforma7on ¡(BWT) ¡ • Development ¡of ¡stored ¡procedures ¡for ¡alignment: ¡ – First ¡within ¡MySQL ¡for ¡tes7ng ¡purpose ¡ – Por7ng ¡to ¡SAP ¡HANA, ¡syntax ¡adapta7on ¡ • System ¡informa7on: ¡ – Amazon-‑Cloud ¡EC2, ¡m2.xlarge ¡(17 ¡GB ¡main ¡memory) ¡ – SAP ¡HANA ¡and ¡MySQL ¡running ¡on ¡same ¡system ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 6
Process ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 7
Exact ¡Matching: ¡Performance ¡Comparison ¡ 24.6 ¡fold ¡ Time ¡in ¡Seconds ¡ 29.8 ¡fold ¡ Aaer ¡~ ¡2.5 ¡hours ¡execu7on ¡error ¡in ¡MySQL ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 8
Memory ¡Alloca7on ¡ a) HANA ¡installa7on ¡alone: ¡ 76 ¡% ¡ b) Including ¡reference ¡ genome: ¡99.5 ¡% ¡ MySQL: ¡Main ¡memory ¡full ¡allocable ¡with ¡data ¡ ¡ ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 9
Comparison ¡ MySQL ¡ SAP ¡HANA ¡ ¡ ¡ + ¡ ¡ ¡Open ¡source ¡ + ¡ ¡ ¡Compression ¡techniques ¡ + ¡ ¡ ¡Recursive ¡procedure ¡calls ¡ – No ¡recursive ¡procedure ¡call ¡ – No ¡data ¡compression ¡ – Expensive ¡licensing ¡ ± MEMORY ¡engine, ¡only ¡data ¡ ± Column ¡store ¡engine, ¡ in ¡main ¡memory ¡ everything ¡in ¡main ¡memory ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 10
Conclusion ¡ • Proof ¡of ¡concept: ¡DNA ¡alignment ¡inside ¡in-‑memory ¡databases ¡ • Implementa7on ¡and ¡comparison ¡of ¡stored ¡procedures ¡for ¡ exact ¡DNA ¡read ¡matching ¡ – SAP ¡HANA ¡technology ¡faster ¡ – Installa7on ¡without ¡data ¡needs ¡much ¡memory ¡ – Inexact ¡matching ¡only ¡in ¡MySQL ¡ ¡ ¡ ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 11
Outlook ¡ • Algorithm ¡op7miza7on ¡ – Itera7ve ¡BWA ¡ – Scores ¡for ¡match, ¡mismatch ¡and ¡gaps ¡ – Seeding ¡ • SA ¡genera7on ¡as ¡stored ¡procedure ¡ • Examine ¡other ¡free ¡in-‑memory ¡databases: ¡ ¡ 12
13
DNA ¡Sequencing ¡Cost ¡and ¡Speed ¡ 14
Column-‑Store ¡Tables ¡ • SAP ¡HANA ¡consists ¡of ¡row ¡and ¡ column ¡engines ¡ • Tables ¡have ¡been ¡created ¡ within ¡the ¡column ¡engine ¡ • Faster ¡read ¡opera7ons ¡due ¡to ¡ compression ¡and ¡bejer ¡data ¡ access ¡ 15
Suffix-‑Array ¡Computa7on ¡ 16
Recommend
More recommend