alignment of high throughput sequencing data inside in
play

Alignment of High-Throughput Sequencing Data Inside - PowerPoint PPT Presentation

Alignment of High-Throughput Sequencing Data Inside In-Memory Databases D. FIRNKORN, P. KNAUP, J. LORENZO BERMEJO, M. GANZINGER Ins7tute of


  1. Alignment ¡of ¡ ¡ High-­‑Throughput ¡Sequencing ¡Data ¡ ¡ Inside ¡In-­‑Memory ¡Databases ¡ D. ¡FIRNKORN, ¡P. ¡KNAUP, ¡J. ¡LORENZO ¡BERMEJO, ¡ M. ¡GANZINGER ¡ ¡ Ins7tute ¡of ¡Medical ¡Biometry ¡and ¡Informa7cs, ¡Heidelberg ¡University, ¡Germany ¡

  2. Mo7va7on ¡ Terabytes ¡of ¡data ¡by ¡NGS ¡plaLorms ¡produced ¡each ¡day ¡ Ø Adequate ¡analysis ¡of ¡high ¡throughput ¡data ¡ Ø DNA ¡alignment, ¡variant ¡calling ¡and ¡annota7on ¡ ¡ more ¡7me-­‑consuming ¡than ¡DNA ¡sequencing ¡ ¡ DNA sequencing Analysis ~ 2-7 hours ~ 1-2 days Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 2

  3. In-­‑Memory ¡Compu7ng ¡ • Data, ¡procedures, ¡etc. ¡are ¡kept ¡in ¡main ¡memory ¡ • Compu7ng ¡opera7ons ¡within ¡the ¡database ¡itself ¡ • No ¡IO ¡between ¡applica7on ¡and ¡database ¡layer ¡ working ¡unit ¡ working ¡unit ¡ IO ¡unit ¡ IO ¡unit ¡ hard ¡disk ¡drive ¡ main ¡memory ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 3

  4. Objec7ve ¡ • Inves7ga7on ¡of ¡in-­‑memory ¡databases ¡for ¡DNA ¡alignment ¡ – SAP ¡HANA ¡appliance ¡ – MySQL ¡with ¡in-­‑memory ¡engine ¡ ¡ • Development ¡of ¡stored ¡procedures ¡for ¡alignment ¡ – Test ¡case: ¡Burrows-­‑Wheeler-­‑Aligner ¡(BWA) ¡ – Performance ¡of ¡both ¡systems ¡evaluated ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 4

  5. Data ¡Transforma7on ¡and ¡Bulk ¡Load ¡Process ¡ e ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 5

  6. Methods ¡and ¡Tools ¡ • Reference ¡genome ¡precalcula7ons ¡for ¡BWA: ¡ – Construc7on ¡of ¡suffix ¡array ¡(SA) ¡ – Construc7on ¡of ¡burrows-­‑wheeler-­‑transforma7on ¡(BWT) ¡ • Development ¡of ¡stored ¡procedures ¡for ¡alignment: ¡ – First ¡within ¡MySQL ¡for ¡tes7ng ¡purpose ¡ – Por7ng ¡to ¡SAP ¡HANA, ¡syntax ¡adapta7on ¡ • System ¡informa7on: ¡ – Amazon-­‑Cloud ¡EC2, ¡m2.xlarge ¡(17 ¡GB ¡main ¡memory) ¡ – SAP ¡HANA ¡and ¡MySQL ¡running ¡on ¡same ¡system ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 6

  7. Process ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 7

  8. Exact ¡Matching: ¡Performance ¡Comparison ¡ 24.6 ¡fold ¡ Time ¡in ¡Seconds ¡ 29.8 ¡fold ¡ Aaer ¡~ ¡2.5 ¡hours ¡execu7on ¡error ¡in ¡MySQL ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 8

  9. Memory ¡Alloca7on ¡ a) HANA ¡installa7on ¡alone: ¡ 76 ¡% ¡ b) Including ¡reference ¡ genome: ¡99.5 ¡% ¡ MySQL: ¡Main ¡memory ¡full ¡allocable ¡with ¡data ¡ ¡ ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 9

  10. Comparison ¡ MySQL ¡ SAP ¡HANA ¡ ¡ ¡ + ¡ ¡ ¡Open ¡source ¡ + ¡ ¡ ¡Compression ¡techniques ¡ + ¡ ¡ ¡Recursive ¡procedure ¡calls ¡ – No ¡recursive ¡procedure ¡call ¡ – No ¡data ¡compression ¡ – Expensive ¡licensing ¡ ± MEMORY ¡engine, ¡only ¡data ¡ ± Column ¡store ¡engine, ¡ in ¡main ¡memory ¡ everything ¡in ¡main ¡memory ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 10

  11. Conclusion ¡ • Proof ¡of ¡concept: ¡DNA ¡alignment ¡inside ¡in-­‑memory ¡databases ¡ • Implementa7on ¡and ¡comparison ¡of ¡stored ¡procedures ¡for ¡ exact ¡DNA ¡read ¡matching ¡ – SAP ¡HANA ¡technology ¡faster ¡ – Installa7on ¡without ¡data ¡needs ¡much ¡memory ¡ – Inexact ¡matching ¡only ¡in ¡MySQL ¡ ¡ ¡ ¡ Introduc7on ¡ Methods ¡ Results ¡ Discussion ¡ 11

  12. Outlook ¡ • Algorithm ¡op7miza7on ¡ – Itera7ve ¡BWA ¡ – Scores ¡for ¡match, ¡mismatch ¡and ¡gaps ¡ – Seeding ¡ • SA ¡genera7on ¡as ¡stored ¡procedure ¡ • Examine ¡other ¡free ¡in-­‑memory ¡databases: ¡ ¡ 12

  13. 13

  14. DNA ¡Sequencing ¡Cost ¡and ¡Speed ¡ 14

  15. Column-­‑Store ¡Tables ¡ • SAP ¡HANA ¡consists ¡of ¡row ¡and ¡ column ¡engines ¡ • Tables ¡have ¡been ¡created ¡ within ¡the ¡column ¡engine ¡ • Faster ¡read ¡opera7ons ¡due ¡to ¡ compression ¡and ¡bejer ¡data ¡ access ¡ 15

  16. Suffix-­‑Array ¡Computa7on ¡ 16

Recommend


More recommend