data visualization
play

Data Visualization Methodological Foundations of Biomedical - PowerPoint PPT Presentation

Data Visualization Methodological Foundations of Biomedical Informatics October 13, 2015 Kelly Ruggles, Ph.D. Data Visualization in Biology and Medicine Challenge is to


  1. Data ¡Visualization Methodological ¡Foundations ¡of ¡ Biomedical ¡Informatics October ¡13, ¡2015 Kelly ¡Ruggles, ¡Ph.D. ¡

  2. Data ¡Visualization ¡in ¡Biology ¡and ¡Medicine • Challenge ¡is ¡to ¡explore ¡and ¡communicate ¡large ¡amounts ¡of ¡data ¡ without ¡being ¡overwhelmed • Data ¡visualization ¡takes ¡advantages ¡of ¡our ¡ability ¡to ¡recognize ¡ patterns • Visualization ¡is ¡most ¡useful ¡in ¡situations ¡when ¡ • Do ¡not ¡yet ¡know ¡the ¡regularities ¡in ¡the ¡data • Allows ¡for ¡exploration ¡of ¡data ¡for ¡patterns • Complementing ¡ algorithmic ¡approaches

  3. Poor ¡visualization ¡examples

  4. Poor ¡visualization ¡examples

  5. Poor ¡visualization ¡examples

  6. Good ¡visualization ¡examples

  7. Good ¡visualization ¡examples

  8. Good ¡visualization ¡examples

  9. Visualization ¡Tools • Static ¡visualization • Matlab • Matplotlib • R ¡(ggplot2) • Dynamic ¡visualization • JavaScript • D3: ¡JavaScript ¡library ¡for ¡producing ¡ dynamic ¡data ¡visualizations ¡in ¡web ¡ browsers

  10. Plot ¡Types 1. ¡Bar ¡charts ¡and ¡box ¡plots 2. ¡Sets ¡and ¡Intersections 3. ¡Scatters ¡and ¡Regressions 4. ¡Heat ¡maps ¡and ¡clustergrams 5. ¡Networks 6. ¡Genome-­‑wide ¡visualization 7. ¡Data ¡integration 8. ¡ ¡3D ¡and ¡multi-­‑dimensional

  11. Demo ¡dataset • iTRAQ MS/MS ¡proteomic ¡data ¡from ¡CPTAC ¡breast ¡tumor ¡samples • 83 ¡tumor ¡samples • Dataset ¡with ¡missing ¡data: ¡12,553 ¡proteins • Dataset ¡with ¡missing ¡data ¡removed: ¡7,975 ¡protein • Data ¡has ¡been ¡log ¡normalized ¡and ¡median ¡centered ¡for ¡each ¡sample ¡

  12. 1. ¡Bar ¡charts ¡and ¡box ¡plots • Used ¡to ¡visualize ¡quantities ¡associated ¡with ¡a ¡set ¡of ¡items • Bar ¡charts ¡are ¡useful ¡for ¡counts, ¡boxplots ¡for ¡distributions • Stacked ¡bar ¡charts ¡are ¡useful ¡in ¡comparing ¡contributions ¡to ¡the ¡total Bar ¡charts ¡in ¡Lipidomics Bar ¡and ¡stacked ¡bar ¡Proteomics

  13. 1. ¡Bar ¡charts ¡and ¡box ¡plots • When ¡dealing ¡with ¡quantities ¡sampled ¡from ¡a ¡population ¡then ¡use ¡ either ¡error ¡bars ¡or ¡box ¡plots • For ¡both ¡box ¡plots ¡and ¡bar ¡charts, ¡consider ¡ordering ¡the ¡bars ¡by ¡ height ¡and ¡boxes ¡by ¡the ¡median ¡to ¡make ¡figures ¡easier ¡to ¡read ¡ (unless ¡the ¡order ¡is ¡important ¡to ¡maintain) http://www.nature.com/nmeth/journal/v11/n2/full/nmeth.2807.html

  14. 2. ¡Sets ¡and ¡Intersections ¡(Euler/Venn) • Use ¡to ¡visualize ¡the ¡intersections ¡of ¡3-­‑4 ¡sets ¡but ¡beyond ¡this ¡is ¡challenging • Euler ¡vs. ¡Venn: ¡ • Venns have ¡regions ¡for ¡all ¡possible ¡combinations ¡of ¡groups ¡whether ¡or ¡not ¡there ¡ are ¡things ¡in ¡those ¡regions ¡or ¡not • Eulers only ¡show ¡overlapping ¡regions ¡if ¡something ¡exists ¡in ¡that ¡overlap ¡

  15. 2. ¡Sets ¡and ¡Intersections http://www.informationisbeautiful.net/

  16. 2. ¡Sets ¡and ¡Intersections ¡(more ¡than ¡4 ¡sets) • Encode ¡all ¡intersection ¡sets ¡in ¡a ¡matrix ¡and ¡color ¡code ¡the ¡number ¡of ¡ elements ¡in ¡each ¡intersection Genes ¡mutated ¡in ¡tumors ¡of ¡patients ¡with ¡gliobastoma multiforme Intersection ¡is ¡the ¡number ¡patients ¡with ¡co-­‑mutation

  17. 3. ¡Scatter ¡plots • Used ¡to ¡look ¡at ¡relationship ¡between ¡two ¡variables ¡(typically ¡includes ¡ a ¡regression ¡analysis) • Add ¡color ¡and ¡size ¡to ¡add ¡more ¡dimensions ¡to ¡the ¡data ¡ All ¡reps ¡passed Some ¡reps ¡passed All ¡reps ¡failed

  18. 3. ¡Scatter ¡plots ¡and ¡regression • Scatter ¡Matrix: ¡allows ¡you ¡to ¡look ¡at ¡relationship ¡between ¡each ¡ permutation ¡of ¡each ¡variable ¡combination ¡

  19. 3. ¡Scatter ¡plots

  20. 4. ¡Heatmaps and ¡clustergrams • 2D ¡table ¡with ¡color ¡shading ¡used ¡to ¡represent ¡quantitation • Well ¡suited ¡for ¡high-­‑throughput ¡data ¡(gene ¡expression, ¡transcriptomic) • Requires ¡meaningful ¡labeling ¡or ¡rows/columns ¡(often ¡not ¡well ¡done) Toussaint ¡Loua, ¡1873

  21. Hierarchical ¡Clustering • Used ¡to ¡identify ¡groups ¡that ¡have ¡similar ¡expression ¡patterns • The ¡more ¡homogenous, ¡the ¡poorer ¡the ¡separation • Two ¡types: ¡ • Agglomerative ¡(bottom ¡up): ¡most ¡commonly ¡used ¡ • everything ¡starts ¡in ¡its ¡own ¡cluster ¡and ¡are ¡merged ¡ • More ¡precise ¡at ¡bottom ¡of ¡the ¡tree, ¡identifying ¡more, ¡smaller ¡ clusters • Divisive ¡(top ¡down): ¡ • everything ¡starts ¡in ¡one ¡cluster ¡and ¡is ¡split • More ¡precise ¡at ¡top ¡of ¡the ¡tree, ¡identifying ¡fewer ¡but ¡larger ¡clusters

  22. Hierarchical ¡Clustering • Given ¡N ¡items ¡(genes) ¡to ¡be ¡clustered ¡and ¡an ¡NxN distance ¡matrix • Assign ¡each ¡item ¡to ¡a ¡cluster ¡so ¡you ¡have ¡N ¡clusters ¡each ¡with ¡1 ¡item • Find ¡closest ¡(most ¡similar) ¡pair ¡of ¡clusters ¡and ¡merge ¡them ¡into ¡a ¡single ¡ cluster • Computer ¡distances ¡(similarities) ¡between ¡the ¡new ¡cluster ¡and ¡each ¡of ¡the ¡ old ¡clusters • Repeat ¡steps ¡2 ¡and ¡3 ¡until ¡all ¡items ¡are ¡clustered ¡into ¡a ¡single ¡cluster ¡of ¡size ¡N

  23. Hierarchical ¡Clustering • Factor ¡proximity ¡and ¡cluster ¡shape ¡are ¡established ¡based ¡on ¡two ¡ similarity ¡measures • Distance ¡metric ¡ • Euclidean ¡distance. ¡More ¡sensitive ¡to ¡scaling/fluctuations ¡in ¡the ¡data ¡ • Pearson ¡correlation • Linkage ¡method: ¡affects ¡the ¡distance ¡between ¡clusters • Average ¡linkage-­‑ based ¡on ¡average ¡distance ¡between ¡cluster ¡features • Complete ¡linkage-­‑ based ¡on ¡maximum ¡distance ¡between ¡cluster ¡features http://www.nature.com/nmeth/journal/v9/n3/full/nmeth.1902.html

  24. 4. ¡Heatmaps and ¡Clustergrams Ruggles ¡and ¡Rajan, ¡2014

  25. 5. ¡Networks • Complex ¡interactions ¡between ¡proteins, ¡DNA, ¡RNA, ¡small ¡molecules ¡ • Hubs: ¡single ¡nodes ¡connected ¡to ¡many ¡other ¡nodes • Clusters: ¡sets ¡of ¡interconnected ¡nodes • Directed ¡vs. ¡undirected ¡ Directed Undirected Undirected http://www.nature.com/nmeth/journal/v9/n2/full/nmeth.1862.html

  26. 5. ¡Networks • Layouts ¡can ¡dramatically ¡change ¡how ¡we ¡see ¡the ¡data ¡ • Large ¡and ¡complex ¡dataset ¡= ¡hairball • Adjacency ¡matrix ¡is ¡an ¡alternative ¡for ¡large ¡datasets ¡ • Can ¡be ¡difficult ¡to ¡understand ¡the ¡connections • Could ¡instead ¡focus ¡on ¡a ¡smaller ¡subset ¡of ¡the ¡data http://www.nature.com/nmeth/journal/v9/n2/full/nmeth.1862.html

  27. 5. ¡Networks ¡example http://www.informationisbeautiful.net/

  28. 5. ¡Tools ¡for ¡creating ¡networks • Tools: ¡ • Cytoscape • Gephi • String • Reactome (cytoscape plug-­‑in) http://www.spandidos-­‑publications.com/ijmm/33/6/1586

  29. 6. ¡Genome-­‑wide ¡visualization • Typical ¡anaysis: ¡ • Uses ¡a ¡location ¡on ¡the ¡reference ¡genome ¡to ¡order ¡the ¡data • Arranges ¡linear ¡coordinate ¡data ¡on ¡the ¡x-­‑axis, ¡label ¡data ¡value ¡on ¡the ¡y • Limitations: ¡ Proteogenomic Expression Log2(Basal/Luminal) 5 • Cannot ¡represent ¡ CNV 0 the ¡entire ¡genome ¡ −5 in ¡one ¡figure ¡and ¡ 5 mRNA maintain ¡resolution 0 −5 • Poor ¡overview ¡of ¡ # genes small ¡genomic ¡ features ¡such ¡as ¡ 2.5 genes Peptides Mapped Protein 0 • Genome ¡browsers ¡ −2.5 get ¡around ¡this ¡by ¡ 2.5 Phospho allow ¡for ¡zooming ¡ 0 but ¡difficult ¡to ¡do ¡for ¡ −2.5 0 0.5 1 1.5 2 static ¡figures x 108 PRKCZ CLCA1 NRAS JAK1 LDLRAP1 ARID1A HMGCS2 Chromosome 1

  30. 6. ¡Genome-­‑wide ¡visualization

  31. 6. ¡Genome-­‑wide ¡visualization • Circos plots

Recommend


More recommend