Data ¡Visualization Methodological ¡Foundations ¡of ¡ Biomedical ¡Informatics October ¡13, ¡2015 Kelly ¡Ruggles, ¡Ph.D. ¡
Data ¡Visualization ¡in ¡Biology ¡and ¡Medicine • Challenge ¡is ¡to ¡explore ¡and ¡communicate ¡large ¡amounts ¡of ¡data ¡ without ¡being ¡overwhelmed • Data ¡visualization ¡takes ¡advantages ¡of ¡our ¡ability ¡to ¡recognize ¡ patterns • Visualization ¡is ¡most ¡useful ¡in ¡situations ¡when ¡ • Do ¡not ¡yet ¡know ¡the ¡regularities ¡in ¡the ¡data • Allows ¡for ¡exploration ¡of ¡data ¡for ¡patterns • Complementing ¡ algorithmic ¡approaches
Poor ¡visualization ¡examples
Poor ¡visualization ¡examples
Poor ¡visualization ¡examples
Good ¡visualization ¡examples
Good ¡visualization ¡examples
Good ¡visualization ¡examples
Visualization ¡Tools • Static ¡visualization • Matlab • Matplotlib • R ¡(ggplot2) • Dynamic ¡visualization • JavaScript • D3: ¡JavaScript ¡library ¡for ¡producing ¡ dynamic ¡data ¡visualizations ¡in ¡web ¡ browsers
Plot ¡Types 1. ¡Bar ¡charts ¡and ¡box ¡plots 2. ¡Sets ¡and ¡Intersections 3. ¡Scatters ¡and ¡Regressions 4. ¡Heat ¡maps ¡and ¡clustergrams 5. ¡Networks 6. ¡Genome-‑wide ¡visualization 7. ¡Data ¡integration 8. ¡ ¡3D ¡and ¡multi-‑dimensional
Demo ¡dataset • iTRAQ MS/MS ¡proteomic ¡data ¡from ¡CPTAC ¡breast ¡tumor ¡samples • 83 ¡tumor ¡samples • Dataset ¡with ¡missing ¡data: ¡12,553 ¡proteins • Dataset ¡with ¡missing ¡data ¡removed: ¡7,975 ¡protein • Data ¡has ¡been ¡log ¡normalized ¡and ¡median ¡centered ¡for ¡each ¡sample ¡
1. ¡Bar ¡charts ¡and ¡box ¡plots • Used ¡to ¡visualize ¡quantities ¡associated ¡with ¡a ¡set ¡of ¡items • Bar ¡charts ¡are ¡useful ¡for ¡counts, ¡boxplots ¡for ¡distributions • Stacked ¡bar ¡charts ¡are ¡useful ¡in ¡comparing ¡contributions ¡to ¡the ¡total Bar ¡charts ¡in ¡Lipidomics Bar ¡and ¡stacked ¡bar ¡Proteomics
1. ¡Bar ¡charts ¡and ¡box ¡plots • When ¡dealing ¡with ¡quantities ¡sampled ¡from ¡a ¡population ¡then ¡use ¡ either ¡error ¡bars ¡or ¡box ¡plots • For ¡both ¡box ¡plots ¡and ¡bar ¡charts, ¡consider ¡ordering ¡the ¡bars ¡by ¡ height ¡and ¡boxes ¡by ¡the ¡median ¡to ¡make ¡figures ¡easier ¡to ¡read ¡ (unless ¡the ¡order ¡is ¡important ¡to ¡maintain) http://www.nature.com/nmeth/journal/v11/n2/full/nmeth.2807.html
2. ¡Sets ¡and ¡Intersections ¡(Euler/Venn) • Use ¡to ¡visualize ¡the ¡intersections ¡of ¡3-‑4 ¡sets ¡but ¡beyond ¡this ¡is ¡challenging • Euler ¡vs. ¡Venn: ¡ • Venns have ¡regions ¡for ¡all ¡possible ¡combinations ¡of ¡groups ¡whether ¡or ¡not ¡there ¡ are ¡things ¡in ¡those ¡regions ¡or ¡not • Eulers only ¡show ¡overlapping ¡regions ¡if ¡something ¡exists ¡in ¡that ¡overlap ¡
2. ¡Sets ¡and ¡Intersections http://www.informationisbeautiful.net/
2. ¡Sets ¡and ¡Intersections ¡(more ¡than ¡4 ¡sets) • Encode ¡all ¡intersection ¡sets ¡in ¡a ¡matrix ¡and ¡color ¡code ¡the ¡number ¡of ¡ elements ¡in ¡each ¡intersection Genes ¡mutated ¡in ¡tumors ¡of ¡patients ¡with ¡gliobastoma multiforme Intersection ¡is ¡the ¡number ¡patients ¡with ¡co-‑mutation
3. ¡Scatter ¡plots • Used ¡to ¡look ¡at ¡relationship ¡between ¡two ¡variables ¡(typically ¡includes ¡ a ¡regression ¡analysis) • Add ¡color ¡and ¡size ¡to ¡add ¡more ¡dimensions ¡to ¡the ¡data ¡ All ¡reps ¡passed Some ¡reps ¡passed All ¡reps ¡failed
3. ¡Scatter ¡plots ¡and ¡regression • Scatter ¡Matrix: ¡allows ¡you ¡to ¡look ¡at ¡relationship ¡between ¡each ¡ permutation ¡of ¡each ¡variable ¡combination ¡
3. ¡Scatter ¡plots
4. ¡Heatmaps and ¡clustergrams • 2D ¡table ¡with ¡color ¡shading ¡used ¡to ¡represent ¡quantitation • Well ¡suited ¡for ¡high-‑throughput ¡data ¡(gene ¡expression, ¡transcriptomic) • Requires ¡meaningful ¡labeling ¡or ¡rows/columns ¡(often ¡not ¡well ¡done) Toussaint ¡Loua, ¡1873
Hierarchical ¡Clustering • Used ¡to ¡identify ¡groups ¡that ¡have ¡similar ¡expression ¡patterns • The ¡more ¡homogenous, ¡the ¡poorer ¡the ¡separation • Two ¡types: ¡ • Agglomerative ¡(bottom ¡up): ¡most ¡commonly ¡used ¡ • everything ¡starts ¡in ¡its ¡own ¡cluster ¡and ¡are ¡merged ¡ • More ¡precise ¡at ¡bottom ¡of ¡the ¡tree, ¡identifying ¡more, ¡smaller ¡ clusters • Divisive ¡(top ¡down): ¡ • everything ¡starts ¡in ¡one ¡cluster ¡and ¡is ¡split • More ¡precise ¡at ¡top ¡of ¡the ¡tree, ¡identifying ¡fewer ¡but ¡larger ¡clusters
Hierarchical ¡Clustering • Given ¡N ¡items ¡(genes) ¡to ¡be ¡clustered ¡and ¡an ¡NxN distance ¡matrix • Assign ¡each ¡item ¡to ¡a ¡cluster ¡so ¡you ¡have ¡N ¡clusters ¡each ¡with ¡1 ¡item • Find ¡closest ¡(most ¡similar) ¡pair ¡of ¡clusters ¡and ¡merge ¡them ¡into ¡a ¡single ¡ cluster • Computer ¡distances ¡(similarities) ¡between ¡the ¡new ¡cluster ¡and ¡each ¡of ¡the ¡ old ¡clusters • Repeat ¡steps ¡2 ¡and ¡3 ¡until ¡all ¡items ¡are ¡clustered ¡into ¡a ¡single ¡cluster ¡of ¡size ¡N
Hierarchical ¡Clustering • Factor ¡proximity ¡and ¡cluster ¡shape ¡are ¡established ¡based ¡on ¡two ¡ similarity ¡measures • Distance ¡metric ¡ • Euclidean ¡distance. ¡More ¡sensitive ¡to ¡scaling/fluctuations ¡in ¡the ¡data ¡ • Pearson ¡correlation • Linkage ¡method: ¡affects ¡the ¡distance ¡between ¡clusters • Average ¡linkage-‑ based ¡on ¡average ¡distance ¡between ¡cluster ¡features • Complete ¡linkage-‑ based ¡on ¡maximum ¡distance ¡between ¡cluster ¡features http://www.nature.com/nmeth/journal/v9/n3/full/nmeth.1902.html
4. ¡Heatmaps and ¡Clustergrams Ruggles ¡and ¡Rajan, ¡2014
5. ¡Networks • Complex ¡interactions ¡between ¡proteins, ¡DNA, ¡RNA, ¡small ¡molecules ¡ • Hubs: ¡single ¡nodes ¡connected ¡to ¡many ¡other ¡nodes • Clusters: ¡sets ¡of ¡interconnected ¡nodes • Directed ¡vs. ¡undirected ¡ Directed Undirected Undirected http://www.nature.com/nmeth/journal/v9/n2/full/nmeth.1862.html
5. ¡Networks • Layouts ¡can ¡dramatically ¡change ¡how ¡we ¡see ¡the ¡data ¡ • Large ¡and ¡complex ¡dataset ¡= ¡hairball • Adjacency ¡matrix ¡is ¡an ¡alternative ¡for ¡large ¡datasets ¡ • Can ¡be ¡difficult ¡to ¡understand ¡the ¡connections • Could ¡instead ¡focus ¡on ¡a ¡smaller ¡subset ¡of ¡the ¡data http://www.nature.com/nmeth/journal/v9/n2/full/nmeth.1862.html
5. ¡Networks ¡example http://www.informationisbeautiful.net/
5. ¡Tools ¡for ¡creating ¡networks • Tools: ¡ • Cytoscape • Gephi • String • Reactome (cytoscape plug-‑in) http://www.spandidos-‑publications.com/ijmm/33/6/1586
6. ¡Genome-‑wide ¡visualization • Typical ¡anaysis: ¡ • Uses ¡a ¡location ¡on ¡the ¡reference ¡genome ¡to ¡order ¡the ¡data • Arranges ¡linear ¡coordinate ¡data ¡on ¡the ¡x-‑axis, ¡label ¡data ¡value ¡on ¡the ¡y • Limitations: ¡ Proteogenomic Expression Log2(Basal/Luminal) 5 • Cannot ¡represent ¡ CNV 0 the ¡entire ¡genome ¡ −5 in ¡one ¡figure ¡and ¡ 5 mRNA maintain ¡resolution 0 −5 • Poor ¡overview ¡of ¡ # genes small ¡genomic ¡ features ¡such ¡as ¡ 2.5 genes Peptides Mapped Protein 0 • Genome ¡browsers ¡ −2.5 get ¡around ¡this ¡by ¡ 2.5 Phospho allow ¡for ¡zooming ¡ 0 but ¡difficult ¡to ¡do ¡for ¡ −2.5 0 0.5 1 1.5 2 static ¡figures x 108 PRKCZ CLCA1 NRAS JAK1 LDLRAP1 ARID1A HMGCS2 Chromosome 1
6. ¡Genome-‑wide ¡visualization
6. ¡Genome-‑wide ¡visualization • Circos plots
Recommend
More recommend