research
play

Research Diverging Alterna-ve Splicing Fingerprints Iden-fied - PowerPoint PPT Presentation

Mul$variate Data Analysis in Omics Research Diverging Alterna-ve Splicing Fingerprints Iden-fied in Thoracic Aor-c Aneurysm Sanela Kjellqvist, PhD WABI RNAseq course


  1. Mul$variate ¡Data ¡Analysis ¡in ¡Omics ¡ Research ¡ Diverging ¡ Alterna-ve ¡Splicing ¡Fingerprints ¡ Iden-fied ¡in ¡Thoracic ¡Aor-c ¡Aneurysm ¡ Sanela ¡Kjellqvist, ¡PhD ¡ WABI ¡RNAseq ¡course ¡ 2015-­‑10-­‑22 ¡

  2. Outline ¡ • Why ¡mulDvariate ¡data ¡analysis? ¡ • MulDvariate ¡staDsDcs ¡ – Different ¡analyses ¡ – Data ¡preprocessing ¡ • AlternaDve ¡splicing ¡in ¡thoracic ¡aorDc ¡aneurysm ¡ – Thoracic ¡aorDc ¡aneurysm ¡ – Study ¡setup ¡ – Aim ¡of ¡the ¡study ¡ – Results ¡ – Summary ¡ • Today’s ¡exercise ¡

  3. WHY ¡MULTIVARIATE ¡DATA ¡ANALYSIS? ¡ ¡

  4. Development ¡of ¡Classical ¡StaDsDcs ¡– ¡ 1930s ¡ ¡Assump$ons: ¡ MulDple ¡regression ¡ • Canonical ¡correlaDon ¡ • Independent ¡X ¡variables ¡ • Linear ¡discriminant ¡analysis ¡ • ¡ Analysis ¡of ¡variance ¡ • Many ¡more ¡observaDons ¡than ¡ • variables ¡ K ¡ Regression ¡analysis ¡one ¡Y ¡at ¡a ¡ • Dme ¡ Tables ¡are ¡long ¡ and ¡lean ¡ No ¡missing ¡data ¡ • ¡ N ¡

  5. Today’s ¡data ¡ RNASeq, ¡Array, ¡LC-­‑MS/MS, ¡GC/MS ¡or ¡ • NMR ¡data ¡ ¡ Problems ¡ • – Many ¡variables ¡ – Few ¡observaDons ¡ K ¡ – Noisy ¡data ¡ – Missing ¡data ¡ – MulDple ¡responses ¡ ImplicaDons ¡ • N ¡ – High ¡degree ¡of ¡correlaDon ¡ – Difficult ¡to ¡analyse ¡with ¡ convenDonal ¡methods ¡ Data ¡ ≠ ¡InformaDon ¡ • – Need ¡ways ¡to ¡extract ¡informaDon ¡ from ¡the ¡data ¡ – Need ¡reliable, ¡predicDve ¡ informaDon ¡ – Ignore ¡random ¡variaDon ¡(noise) ¡ ¡

  6. Poor ¡Methods ¡of ¡Data ¡Analysis ¡ ¡ Plot ¡pairs ¡of ¡variables ¡ Select ¡a ¡few ¡variables ¡and ¡use ¡MLR ¡ • • – ¡Tedious, ¡impracDcal ¡ – ¡Throwing ¡away ¡informaDon ¡ – ¡Risk ¡of ¡spurious ¡correlaDons ¡ – ¡Assumes ¡no ¡‘noise’ ¡in ¡X ¡ – ¡Risk ¡of ¡missing ¡informaDon ¡ – ¡One ¡Y ¡at ¡a ¡Dme ¡ X 1 ¡ X 2 ¡X 3 ¡ Y 1 ¡ Y 3 ¡ Y 2 ¡

  7. A ¡Beaer ¡Way... ¡ • MulDvariate ¡analysis ¡by ¡ProjecDon ¡ – Looks ¡at ¡ALL ¡the ¡variables ¡together ¡ – Avoids ¡loss ¡of ¡informaDon ¡ – Finds ¡underlying ¡trends ¡= ¡“latent ¡variables” ¡ – More ¡stable ¡models ¡

  8. Fundamental ¡Data ¡Analysis ¡ObjecDves ¡ Overview Discrimination Regression Trends Discriminating Comparing blocks of between groups omics data Outliers Biomarker candidates Metab vs Proteomic vs Quality Control Genomic Comparing studies or Biological Diversity instrumentation Omic vs medical Patient Monitoring Prediction

  9. MULTIVARIATE ¡STATISTICS ¡ ¡

  10. Different ¡methods ¡ • Principal ¡component ¡analysis ¡(PCA) ¡ • ParDal ¡least ¡squares ¡to ¡latent ¡structures ¡analysis ¡(PLS) ¡ • Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structures ¡ analysis ¡(OPLS) ¡ • PLS-­‑DA ¡ • OPLS-­‑DA ¡ • K-­‑means ¡clustering ¡ ¡ • Hierarchical ¡clustering ¡ • Biplot ¡analysis ¡ • Canonical ¡correlaDon ¡analysis ¡ ¡

  11. What ¡is ¡a ¡projecDon? ¡ Principal ¡component ¡ analysis ¡(PCA) ¡ Algebraically ¡ • – Summarizes ¡the ¡informaDon ¡in ¡the ¡ observaDons ¡as ¡a ¡few ¡new ¡(latent) ¡ variables ¡ Geometrically ¡ • – ¡The ¡swarm ¡of ¡points ¡in ¡a ¡K ¡ dimensional ¡space ¡(K ¡= ¡number ¡of ¡ variables) ¡is ¡approximated ¡by ¡a ¡ (hyper)plane ¡and ¡the ¡points ¡are ¡ projected ¡on ¡that ¡plane. ¡

  12. PCA ¡-­‑ ¡Geometric ¡InterpretaDon ¡ x 3 Fit first principal component (line describing maximum variation) t 1 Add second component (accounts for next largest amount of variation) and is at right angles to first - orthogonal t 2 x 2 x 1 Each component goes through origin 12 ¡

  13. PCA ¡-­‑ ¡Geometric ¡InterpretaDon ¡ x 3 t1 t2 K Comp 1 X N “Distance to Model” Comp 2 Points are projected down onto a plane with co-ordinates t1, t2 x 2 x 1 13 ¡

  14. Loadings ¡ x 3 t1 ¡ t2 ¡ K ¡ Comp 1 X ¡ N ¡ α 3 ¡ α 2 ¡ How do the principal components relate to the x 2 original variables? α 1 ¡ Look at the angles between PCs and variable axes x 1 14 ¡

  15. Loadings ¡ x 3 t1 ¡ t2 ¡ K ¡ Comp 1 X ¡ N ¡ p’ 1 ¡ cos(α 3 ) ¡ α 3 ¡ α 2 ¡ Take cos( α ) for each axis cos(α 2 ) ¡ ¡ x 2 Loadings vector p’ - one α 1 ¡ for each principal cos(α 1 ) ¡ component x 1 One value per variable 15 ¡

  16. Principal ¡component ¡analysis ¡(PCA) ¡ • PCA ¡compress ¡the ¡ X ¡data ¡block ¡into ¡ A ¡number ¡of ¡orthogonal ¡ components ¡ • VariaDon ¡seen ¡in ¡the ¡score ¡vector ¡ t ¡can ¡be ¡interpreted ¡from ¡ the ¡corresponding ¡loading ¡vector ¡ p ¡ 1…A ¡ P T ¡ 1…A ¡ X ¡ ¡ PCA ¡ T ¡ PCA ¡Model ¡ X = t 1 p 1 T + t 2 p 2 T +…+t A p A T +E = TP T + E

  17. RecogniDon ¡of ¡molecular ¡quasi-­‑species ¡(evolving ¡units) ¡ in ¡enzyme ¡evoluDon ¡by ¡PCA ¡ Emrén, ¡L., ¡ Kurtovic, ¡S. , ¡Runarsdolr, ¡A., ¡Larsson, ¡A-­‑K., ¡& ¡Mannervik, ¡B. ¡(2006) ¡Proc ¡Natl ¡Acad ¡Sci ¡U ¡S ¡A, ¡103, ¡10866-­‑10870 ¡ Kurtovic, ¡S , ¡& ¡Mannervik ¡B ¡(2009) ¡Biochemistry, ¡48, ¡9330-­‑9339 ¡

  18. Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structure ¡– ¡ Discriminant ¡analysis ¡(OPLS-­‑DA) ¡

  19. Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structure ¡– ¡ Discriminant ¡analysis ¡(OPLS-­‑DA) ¡ Y Class 1 X OPLS Class 2

  20. OPLS ¡with ¡single ¡Y ¡/ ¡modelling ¡and ¡predicDon ¡ ¡ ’Y-­‑orthogonal’ ¡ ’Y-­‑predic-ve’ ¡ 1… ¡ q 1 T ¡ p 1 T ¡ P O T ¡ 1 1 1 ¡… ¡ 1 ¡ 1 ¡ X ¡ ¡ y ¡ OPLS ¡ t 1 ¡ T O ¡ u 1 ¡ X = t 1 p 1 T + T O P O T + E OPLS ¡ Model ¡ Y = t 1 q T 1 + F

  21. Data ¡Preprocessing ¡– ¡Scaling ¡ ¡ • PCA ¡and ¡other ¡methods ¡are ¡scale ¡dependent ¡ Is ¡the ¡size ¡of ¡a ¡variable ¡important? ¡ – 1/SD ¡ X ¡ UV scaling ws ¡ • Scaling ¡weight ¡is ¡1/SD ¡for ¡each ¡variable ¡i.e. ¡ divide ¡each ¡variable ¡by ¡its ¡standard ¡deviaDon ¡ – ¡Unit ¡Variance ¡Scaling ¡ • Variance ¡of ¡scaled ¡variables ¡= ¡1 ¡ • Many ¡other ¡kinds ¡of ¡scaling ¡exist ¡

  22. Cross-­‑ValidaDon ¡ Data ¡are ¡divided ¡into ¡G ¡groups ¡(default ¡in ¡ • SIMCA-­‑P ¡is ¡7) ¡and ¡a ¡model ¡is ¡generated ¡for ¡the ¡ data ¡devoid ¡of ¡one ¡group ¡ The ¡deleted ¡group ¡is ¡predicted ¡by ¡the ¡model ¡ ⇒ ¡ • parDal ¡PRESS ¡(PredicDve ¡Residual ¡Sum ¡of ¡ Squares) ¡ This ¡is ¡repeated ¡G ¡Dmes ¡and ¡then ¡all ¡parDal ¡ • • PCA cross-validation is PRESS ¡values ¡are ¡summed ¡to ¡form ¡overall ¡ done in two phases and PRESS ¡ several deletion rounds: – first removal of If ¡a ¡new ¡component ¡enhances ¡the ¡predicDve ¡ • observations (rows) power ¡compared ¡with ¡the ¡previous ¡PRESS ¡value ¡ – then removal of variables then ¡the ¡new ¡component ¡is ¡retained ¡ (columns) 22 ¡

  23. Model ¡DiagnosDcs ¡ Fit ¡or ¡R 2 ¡ • – Residuals ¡of ¡matrix ¡E ¡pooled ¡column-­‑wise ¡ – Explained ¡variaDon ¡ Stop ¡when ¡Q 2 ¡starts ¡to ¡drop ¡ PredicDon ¡ – For ¡whole ¡model ¡or ¡individual ¡variables ¡ – RSS ¡= ¡ Σ ¡(observed ¡-­‑ ¡fiaed) 2 ¡ Fit ¡ – R 2 ¡= ¡1 ¡-­‑ ¡RSS ¡/ ¡SSX ¡ Predic$ve ¡Ability ¡or ¡Q 2 ¡ • – Leave ¡out ¡1/7 th ¡data ¡in ¡turn ¡ – ‘ Cross ¡ValidaDon ’ ¡ – Predict ¡each ¡missing ¡block ¡of ¡data ¡in ¡turn ¡ – Sum ¡the ¡results ¡ – PRESS ¡= ¡ Σ ¡(observed ¡-­‑ ¡predicted) 2 ¡ – Q 2 ¡= ¡1 ¡ – ¡PRESS ¡/ ¡SSX ¡ 23 ¡

  24. Kurtovic , ¡Paloschi, ¡Folkersen, ¡Govries, ¡Franco-­‑Cereceda, ¡Eriksson ¡(2011) ¡Molecular ¡Medicine, ¡ ¡ 17 ; ¡665-­‑675 ¡ ¡ ALTERNATIVE ¡SPLICING ¡IN ¡ THORACIC ¡AORTIC ¡ANEURYSM ¡

  25. Thoracic ¡aorDc ¡aneurysm ¡(TAA) ¡ • Monogenic – Marfan syndrome – Loeys Dietz • Aneurysm associated with bicuspid aortic valve (BAV) • Idiopathic thoracic aortic aneurysm ¡

Recommend


More recommend