Mul$variate ¡Data ¡Analysis ¡in ¡Omics ¡ Research ¡ Diverging ¡ Alterna-ve ¡Splicing ¡Fingerprints ¡ Iden-fied ¡in ¡Thoracic ¡Aor-c ¡Aneurysm ¡ Sanela ¡Kjellqvist, ¡PhD ¡ WABI ¡RNAseq ¡course ¡ 2015-‑10-‑22 ¡
Outline ¡ • Why ¡mulDvariate ¡data ¡analysis? ¡ • MulDvariate ¡staDsDcs ¡ – Different ¡analyses ¡ – Data ¡preprocessing ¡ • AlternaDve ¡splicing ¡in ¡thoracic ¡aorDc ¡aneurysm ¡ – Thoracic ¡aorDc ¡aneurysm ¡ – Study ¡setup ¡ – Aim ¡of ¡the ¡study ¡ – Results ¡ – Summary ¡ • Today’s ¡exercise ¡
WHY ¡MULTIVARIATE ¡DATA ¡ANALYSIS? ¡ ¡
Development ¡of ¡Classical ¡StaDsDcs ¡– ¡ 1930s ¡ ¡Assump$ons: ¡ MulDple ¡regression ¡ • Canonical ¡correlaDon ¡ • Independent ¡X ¡variables ¡ • Linear ¡discriminant ¡analysis ¡ • ¡ Analysis ¡of ¡variance ¡ • Many ¡more ¡observaDons ¡than ¡ • variables ¡ K ¡ Regression ¡analysis ¡one ¡Y ¡at ¡a ¡ • Dme ¡ Tables ¡are ¡long ¡ and ¡lean ¡ No ¡missing ¡data ¡ • ¡ N ¡
Today’s ¡data ¡ RNASeq, ¡Array, ¡LC-‑MS/MS, ¡GC/MS ¡or ¡ • NMR ¡data ¡ ¡ Problems ¡ • – Many ¡variables ¡ – Few ¡observaDons ¡ K ¡ – Noisy ¡data ¡ – Missing ¡data ¡ – MulDple ¡responses ¡ ImplicaDons ¡ • N ¡ – High ¡degree ¡of ¡correlaDon ¡ – Difficult ¡to ¡analyse ¡with ¡ convenDonal ¡methods ¡ Data ¡ ≠ ¡InformaDon ¡ • – Need ¡ways ¡to ¡extract ¡informaDon ¡ from ¡the ¡data ¡ – Need ¡reliable, ¡predicDve ¡ informaDon ¡ – Ignore ¡random ¡variaDon ¡(noise) ¡ ¡
Poor ¡Methods ¡of ¡Data ¡Analysis ¡ ¡ Plot ¡pairs ¡of ¡variables ¡ Select ¡a ¡few ¡variables ¡and ¡use ¡MLR ¡ • • – ¡Tedious, ¡impracDcal ¡ – ¡Throwing ¡away ¡informaDon ¡ – ¡Risk ¡of ¡spurious ¡correlaDons ¡ – ¡Assumes ¡no ¡‘noise’ ¡in ¡X ¡ – ¡Risk ¡of ¡missing ¡informaDon ¡ – ¡One ¡Y ¡at ¡a ¡Dme ¡ X 1 ¡ X 2 ¡X 3 ¡ Y 1 ¡ Y 3 ¡ Y 2 ¡
A ¡Beaer ¡Way... ¡ • MulDvariate ¡analysis ¡by ¡ProjecDon ¡ – Looks ¡at ¡ALL ¡the ¡variables ¡together ¡ – Avoids ¡loss ¡of ¡informaDon ¡ – Finds ¡underlying ¡trends ¡= ¡“latent ¡variables” ¡ – More ¡stable ¡models ¡
Fundamental ¡Data ¡Analysis ¡ObjecDves ¡ Overview Discrimination Regression Trends Discriminating Comparing blocks of between groups omics data Outliers Biomarker candidates Metab vs Proteomic vs Quality Control Genomic Comparing studies or Biological Diversity instrumentation Omic vs medical Patient Monitoring Prediction
MULTIVARIATE ¡STATISTICS ¡ ¡
Different ¡methods ¡ • Principal ¡component ¡analysis ¡(PCA) ¡ • ParDal ¡least ¡squares ¡to ¡latent ¡structures ¡analysis ¡(PLS) ¡ • Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structures ¡ analysis ¡(OPLS) ¡ • PLS-‑DA ¡ • OPLS-‑DA ¡ • K-‑means ¡clustering ¡ ¡ • Hierarchical ¡clustering ¡ • Biplot ¡analysis ¡ • Canonical ¡correlaDon ¡analysis ¡ ¡
What ¡is ¡a ¡projecDon? ¡ Principal ¡component ¡ analysis ¡(PCA) ¡ Algebraically ¡ • – Summarizes ¡the ¡informaDon ¡in ¡the ¡ observaDons ¡as ¡a ¡few ¡new ¡(latent) ¡ variables ¡ Geometrically ¡ • – ¡The ¡swarm ¡of ¡points ¡in ¡a ¡K ¡ dimensional ¡space ¡(K ¡= ¡number ¡of ¡ variables) ¡is ¡approximated ¡by ¡a ¡ (hyper)plane ¡and ¡the ¡points ¡are ¡ projected ¡on ¡that ¡plane. ¡
PCA ¡-‑ ¡Geometric ¡InterpretaDon ¡ x 3 Fit first principal component (line describing maximum variation) t 1 Add second component (accounts for next largest amount of variation) and is at right angles to first - orthogonal t 2 x 2 x 1 Each component goes through origin 12 ¡
PCA ¡-‑ ¡Geometric ¡InterpretaDon ¡ x 3 t1 t2 K Comp 1 X N “Distance to Model” Comp 2 Points are projected down onto a plane with co-ordinates t1, t2 x 2 x 1 13 ¡
Loadings ¡ x 3 t1 ¡ t2 ¡ K ¡ Comp 1 X ¡ N ¡ α 3 ¡ α 2 ¡ How do the principal components relate to the x 2 original variables? α 1 ¡ Look at the angles between PCs and variable axes x 1 14 ¡
Loadings ¡ x 3 t1 ¡ t2 ¡ K ¡ Comp 1 X ¡ N ¡ p’ 1 ¡ cos(α 3 ) ¡ α 3 ¡ α 2 ¡ Take cos( α ) for each axis cos(α 2 ) ¡ ¡ x 2 Loadings vector p’ - one α 1 ¡ for each principal cos(α 1 ) ¡ component x 1 One value per variable 15 ¡
Principal ¡component ¡analysis ¡(PCA) ¡ • PCA ¡compress ¡the ¡ X ¡data ¡block ¡into ¡ A ¡number ¡of ¡orthogonal ¡ components ¡ • VariaDon ¡seen ¡in ¡the ¡score ¡vector ¡ t ¡can ¡be ¡interpreted ¡from ¡ the ¡corresponding ¡loading ¡vector ¡ p ¡ 1…A ¡ P T ¡ 1…A ¡ X ¡ ¡ PCA ¡ T ¡ PCA ¡Model ¡ X = t 1 p 1 T + t 2 p 2 T +…+t A p A T +E = TP T + E
RecogniDon ¡of ¡molecular ¡quasi-‑species ¡(evolving ¡units) ¡ in ¡enzyme ¡evoluDon ¡by ¡PCA ¡ Emrén, ¡L., ¡ Kurtovic, ¡S. , ¡Runarsdolr, ¡A., ¡Larsson, ¡A-‑K., ¡& ¡Mannervik, ¡B. ¡(2006) ¡Proc ¡Natl ¡Acad ¡Sci ¡U ¡S ¡A, ¡103, ¡10866-‑10870 ¡ Kurtovic, ¡S , ¡& ¡Mannervik ¡B ¡(2009) ¡Biochemistry, ¡48, ¡9330-‑9339 ¡
Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structure ¡– ¡ Discriminant ¡analysis ¡(OPLS-‑DA) ¡
Orthogonal ¡parDal ¡least ¡squares ¡to ¡latent ¡structure ¡– ¡ Discriminant ¡analysis ¡(OPLS-‑DA) ¡ Y Class 1 X OPLS Class 2
OPLS ¡with ¡single ¡Y ¡/ ¡modelling ¡and ¡predicDon ¡ ¡ ’Y-‑orthogonal’ ¡ ’Y-‑predic-ve’ ¡ 1… ¡ q 1 T ¡ p 1 T ¡ P O T ¡ 1 1 1 ¡… ¡ 1 ¡ 1 ¡ X ¡ ¡ y ¡ OPLS ¡ t 1 ¡ T O ¡ u 1 ¡ X = t 1 p 1 T + T O P O T + E OPLS ¡ Model ¡ Y = t 1 q T 1 + F
Data ¡Preprocessing ¡– ¡Scaling ¡ ¡ • PCA ¡and ¡other ¡methods ¡are ¡scale ¡dependent ¡ Is ¡the ¡size ¡of ¡a ¡variable ¡important? ¡ – 1/SD ¡ X ¡ UV scaling ws ¡ • Scaling ¡weight ¡is ¡1/SD ¡for ¡each ¡variable ¡i.e. ¡ divide ¡each ¡variable ¡by ¡its ¡standard ¡deviaDon ¡ – ¡Unit ¡Variance ¡Scaling ¡ • Variance ¡of ¡scaled ¡variables ¡= ¡1 ¡ • Many ¡other ¡kinds ¡of ¡scaling ¡exist ¡
Cross-‑ValidaDon ¡ Data ¡are ¡divided ¡into ¡G ¡groups ¡(default ¡in ¡ • SIMCA-‑P ¡is ¡7) ¡and ¡a ¡model ¡is ¡generated ¡for ¡the ¡ data ¡devoid ¡of ¡one ¡group ¡ The ¡deleted ¡group ¡is ¡predicted ¡by ¡the ¡model ¡ ⇒ ¡ • parDal ¡PRESS ¡(PredicDve ¡Residual ¡Sum ¡of ¡ Squares) ¡ This ¡is ¡repeated ¡G ¡Dmes ¡and ¡then ¡all ¡parDal ¡ • • PCA cross-validation is PRESS ¡values ¡are ¡summed ¡to ¡form ¡overall ¡ done in two phases and PRESS ¡ several deletion rounds: – first removal of If ¡a ¡new ¡component ¡enhances ¡the ¡predicDve ¡ • observations (rows) power ¡compared ¡with ¡the ¡previous ¡PRESS ¡value ¡ – then removal of variables then ¡the ¡new ¡component ¡is ¡retained ¡ (columns) 22 ¡
Model ¡DiagnosDcs ¡ Fit ¡or ¡R 2 ¡ • – Residuals ¡of ¡matrix ¡E ¡pooled ¡column-‑wise ¡ – Explained ¡variaDon ¡ Stop ¡when ¡Q 2 ¡starts ¡to ¡drop ¡ PredicDon ¡ – For ¡whole ¡model ¡or ¡individual ¡variables ¡ – RSS ¡= ¡ Σ ¡(observed ¡-‑ ¡fiaed) 2 ¡ Fit ¡ – R 2 ¡= ¡1 ¡-‑ ¡RSS ¡/ ¡SSX ¡ Predic$ve ¡Ability ¡or ¡Q 2 ¡ • – Leave ¡out ¡1/7 th ¡data ¡in ¡turn ¡ – ‘ Cross ¡ValidaDon ’ ¡ – Predict ¡each ¡missing ¡block ¡of ¡data ¡in ¡turn ¡ – Sum ¡the ¡results ¡ – PRESS ¡= ¡ Σ ¡(observed ¡-‑ ¡predicted) 2 ¡ – Q 2 ¡= ¡1 ¡ – ¡PRESS ¡/ ¡SSX ¡ 23 ¡
Kurtovic , ¡Paloschi, ¡Folkersen, ¡Govries, ¡Franco-‑Cereceda, ¡Eriksson ¡(2011) ¡Molecular ¡Medicine, ¡ ¡ 17 ; ¡665-‑675 ¡ ¡ ALTERNATIVE ¡SPLICING ¡IN ¡ THORACIC ¡AORTIC ¡ANEURYSM ¡
Thoracic ¡aorDc ¡aneurysm ¡(TAA) ¡ • Monogenic – Marfan syndrome – Loeys Dietz • Aneurysm associated with bicuspid aortic valve (BAV) • Idiopathic thoracic aortic aneurysm ¡
Recommend
More recommend