introduc on to sta s cs
play

Introduc)on to Sta)s)cs 02-223 How to Analyze Your Own - PowerPoint PPT Presentation

Introduc)on to Sta)s)cs 02-223 How to Analyze Your Own Genome Fall 2013 Why Use Sta)s)cs? Anecdotal evidence is unreliable Why does the phone


  1. Introduc)on ¡to ¡Sta)s)cs ¡ 02-­‑223 ¡How ¡to ¡Analyze ¡Your ¡Own ¡Genome ¡ Fall ¡2013 ¡

  2. Why ¡Use ¡Sta)s)cs? ¡ Anecdotal ¡evidence ¡is ¡unreliable ¡ ¡ Why ¡does ¡the ¡phone ¡always ¡ring ¡when ¡you’re ¡in ¡the ¡shower? ¡ Or, ¡why ¡do ¡you ¡have ¡an ¡increased ¡risk ¡for ¡breast ¡cancer ¡when ¡you ¡ have ¡a ¡mutaHon ¡in ¡BRCA ¡gene? ¡ ¡

  3. Overview ¡ • StaHsHcs ¡ – Mean ¡ – Variance ¡ – Covariance ¡ – CorrelaHon ¡ • Probability ¡ – Probability ¡mass ¡funcHon ¡for ¡discrete ¡random ¡variables ¡ – Probability ¡density ¡funcHon ¡for ¡conHnuous ¡random ¡variables ¡

  4. Mean ¡of ¡Green ¡Pea ¡Height ¡ 3 ¡inches ¡ 6 ¡inches ¡ 5 ¡inches ¡ 2 ¡inches ¡ • Mean ¡= ¡(3+5+2+6)/4 ¡= ¡4 ¡inches ¡

  5. Describing ¡the ¡Center ¡of ¡Data ¡Points ¡ • Let ¡ y ¡ denote ¡a ¡quanHtaHve ¡variable, ¡with ¡observaHons ¡ y 1 , y 2 , y 3 , … , y n • Then, ¡the ¡mean ¡of ¡these ¡observaHons ¡is ¡given ¡as: ¡

  6. Variance ¡ 3 ¡inches ¡ 6 ¡inches ¡ 5 ¡inches ¡ 2 ¡inches ¡ 4.5 ¡ 4.1 ¡ 3.5 ¡ 3.9 ¡ inches ¡ inches ¡ inches ¡ inches ¡ • Mean ¡= ¡(3+5+2+6)/4 ¡= ¡4 ¡ • Mean ¡= ¡(4.5+3.5+3.9+4.1)/4 ¡ inches ¡ = ¡4 ¡inches ¡

  7. Variance ¡ 3 ¡inches ¡ 6 ¡inches ¡ 4.5 ¡ 3.5 ¡ 3.9 ¡ 4.1 ¡ 5 ¡inches ¡ 2 ¡inches ¡ (height-­‑mean) ¡ ¡ inches ¡ inches ¡ inches ¡ inches ¡ -­‑1 ¡inches ¡ 1 ¡inches ¡ -­‑2 ¡inches ¡ 2 ¡inches ¡ 0.5 ¡ -­‑0.5 ¡ -­‑0.1 ¡ 0.1 ¡ inches ¡ inches ¡ inches ¡ inches ¡ Mean ¡= ¡(3+5+2+6)/4 ¡= ¡4 ¡inches ¡ Mean ¡= ¡(4.5+3.5+3.9+4.1)/4 ¡= ¡4 ¡inches ¡ • • Variance ¡= ¡((-­‑1) 2 +1 2 +(-­‑2) 2 + ¡2 2 )/(4-­‑1) ¡ Variance ¡= ¡(0.5 2 +(-­‑0.5) 2 +(-­‑0.1) 2 +(0.1) 2 )/ • • = ¡3.33 ¡ (4-­‑1) ¡= ¡(0.25+0.25+0.02)/3= ¡0.173 ¡

  8. Describing ¡the ¡Variability ¡of ¡Data ¡Points ¡ • How ¡to ¡compute ¡variance ¡(a ¡“typical” ¡distance ¡from ¡the ¡ mean) ¡ – The ¡ devia'on ¡ of ¡observaHon ¡ i ¡ ¡from ¡the ¡mean ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡ ¡ y – The ¡ variance ¡ of ¡the ¡ n ¡ observaHons ¡is ¡ – The ¡standard ¡deviaHon ¡ s ¡is ¡the ¡square ¡root ¡of ¡variance ¡

  9. Proper)es ¡of ¡Standard ¡Devia)on ¡ • s ≥ 0, and only equals 0 if all observations are equal • s increases with the amount of variation around the mean • Division by n - 1 (not n ) is due to technical reasons • s depends on the units of the data (e.g. measure cm vs inch)

  10. Correla)on ¡ • “GPA” ¡and ¡“TV ¡in ¡hours ¡per ¡week” ¡are ¡negaHvely ¡correlated ¡ Mean ¡ 3.02 ¡ 13.8 ¡ How ¡can ¡we ¡quanHfy ¡the ¡level ¡of ¡correlaHon? ¡

  11. Covariance ¡and ¡Correla)on ¡ • Degree ¡of ¡associaHon ¡between ¡two ¡variables ¡x ¡and ¡y ¡ • Given ¡observaHons ¡x 1 , ¡…, ¡x n ¡and ¡y 1 , ¡…, ¡y n ¡ – Covariance ¡ – CorrelaHon: ¡ ¡ (Variance ¡of ¡x i ’s) ¡x ¡(n-­‑1) ¡ (Variance ¡of ¡y i ’s) ¡x ¡(n-­‑1) ¡ • Falls ¡between ¡-­‑1 ¡and ¡+1, ¡with ¡sign ¡indicaHng ¡direcHon ¡of ¡ associaHon ¡ ¡

  12. Correla)on ¡ between ¡ X 1 ¡and ¡ X 2 X 1 ¡ X 2 ¡

  13. Correla)on ¡and ¡Causa)on ¡ • Correla)on ¡does ¡not ¡imply ¡causa)on! ¡

  14. Probability ¡Mass ¡Func)ons ¡(Discrete) ¡ • A ¡probability ¡funcHon ¡maps ¡the ¡possible ¡values ¡of ¡ x ¡against ¡their ¡respecHve ¡probabiliHes ¡of ¡occurrence, ¡ P ( x ) ¡ ¡ • P ( x ) ¡is ¡a ¡number ¡from ¡0 ¡to ¡1.0. ¡ • The ¡area ¡under ¡a ¡probability ¡funcHon ¡is ¡always ¡1. ¡ P(x) ¡ P(x) ¡>= ¡0 ¡ x ¡ 0 ¡ 1 ¡ Example: ¡Coin ¡flip ¡experiment ¡

  15. Discrete ¡Example: ¡SNPs ¡at ¡Genome ¡Locus ¡ Chr3:11,112 ¡ You ¡genotyped ¡the ¡genome ¡locus ¡at ¡ Chr3:11,112 ¡for ¡600 ¡people. ¡You ¡found ¡ p ( x ) that ¡200 ¡people ¡had ¡genotype ¡AA, ¡300 ¡ people ¡had ¡genotype ¡AT, ¡and ¡ ¡100 ¡ people ¡had ¡genotype ¡TT. ¡ ¡ 1/2 Probability ¡Mass ¡FuncHon ¡ 1/3 x p ( x ) 1/6 p ( x=AA ) AA x AA AT TT =1/3 p ( x=AT ) AT =1/2 p ( x=TT ) TT =1/6 ∑ 1.0 P(x) = all x

  16. Discrete ¡Example: ¡Roll ¡of ¡a ¡Die ¡ Probability ¡Mass ¡FuncHon ¡ x p(x) p(x) 1 p(x=1) =1/6 2 p(x=2) =1/6 1/6 3 p(x=3) =1/6 x 4 p(x=4) =1/6 1 2 3 4 5 6 5 p(x=5) =1/6 6 p(x=6) =1/6 1.0 ∑ P(x) = all x

  17. Probability ¡Density ¡Func)on ¡(Con)nuous) ¡ • Unlike ¡discrete, ¡density ¡funcHon ¡does ¡not ¡represent ¡ probability ¡but ¡its ¡rate ¡of ¡change ¡called ¡the ¡ “likelihood” ¡ f(x) ¡ f(x) ¡>= ¡0 ¡ & ¡ ¡Integrates ¡to ¡1.0 ¡ x ¡

  18. The ¡Gaussian ¡Density ¡ • The ¡shape ¡of ¡the ¡Gaussian ¡density ¡funcHon ¡is ¡determined ¡by ¡ mean ¡ μ ¡ and ¡variance ¡ σ ¡ 2 ¡ ¡ Standard ¡ DeviaHon ¡ Mean ¡

  19. Different ¡Gaussian ¡Density ¡Func)ons ¡

  20. Summary ¡ • Mean: ¡describes ¡the ¡center ¡of ¡the ¡data ¡cloud ¡ • Variance: ¡describes ¡the ¡variability ¡of ¡the ¡data ¡cloud ¡ • Covariance: ¡describes ¡the ¡level ¡of ¡associaHon ¡between ¡two ¡ variables ¡ • Probability ¡mass ¡funcHon ¡for ¡discrete ¡random ¡variables ¡ – ProbabiliHes ¡sum ¡to ¡1 ¡ • Probability ¡density ¡funcHon ¡for ¡conHnuous ¡random ¡variables ¡ ProbabiliHes ¡integrate ¡to ¡1 ¡ •

Recommend


More recommend