which is more useful
play

Which is more useful? Reality Detailed map Detailed public - PowerPoint PPT Presentation

Which is more useful? Reality Detailed map Detailed public transporta6on Simplified metro Saturday, July 22, 17 Models dont need to reflect reality A model is an


  1. Which ¡is ¡more ¡useful? “Reality” Detailed ¡map Detailed ¡public ¡transporta6on Simplified ¡metro Saturday, July 22, 17

  2. Models ¡don’t ¡need ¡to ¡reflect ¡reality • A ¡ model ¡is ¡an ¡inten6onal ¡simplifica6on ¡of ¡a ¡complex ¡situa6on ¡ designed ¡to ¡eliminate ¡extraneous ¡detail ¡in ¡order ¡to ¡focus ¡ aAen6on ¡on ¡the ¡essen6als ¡of ¡the ¡situa6on. ¡ ¡(Daniel ¡L. ¡Hartl, ¡ 2000) • "The ¡most ¡that ¡can ¡be ¡expected ¡from ¡any ¡model ¡is ¡that ¡it ¡can ¡ supply ¡a ¡useful ¡approxima6on ¡to ¡reality: ¡ All ¡models ¡are ¡wrong; ¡ some ¡models ¡are ¡useful" . ¡ ¡(George ¡E. ¡P. ¡Box, ¡1987) • A ¡model ¡is ¡a ¡simplifica6on ¡or ¡approxima6on ¡of ¡reality ¡and ¡hence ¡ will ¡not ¡reflect ¡all ¡of ¡reality ¡... ¡While ¡a ¡model ¡can ¡never ¡be ¡ “truth,” ¡a ¡model ¡might ¡be ¡ranked ¡from ¡very ¡useful, ¡to ¡useful, ¡to ¡ somewhat ¡useful ¡to, ¡finally, ¡essen6ally ¡useless. ¡ ¡(Burnham ¡and ¡ Anderson, ¡2002) • Model ¡selec6on ¡is ¡a ¡process ¡of ¡seeking ¡the ¡least ¡inadequate ¡ model ¡from ¡a ¡predefined ¡set, ¡all ¡of ¡which ¡may ¡be ¡grossly ¡ inadequate ¡as ¡a ¡representa6on ¡of ¡reality. ¡ ¡(J. ¡J. ¡Welch, ¡2006) Saturday, July 22, 17

  3. Why do models matter? • Model-based methods including ML and Bayesian inference (typically) make a consistent estimate of the phylogeny (estimate converges to true tree as number of sites increases toward infinity) Saturday, July 22, 17

  4. Why do models matter? • Model-based methods including ML and Bayesian inference (typically) make a consistent estimate of the phylogeny (estimate converges to true tree as number of sites increases toward infinity) ... even when you’re in the “Felsenstein Zone” A C (Felsenstein, 1978) B D Saturday, July 22, 17

  5. In the Felsenstein Zone 1.00 0.75 Proportion Correct parsimony ML-GTR 0.50 0.25 0 0 2500 5000 7500 10000 Sequence Length Sequence Length Simulation model = GTR Saturday, July 22, 17

  6. Why do models matter (continued)? Saturday, July 22, 17

  7. Why do models matter (continued)? • Parsimony is inconsistent in the Felsenstein zone (and other scenarios) Saturday, July 22, 17

  8. Why do models matter (continued)? • Parsimony is inconsistent in the Felsenstein zone (and other scenarios) • Likelihood is consistent in any “zone” (when certain requirements are met) Saturday, July 22, 17

  9. Why do models matter (continued)? • Parsimony is inconsistent in the Felsenstein zone (and other scenarios) • Likelihood is consistent in any “zone” (when certain requirements are met) But this guarantee requires that the model be specified correctly! Likelihood can also be inconsistent if the model is oversimplified Saturday, July 22, 17

  10. Why do models matter (continued)? • Parsimony is inconsistent in the Felsenstein zone (and other scenarios) • Likelihood is consistent in any “zone” (when certain requirements are met) But this guarantee requires that the model be specified correctly! Likelihood can also be inconsistent if the model is oversimplified • Real data always evolve according to processes more complex than any computationally feasible model would permit, so we have to choose “good” rather than “correct” models Saturday, July 22, 17

  11. What is a “good” model? Saturday, July 22, 17

  12. What is a “good” model? • A model that appropriately balances fit of the data with simplicity (parsimony, in a different sense) Saturday, July 22, 17

  13. What is a “good” model? • A model that appropriately balances fit of the data with simplicity (parsimony, in a different sense) i.e., if a simpler model fits the data almost as well as a more complex model, prefer the simpler one Saturday, July 22, 17

  14. What is a “good” model? • A model that appropriately balances fit of the data with simplicity (parsimony, in a different sense) i.e., if a simpler model fits the data almost as well as a more complex model, prefer the simpler one 100 120 B B 80 80 B B B B 60 B 40 B B y y B B B 40 0 B 20 B -40 B B 0 -80 0 25 50 75 100 0 25 50 75 100 x x y = - 330 + 134 x - 15.5 x 2 + 0.816 x 3 - 0.0225 x 4 + 0.000335 x 5 y = 1.30 + 0.965 x ( r 2 = 0.963) - 0.00000255 x 6 + 0.00000000777 x 7 ( r 2 = 1.000) Saturday, July 22, 17

  15. What is a “good” model? Saturday, July 22, 17

  16. What is a “good” model? Parsimony ¡in ¡sta,s,cs ¡represents ¡a ¡tradeoff ¡between ¡bias ¡and ¡ variance ¡as ¡a ¡func,on ¡of ¡the ¡dimension ¡of ¡the ¡model. ¡ ¡A ¡good ¡ model ¡is ¡a ¡balance ¡between ¡under-­‑ ¡and ¡over-­‑fi>ng. ¡(Burnham ¡ and ¡Anderson, ¡1998) Saturday, July 22, 17

  17. What is a “good” model? Parsimony ¡in ¡sta,s,cs ¡represents ¡a ¡tradeoff ¡between ¡bias ¡and ¡ variance ¡as ¡a ¡func,on ¡of ¡the ¡dimension ¡of ¡the ¡model. ¡ ¡A ¡good ¡ model ¡is ¡a ¡balance ¡between ¡under-­‑ ¡and ¡over-­‑fi>ng. ¡(Burnham ¡ and ¡Anderson, ¡1998) Saturday, July 22, 17

  18. What is a “good” model? Parsimony ¡in ¡sta,s,cs ¡represents ¡a ¡tradeoff ¡between ¡bias ¡and ¡ variance ¡as ¡a ¡func,on ¡of ¡the ¡dimension ¡of ¡the ¡model. ¡ ¡A ¡good ¡ model ¡is ¡a ¡balance ¡between ¡under-­‑ ¡and ¡over-­‑fi>ng. ¡(Burnham ¡ and ¡Anderson, ¡1998) 100 120 B B 80 80 B B B B 60 B 40 B B y y B B B 40 0 B 20 B -40 B B 0 -80 0 25 50 75 100 0 25 50 75 100 x x y = - 330 + 134 x - 15.5 x 2 + 0.816 x 3 - 0.0225 x 4 + 0.000335 x 5 y = 1.30 + 0.965 x ( r 2 = 0.963) - 0.00000255 x 6 + 0.00000000777 x 7 ( r 2 = 1.000) Saturday, July 22, 17

  19. Why models don’t have to be perfect Assertion: In most situations, phylogenetic inference is relatively robust to model misspecification, as long as critical factors influencing sequence evolution are accommodated Caveat: There are some kinds of model misspecification that are very difficult to overcome (e.g., “heterotachy”) E.g.: A C A C B D D B Half of sites Other half Likelihood can be consistent in Felsenstein zone, but will be inconsistent if a single set of branch lengths are assumed when there are actually two sets of branch lengths (Chang 1996) (“heterotachy”) Saturday, July 22, 17

  20. GTR Family of Reversible DNA Substitution Models (general time-reversible) GTR 3 substitution types (transversions, 2 transition classes) Equal base frequencies TrN SYM (Tamura-Nei) 3 substitution types 2 substitution types (transitions, (transitions vs. 2 transversion classes) transversions) HKY85 (Hasegawa-Kishino-Yano) K3ST (Kimura 3-subst. type) F84 (Felsenstein) Equal base frequencies 2 substitution types Single substitution type (transitions vs. transversions) K2P F81 (Felsenstein) (Kimura 2-parameter) Equal base frequencies Single substitution type JC Jukes-Cantor Saturday, July 22, 17

  21. Among site rate heterogeneity Lemur AAGCTTCATAG TTGCATCATCCA …TTACATCATCCA Homo AAGCTTCACCG TTGCATCATCCA …TTACATCCTCAT Pan AAGCTTCACCG TTACGCCATCCA …TTACATCCTCAT Goril AAGCTTCACCG TTACGCCATCCA …CCCACGGACTTA Pongo AAGCTTCACCG TTACGCCATCCT …GCAACCACCCTC Hylo AAGCTTTACAG TTACATTATCCG …TGCAACCGTCCT Maca AAGCTTTTCCG TTACATTATCCG …CGCAACCATCCT • Proportion of invariable sites – Some sites extremely unlikely to change due to strong functional or structural constraint (Hasegawa et al., 1985) • Gamma-distributed rates – Rate variation assumed to follow a gamma distribution with shape parameter α • Site-specific rates (another way to model ASRV) Different relative rates assumed for pre-assigned subsets of sites – Saturday, July 22, 17

  22. Modeling ASRV with gamma distribution 0.08 α =200 0.06 α =0.5 Frequency α =2 0.04 α =50 0.02 0 0 1 2 Rate … can also include a proportion of “invariable” sites ( p inv ) Saturday, July 22, 17

Recommend


More recommend