Ab initio cryo-EM structure determination as a validation problem - - PowerPoint PPT Presentation

ab initio cryo em structure determination as a validation
SMART_READER_LITE
LIVE PREVIEW

Ab initio cryo-EM structure determination as a validation problem - - PowerPoint PPT Presentation

Ab initio cryo-EM structure determination as a validation problem Pawel A. Penczek The University of Texas Houston Medical School, Department of Biochemistry Thursday, November 13, 14


slide-1
SLIDE 1

Ab initio cryo-EM structure determination as a validation problem

Pawel ¡A. ¡Penczek

The ¡University ¡of ¡Texas ¡– ¡Houston ¡Medical ¡School, ¡ Department ¡of ¡Biochemistry

Thursday, November 13, 14

slide-2
SLIDE 2

Chris&an ¡M.T. ¡Spahn Charité, ¡Berlin Francisco ¡J. ¡Asturias La ¡Jolla, ¡CA NIH

ACKNOWLEDGMENTS

Thursday, November 13, 14

slide-3
SLIDE 3
  • 1. Valida&on ¡should ¡be ¡an ¡integral ¡part ¡of ¡the ¡structure ¡

determina&on ¡process.

  • 2. Any ¡method ¡should ¡be ¡permiHed ¡to ¡fail ¡under ¡controlled ¡

circumstances ¡as ¡the ¡failure ¡can ¡be ¡as ¡informa&ve ¡as ¡success.

  • 3. EM ¡projec&on ¡images ¡are ¡of ¡very ¡poor ¡quality.

Therefore, ¡they ¡should ¡not ¡be ¡evaluated ¡individually ¡but ¡as ¡ members ¡of ¡sta&s&cal ¡assemblies.

  • 4. Implementa&on ¡in ¡SPARX ¡hHp://sparx-­‑em.org/sparxwiki/

with ¡new ¡addi&ons ¡of ¡tools ¡for ¡the ¡analysis ¡of ¡local ¡variability ¡ (please ¡see ¡the ¡poster).

CONCLUSIONS

Thursday, November 13, 14

slide-4
SLIDE 4

Statistical cross-validation for detecting and preventing overfitting

Problem ¡of ¡model ¡selec4on

Thursday, November 13, 14

slide-5
SLIDE 5

EM DATA AND PARAMETER ERROR ESTIMATION

  • A typical EM experiment generates a single dataset and it is not possible to

derive an analytical expression to determine (alignment) parameter errors

  • The challenge is then to estimate parameter errors in the absence of

independent sample sets

  • Statistical Resampling offers the best option for accurate estimation of

parameter errors independent of assumptions about their statistical properties

Thursday, November 13, 14

slide-6
SLIDE 6

EM DATA AND PARAMETER ERROR ESTIMATION

  • A typical EM experiment generates a single dataset and it is not possible to

derive an analytical expression to determine (alignment) parameter errors

  • The challenge is then to estimate parameter errors in the absence of

independent sample sets

  • Statistical Resampling offers the best option for accurate estimation of

parameter errors independent of assumptions about their statistical properties

If we treat the observed sample (EM dataset) as though it exactly represented the entire population, evaluating artificial variability generated through resampling allows us to accurately estimate variability of a sample statistic

Thursday, November 13, 14

slide-7
SLIDE 7

CTF parameter estimation and error assessment through bootstrap resampling (CTER)

Penczek, P. A., Fang, J., X. Li, X., Cheng, Y., Loerke, J., Spahn, Ch.M.T.: CTER-Rapid estimation of CTF parameters with error assessment. Ultramicroscopy, 140:9-19, 2014.

Thursday, November 13, 14

slide-8
SLIDE 8

CTF parameter estimation and error assessment through bootstrap resampling (CTER)

Penczek, P. A., Fang, J., X. Li, X., Cheng, Y., Loerke, J., Spahn, Ch.M.T.: CTER-Rapid estimation of CTF parameters with error assessment. Ultramicroscopy, 140:9-19, 2014.

Average power spectrum and its variance

Thursday, November 13, 14

slide-9
SLIDE 9

CTF parameter estimation and error assessment through bootstrap resampling (CTER)

Penczek, P. A., Fang, J., X. Li, X., Cheng, Y., Loerke, J., Spahn, Ch.M.T.: CTER-Rapid estimation of CTF parameters with error assessment. Ultramicroscopy, 140:9-19, 2014.

Average power spectrum and its variance

Thursday, November 13, 14

slide-10
SLIDE 10

CTF parameter estimation and error assessment through bootstrap resampling (CTER)

Penczek, P. A., Fang, J., X. Li, X., Cheng, Y., Loerke, J., Spahn, Ch.M.T.: CTER-Rapid estimation of CTF parameters with error assessment. Ultramicroscopy, 140:9-19, 2014.

1 2 3 4 5 BOOTSTRAP RESAMPLING OF TILED POWER SPECTRA 2 2 4 4 4 Average of selected power spectra

Determine:

  • 1. defocus
  • 2. astigmatism amplitude
  • 3. astigmatism angle

Repeat B times

Average power spectrum and its variance

Thursday, November 13, 14

slide-11
SLIDE 11

CTF parameter estimation and error assessment through bootstrap resampling (CTER)

Penczek, P. A., Fang, J., X. Li, X., Cheng, Y., Loerke, J., Spahn, Ch.M.T.: CTER-Rapid estimation of CTF parameters with error assessment. Ultramicroscopy, 140:9-19, 2014.

1 2 3 4 5 BOOTSTRAP RESAMPLING OF TILED POWER SPECTRA 2 2 4 4 4 Average of selected power spectra

Determine:

  • 1. defocus
  • 2. astigmatism amplitude
  • 3. astigmatism angle

Repeat B times

Based on B estimates compute average value and error (std. dev.) of <defocus> <astigmatism amplitude> <astigmatism angle>

RESULT

Average power spectrum and its variance

Thursday, November 13, 14

slide-12
SLIDE 12
  • 1. If ¡a ¡set ¡of ¡images ¡is ¡homogeneous, ¡the ¡result ¡from ¡

reference-­‑free ¡alignment ¡is ¡stable ¡even ¡for ¡very ¡low ¡ SNR ¡data.

  • 2. The ¡converse ¡is ¡true, ¡i.e., ¡if ¡a ¡set ¡of ¡images ¡is ¡stable, ¡

it ¡must ¡be ¡homogeneous. ISAC: VALIDATION OF 2D MULTI-REFERENCE ALIGNMENT THROUGH STABILITY TESTING

2D alignment is stable if perturbation of initial alignment parameters does not produce dramatically different results.

Thursday, November 13, 14

slide-13
SLIDE 13
  • 1. If ¡a ¡set ¡of ¡images ¡is ¡homogeneous, ¡the ¡result ¡from ¡

reference-­‑free ¡alignment ¡is ¡stable ¡even ¡for ¡very ¡low ¡ SNR ¡data.

  • 2. The ¡converse ¡is ¡true, ¡i.e., ¡if ¡a ¡set ¡of ¡images ¡is ¡stable, ¡

it ¡must ¡be ¡homogeneous. ISAC: VALIDATION OF 2D MULTI-REFERENCE ALIGNMENT THROUGH STABILITY TESTING Assuming ¡1 ¡and ¡2 ¡are ¡correct: If ¡we ¡can ¡find ¡homogeneous ¡subsets ¡of ¡images, we ¡can ¡solve ¡the ¡mul&-­‑reference ¡alignment ¡problem.

2D alignment is stable if perturbation of initial alignment parameters does not produce dramatically different results.

Thursday, November 13, 14

slide-14
SLIDE 14

Two ¡groups ¡were ¡mixed ¡50-­‑50, ¡their ¡respec&ve ¡ averages ¡are: Sum ¡of ¡these ¡two ¡averages:

STABLE ¡VS. ¡UNSTABLE ¡CLASSES: ¡A ¡TEST ¡CASE

!

Thursday, November 13, 14

slide-15
SLIDE 15

STABLE ¡VS. ¡UNSTABLE ¡CLASSES: ¡TEST ¡RESULTS

Unstable Stable

Thursday, November 13, 14

slide-16
SLIDE 16

STABLE ¡VS. ¡UNSTABLE ¡CLASSES: ¡TEST ¡RESULTS

Unstable Stable

FRC

Thursday, November 13, 14

slide-17
SLIDE 17

STABLE ¡VS. ¡UNSTABLE ¡CLASSES: ¡TEST ¡RESULTS

Unstable Stable

FRC

(remaining are mirror-unstable)

pixel error

Thursday, November 13, 14

slide-18
SLIDE 18

2D ¡MULTI-­‑REFERENCE ¡ALIGNMENT ¡(MRA)

n images K averages (clusters)

MRA is equivalent to K-means clustering, with the distance between images defined as a maximum similarity over the permissible range of image rotations and translations. K-means results depend on the solution to another nontrivial problem: the alignment of a set

  • f 2D images.

Because neither of these two problems can be easily solved, the difficulty is compounded.

Thursday, November 13, 14

slide-19
SLIDE 19

KNOWN ¡PROPERTIES:

Very ¡fast ¡convergence ¡guaranteed ¡in ¡a ¡finite ¡ number ¡of ¡steps Converges ¡only ¡to ¡a ¡local ¡minimum Unclear ¡how ¡to ¡determine ¡the ¡appropriate ¡ number ¡of ¡classes ¡(K) ¡ All ¡images ¡must ¡be ¡assigned ¡to ¡an ¡average The ¡solu4on ¡(final ¡averages) ¡depends ¡on ¡the ¡ ini4al ¡set ¡of ¡averages, ¡and ¡will ¡change ¡if ¡clustering ¡ is ¡repeated ¡using ¡different ¡ini4al ¡averages In ¡EM, ¡when ¡alignment ¡is ¡added, ¡classes ¡tend ¡to ¡ collapse

K-­‑MEANS ¡CLUSTERING

Thursday, November 13, 14

slide-20
SLIDE 20

KNOWN ¡PROPERTIES:

Very ¡fast ¡convergence ¡guaranteed ¡in ¡a ¡finite ¡ number ¡of ¡steps Converges ¡only ¡to ¡a ¡local ¡minimum Unclear ¡how ¡to ¡determine ¡the ¡appropriate ¡ number ¡of ¡classes ¡(K) ¡ All ¡images ¡must ¡be ¡assigned ¡to ¡an ¡average The ¡solu4on ¡(final ¡averages) ¡depends ¡on ¡the ¡ ini4al ¡set ¡of ¡averages, ¡and ¡will ¡change ¡if ¡clustering ¡ is ¡repeated ¡using ¡different ¡ini4al ¡averages In ¡EM, ¡when ¡alignment ¡is ¡added, ¡classes ¡tend ¡to ¡ collapse

K-­‑MEANS ¡CLUSTERING

Thursday, November 13, 14

slide-21
SLIDE 21

Assign n images to K classes such that each class contains images

n K

EQK(EQUAL ¡GROUP ¡SIZE)-­‑MEANS ¡CLUSTERING

Thursday, November 13, 14

slide-22
SLIDE 22

Assign n images to K classes such that each class contains images

n K

EQK(EQUAL ¡GROUP ¡SIZE)-­‑MEANS ¡CLUSTERING

Thursday, November 13, 14

slide-23
SLIDE 23

1.Run ¡reference-­‑free ¡alignment ¡L-­‑

4mes, ¡using ¡randomized ¡ini4al ¡

  • rienta4on ¡parameters

2.Bring ¡all ¡L ¡sets ¡of ¡solu4ons ¡into ¡

register ¡by ¡simultaneous ¡minimiza4on ¡

  • f ¡the ¡variance ¡of ¡orienta4on ¡

parameters ¡(similar ¡but ¡not ¡equivalent ¡ to ¡alignment ¡of ¡resul4ng ¡averages)

3.Compute ¡pixel ¡error ¡for ¡each ¡image ¡

using ¡orienta4on ¡parameters ¡for ¡L ¡ posi4ons ¡it ¡adopted

4.The ¡set ¡is ¡called ¡stable ¡if ¡the ¡average ¡

  • f ¡pixel ¡errors ¡for ¡all ¡images ¡in ¡L ¡

alignments ¡is ¡less ¡than ¡a ¡predefined ¡ threshold ¡(usually ¡one ¡pixel).

A ¡PROTOCOL ¡FOR ¡TESTING ¡ALIGNMENT ¡STABILITY

Thursday, November 13, 14

slide-24
SLIDE 24

CANDIDATE ¡CLASS ¡AVERAGES

Thursday, November 13, 14

slide-25
SLIDE 25

CANDIDATE ¡CLASS ¡AVERAGES

  • All ¡images ¡are ¡accounted ¡for ¡(assigned ¡to ¡class ¡averages)
  • No ¡valida4on
  • The ¡candidate ¡class ¡averages ¡are ¡used ¡as ¡ini4al ¡templates ¡

for ¡proper ¡ISAC

Thursday, November 13, 14

slide-26
SLIDE 26

REPRODUCIBILITY

Since ¡EQK-­‑means, ¡even ¡if ¡combined ¡with ¡an ¡alignment ¡stability ¡test, ¡does ¡not ¡ guarantee ¡an ¡op4mum ¡solu4on ¡(global ¡minimum) ¡and ¡stable ¡groups ¡can ¡be ¡fake, ¡ we ¡require ¡the ¡solu4on ¡to ¡be ¡reproducible ¡over ¡a ¡number ¡of ¡quasi-­‑independent ¡ runs. We ¡have ¡m=4 ¡EQK-­‑means ¡runs ¡analyzing ¡the ¡data ¡in ¡parallel. ¡Once ¡all ¡runs ¡ produce ¡their ¡respec4ve ¡averages, ¡we ¡compare ¡assignments ¡of ¡images ¡to ¡class ¡ averages ¡and ¡select ¡as ¡reproducible ¡subsets ¡shared ¡among ¡quasi-­‑independent ¡

  • runs. ¡

Group 1 Group 2 Group 3 Group 4

m= 2

Set 1 Set 2 Set 3 Set 4

Thursday, November 13, 14

slide-27
SLIDE 27

REPRODUCIBILITY

Since ¡EQK-­‑means, ¡even ¡if ¡combined ¡with ¡an ¡alignment ¡stability ¡test, ¡does ¡not ¡ guarantee ¡an ¡op4mum ¡solu4on ¡(global ¡minimum) ¡and ¡stable ¡groups ¡can ¡be ¡fake, ¡ we ¡require ¡the ¡solu4on ¡to ¡be ¡reproducible ¡over ¡a ¡number ¡of ¡quasi-­‑independent ¡ runs. We ¡have ¡m=4 ¡EQK-­‑means ¡runs ¡analyzing ¡the ¡data ¡in ¡parallel. ¡Once ¡all ¡runs ¡ produce ¡their ¡respec4ve ¡averages, ¡we ¡compare ¡assignments ¡of ¡images ¡to ¡class ¡ averages ¡and ¡select ¡as ¡reproducible ¡subsets ¡shared ¡among ¡quasi-­‑independent ¡

  • runs. ¡

Group 1 Group 2 Group 3 Group 4

m= 3

Set 1 Set 2 Set 3 Set 4

Thursday, November 13, 14

slide-28
SLIDE 28

REPRODUCIBILITY

Since ¡EQK-­‑means, ¡even ¡if ¡combined ¡with ¡an ¡alignment ¡stability ¡test, ¡does ¡not ¡ guarantee ¡an ¡op4mum ¡solu4on ¡(global ¡minimum) ¡and ¡stable ¡groups ¡can ¡be ¡fake, ¡ we ¡require ¡the ¡solu4on ¡to ¡be ¡reproducible ¡over ¡a ¡number ¡of ¡quasi-­‑independent ¡ runs. We ¡have ¡m=4 ¡EQK-­‑means ¡runs ¡analyzing ¡the ¡data ¡in ¡parallel. ¡Once ¡all ¡runs ¡ produce ¡their ¡respec4ve ¡averages, ¡we ¡compare ¡assignments ¡of ¡images ¡to ¡class ¡ averages ¡and ¡select ¡as ¡reproducible ¡subsets ¡shared ¡among ¡quasi-­‑independent ¡

  • runs. ¡

Group 1 Group 2 Group 3 Group 4

m= 4

Final set

Thursday, November 13, 14

slide-29
SLIDE 29

m=2 m=3 m=4

We ¡use ¡4 ¡CPU ¡groups ¡to ¡analyze ¡the ¡data ¡set ¡ simultaneously Irreproducible ¡averages ¡are ¡eliminated

ISAC: ¡ITERATIVE ¡STABLE ¡ALIGNMENT ¡AND ¡CLUSTERING

Thursday, November 13, 14

slide-30
SLIDE 30

m=2 m=3 m=4

We ¡use ¡4 ¡CPU ¡groups ¡to ¡analyze ¡the ¡data ¡set ¡ simultaneously Irreproducible ¡averages ¡are ¡eliminated

ISAC: ¡ITERATIVE ¡STABLE ¡ALIGNMENT ¡AND ¡CLUSTERING

X X

Thursday, November 13, 14

slide-31
SLIDE 31

Thursday, November 13, 14

slide-32
SLIDE 32

ISAC Validated and reproducible class averages

Thursday, November 13, 14

slide-33
SLIDE 33

3D structure 2D projection data Orientation parameters

=

+

(φ, θ), ψ, sx, sy

=

τ, ψ, sx, sy

= R

ConstrucEve ¡validaEon: from ¡ab ¡ini&o ¡EM ¡map ¡determinaEon ¡to ¡map ¡refinement

Thursday, November 13, 14

slide-34
SLIDE 34

STEP ¡1: ¡GENERATING ¡A ¡MAP

2D ccf

(ψ, sx, sy)

systematically generated reprojections (φ,θ)k

3D reconstruction from projections

template structure

low-pass filtration masking?

¡ ¡ ¡ ¡ ¡ ¡ ¡projecEon ¡matching

best ➡ Orientation parameters.

ccf1 ccf2 ccf3 ccf4 ccf5 ccf6

Thursday, November 13, 14

slide-35
SLIDE 35

STEP ¡1: ¡GENERATING ¡A ¡MAP

  • H. Elmlund, D. Elmlund, S. Bengio, PRIME: probabilistic initial 3D model generation for single-particle cryo-electron microscopy,

Structure, 21 (2013) 1299-1306.

2D ccf

(ψ, sx, sy) ccf1 ccf2 ccf3 . . .

systematically generated reprojections (φ,θ)k

3D reconstruction from projections

template structure

low-pass filtration masking?

randomize

  • rder

SHC ¡projecEon ¡matching

ccfn >previous best ➡ Orientation parameters. New best.

Thursday, November 13, 14

slide-36
SLIDE 36

SHC - CONVERGENCE

  • H. ¡Elmlund, ¡D. ¡Elmlund, ¡S. ¡Bengio, ¡PRIME: ¡probabilistic ¡initial ¡3D ¡model ¡generation ¡for ¡single-­‑particle ¡cryo-­‑electron ¡microscopy, ¡Structure, ¡21 ¡(2013) ¡1299-­‑1306.

Thursday, November 13, 14

slide-37
SLIDE 37

SHC - CONVERGENCE

  • H. ¡Elmlund, ¡D. ¡Elmlund, ¡S. ¡Bengio, ¡PRIME: ¡probabilistic ¡initial ¡3D ¡model ¡generation ¡for ¡single-­‑particle ¡cryo-­‑electron ¡microscopy, ¡Structure, ¡21 ¡(2013) ¡1299-­‑1306.

Thursday, November 13, 14

slide-38
SLIDE 38

200 unevenly distributed projections of 70S ribosome

OVERCOMING SHC CONVERGENCE LIMITATIONS BY MONITORING PARAMETER REPRODUCIBILITY

Thursday, November 13, 14

slide-39
SLIDE 39

200 unevenly distributed projections of 70S ribosome

OVERCOMING SHC CONVERGENCE LIMITATIONS BY MONITORING PARAMETER REPRODUCIBILITY

GOOD:

No bias towards the initial structure, in normal use always randomized start Often converges to a plausible solution Very good for structure refinement

NOT SO GOOD:

Convergence properties poorly characterized/ understood, unclear how often it converges and what does it depend on Sometimes gets stuck in a completely wrong solution Plausible solutions somewhat different

Thursday, November 13, 14

slide-40
SLIDE 40

STEP 2: VIPER

(Validation of Individual Parameter Reproducibility) SHC1 SHC2 SHCL SHC3 ...

30% parameters stable No Yes Evaluate L2 norms for all structures and retain L best solutions

L2 differences <1%

Yes

SHC-refine best until convergence and STOP

No

Crossover between random pairs of solutions yields L new templates L random independent initializations

Thursday, November 13, 14

slide-41
SLIDE 41

D3 symmetry

Thursday, November 13, 14

slide-42
SLIDE 42

Ab initio structure determination with ISAC/VIPER:

  • nly the correct averages, only the correct structure

D3 symmetry

Thursday, November 13, 14

slide-43
SLIDE 43

Ab initio structure determination with ISAC/VIPER:

  • nly the correct averages, only the correct structure

GA - generation I

D3 symmetry

Thursday, November 13, 14

slide-44
SLIDE 44

Ab initio structure determination with ISAC/VIPER:

  • nly the correct averages, only the correct structure

GA - generation I

  • ffsprings I

D3 symmetry

Thursday, November 13, 14

slide-45
SLIDE 45

Ab initio structure determination with ISAC/VIPER:

  • nly the correct averages, only the correct structure

GA - generation I GA - generation II

  • ffsprings I

D3 symmetry

Thursday, November 13, 14

slide-46
SLIDE 46

VIPER1

Find a shared subset of parameters Identify outliers

VIPER2 VIPER3

STEP 3: VALIDATION WITH REPRODUCIBLE VIPER R-VIPER YIELDS A VALIDATED ab initio MAP

Calculate validated map and STOP

Found

  • utliers

No Yes Eliminate outliers

Thursday, November 13, 14

slide-47
SLIDE 47

180 projections of 70S ribosome + 20 projections of 50S subunit, unevenly distributed

ApplicaEon ¡of ¡VIPER ¡to ¡a ¡simulated ¡ heterogeneous ¡70S ¡ribosome ¡data ¡set

Thursday, November 13, 14

slide-48
SLIDE 48

180 projections of 70S ribosome + 20 projections of 50S subunit, unevenly distributed

ApplicaEon ¡of ¡VIPER ¡to ¡a ¡simulated ¡ heterogeneous ¡70S ¡ribosome ¡data ¡set

Thursday, November 13, 14