TOPMed ¡Sequencing ¡as ¡of ¡December ¡2017…* ¡ http://nhlbi.sph.umich.edu/ Sequence ¡Based ¡ • 100,071 ¡genomes • 96,985 ¡pass ¡quality ¡checks (96.9%) • 1,689 ¡flagged ¡for ¡low ¡coverage ( ¡ ¡1.7%) Association ¡Studies • 1,397 ¡fail ¡quality ¡checks ( ¡ ¡1.4%) • Mean ¡depth: 38.0x • Genome ¡covered: 98.3% Gonçalo ¡Abecasis • Contamination: 0.25% Center ¡for ¡Statistical ¡Genetics University ¡of ¡Michigan ¡School ¡of ¡Public ¡Health • 1.3 ¡x ¡10 16 sequenced ¡bases • Most ¡frequent ¡outside ¡request ¡is ¡for ¡sequence ¡data 1.3 ¡x ¡10 16 sequenced ¡bases 1.3 ¡x ¡10 16 ¡ sequenced ¡bases On ¡the ¡same ¡scale ¡as ¡the ¡number ¡of ¡grains ¡of ¡sand ¡in ¡small ¡beach Number ¡of ¡snowflakes ¡covering ¡~13 ¡square ¡miles ¡in ¡a ¡10-‑inch ¡deep ¡snowstorm. 100x ¡bigger ¡than ¡1,000 ¡Genomes ¡Project 100x ¡more ¡data ¡than ¡the ¡1000 ¡Genomes ¡Project. Image: ¡Wikimedia ¡Commons 1.3 ¡x ¡10 16 sequenced ¡bases US ¡corn ¡production ¡in ¡2014: ¡1.3 ¡x ¡10 15 kernels Image: ¡Patrick ¡Porter ¡@ ¡Smug ¡Mug Photo: ¡Andrew ¡Butko / ¡Wikimedia
Imagine, ¡two ¡cooks ¡and ¡one ¡corn ¡bread ¡recipe… Images: ¡Wikimedia ¡Commons Comparison ¡of ¡Raw ¡Calls Michigan ¡IRC Sequencing ¡ Sequencing ¡ • 5 ¡samples ¡processed ¡in ¡duplicate ¡across ¡centers Center Center Sequence ¡QC ¡/ ¡Joint ¡Calling ¡/ ¡Harmonization • Raw ¡discrepancy ¡in ¡variant ¡calls NIH ¡NCBI • 0.69% ¡-‑ 2.93% ¡per ¡non-‑reference ¡genotype dbGAP // ¡Exchange ¡Area ¡// ¡SRA • Raw ¡discrepancy ¡after ¡harmonization Long-‑term ¡data ¡repository • 0.29% ¡– 0.48% ¡per ¡non-‑reference ¡genotype Study ¡1 Study ¡4 University ¡of ¡Washington ¡DCC Study ¡2 Study ¡5 • Lower ¡if ¡we ¡filter ¡individual ¡calls ¡on ¡genotype ¡quality ¡or ¡depth Coordination ¡/ ¡Phenotype ¡Harmonization ¡/ ¡Analysis Study ¡3 Study ¡6 471 ¡million ¡ 471 ¡ ¡variants, ¡ ¡217 ¡ 217 ¡million ¡ ¡singletons TOPMed ¡Freeze ¡5: ¡Executive ¡Summary % dbSNP Known/Novel Variant ¡Type Category # ¡PASS # ¡FAIL (PASS) Ts/Tv (PASS) SNP All 438M 85M 22.9% 1.93 / ¡1.69 • 64,960 ¡samples ¡and ¡470M ¡SNPs ¡and ¡indels • First ¡freeze ¡where ¡bulk ¡of ¡computation ¡was ¡carried ¡out ¡on ¡commercial ¡clouds Singleton 202M 24M 8.5% 1.23 ¡/ ¡1.54 • First ¡freeze ¡based ¡on ¡harmonized ¡data ¡processing ¡pipeline ¡developed ¡in ¡collaboration ¡with ¡CCDG Doubleton 69M 8.8M 12.6% 1.61 ¡/ ¡1.74 Tripleton ~ ¡0.1% 142M 24M 34.9% 2.23 ¡/ ¡1.99 • The ¡Freeze ¡is ¡available ¡to ¡TOPMed ¡investigators ¡at: 0.1% ¡~ ¡1% 13M 4.5M 98.2% 2.17 ¡/ ¡1.79 • dbGap Exchange ¡Area ¡for ¡download ¡of ¡genotype ¡data 1 ~ ¡10% 6.5M 2.9M 99.6% 1.82 ¡/ ¡1.75 • https://encore.sph.umich.edu for ¡simple ¡association ¡analyses • https://imputationserver.sph.umich.edu/ for ¡imputation ¡analyses ¡ >10% 5.3M 2.0M 99.8% 2.11 ¡/ ¡1.88 Indels All 33.4M 26.2M 20.1% • The ¡Freeze ¡is ¡available ¡to ¡everyone ¡at: • https://bravo.sph.umich.edu for ¡browsing ¡variant ¡lists ¡only Singleton 15.7M 4.7M 10.1% Doubleton 5.3M 1.8M 12.6% • The ¡Freeze ¡is ¡the ¡largest ¡human ¡genome ¡variation ¡callset ¡known ¡to ¡us. Tripleton ~ ¡0.1% 10.7M 8.0M 26.7% • The ¡Freeze ¡is ¡our ¡first ¡hg38 ¡callset. ¡ 0.1% ¡~ ¡1% 2.8M 968K 88.9% • The ¡Freeze ¡can ¡surely ¡be ¡improved. ¡ If ¡you ¡see ¡something, ¡say ¡something. 1 ~ ¡10% 432K 2.3M 98.5% >10% 298K 1.4M 99.6%
Va Variant ¡ ¡Count Sing Si ngleton ¡ n ¡Co Count Reassuringly, ¡SNP ¡and ¡indel ¡ Reassuringly, ¡SNP ¡and ¡indel ¡singleton ¡ Per ¡ Pe ¡Individual counts ¡are ¡strongly ¡correlated Per ¡ Pe ¡Individual counts ¡are ¡also ¡strongly ¡correlated Type SNPs Indels Type SNPs Indels Average 3.48M 192K Average 3,019 235 STDEV 301K 20.2K STDEV 2,077 160 Max 4.07M 233K Max 41,110 3,141 Min 3.01M 163K Min 0 0 25%-‑ile 3.27M 177K 25%-‑ile 1,591 124 Median 3.29M 179K Median 2,995 231 75%-‑ile 3.88M 218K 75%-‑ile 3,948 311 Ra Raw ¡ ¡“De ¡ ¡No Novo” ¡ ¡/ ¡ ¡Error ¡ ¡Ra Rate Browse ¡All ¡Variations ¡Online (Freeze ¡4) http://bravo.sph.umich.edu ~5,700 ¡singleton ¡SNPs ¡per ¡sample Peter ¡VandeHaar KMT2D PCSK9 1.3% ¡of ¡these ¡are ¡Mendelian ¡inconsistent ~300 ¡singleton ¡indels ¡per ¡sample 1.7% ¡of ¡these ¡are ¡Mendelian ¡inconsistent 496 ¡missense, ¡26 ¡inframe indels, ¡0 ¡stop ¡or ¡frameshifts 91 ¡missense, ¡4 ¡inframe indels, ¡7 ¡stop ¡or ¡frameshifts How ¡to ¡help ¡TOPMed advance ¡discoveries? How ¡ENCORE ¡works ¡… Matthew Jonathon Flickinger LeFaive • Genomewide ¡analyses ¡at ¡scale ¡ are ¡challenging • Even ¡simple ¡analysis ¡can ¡require ¡ 1,000s ¡of ¡CPU ¡days ¡to ¡complete snp,pvalue • Need ¡to ¡engage ¡diverse ¡teams ¡in ¡ rs1234,0.05 analysis ¡and ¡interpretation rs4343,0.0002 rs51101,0.61 rs981,0.000018 rs2223,0.72
LDL ¡Genomewide ¡Analysis ¡in ¡ENCORE Browsing ¡Variant ¡Lists ¡ Through ¡BRAVO Peter ¡VandeHaar, ¡Daniel ¡Taliun TOPMed ¡Variant ¡Browser ExAc Variant ¡Browser ¡(Daniel ¡MacArthur ¡et ¡al.) • TOPMed ¡Variants ¡Available ¡for ¡Browsing ¡at • https://bravo.sph.umich.edu • This ¡includes ¡a ¡subset ¡of ¡the ¡TOPMed ¡variants ¡from: • Studies ¡and ¡individuals ¡from ¡whom ¡we ¡received ¡explicit ¡permission ¡to ¡ share ¡variant ¡list ¡in ¡BRAVO ¡and ¡submit ¡variants ¡to ¡dbSNP (rs#) • The ¡VCF ¡file ¡corresponding ¡to ¡our ¡dbSNP submission ¡is ¡available ¡from ¡BRAVO ¡now ¡and ¡will ¡be ¡ available ¡from ¡dbSNP later ¡(as ¡customary). • Accessing ¡BRAVO ¡requires ¡users ¡to ¡click-‑through ¡terms ¡developed ¡in ¡collaboration ¡with ¡ELSI ¡ committee. • Currently, ¡supporting ¡>1,000 ¡users ¡who ¡agreed ¡to ¡click-‑through ¡terms ¡ • >100 ¡downloaded ¡dbSNP submission Current ¡State ¡of ¡Genetic ¡Association ¡Studies Goals ¡for ¡Sequence-‑based ¡Studies • Surveying ¡common ¡variation ¡across ¡10,000s ¡-‑ 100,000s ¡of ¡individuals ¡ COMPLETE ¡GENETIC ¡ARCHITECTURE ¡OF ¡EACH ¡TRAIT is ¡now ¡routine All ¡associated ¡risk ¡variants, ¡common, ¡rare, ¡SNPs, ¡indels ¡& ¡beyond • Many ¡common ¡alleles ¡have ¡been ¡associated ¡with ¡a ¡variety ¡of ¡human ¡ complex ¡traits UNDERSTAND ¡FUNCTION ¡ LINKING ¡EACH ¡LOCUS ¡TO ¡DISEASE • The ¡functional ¡consequences ¡of ¡these ¡alleles ¡are ¡often ¡subtle, ¡and ¡ translating ¡the ¡results ¡into ¡mechanistic ¡insights ¡remains ¡challenging What ¡happens ¡in ¡gene ¡knockouts? Use ¡sequencing ¡to ¡find ¡rare ¡human ¡“knockout” ¡alleles Why? ¡Results ¡of ¡animal ¡studies ¡and ¡ in ¡vitro studies ¡often ¡murky
Recommend
More recommend