Using ¡Big ¡Data ¡to ¡Assess ¡Rare ¡ Sequence ¡Variants ¡ Kirk ¡Wilhelmsen, ¡MD-‑PhD ¡ Professor ¡UNC ¡Department ¡of ¡GeneDcs ¡and ¡Neurology ¡ Chief ¡Domain ¡ScienDst ¡for ¡Genomics ¡and ¡Director ¡of ¡ BioinformaDcs ¡ ¡ ¡
Disease ¡Causing ¡Sequence ¡Variants ¡ Focus ¡of ¡this ¡Talk ¡ From ¡Manolio ¡et ¡al ¡Nat ¡GeneDcs ¡2009 ¡
What ¡is ¡the ¡likelihood ¡That ¡A ¡ Sequence ¡Variant ¡Causes ¡Disease? ¡ Observed ¡ Prob( ¡ ¡ ¡ ¡& ¡is ¡casual ¡| ¡Context)< ¡ ¡0.5-‑0.0001 ¡ Variant ¡ Relevant ¡Context: ¡ Is ¡MutaLon ¡predicted ¡to ¡change ¡Expression ¡levels ¡or ¡Disrupt ¡Gene ¡ FuncLon? ¡ • Is ¡there ¡prior ¡evidence ¡that ¡changes ¡in ¡expression ¡level ¡causes ¡ disease? ¡ • Does ¡it ¡change ¡an ¡amino ¡acid ¡and ¡is ¡the ¡change ¡predicted ¡to ¡affect ¡ funcLon? ¡ Do ¡other ¡mutaLons ¡in ¡the ¡gene ¡produce ¡similar ¡Disease? ¡ Does ¡the ¡mutaLon ¡occur ¡in ¡part ¡of ¡the ¡gene ¡that ¡tolerates ¡ mutaLons? ¡ What ¡is ¡the ¡frequency ¡of ¡the ¡mutaLon ¡in ¡paLents ¡with ¡and ¡without ¡ disease? ¡ ¡
Subject ¡NCG-‑0039 ¡with ¡Neuropathy ¡
Case ¡solved? ¡ No-‑-‑One ¡of ¡mutaDons ¡is ¡in ¡an ¡exon ¡that ¡is ¡oRen ¡mutated ¡ ¡
DraR ¡Data ¡SoluDon ¡ From ¡“A ¡Knowledge ¡Base ¡for ¡Clinically ¡ Relevant ¡Genes ¡and ¡Variants” ¡Proposal ¡ Features: ¡ • Supports ¡Crowd ¡Source ¡ AnnotaDon ¡& ¡Expert ¡ CuraDon ¡ • Variant ¡Markup ¡Language ¡ with ¡preservaDon ¡of ¡ provenance ¡of ¡asserDons ¡ • Distributed ¡data ¡storage ¡ using ¡locaDon ¡specific ¡data ¡ structure ¡ • Extended ¡Distributed ¡ AnnotaDon ¡System ¡(DAS) ¡ to ¡publish ¡and ¡pull ¡data ¡ from ¡other ¡sources ¡ ¡ Concerns: ¡ • Privacy ¡ J ¡Berg ¡et ¡al ¡ • Intellectual ¡property ¡
Using ¡Big ¡Data ¡to ¡Assess ¡Rare ¡Sequence ¡Variants ¡ ¡ The ¡successful ¡idenDficaDon ¡of ¡thousands ¡of ¡sequence ¡variants ¡that ¡cause ¡disease ¡with ¡simple ¡modes ¡of ¡inheritance ¡by ¡ posiDonal ¡cloning ¡revoluDonized ¡medical ¡geneDcs. ¡The ¡posiDonal ¡cloning ¡approach ¡dominated ¡human ¡geneDc ¡research ¡ when ¡it ¡was ¡not ¡possible ¡to ¡systemaDcally ¡analyze ¡the ¡enDre ¡genome. ¡The ¡approach ¡depended ¡on ¡the ¡analysis ¡of ¡ collecDons ¡of ¡families ¡and ¡staDsDcal ¡tests ¡that ¡systemaDcally ¡excluded ¡most ¡of ¡the ¡genome. ¡When ¡it ¡was ¡successful, ¡ chromosome ¡segments ¡that ¡segregated ¡with ¡disease ¡in ¡families ¡were ¡idenDfied. ¡Typically, ¡the ¡linked ¡chromosome ¡ segment ¡was ¡tens ¡of ¡millions ¡of ¡base ¡pairs ¡in ¡length ¡and ¡contained ¡more ¡than ¡a ¡hundred ¡genes. ¡Based ¡on ¡whole ¡genome ¡ sequence ¡(WGS) ¡data ¡we ¡now ¡expect ¡that ¡the ¡typical ¡linked ¡segment ¡for ¡a ¡family ¡with ¡disease ¡would ¡contain ¡perhaps ¡ ten ¡thousand ¡vanishingly ¡rare ¡sequence ¡variants ¡in ¡which ¡a ¡few ¡variants ¡would ¡be ¡predicted ¡to ¡affect ¡gene ¡funcDon. ¡ Prior ¡to ¡the ¡feasibility ¡of ¡WGS, ¡candidate ¡genes ¡were ¡sequenced ¡unDl ¡the ¡causal ¡gene ¡was ¡idenDfied. ¡A ¡useful ¡rule ¡of ¡ thumb ¡for ¡declaring ¡that ¡the ¡causal ¡disease ¡gene ¡had ¡been ¡idenDfied ¡was ¡the ¡detecDon ¡of ¡three ¡independent ¡mutaDons ¡ which ¡obviously ¡disrupt ¡the ¡same ¡gene ¡which ¡segregate ¡with ¡disease ¡in ¡their ¡respecDve ¡families. ¡In ¡cases ¡where ¡this ¡rule ¡ was ¡followed ¡it ¡is ¡unusual ¡to ¡not ¡to ¡have ¡detected ¡addiDonal ¡mutaDons ¡in ¡the ¡implicated ¡gene ¡in ¡other ¡families ¡with ¡the ¡ same ¡condiDon. ¡It ¡has ¡been ¡common ¡to ¡detect ¡addiDonal ¡genes ¡by ¡repeaDng ¡the ¡posiDonal ¡cloning ¡approach ¡for ¡the ¡ families ¡with ¡disease ¡that ¡do ¡not ¡have ¡a ¡mutaDon ¡in ¡previously ¡implicated ¡genes. ¡Prior ¡to ¡the ¡development ¡of ¡WGS ¡ analysis ¡the ¡posiDonal ¡cloning ¡approach ¡had ¡been ¡essenDally ¡exhausted. ¡The ¡availability ¡of ¡WGS ¡analysis ¡morphed ¡the ¡ approach. ¡The ¡recurrent ¡detecDon ¡of ¡a ¡gene ¡with ¡a ¡disrupDve ¡mutaDon ¡in ¡the ¡WGS ¡of ¡collecDon ¡of ¡unrelated ¡individuals ¡ has ¡led ¡to ¡the ¡idenDficaDon ¡of ¡genes ¡that ¡can ¡cause ¡recognizable ¡syndromes ¡with ¡the ¡confidence ¡typically ¡associated ¡ with ¡posiDonal ¡cloning. ¡It ¡is ¡now ¡pracDcal ¡and ¡even ¡expected ¡to ¡sequence ¡the ¡genome ¡of ¡an ¡individual ¡in ¡an ¡a`empt ¡to ¡ idenDfy ¡putaDve ¡mutaDons ¡responsible ¡for ¡an ¡unusual ¡disease. ¡DetecDon ¡of ¡causal ¡mutaDons ¡is ¡problemaDc ¡because ¡ each ¡individual ¡has ¡hundreds ¡of ¡thousands ¡of ¡rare ¡of ¡sequence ¡variants ¡in ¡their ¡three ¡billion ¡base ¡pair ¡genome, ¡each ¡of ¡ which ¡could ¡alone ¡or ¡in ¡combinaDon ¡effect ¡gene ¡funcDon. ¡With ¡an ¡N ¡of ¡1 ¡analysis ¡for ¡a ¡rare ¡condiDon ¡it ¡has ¡been ¡ necessary ¡to ¡incorporate ¡many ¡other ¡sources ¡of ¡data. ¡The ¡big ¡data ¡challenge ¡is ¡to ¡federate ¡WGS ¡informaDon ¡such ¡that ¡ sequence ¡and ¡phenotype ¡informaDon ¡from ¡the ¡enDre ¡populaDon ¡can ¡be ¡used ¡to ¡inform ¡the ¡analysis ¡of ¡a ¡single ¡ individual. ¡ ¡
Recommend
More recommend