homework 1 1 40pt we sequenced a small region of
play

Homework 1 1. [40pt] We sequenced a small region of - PDF document

Homework 1 1. [40pt] We sequenced a small region of chromosome 1 for four humans and obtained the following sequences. (Note that the two


  1. Homework ¡1 ¡ ¡ ¡ 1. ¡[40pt] ¡We ¡sequenced ¡a ¡small ¡region ¡of ¡chromosome ¡1 ¡for ¡four ¡humans ¡and ¡ obtained ¡the ¡following ¡sequences. ¡(Note ¡that ¡the ¡two ¡sequences ¡for ¡each ¡individual ¡ correspond ¡to ¡each ¡of ¡a ¡pair ¡of ¡homologous ¡chromosomes.) ¡ ¡ Individual ¡1 ¡ ATCAATTAATGTATTAGCA ¡ ¡ ¡ ATCAATTAATGTATTAGCA ¡ ¡ Individual ¡2 ¡ ATCAATTAATGTATTAGCA ¡ ¡ ¡ ¡ ¡ TTCAATTAATGAATTAGCA ¡ ¡ Individual ¡3 ¡ ATCAATAAATCTATTAGCA ¡ ¡ ¡ TTCAATTAATGTATTAGCA ¡ ¡ Individual ¡4 ¡ ATCAATAAATGTATTAGCA ¡ ¡ ¡ ATCAATTAATGTATTAGCA ¡ ¡ 1) [5pt] ¡Circle ¡SNP ¡loci ¡in ¡the ¡above ¡set ¡of ¡DNA ¡sequences. ¡ ¡ 2) [5pt] ¡We ¡sequenced ¡the ¡same ¡genomic ¡region ¡of ¡a ¡new ¡individual ¡and ¡ obtained ¡the ¡following ¡sequence. ¡Did ¡we ¡discover ¡a ¡new ¡SNP? ¡If ¡yes, ¡where ¡is ¡ it? ¡ ¡ Individual ¡5 ¡ ATCAATTAATGTATTTGCA ¡ ATCAATAAATCTATTAGCT ¡ ¡ 3) [6pt] ¡What ¡is ¡the ¡number ¡of ¡alleles ¡at ¡each ¡SNP ¡locus? ¡ ¡ 4) [6pt] ¡Given ¡the ¡DNA ¡sequences ¡of ¡the ¡five ¡individuals ¡above, ¡what ¡is ¡the ¡ minor ¡allele ¡frequency ¡of ¡each ¡SNP? ¡ ¡ 5) [6pt] ¡Given ¡the ¡list ¡of ¡SNPs ¡you ¡discovered ¡by ¡sequencing ¡the ¡genome ¡region ¡ for ¡five ¡individuals ¡above, ¡what ¡is ¡the ¡genotype ¡of ¡Individual ¡3 ¡at ¡each ¡of ¡the ¡ SNP ¡loci? ¡ ¡ ¡ 6) [6pt] ¡Convert ¡the ¡above ¡sequences ¡of ¡A, ¡C, ¡T, ¡and ¡G’s ¡into ¡sequences ¡of ¡0’s ¡ and ¡1’s, ¡using ¡1 ¡to ¡represent ¡the ¡minor ¡allele ¡and ¡0 ¡to ¡represent ¡major ¡allele ¡ for ¡each ¡SNP. ¡ ¡ ¡ 7) [6pt] ¡Given ¡the ¡converted ¡dataset ¡of ¡0’s ¡and ¡1’s ¡in ¡6) ¡above, ¡what ¡is ¡the ¡ correlation ¡(r) ¡between ¡the ¡first ¡and ¡second ¡SNP ¡loci? ¡ ¡ ¡ ¡

  2. 2. ¡[20pt] ¡Yeast ¡genes ¡have ¡much ¡simple ¡structure ¡compared ¡to ¡the ¡genes ¡of ¡higher ¡ organisms ¡such ¡as ¡humans ¡and ¡mice. ¡For ¡example, ¡yeast ¡genes ¡do ¡not ¡have ¡introns. ¡ ¡ Assume ¡that ¡the ¡following ¡Markov ¡model ¡for ¡yeast ¡genes ¡is ¡known. ¡ ¡ ¡ Initial ¡state ¡probabilities: ¡ ¡ [Intergenic, ¡Start ¡codon, ¡Coding ¡region, ¡Stop ¡codon] ¡= ¡[0.8, ¡0.05, ¡0.1, ¡0.05] ¡ ¡ State ¡transition ¡probabilities: ¡ ¡ Intergenic ¡ Start ¡codon ¡ Coding ¡region ¡ Stop ¡codon ¡ Intergenic ¡ 0.8 ¡ 0.2 ¡ 0 ¡ 0 ¡ Start ¡codon ¡ 0 ¡ 0 ¡ 1.0 ¡ 0 ¡ Coding ¡region ¡ 0 ¡ 0 ¡ 0.6 ¡ 0.4 ¡ Stop ¡codon ¡ 1.0 ¡ 0 ¡ 0 ¡ 0 ¡ ¡ ¡ Now, ¡you ¡are ¡given ¡two ¡DNA ¡sequences ¡as ¡well ¡as ¡the ¡state ¡label ¡for ¡each ¡triplet ¡of ¡ nucleotides. ¡The ¡colors ¡of ¡the ¡triplets ¡represent ¡the ¡state ¡labels. ¡ ¡ Sequence ¡1: ¡AGC ¡ATG ¡CAT ¡TTA ¡TAA ¡TGC ¡ ¡ Sequence ¡2: ¡AGC ¡ATG ¡AGC ¡TGG ¡AAT ¡TTT ¡ ¡ -­‑ ¡Start ¡codon ¡ -­‑ ¡Stop ¡codon ¡ -­‑ ¡Coding ¡regions ¡ -­‑ ¡Intergenic ¡region ¡ ¡ Compute ¡the ¡probability ¡scores ¡of ¡each ¡of ¡the ¡two ¡label ¡sequences ¡given ¡the ¡Markov ¡ model. ¡Note ¡that ¡here ¡the ¡expert ¡state ¡labels ¡were ¡already ¡provided ¡instead ¡of ¡ “hidden” ¡as ¡in ¡hidden ¡Markov ¡models. ¡ ¡ ¡ ¡ 3. ¡[20pt] ¡The ¡annotated ¡genome ¡sequence ¡from ¡the ¡Human ¡Genome ¡Sequencing ¡ Project ¡is ¡publicly ¡available ¡in ¡the ¡UCSC ¡genome ¡browser. ¡The ¡browser ¡provides ¡a ¡ rich ¡resource ¡to ¡biomedical ¡research ¡community. ¡In ¡this ¡homework ¡problem, ¡we ¡ will ¡use ¡this ¡genome ¡browser ¡to ¡investigate ¡basic ¡properties ¡of ¡lactase ¡gene, ¡also ¡ known ¡as ¡ LCT , ¡that ¡plays ¡an ¡important ¡role ¡in ¡digesting ¡lactose ¡in ¡milk. ¡ ¡ Go ¡to ¡the ¡UCSC ¡genome ¡browser ¡website: ¡ http://genome.ucsc.edu/cgi-­‑bin/hgGateway ¡ Type ¡‘LCT’ ¡in ¡the ¡box ¡under ¡‘search ¡term’ ¡and ¡click ¡on ¡‘submit’. ¡Then, ¡find ¡‘LCT’ ¡at ¡ the ¡top ¡of ¡the ¡list ¡and ¡click ¡on ¡it. ¡You ¡can ¡zoom ¡in/out ¡or ¡move ¡left/right ¡to ¡browse ¡ the ¡region ¡around ¡the ¡LCT ¡gene. ¡ ¡

  3. 1) ¡[5pt] ¡What ¡is ¡the ¡genome ¡coordinate ¡(chromosome, ¡start/end ¡positions) ¡of ¡the ¡ LCT ¡gene? ¡ ¡ 2) ¡[5pt] ¡How ¡many ¡exons ¡does ¡this ¡gene ¡have? ¡ ¡ 3) ¡[5pt] ¡Each ¡of ¡the ¡known ¡SNPs ¡has ¡a ¡unique ¡ID ¡that ¡starts ¡with ¡‘rs’ ¡(e.g., ¡ rs322901). ¡You ¡will ¡find ¡the ¡SNPs ¡in ¡the ¡ LCT ¡gene ¡near ¡the ¡bottom ¡of ¡the ¡top ¡box ¡ panel ¡in ¡the ¡browser. ¡To ¡see ¡SNP ¡ids, ¡you ¡will ¡need ¡to ¡scroll ¡down ¡the ¡screen ¡and ¡ select ¡“pack” ¡or ¡“full” ¡under ¡“Common ¡SNPs”/”Variation ¡and ¡Repeats” ¡and ¡click ¡on ¡ “refresh” ¡button ¡right ¡next ¡to ¡“Variation ¡and ¡Repeats”. ¡How ¡many ¡SNPs ¡are ¡there ¡in ¡ the ¡first ¡(left-­‑most) ¡exon? ¡Do ¡you ¡see ¡the ¡SNP ¡rs1042712 ¡in ¡this ¡region? ¡ ¡ 4) ¡[5pt] ¡Now, ¡let’s ¡look ¡at ¡what ¡allele ¡James ¡Watson ¡has ¡for ¡the ¡SNP ¡rs1042712. ¡Go ¡ to ¡James ¡Watson’s ¡genome ¡browser ¡at: ¡ ¡ http://jimwatsonsequence.cshl.edu/cgi-­‑perl/gbrowse/jwsequence/ ¡ and ¡type ¡‘rs1042712’ ¡in ¡the ¡box ¡‘Landmark ¡or ¡region’. ¡What ¡can ¡you ¡find ¡out ¡about ¡ this ¡SNP ¡in ¡James ¡Watson’s ¡genome? ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

Recommend


More recommend