nega ve controls
play

(Nega&ve) controls Morgane Thomas-Chollier Computa)onal - PowerPoint PPT Presentation

(Nega&ve) controls Morgane Thomas-Chollier Computa)onal systems biology - IBENS mthomas@biologie.ens.fr M2 Computa6onal analysis of cis-regulatory


  1. (Nega&ve) ¡controls ¡ Morgane ¡Thomas-­‑Chollier ¡ ¡ Computa)onal ¡systems ¡biology ¡-­‑ ¡IBENS ¡ mthomas@biologie.ens.fr ¡ ¡ M2 ¡– ¡Computa6onal ¡analysis ¡of ¡cis-­‑regulatory ¡sequences ¡2015/20165 ¡ Denis ¡Thieffry, ¡Jacques ¡van ¡Helden ¡and ¡Carl ¡Herrmann ¡kindly ¡shared ¡some ¡of ¡their ¡slides. ¡ ¡

  2. Aim ¡of ¡the ¡course ¡ 1 ¡– ¡Understand ¡the ¡need ¡for ¡controls ¡in ¡bioinforma6cs ¡ ¡ ¡ ¡ 2 ¡– ¡Some ¡strategies ¡to ¡build ¡controls ¡

  3. Controls ¡in ¡biology ¡ Wellik ¡and ¡Mario ¡R ¡Capecchi, ¡Science, ¡2003 ¡

  4. Evaluate ¡predic6ons ¡with ¡controls ¡ Quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡ ¡ • » detect ¡known ¡features ¡ ¡ » = ¡Return ¡a ¡posi&ve ¡answer ¡for ¡a ¡posi&ve ¡feature ¡ » Not ¡detect ¡false ¡features ¡ » = ¡Return ¡a ¡nega&ve ¡answer ¡for ¡a ¡nega&ve ¡feature ¡ Predic)ons ¡ Posi6ve ¡ Nega6ve ¡ Annota)on ¡ Posi6ve ¡ True ¡Posi6ve ¡ False ¡nega&ve ¡ Nega6ve ¡ False ¡Posi&ve ¡ True ¡Nega6ve ¡

  5. In ¡the ¡context ¡of ¡cis-­‑regula6on ¡ Use ¡different ¡set ¡of ¡ sequences ¡ …HIS7 � 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT � …ARO4 � 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG � …ILV6 � 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT � …THR4 � 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC � …ARO1 � 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA � …HOM2 � 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA � …PRO3 � 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA � Use ¡different ¡set ¡of ¡ matrices ¡

  6. Sequences ¡ Posi6ve ¡control : ¡quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡detect ¡known ¡ • regulatory ¡elements ¡ » Annotated ¡sites ¡(e.g. ¡sites ¡from ¡TRANSFAC) ¡in ¡their ¡original ¡context ¡(the ¡ promoter ¡sequences). ¡ » Annotated ¡sites ¡implanted ¡in ¡other ¡context ¡ - Biological ¡sequences ¡(random ¡selec&on). ¡ - Ar&ficial ¡sequences. ¡ » Ar&ficial ¡sites ¡implanted ¡in ¡ar&ficial ¡sequences. ¡ Nega6ve ¡control : ¡quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡return ¡a ¡nega&ve ¡ • answer ¡when ¡there ¡are ¡no ¡regulatory ¡elements. ¡ » Ar&ficial ¡sequences ¡ ¡ (generated ¡according ¡to ¡a ¡Bernoulli ¡or ¡a ¡Markov ¡model ¡to ¡mimic ¡an ¡organism ¡ of ¡interest ¡) ¡ » Biological ¡sequences ¡without ¡common ¡regula&on ¡ ¡ (random ¡selec&on ¡of ¡genes) ¡

  7. Ar6ficial ¡sequences ¡ • Random-­‑seq ¡ in ¡RSAT ¡ » Generate ¡ar&ficial ¡sequences ¡(mimicking ¡real ¡biological ¡sequences) ¡ » Re-­‑run ¡the ¡exact ¡same ¡analysis ¡

  8. Randomized ¡(shuffling) ¡sequences ¡ • Randomized ¡sequences ¡ » Maintain ¡composi&on ¡(=nb ¡of ¡A,C,G,T) ¡ » Conserva&on ¡of ¡higher-­‑order ¡dependencies ¡? ¡ » Is ¡it ¡likely ¡that ¡the ¡signal ¡is ¡s&ll ¡there ¡? ¡

  9. Sequences ¡ Posi6ve ¡control : ¡quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡detect ¡known ¡ • regulatory ¡elements ¡ » Annotated ¡sites ¡(e.g. ¡sites ¡from ¡TRANSFAC) ¡in ¡their ¡original ¡context ¡(the ¡ promoter ¡sequences). ¡ » Annotated ¡sites ¡implanted ¡in ¡other ¡context ¡ - Biological ¡sequences ¡(random ¡selec&on). ¡ - Ar&ficial ¡sequences. ¡ » Ar&ficial ¡sites ¡implanted ¡in ¡ar&ficial ¡sequences. ¡ Nega6ve ¡control : ¡quan&fy ¡the ¡capability ¡of ¡the ¡program ¡to ¡return ¡a ¡nega&ve ¡ • answer ¡when ¡there ¡are ¡no ¡regulatory ¡elements. ¡ » Ar&ficial ¡sequences ¡ ¡ (generated ¡according ¡to ¡a ¡Bernoulli ¡or ¡a ¡Markov ¡model) ¡ » Biological ¡sequences ¡without ¡common ¡regula&on ¡ ¡ (random ¡selec&on ¡of ¡genes) ¡

  10. Biological ¡sequences ¡ • Random-­‑genes ¡ in ¡RSAT ¡ » Select ¡X ¡genes ¡randomly ¡within ¡a ¡given ¡genomes ¡ » Obtain ¡the ¡upstream ¡sequences ¡ » Re-­‑run ¡the ¡exact ¡same ¡analysis ¡

  11. Biological ¡sequences ¡ • Genes ¡not ¡differen6ally ¡regulated ¡ » Select ¡X ¡genes ¡among ¡genes ¡that ¡do ¡not ¡show ¡changes ¡in ¡expression ¡ » Obtain ¡the ¡upstream ¡sequences ¡ » Re-­‑run ¡the ¡exact ¡same ¡analysis ¡

  12. Biological ¡sequences ¡ • Genes ¡not ¡differen6ally ¡regulated ¡ » Coverage ¡in ¡reads ¡in ¡windows ¡aroung ¡TSS ¡(histone ¡marks) ¡ H3K27ac within +/ − 20kb window around 30 genes 1.0 Wilcoxon test pvalue= 0.0016 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.8 H3K27ac / [gene +/ − 20kb window] ● ● ● 0.6 0.4 0.2 0.0 up − regulated genes 10x randomly − picked not regulated genes

  13. Biological ¡sequences ¡ • Random ¡genome ¡fragments ¡in ¡RSAT ¡ » Select ¡a ¡set ¡of ¡fragments ¡with ¡random ¡posi&ons ¡in ¡a ¡given ¡genome, ¡ and ¡return ¡their ¡coordinates ¡and/or ¡sequences ¡ » Adapted ¡to ¡chip-­‑seq ¡? ¡ - Yes: ¡same ¡number ¡of ¡peaks ¡+ ¡same ¡size ¡ - No: ¡composi&on ¡of ¡the ¡sequences ¡(dinucleo&des) ¡not ¡respected ¡

  14. In ¡the ¡context ¡of ¡cis-­‑regula6on ¡ Use ¡different ¡set ¡of ¡sequences ¡ …HIS7 � 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT � …ARO4 � 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG � …ILV6 � 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT � …THR4 � 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC � …ARO1 � 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA � …HOM2 � 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA � …PRO3 � 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA � Use ¡different ¡set ¡of ¡matrices ¡

  15. Matrix ¡permuta6ons ¡ • Matrix-­‑quality ¡in ¡RSAT ¡ TrpR ¡ » Compare ¡distribu&ons ¡of ¡scores ¡for ¡PSSMs ¡ TrpR ¡permuta&ons ¡ ... ¡

  16. Matrix ¡quality ¡with ¡nega6ve ¡datasets ¡ • Matrix-­‑quality ¡in ¡RSAT ¡ » Not ¡for ¡randomly-­‑generated ¡sequences ¡(random-­‑seq) ¡as ¡it ¡will ¡ ALWAYS ¡follow ¡the ¡theore&cal ¡curve ¡(= ¡background ¡= ¡markov ¡model ¡ used ¡to ¡generate ¡the ¡sequences ¡!) ¡ » OK ¡for ¡random ¡selec&on ¡of ¡genes ¡

  17. Building ¡controls ¡in ¡RSAT ¡

Recommend


More recommend