��������������������������������� ������������������� Mining and analysis of genomic and epigenomic data (TCGA) using R ����������������� Catharina Olsen & Antonio Colaprico ������������� Academic supervisor: Gianluca Bontempi Machine Learning Group (MLG) ��������������� Interuniversity Institute of Bioinformatics in Brussels (IB) 2 December 6th & 7th 2016
Workshop overview ���������������� ◮ day 1 ◮ introduction R ◮ Analyses �� ����������������������������������� ◮ Differential expression analysis �� ������������������������������������������������� ◮ Enrichment analysis �� �������������������������� ◮ Clustering, dendrograms & heatmaps ◮ Survival analysis ◮ data in biomedical research: NGS, TCGA, downloading and ������������������������������������� normalization ◮ day 2 ���������������������������������������� ◮ integrative analysis ◮ Command line vs. graphical user interface (introduction to TCGAbiolinksGUI) ��������������������������������������� 2/ 69
Analyses ���������������� ◮ methods for monitoring genome-wide mRNA expressions such as microarrays or RNAseq �� ����������������������������������� ◮ allow to observe expression levels of the entire genome �� ������������������������������������������������� under many different induced conditions �� �������������������������� ◮ Knowing when and under what conditions a gene or a set of genes is expressed often provides strong clues as to their biological role and function ������������������������������������� ◮ possible strategies to determine the function of unknown genes ◮ clustering algorithms: group together genes with similar ���������������������������������������� expression profiles ◮ apply supervised learning methods : predictive precision can be quantified ��������������������������������������� 3/ 69
Patient classification (breast cancer) ���������������� ◮ Breast cancer is one of the most common malignant tumors �� ����������������������������������� affecting women. ◮ patients with the same disease stage can have different �� ������������������������������������������������� treatment responses and overall outcome �� �������������������������� ◮ cancer classification has been based primarily on morphological appearance ������������������������������������� ◮ the strongest predictors for metastasis fail to classify accurately breast tumors according to their clinical behavior ◮ relied on specific biological insights, rather than systematic ���������������������������������������� and unbiased approaches for recognizing tumor subtypes ��������������������������������������� 4/ 69
Breast cancer classification (II) ���������������� ◮ Chemotherapy or hormonal therapy reduces the risk of distant metastasis by approximately one-third; however 70-80% of patients receiving this treatment would have �� ����������������������������������� survived without it. Also, these therapies frequently have toxic side effects. �� ������������������������������������������������� ◮ Diagnosis of cancer must be accurate in order for the �� �������������������������� patient to receive the correct treatment and so have the best chance of survival. ������������������������������������� ◮ The cellular and molecular heterogeneity of breast tumors and the large number of genes potentially involved in controlling cell growth, death and differentiation emphasize ���������������������������������������� the importance of studying multiple genetic alterations ◮ The development of -omics technology provides the opportunity of correlating genome-wide expressions with ��������������������������������������� the response of tumor cells to chemotherapy. 5/ 69
Breast cancer classification (III) ���������������� ◮ Systematic investigation of expression patterns of �� ����������������������������������� thousands of genes in tumors using DNA microarrays and their correlation to specific features of phenotypic variation �� ������������������������������������������������� might provide the basis for an improved taxonomy of cancer. �� �������������������������� ◮ It is expected that variations in gene expression patterns in ������������������������������������� different tumors could provide a “molecular portrait” of each tumor, and that the tumors could be classified into subtypes based solely on the difference of expression ���������������������������������������� patterns. ��������������������������������������� 6/ 69
Take-home message ���������������� A very large number of problems in life science may be formalized as supervised learning problems characterized by �� ����������������������������������� 1. The intuition of the existence of a dependence between �� ������������������������������������������������� some input (e.g. genotype) and output (e.g. phenotype). �� �������������������������� 2. An outcome measurement, also called output , usually quantitative (like the gene expression) or categorical (like ������������������������������������� metastasis or not). 3. a set of features or inputs , also quantitative or categorical, that we wish to use to predict the output. ���������������������������������������� 4. the availability of a finite set of input/output observations. ��������������������������������������� 7/ 69
Recommend
More recommend