Enabling ¡knowledge ¡management ¡ in ¡the ¡Agronomic ¡Domain ¡ ¡ Pierre ¡Larmande ¡ Ins-tute ¡of ¡Research ¡for ¡Development ¡(IRD) ¡ Head ¡of ¡data ¡integra-on ¡group ¡at ¡the ¡Ins-tute ¡of ¡ Computa-onal ¡Biology ¡ pierre.larmande@ird.fr ¡ ¡
Research project « from data to biological knowledge » Five complementary fields of research (WP1 HTS): methods for high-throughput sequencing analysis (WP2 Evolution): scaling-up evolutionnary analyses (WP3 Annotation): structural and functional annotation of proteomes (WP4 Imaging): integrating cell and tissue imaging with Omics data (WP5 Databases): integrating biological data and knowledge Fundamental research
Research ¡areas ¡ Mul7-‑scale ¡omics ¡integra7on ¡ Seman7c ¡web ¡ Workflow ¡management ¡
Montpellier ¡ Collabora-ve ¡network ¡of ¡bioinforma-cians ¡from ¡different ¡ ins-tutes ¡: ¡ CIRAD, ¡IRD, ¡INRA ¡and ¡Bioversity ¡Interna7onal . ¡ hFp://southgreen.cirad.fr/ ¡
Outline • Data integration challenges in the Life Sciences • Ontologies/ Semantic Web Technologies • AgroPortal project • Agronomic Linked Data project
Data landscape in the Life Sciences • The availability of biological data has increased • Advancements in: • computational biology • genome sequencing • high-throughput technologies • Integrative approaches are necessary to understand the functioning of biological systems Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Gene7c ¡ressources ¡ Gene7c ¡and ¡physical ¡maps, ¡QTL ¡ ¡ Compara7ve ¡genomics ¡ high-‑throughput ¡phenotyping ¡ ¡ Phenotypes ¡ ¡ Markers ¡ Individuals ¡ large ¡genome ¡resequencing ¡ ¡ Genotyping ¡studies ¡ ¡ ¡ Genomic ¡annota7ons ¡ Geographic ¡data ¡ ¡ Analysis ¡ Workflows ¡ C ¡ A ¡ B ¡ D ¡ Courtesy ¡of ¡Dr. ¡M. ¡Ruiz ¡ E ¡
Data integration challenges • Lack of effective approaches to integrate data that has created a gap between data and knowledge • Need for an effective method to bridge gap between data and underlying meaning • Harvest the power of overlaying different data sets Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Today’s Web • Today’s Web content is suitable for human consumption • Collection of documents • the existence of links that establish connections between documents • Low on data interoperability and lacks semantics. Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Standardization of data • Drastic increase in data production. • Standardization needed to manage and use these data • Mainly used XML for standardizing data exchange. • SBML, CellML • M inimum I nformation for B iological and B iomedical I nvestigations (MIBBI) • I nvestigation, S tudy, and A ssay (ISA) Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Ontologies • Ontologies are formal representations of knowledge - definitions of concepts, their attributes and relations between them. • To integrate data, improve machine interoperability and data analysis required a conceptual scaffold. • Ontological terms used across databases • provide cross-domain common entry points in the description. • An array of ontologies are being used to bring structured integration of various datasets. • The O pen B iomedical O ntologies (OBO) initiative: • serves as an umbrella for well structured orthogonal ontologies. • Ontologies represented in OBO format and OWL Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Crop Ontology • Is ¡an ¡applica-on ¡ ontology ¡for ¡fielbooks ¡ and ¡breeding ¡databases ¡ & ¡repositories ¡ • A ¡visualiza-on ¡tool ¡ suppor-ng ¡cura-on ¡of ¡ trait ¡lists ¡by ¡a ¡distributed ¡ community ¡ • A ¡discussion ¡Forum ¡ cropontology.org ¡ Courtesy ¡of ¡Elizabeth ¡Arnaud ¡
Semantic Web Technology • An extension of the current Web technologies. • Enables navigation and meaningful use of digital resources. • Support aggregation and integration of information from diverse sources. • Based on common and standard formats . Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Resource Description Framework (RDF) • Framework for representing information about resources on the Web • Provides a labeled connection between two resources • Uses Unique Resource Identifiers (URI) • Statements take the form of triples: Subject ¡ Object ¡ Predicate ¡ <Gene_A> ¡ <codes_for> ¡ <Protein_A> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡ RDF ¡Triple ¡ Venkatesan ¡
• Combining the triples results in a directed, labeled graph. <Gene_A> ¡ <has_func7on> ¡ <Protein_A> ¡ <MF_A> ¡ <regulates> ¡ <BP_A> ¡ <Gene_X> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
• Can be joined with other graphs. • Connected using shared URIs. <Gene_A> ¡ has_func7on ¡ <MF_A> ¡ <Protein_A> ¡ <BP_A> ¡ regulates ¡ <Protein_X> ¡ h a s <Gene_X> ¡ _ S N P ¡ <SNP_X> ¡ influences ¡ <Disease_X> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
SPARQL • Language which allows querying RDF models (graphs) • Powerful, flexible • Its syntax is similar to the one of SQL Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Matching Triples Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Semantic Web meets Systems Biology • The Semantic Web has gained steady acceptance among the life science community. • BioPortal, Bio2RDF, for biomedical • The RDF data model complements systems biology – linking varied information sources • RDF suggested as a data representation format over XML*. • Data represented in XML are based on a schema, extensibility limitations. • XML lack the semantic expression in the describing data sets. • SPARQL - address questions that were unapproachable at the time the information were produced . *Wang ¡et ¡al., ¡Nature ¡Biotechnology, ¡2005 ¡
Rice Integrated Approach ¡ The Panicle Structure case ¡
Stefan Jouannic & Helen Adam ¡
Genome Structure 'vs' Panicle Structure ¡ Stefan Jouannic & Helen Adam ¡
Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Phenotyping ¡ Dozen ¡of ¡Tbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡
Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Workflows ¡ Phenotyping ¡ Dozen ¡of ¡Tbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡
Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Workflows ¡ Phenotyping ¡ Dozen ¡of ¡Mbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡ Mul7-‑scale ¡integra7on ¡
Multi-scale integration ¡
Multi-scale integration R2RML ¡– ¡xR2RML ¡ D2RQ ¡ Extrac-on ¡ DB1 ¡ Visualisa-on ¡ Load ¡ DB2 ¡ Transforma-on ¡ Rdf ¡store ¡ File ¡ AgroLD ¡ Query ¡ formula-on ¡ Karma, ¡OpenRefine, ¡ Talend, ¡Python ¡ Annota-on ¡ AgroPortal ¡
AgroPortal ¡ ¡ a ¡proposi:on ¡for ¡ontology-‑based ¡ services ¡in ¡the ¡agronomic ¡domain ¡ Clément ¡Jonquet, ¡ ¡ Esther ¡Dzalé-‑Yeumo, ¡ ¡Elizabeth ¡Arnaud, ¡ ¡Pierre ¡Larmande ¡ ¡
Objec7ves ¡of ¡AgroPortal ¡project ¡ • Develop ¡and ¡support ¡a ¡reference ¡ontology ¡repository ¡ for ¡the ¡agronomic ¡domain ¡ – One-‑stop-‑shop ¡for ¡plant/agronomic ¡related ¡ontologies ¡ ¡ – Primary ¡focus ¡on ¡the ¡agronomic ¡& ¡plant ¡domain ¡ • Reusing ¡the ¡NCBO ¡BioPortal ¡technology ¡ – Avoid ¡to ¡re-‑implement ¡what ¡has ¡been ¡done ¡ – Facilitate ¡interoperability ¡ – Reusing ¡the ¡scien-fic ¡outcomes, ¡experience ¡& ¡methods ¡ of ¡the ¡biomedical ¡domain ¡ ¡ • Enable ¡straighdorward ¡use ¡of ¡agronomic ¡related ¡ ontologies ¡ – Respect ¡the ¡requirements ¡of ¡the ¡agronomic ¡community ¡ ¡ – Fully ¡seman-c ¡web ¡compliant ¡infrastructure ¡ Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 30 ¡
Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 31 ¡
Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 32 ¡
Recommend
More recommend