enabling knowledge management in the agronomic domain
play

Enabling knowledge management in the Agronomic Domain - PowerPoint PPT Presentation

Enabling knowledge management in the Agronomic Domain Pierre Larmande Ins-tute of Research for Development (IRD) Head of data integra-on group at the


  1. Enabling ¡knowledge ¡management ¡ in ¡the ¡Agronomic ¡Domain ¡ ¡ Pierre ¡Larmande ¡ Ins-tute ¡of ¡Research ¡for ¡Development ¡(IRD) ¡ Head ¡of ¡data ¡integra-on ¡group ¡at ¡the ¡Ins-tute ¡of ¡ Computa-onal ¡Biology ¡ pierre.larmande@ird.fr ¡ ¡

  2. Research project « from data to biological knowledge » Five complementary fields of research (WP1 HTS): methods for high-throughput sequencing analysis (WP2 Evolution): scaling-up evolutionnary analyses (WP3 Annotation): structural and functional annotation of proteomes (WP4 Imaging): integrating cell and tissue imaging with Omics data (WP5 Databases): integrating biological data and knowledge Fundamental research

  3. Research ¡areas ¡ Mul7-­‑scale ¡omics ¡integra7on ¡ Seman7c ¡web ¡ Workflow ¡management ¡

  4. Montpellier ¡ Collabora-ve ¡network ¡of ¡bioinforma-cians ¡from ¡different ¡ ins-tutes ¡: ¡ CIRAD, ¡IRD, ¡INRA ¡and ¡Bioversity ¡Interna7onal . ¡ hFp://southgreen.cirad.fr/ ¡

  5. Outline • Data integration challenges in the Life Sciences • Ontologies/ Semantic Web Technologies • AgroPortal project • Agronomic Linked Data project

  6. Data landscape in the Life Sciences • The availability of biological data has increased • Advancements in: • computational biology • genome sequencing • high-throughput technologies • Integrative approaches are necessary to understand the functioning of biological systems Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  7. Gene7c ¡ressources ¡ Gene7c ¡and ¡physical ¡maps, ¡QTL ¡ ¡ Compara7ve ¡genomics ¡ high-­‑throughput ¡phenotyping ¡ ¡ Phenotypes ¡ ¡ Markers ¡ Individuals ¡ large ¡genome ¡resequencing ¡ ¡ Genotyping ¡studies ¡ ¡ ¡ Genomic ¡annota7ons ¡ Geographic ¡data ¡ ¡ Analysis ¡ Workflows ¡ C ¡ A ¡ B ¡ D ¡ Courtesy ¡of ¡Dr. ¡M. ¡Ruiz ¡ E ¡

  8. Data integration challenges • Lack of effective approaches to integrate data that has created a gap between data and knowledge • Need for an effective method to bridge gap between data and underlying meaning • Harvest the power of 
 overlaying different data sets Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  9. Today’s Web • Today’s Web content is suitable for human consumption • Collection of documents • the existence of links that establish connections between documents • Low on data interoperability and lacks semantics. Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  10. Standardization of data • Drastic increase in data production. • Standardization needed to manage and use these data • Mainly used XML for standardizing data exchange. • SBML, CellML • M inimum I nformation for B iological and B iomedical I nvestigations (MIBBI) • I nvestigation, S tudy, and A ssay (ISA) Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  11. Ontologies • Ontologies are formal representations of knowledge - definitions of concepts, their attributes and relations between them. • To integrate data, improve machine interoperability and data analysis required a conceptual scaffold. • Ontological terms used across databases • provide cross-domain common entry points in the description. • An array of ontologies are being used to bring structured integration of various datasets. • The O pen B iomedical O ntologies (OBO) initiative: • serves as an umbrella for well structured orthogonal ontologies. • Ontologies represented in OBO format and OWL Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  12. Crop Ontology • Is ¡an ¡applica-on ¡ ontology ¡for ¡fielbooks ¡ and ¡breeding ¡databases ¡ & ¡repositories ¡ • A ¡visualiza-on ¡tool ¡ suppor-ng ¡cura-on ¡of ¡ trait ¡lists ¡by ¡a ¡distributed ¡ community ¡ • A ¡discussion ¡Forum ¡ cropontology.org ¡ Courtesy ¡of ¡Elizabeth ¡Arnaud ¡

  13. Semantic Web Technology • An extension of the current Web technologies. • Enables navigation and meaningful use of digital resources. • Support aggregation and integration of information from diverse sources. • Based on common and standard formats . Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  14. 
 Resource Description Framework (RDF) • Framework for representing information about resources on the Web • Provides a labeled connection between two resources • Uses Unique Resource Identifiers (URI) • Statements take the form of triples: Subject ¡ Object ¡ Predicate ¡ <Gene_A> ¡ <codes_for> ¡ <Protein_A> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡ RDF ¡Triple ¡ Venkatesan ¡

  15. • Combining the triples results in a directed, labeled graph. <Gene_A> ¡ <has_func7on> ¡ <Protein_A> ¡ <MF_A> ¡ <regulates> ¡ <BP_A> ¡ <Gene_X> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  16. • Can be joined with other graphs. • Connected using shared URIs. <Gene_A> ¡ has_func7on ¡ <MF_A> ¡ <Protein_A> ¡ <BP_A> ¡ regulates ¡ <Protein_X> ¡ h a s <Gene_X> ¡ _ S N P ¡ <SNP_X> ¡ influences ¡ <Disease_X> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  17. SPARQL • Language which allows querying RDF models (graphs) • Powerful, flexible • Its syntax is similar to the one of SQL Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  18. Matching Triples Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

  19. Semantic Web meets Systems Biology • The Semantic Web has gained steady acceptance among the life science community. • BioPortal, Bio2RDF, for biomedical • The RDF data model complements systems biology – linking varied information sources • RDF suggested as a data representation format over XML*. • Data represented in XML are based on a schema, extensibility limitations. • XML lack the semantic expression in the describing data sets. • SPARQL - address questions that were unapproachable at the time the information were produced . *Wang ¡et ¡al., ¡Nature ¡Biotechnology, ¡2005 ¡

  20. Rice Integrated Approach ¡ The Panicle Structure case ¡

  21. Stefan Jouannic & Helen Adam ¡

  22. Genome Structure 'vs' Panicle Structure ¡ Stefan Jouannic & Helen Adam ¡

  23. Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Phenotyping ¡ Dozen ¡of ¡Tbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡

  24. Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Workflows ¡ Phenotyping ¡ Dozen ¡of ¡Tbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡

  25. Genome Structure 'vs' Panicle Structure ¡ GRiSP ¡ 3,000 ¡genomes ¡ Modelling ¡ 70 ¡Tbytes ¡ ¡ Data integration ARCAD ¡ Bioinforma-cs ¡ Expression ¡data ¡ Workflows ¡ Phenotyping ¡ Dozen ¡of ¡Mbytes ¡ Databases ¡and ¡knowledge ¡ Big ¡Data ¡ Mul7-­‑scale ¡integra7on ¡

  26. Multi-scale integration ¡

  27. Multi-scale integration R2RML ¡– ¡xR2RML ¡ D2RQ ¡ Extrac-on ¡ DB1 ¡ Visualisa-on ¡ Load ¡ DB2 ¡ Transforma-on ¡ Rdf ¡store ¡ File ¡ AgroLD ¡ Query ¡ formula-on ¡ Karma, ¡OpenRefine, ¡ Talend, ¡Python ¡ Annota-on ¡ AgroPortal ¡

  28. AgroPortal ¡ ¡ a ¡proposi:on ¡for ¡ontology-­‑based ¡ services ¡in ¡the ¡agronomic ¡domain ¡ Clément ¡Jonquet, ¡ ¡ Esther ¡Dzalé-­‑Yeumo, ¡ ¡Elizabeth ¡Arnaud, ¡ ¡Pierre ¡Larmande ¡ ¡

  29. Objec7ves ¡of ¡AgroPortal ¡project ¡ • Develop ¡and ¡support ¡a ¡reference ¡ontology ¡repository ¡ for ¡the ¡agronomic ¡domain ¡ – One-­‑stop-­‑shop ¡for ¡plant/agronomic ¡related ¡ontologies ¡ ¡ – Primary ¡focus ¡on ¡the ¡agronomic ¡& ¡plant ¡domain ¡ • Reusing ¡the ¡NCBO ¡BioPortal ¡technology ¡ – Avoid ¡to ¡re-­‑implement ¡what ¡has ¡been ¡done ¡ – Facilitate ¡interoperability ¡ – Reusing ¡the ¡scien-fic ¡outcomes, ¡experience ¡& ¡methods ¡ of ¡the ¡biomedical ¡domain ¡ ¡ • Enable ¡straighdorward ¡use ¡of ¡agronomic ¡related ¡ ontologies ¡ – Respect ¡the ¡requirements ¡of ¡the ¡agronomic ¡community ¡ ¡ – Fully ¡seman-c ¡web ¡compliant ¡infrastructure ¡ Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 30 ¡

  30. Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 31 ¡

  31. Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡ 32 ¡

Recommend


More recommend