Enabling knowledge management in the Agronomic Domain - - PowerPoint PPT Presentation
Enabling knowledge management in the Agronomic Domain - - PowerPoint PPT Presentation
Enabling knowledge management in the Agronomic Domain Pierre Larmande Ins-tute of Research for Development (IRD) Head of data integra-on group at the
Research project « from data to biological knowledge » Five complementary fields of research (WP1 HTS): methods for high-throughput sequencing analysis (WP2 Evolution): scaling-up evolutionnary analyses (WP3 Annotation): structural and functional annotation of proteomes (WP4 Imaging): integrating cell and tissue imaging with Omics data (WP5 Databases): integrating biological data and knowledge Fundamental research
Mul7-‑scale ¡omics ¡integra7on ¡
Research ¡areas ¡
Workflow ¡management ¡ Seman7c ¡web ¡
Collabora-ve ¡network ¡of ¡bioinforma-cians ¡from ¡different ¡ ins-tutes ¡: ¡CIRAD, ¡IRD, ¡INRA ¡and ¡Bioversity ¡Interna7onal. ¡ Montpellier ¡
hFp://southgreen.cirad.fr/ ¡
Outline
- Data integration challenges in the Life Sciences
- Ontologies/ Semantic Web Technologies
- AgroPortal project
- Agronomic Linked Data project
Data landscape in the Life Sciences
- The availability of biological data has increased
- Advancements in:
- computational biology
- genome sequencing
- high-throughput technologies
- Integrative approaches are necessary to understand
the functioning of biological systems
Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Gene7c ¡and ¡physical ¡maps, ¡QTL ¡ ¡ Genotyping ¡studies ¡ ¡ ¡ ¡ Genomic ¡annota7ons ¡ A ¡ E ¡ C ¡ D ¡ B ¡ Gene7c ¡ressources ¡ Geographic ¡data ¡ Compara7ve ¡genomics ¡ ¡
Markers ¡
Analysis ¡ Workflows ¡ Phenotypes ¡ ¡
Individuals ¡
large ¡genome ¡resequencing ¡ ¡ high-‑throughput ¡phenotyping ¡
Courtesy ¡of ¡Dr. ¡M. ¡Ruiz ¡
- Lack of effective approaches to integrate data that
has created a gap between data and knowledge
- Need for an effective method to bridge gap between
data and underlying meaning
- Harvest the power of
- verlaying different data sets
Data integration challenges
Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
- Today’s Web content is suitable for human consumption
- Collection of documents
- the existence of links that establish connections
between documents
- Low on data interoperability and lacks semantics.
Today’s Web
Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
- Drastic increase in data production.
- Standardization needed to manage and use these
data
- Mainly used XML for standardizing data exchange.
- SBML, CellML
- Minimum Information for Biological and
Biomedical Investigations (MIBBI)
- Investigation, Study, and Assay (ISA)
Standardization of data
Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
- Ontologies are formal representations of knowledge - definitions of
concepts, their attributes and relations between them.
- To integrate data, improve machine interoperability and data
analysis required a conceptual scaffold.
- Ontological terms used across databases
- provide cross-domain common entry points in the description.
- An array of ontologies are being used to bring structured integration
- f various datasets.
- The Open Biomedical Ontologies (OBO) initiative:
- serves as an umbrella
for well structured orthogonal
- ntologies.
- Ontologies represented in OBO format and OWL
Ontologies
Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Crop Ontology
- Is ¡an ¡applica-on ¡
- ntology ¡for ¡fielbooks ¡
and ¡breeding ¡databases ¡ & ¡repositories ¡
- A ¡visualiza-on ¡tool ¡
suppor-ng ¡cura-on ¡of ¡ trait ¡lists ¡by ¡a ¡distributed ¡ community ¡
- A ¡discussion ¡Forum ¡
cropontology.org ¡ Courtesy ¡of ¡Elizabeth ¡Arnaud ¡
Semantic Web Technology
- An extension of the current Web technologies.
- Enables navigation and meaningful use of digital
resources.
- Support aggregation and integration of information
from diverse sources.
- Based on common and standard formats.
Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Resource Description Framework (RDF)
- Framework for representing information about resources
- n the Web
- Provides a labeled connection between two resources
- Uses Unique Resource Identifiers (URI)
- Statements take the form of triples:
Subject ¡
Predicate ¡
Object ¡ <Gene_A> ¡ <codes_for> ¡ <Protein_A> ¡ RDF ¡Triple ¡ Courtesy ¡of ¡Dr ¡Aravind ¡ Venkatesan ¡
- Combining the triples results in a directed, labeled
graph.
<Gene_A> ¡ <Protein_A> ¡ <has_func7on> ¡ <BP_A> ¡ <MF_A> ¡ <Gene_X> ¡ <regulates> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
- Can be joined with other graphs.
- Connected using shared URIs.
<Gene_A> ¡ <Protein_A> ¡ has_func7on ¡ <BP_A> ¡ <MF_A> ¡ <Gene_X> ¡ regulates ¡ <Protein_X> ¡ h a s _ S N P ¡ <Disease_X> ¡ <SNP_X> ¡ influences ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
SPARQL
- Language which allows querying RDF models (graphs)
- Powerful, flexible
- Its syntax is similar to the one of SQL
Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Matching Triples
Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡
Semantic Web meets Systems Biology
- The Semantic Web has gained steady acceptance among the
life science community.
- BioPortal, Bio2RDF, for biomedical
- The RDF data model complements systems biology – linking
varied information sources
- RDF suggested as a data representation format over XML*.
- Data represented in XML are based on a schema,
extensibility limitations.
- XML lack the semantic expression in the describing data
sets.
- SPARQL - address questions that were unapproachable at the
time the information were produced.
*Wang ¡et ¡al., ¡Nature ¡Biotechnology, ¡2005 ¡
Rice Integrated Approach ¡
The Panicle Structure case ¡
Stefan Jouannic & Helen Adam ¡
Genome Structure 'vs' Panicle Structure ¡
Stefan Jouannic & Helen Adam ¡
GRiSP ¡
3,000 ¡genomes ¡ 70 ¡Tbytes ¡
¡ Data integration Phenotyping ¡
Dozen ¡of ¡Tbytes ¡
Modelling ¡ Databases ¡and ¡knowledge ¡ ARCAD ¡ Expression ¡data ¡
Genome Structure 'vs' Panicle Structure ¡
Bioinforma-cs ¡ Big ¡Data ¡
GRiSP ¡
3,000 ¡genomes ¡ 70 ¡Tbytes ¡
¡ Data integration Phenotyping ¡
Dozen ¡of ¡Tbytes ¡
Modelling ¡ Databases ¡and ¡knowledge ¡ ARCAD ¡ Expression ¡data ¡
Genome Structure 'vs' Panicle Structure ¡
Bioinforma-cs ¡ Big ¡Data ¡ Workflows ¡
GRiSP ¡
3,000 ¡genomes ¡ 70 ¡Tbytes ¡
¡ Data integration Phenotyping ¡
Dozen ¡of ¡Mbytes ¡
Modelling ¡ Databases ¡and ¡knowledge ¡ ARCAD ¡ Expression ¡data ¡
Genome Structure 'vs' Panicle Structure ¡
Bioinforma-cs ¡ Big ¡Data ¡ Workflows ¡ Mul7-‑scale ¡integra7on ¡
Multi-scale integration ¡
Multi-scale integration
DB1 ¡ DB2 ¡ File ¡ Transforma-on ¡ Rdf ¡store ¡ Annota-on ¡ Visualisa-on ¡ Query ¡ formula-on ¡ Extrac-on ¡ Load ¡ AgroPortal ¡ AgroLD ¡ R2RML ¡– ¡xR2RML ¡ D2RQ ¡ Karma, ¡OpenRefine, ¡ Talend, ¡Python ¡
AgroPortal ¡ ¡a ¡proposi:on ¡for ¡ontology-‑based ¡
services ¡in ¡the ¡agronomic ¡domain ¡
Clément ¡Jonquet, ¡ ¡ Esther ¡Dzalé-‑Yeumo, ¡ ¡Elizabeth ¡Arnaud, ¡ ¡Pierre ¡Larmande ¡ ¡
Objec7ves ¡of ¡AgroPortal ¡project ¡
- Develop ¡and ¡support ¡a ¡reference ¡ontology ¡repository ¡
for ¡the ¡agronomic ¡domain ¡
– One-‑stop-‑shop ¡for ¡plant/agronomic ¡related ¡ontologies ¡ ¡ – Primary ¡focus ¡on ¡the ¡agronomic ¡& ¡plant ¡domain ¡
- Reusing ¡the ¡NCBO ¡BioPortal ¡technology ¡
– Avoid ¡to ¡re-‑implement ¡what ¡has ¡been ¡done ¡ – Facilitate ¡interoperability ¡ – Reusing ¡the ¡scien-fic ¡outcomes, ¡experience ¡& ¡methods ¡
- f ¡the ¡biomedical ¡domain ¡ ¡
- Enable ¡straighdorward ¡use ¡of ¡agronomic ¡related ¡
- ntologies ¡
– Respect ¡the ¡requirements ¡of ¡the ¡agronomic ¡community ¡ ¡ – Fully ¡seman-c ¡web ¡compliant ¡infrastructure ¡
30 ¡
Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡
31 ¡
Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡
32 ¡
Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡
Available ¡ontologies ¡
- Already ¡29 ¡ontologies… ¡and ¡we ¡expect ¡around ¡40 ¡soon. ¡
– (half ¡are ¡not ¡included ¡in ¡the ¡NCBO ¡BioPortal) ¡
- Ontologies ¡are ¡organized ¡in ¡Groups ¡and ¡Categories ¡
33 ¡
Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡
34 ¡
35 ¡
Recommender ¡
36 ¡
Mappings ¡
37 ¡
Community ¡based ¡func7onali7es ¡
Atelier ¡InOvive ¡2015 ¡– ¡Rennes ¡– ¡29 ¡juin ¡ 2015 ¡ 38 ¡
REST ¡Web ¡Service ¡API: ¡
hlp://data.agroportal.lirmm.fr/documenta-on ¡ ¡
Atelier ¡InOvive ¡2015 ¡– ¡Rennes ¡– ¡29 ¡juin ¡ 2015 ¡ 39 ¡
SPARQL ¡endpoint: ¡
hlp://sparql.agroportal.lirmm.fr ¡ ¡
40 ¡
4 ¡Driving ¡Agronomic ¡Use ¡Cases ¡
- IBC ¡Rice ¡Genomics ¡
– data ¡integra-on ¡and ¡knowledge ¡management ¡ related ¡to ¡rice ¡
¡
- RDA ¡Wheat ¡Data ¡Interoperability ¡working ¡group ¡
– common ¡framework ¡for ¡describing, ¡represen-ng, ¡ linking ¡and ¡publishing ¡wheat ¡data ¡with ¡respect ¡to ¡
- pen ¡standards ¡
- INRA ¡Linked ¡Open ¡Vocabularies, ¡LovInra ¡
– publish ¡vocabularies ¡produced ¡or ¡co-‑produced ¡by ¡ INRA ¡scien-sts ¡and ¡foster ¡their ¡reuse ¡beyond ¡the ¡
- riginal ¡researchers ¡
- The ¡Crop ¡Ontology ¡project ¡
– publishes ¡ontologies ¡required ¡for ¡describing ¡crop ¡ germplasm, ¡traits ¡and ¡evalua-on ¡trials. ¡
41 ¡
Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡
Each ¡use ¡case ¡has ¡a ¡specific ¡group ¡in ¡AgroPortal ¡
- Feature ¡newly ¡available: ¡slices ¡
– Specific ¡“entry” ¡in ¡the ¡AgroPortal ¡
42 ¡
AgroLD ¡
¡The ¡Agronomic Linked Data project
Aravind ¡Venkatensan, ¡ Gildas ¡Tagny, ¡ Nordine ¡El ¡Hassouni, ¡ Manuel ¡Ruiz, ¡ ¡Pierre ¡Larmande ¡ ¡
Agronomic Linked Data (AgroLD)
- Semantic web based system that integrates data from
South Green Bioinformatics node
- Aim:
- Capability to answer complex real life questions
- Efficient information integration / retrieval.
- Easy extensibility.
- Aid in holistic understanding of domain
AgroLD
- AgroLD will be developed in phases –
- Website: www.agrold.org
- Phase I: includes data on:
- Rice (Oryza spp).
- Oryza barthi
- Oryza brachyantha
- Oryza Sativa
- Oryza glaberimma
- Arabidopsis thaliana
- Sorghum (Sorghum bicolor)
- Maize/Corn (Zea mays)
- Wheat
- Triticum astivum
- Triticum urartu
Data ¡sources ¡in ¡AgroLD ¡
Ontologies ¡in ¡AgroLD ¡
Knowledge in AgroLD
AgroLD ¡ Ontologies ¡
Biological process Cellular Component Molecular Function
Interaction
Gene ¡ Taxon
Protein ¡ protein ¡
Modification
Pathway
has_par7cipant ¡ contains ¡ has_func7on ¡ has_agent ¡ acts_on ¡ is_member_of ¡ codes_for ¡
- c
c u r s _ i n ¡ has_source ¡
protein ¡
Target Gene
Knowledge representation in AgroLD
www.agrold.org
Search ¡and ¡browse ¡AgroLD ¡
Plant ¡height ¡
Sparql ¡query ¡editor ¡
Results ¡are ¡annotated ¡with ¡evidence_code ¡ ¡
hlp://geneontology.org/page/guide-‑go-‑evidence-‑codes ¡
Visualisa7on ¡of ¡queries ¡
Web ¡Services ¡API ¡
From ¡Gildas ¡Tagny, ¡M2 ¡internship ¡ ¡
Web ¡Services ¡API ¡ ¡
Advanced ¡form-‑based ¡search ¡
Results ¡are ¡combined ¡with ¡external ¡services ¡ ¡
Galaxy ¡Wrapper ¡available ¡for ¡AgroLD ¡
From ¡Gildas ¡Tagny, ¡M2 ¡internship ¡ ¡
FUTURE ¡DIRECTIONS ¡
Exposing ¡the ¡French ¡agronomic ¡resources ¡as ¡Linked ¡Data ¡
IFB ¡-‑ ¡2015 ¡– ¡Plant ¡node ¡
Future directions
- Phase II: having both wider and deeper coverage to promote
comparative analysis
- Include varied data types – gene expression data, protein-protein
interaction, Transcription factor- target gene
- Developing methods to aid the process of hypotheses generation - e.g.
inference rules.
- Query translation – natural language query translation.
- Engage with biologists to mobilise ‘user-pull’:
- Develop real world use cases – studying the molecular mechanism
- f panicle differentiation in rice
Evalua7on ¡of ¡SPARQL ¡query ¡genera7on ¡from ¡natural ¡ language ¡ques7ons ¡ ¡ ¡
From ¡Imene ¡Chentli, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Dr ¡Konstan-n ¡Todorov ¡ ¡
Evalua7on ¡of ¡SPARQL ¡query ¡genera7on ¡from ¡natural ¡ language ¡ques7ons ¡
From ¡Imene ¡Chentli, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Dr ¡Konstan-n ¡Todorov ¡ ¡
Evalua7on ¡of ¡SPARQL ¡query ¡genera7on ¡from ¡natural ¡ language ¡ques7ons ¡
From ¡Imene ¡Chentli, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Jim-‑Dong ¡Kim ¡ ¡
Evalua7on ¡of ¡SPARQL ¡query ¡genera7on ¡from ¡natural ¡ language ¡ques7ons ¡
From ¡Imene ¡Chentli, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Dr ¡Konstan-n ¡Todorov ¡ ¡
Using ¡NLP ¡to ¡extract ¡informa7on ¡or ¡rela7onship ¡between ¡ biological ¡objects ¡
- Comment’s ¡literal ¡from ¡protein ¡URI ¡(source:uniprot) ¡ ¡
- Knowledge ¡extrac-on ¡from ¡publica-ons ¡
Benchmarking ¡triplestores ¡
From ¡Luyen ¡Le ¡Ngoc, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Anne ¡Tireau ¡ Loading ¡ Query ¡ Query ¡Union ¡ Inference ¡
Acknowledgements ¡
Elizabeth ¡Arnaud, ¡ ¡ Leo ¡ValeFe, ¡ ¡ Marie-‑Angelique ¡Laporte, ¡ ¡ Julian ¡Pietragalla ¡ Valen7n ¡Guignon ¡ Manuel ¡Ruiz, ¡ Nordine ¡El ¡Hassouni ¡ Aravind ¡Venkatesan, ¡ Gildas ¡Tagny ¡ Imene ¡Chentli ¡ Luyen ¡Le ¡Ngoc ¡ Esther ¡Dzalé-‑Yeumo, ¡ Cyril ¡Pommier ¡ Anne ¡Tireau ¡ Pascal ¡Neveu ¡ Patrick ¡Valduriez ¡ Clement ¡Jonquet ¡ Konstan7n ¡Todorov ¡ Pierre ¡Larmande ¡ Contact: ¡pierre.larmande@ird.fr ¡