Enabling knowledge management in the Agronomic Domain - - PowerPoint PPT Presentation

enabling knowledge management in the agronomic domain
SMART_READER_LITE
LIVE PREVIEW

Enabling knowledge management in the Agronomic Domain - - PowerPoint PPT Presentation

Enabling knowledge management in the Agronomic Domain Pierre Larmande Ins-tute of Research for Development (IRD) Head of data integra-on group at the


slide-1
SLIDE 1

Enabling ¡knowledge ¡management ¡ in ¡the ¡Agronomic ¡Domain ¡ ¡

Pierre ¡Larmande ¡ Ins-tute ¡of ¡Research ¡for ¡Development ¡(IRD) ¡ Head ¡of ¡data ¡integra-on ¡group ¡at ¡the ¡Ins-tute ¡of ¡ Computa-onal ¡Biology ¡ pierre.larmande@ird.fr ¡ ¡

slide-2
SLIDE 2

Research project « from data to biological knowledge » Five complementary fields of research (WP1 HTS): methods for high-throughput sequencing analysis (WP2 Evolution): scaling-up evolutionnary analyses (WP3 Annotation): structural and functional annotation of proteomes (WP4 Imaging): integrating cell and tissue imaging with Omics data (WP5 Databases): integrating biological data and knowledge Fundamental research

slide-3
SLIDE 3

Mul7-­‑scale ¡omics ¡integra7on ¡

Research ¡areas ¡

Workflow ¡management ¡ Seman7c ¡web ¡

slide-4
SLIDE 4

Collabora-ve ¡network ¡of ¡bioinforma-cians ¡from ¡different ¡ ins-tutes ¡: ¡CIRAD, ¡IRD, ¡INRA ¡and ¡Bioversity ¡Interna7onal. ¡ Montpellier ¡

hFp://southgreen.cirad.fr/ ¡

slide-5
SLIDE 5
slide-6
SLIDE 6

Outline

  • Data integration challenges in the Life Sciences
  • Ontologies/ Semantic Web Technologies
  • AgroPortal project
  • Agronomic Linked Data project
slide-7
SLIDE 7

Data landscape in the Life Sciences

  • The availability of biological data has increased
  • Advancements in:
  • computational biology
  • genome sequencing
  • high-throughput technologies
  • Integrative approaches are necessary to understand

the functioning of biological systems

Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-8
SLIDE 8

Gene7c ¡and ¡physical ¡maps, ¡QTL ¡ ¡ Genotyping ¡studies ¡ ¡ ¡ ¡ Genomic ¡annota7ons ¡ A ¡ E ¡ C ¡ D ¡ B ¡ Gene7c ¡ressources ¡ Geographic ¡data ¡ Compara7ve ¡genomics ¡ ¡

Markers ¡

Analysis ¡ Workflows ¡ Phenotypes ¡ ¡

Individuals ¡

large ¡genome ¡resequencing ¡ ¡ high-­‑throughput ¡phenotyping ¡

Courtesy ¡of ¡Dr. ¡M. ¡Ruiz ¡

slide-9
SLIDE 9
  • Lack of effective approaches to integrate data that

has created a gap between data and knowledge

  • Need for an effective method to bridge gap between

data and underlying meaning

  • Harvest the power of 

  • verlaying different data sets

Data integration challenges

Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-10
SLIDE 10
  • Today’s Web content is suitable for human consumption
  • Collection of documents
  • the existence of links that establish connections

between documents

  • Low on data interoperability and lacks semantics.

Today’s Web

Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-11
SLIDE 11
  • Drastic increase in data production.
  • Standardization needed to manage and use these

data

  • Mainly used XML for standardizing data exchange.
  • SBML, CellML
  • Minimum Information for Biological and

Biomedical Investigations (MIBBI)

  • Investigation, Study, and Assay (ISA)

Standardization of data

Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-12
SLIDE 12
  • Ontologies are formal representations of knowledge - definitions of

concepts, their attributes and relations between them.

  • To integrate data, improve machine interoperability and data

analysis required a conceptual scaffold.

  • Ontological terms used across databases
  • provide cross-domain common entry points in the description.
  • An array of ontologies are being used to bring structured integration
  • f various datasets.
  • The Open Biomedical Ontologies (OBO) initiative:
  • serves as an umbrella

for well structured orthogonal

  • ntologies.
  • Ontologies represented in OBO format and OWL

Ontologies

Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-13
SLIDE 13

Crop Ontology

  • Is ¡an ¡applica-on ¡
  • ntology ¡for ¡fielbooks ¡

and ¡breeding ¡databases ¡ & ¡repositories ¡

  • A ¡visualiza-on ¡tool ¡

suppor-ng ¡cura-on ¡of ¡ trait ¡lists ¡by ¡a ¡distributed ¡ community ¡

  • A ¡discussion ¡Forum ¡

cropontology.org ¡ Courtesy ¡of ¡Elizabeth ¡Arnaud ¡

slide-14
SLIDE 14

Semantic Web Technology

  • An extension of the current Web technologies.
  • Enables navigation and meaningful use of digital

resources.

  • Support aggregation and integration of information

from diverse sources.

  • Based on common and standard formats.

Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-15
SLIDE 15

Resource Description Framework (RDF)

  • Framework for representing information about resources
  • n the Web
  • Provides a labeled connection between two resources
  • Uses Unique Resource Identifiers (URI)
  • Statements take the form of triples:

Subject ¡

Predicate ¡

Object ¡ <Gene_A> ¡ <codes_for> ¡ <Protein_A> ¡ RDF ¡Triple ¡ Courtesy ¡of ¡Dr ¡Aravind ¡ Venkatesan ¡

slide-16
SLIDE 16
  • Combining the triples results in a directed, labeled

graph.

<Gene_A> ¡ <Protein_A> ¡ <has_func7on> ¡ <BP_A> ¡ <MF_A> ¡ <Gene_X> ¡ <regulates> ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-17
SLIDE 17
  • Can be joined with other graphs.
  • Connected using shared URIs.

<Gene_A> ¡ <Protein_A> ¡ has_func7on ¡ <BP_A> ¡ <MF_A> ¡ <Gene_X> ¡ regulates ¡ <Protein_X> ¡ h a s _ S N P ¡ <Disease_X> ¡ <SNP_X> ¡ influences ¡ Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-18
SLIDE 18

SPARQL

  • Language which allows querying RDF models (graphs)
  • Powerful, flexible
  • Its syntax is similar to the one of SQL

Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-19
SLIDE 19

Matching Triples

Courtesy ¡of ¡Dr ¡Aravind ¡Venkatesan ¡

slide-20
SLIDE 20

Semantic Web meets Systems Biology

  • The Semantic Web has gained steady acceptance among the

life science community.

  • BioPortal, Bio2RDF, for biomedical
  • The RDF data model complements systems biology – linking

varied information sources

  • RDF suggested as a data representation format over XML*.
  • Data represented in XML are based on a schema,

extensibility limitations.

  • XML lack the semantic expression in the describing data

sets.

  • SPARQL - address questions that were unapproachable at the

time the information were produced.

*Wang ¡et ¡al., ¡Nature ¡Biotechnology, ¡2005 ¡

slide-21
SLIDE 21

Rice Integrated Approach ¡

The Panicle Structure case ¡

slide-22
SLIDE 22

Stefan Jouannic & Helen Adam ¡

slide-23
SLIDE 23

Genome Structure 'vs' Panicle Structure ¡

Stefan Jouannic & Helen Adam ¡

slide-24
SLIDE 24

GRiSP ¡

3,000 ¡genomes ¡ 70 ¡Tbytes ¡

¡ Data integration Phenotyping ¡

Dozen ¡of ¡Tbytes ¡

Modelling ¡ Databases ¡and ¡knowledge ¡ ARCAD ¡ Expression ¡data ¡

Genome Structure 'vs' Panicle Structure ¡

Bioinforma-cs ¡ Big ¡Data ¡

slide-25
SLIDE 25

GRiSP ¡

3,000 ¡genomes ¡ 70 ¡Tbytes ¡

¡ Data integration Phenotyping ¡

Dozen ¡of ¡Tbytes ¡

Modelling ¡ Databases ¡and ¡knowledge ¡ ARCAD ¡ Expression ¡data ¡

Genome Structure 'vs' Panicle Structure ¡

Bioinforma-cs ¡ Big ¡Data ¡ Workflows ¡

slide-26
SLIDE 26

GRiSP ¡

3,000 ¡genomes ¡ 70 ¡Tbytes ¡

¡ Data integration Phenotyping ¡

Dozen ¡of ¡Mbytes ¡

Modelling ¡ Databases ¡and ¡knowledge ¡ ARCAD ¡ Expression ¡data ¡

Genome Structure 'vs' Panicle Structure ¡

Bioinforma-cs ¡ Big ¡Data ¡ Workflows ¡ Mul7-­‑scale ¡integra7on ¡

slide-27
SLIDE 27

Multi-scale integration ¡

slide-28
SLIDE 28

Multi-scale integration

DB1 ¡ DB2 ¡ File ¡ Transforma-on ¡ Rdf ¡store ¡ Annota-on ¡ Visualisa-on ¡ Query ¡ formula-on ¡ Extrac-on ¡ Load ¡ AgroPortal ¡ AgroLD ¡ R2RML ¡– ¡xR2RML ¡ D2RQ ¡ Karma, ¡OpenRefine, ¡ Talend, ¡Python ¡

slide-29
SLIDE 29

AgroPortal ¡ ¡a ¡proposi:on ¡for ¡ontology-­‑based ¡

services ¡in ¡the ¡agronomic ¡domain ¡

Clément ¡Jonquet, ¡ ¡ Esther ¡Dzalé-­‑Yeumo, ¡ ¡Elizabeth ¡Arnaud, ¡ ¡Pierre ¡Larmande ¡ ¡

slide-30
SLIDE 30

Objec7ves ¡of ¡AgroPortal ¡project ¡

  • Develop ¡and ¡support ¡a ¡reference ¡ontology ¡repository ¡

for ¡the ¡agronomic ¡domain ¡

– One-­‑stop-­‑shop ¡for ¡plant/agronomic ¡related ¡ontologies ¡ ¡ – Primary ¡focus ¡on ¡the ¡agronomic ¡& ¡plant ¡domain ¡

  • Reusing ¡the ¡NCBO ¡BioPortal ¡technology ¡

– Avoid ¡to ¡re-­‑implement ¡what ¡has ¡been ¡done ¡ – Facilitate ¡interoperability ¡ – Reusing ¡the ¡scien-fic ¡outcomes, ¡experience ¡& ¡methods ¡

  • f ¡the ¡biomedical ¡domain ¡ ¡
  • Enable ¡straighdorward ¡use ¡of ¡agronomic ¡related ¡
  • ntologies ¡

– Respect ¡the ¡requirements ¡of ¡the ¡agronomic ¡community ¡ ¡ – Fully ¡seman-c ¡web ¡compliant ¡infrastructure ¡

30 ¡

Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡

slide-31
SLIDE 31

31 ¡

Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡

slide-32
SLIDE 32

32 ¡

Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡

slide-33
SLIDE 33

Available ¡ontologies ¡

  • Already ¡29 ¡ontologies… ¡and ¡we ¡expect ¡around ¡40 ¡soon. ¡

– (half ¡are ¡not ¡included ¡in ¡the ¡NCBO ¡BioPortal) ¡

  • Ontologies ¡are ¡organized ¡in ¡Groups ¡and ¡Categories ¡

33 ¡

Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡

slide-34
SLIDE 34

34 ¡

slide-35
SLIDE 35

35 ¡

slide-36
SLIDE 36

Recommender ¡

36 ¡

slide-37
SLIDE 37

Mappings ¡

37 ¡

slide-38
SLIDE 38

Community ¡based ¡func7onali7es ¡

Atelier ¡InOvive ¡2015 ¡– ¡Rennes ¡– ¡29 ¡juin ¡ 2015 ¡ 38 ¡

slide-39
SLIDE 39

REST ¡Web ¡Service ¡API: ¡

hlp://data.agroportal.lirmm.fr/documenta-on ¡ ¡

Atelier ¡InOvive ¡2015 ¡– ¡Rennes ¡– ¡29 ¡juin ¡ 2015 ¡ 39 ¡

slide-40
SLIDE 40

SPARQL ¡endpoint: ¡

hlp://sparql.agroportal.lirmm.fr ¡ ¡

40 ¡

slide-41
SLIDE 41

4 ¡Driving ¡Agronomic ¡Use ¡Cases ¡

  • IBC ¡Rice ¡Genomics ¡

– data ¡integra-on ¡and ¡knowledge ¡management ¡ related ¡to ¡rice ¡

¡

  • RDA ¡Wheat ¡Data ¡Interoperability ¡working ¡group ¡

– common ¡framework ¡for ¡describing, ¡represen-ng, ¡ linking ¡and ¡publishing ¡wheat ¡data ¡with ¡respect ¡to ¡

  • pen ¡standards ¡
  • INRA ¡Linked ¡Open ¡Vocabularies, ¡LovInra ¡

– publish ¡vocabularies ¡produced ¡or ¡co-­‑produced ¡by ¡ INRA ¡scien-sts ¡and ¡foster ¡their ¡reuse ¡beyond ¡the ¡

  • riginal ¡researchers ¡
  • The ¡Crop ¡Ontology ¡project ¡

– publishes ¡ontologies ¡required ¡for ¡describing ¡crop ¡ germplasm, ¡traits ¡and ¡evalua-on ¡trials. ¡

41 ¡

Courtesy ¡of ¡Dr ¡Clement ¡Jonquet ¡

slide-42
SLIDE 42

Each ¡use ¡case ¡has ¡a ¡specific ¡group ¡in ¡AgroPortal ¡

  • Feature ¡newly ¡available: ¡slices ¡

– Specific ¡“entry” ¡in ¡the ¡AgroPortal ¡

42 ¡

slide-43
SLIDE 43

AgroLD ¡

¡The ¡Agronomic Linked Data project

Aravind ¡Venkatensan, ¡ Gildas ¡Tagny, ¡ Nordine ¡El ¡Hassouni, ¡ Manuel ¡Ruiz, ¡ ¡Pierre ¡Larmande ¡ ¡

slide-44
SLIDE 44

Agronomic Linked Data (AgroLD)

  • Semantic web based system that integrates data from

South Green Bioinformatics node

  • Aim:
  • Capability to answer complex real life questions
  • Efficient information integration / retrieval.
  • Easy extensibility.
  • Aid in holistic understanding of domain
slide-45
SLIDE 45

AgroLD

  • AgroLD will be developed in phases –
  • Website: www.agrold.org
  • Phase I: includes data on:
  • Rice (Oryza spp).
  • Oryza barthi
  • Oryza brachyantha
  • Oryza Sativa
  • Oryza glaberimma
  • Arabidopsis thaliana
  • Sorghum (Sorghum bicolor)
  • Maize/Corn (Zea mays)
  • Wheat
  • Triticum astivum
  • Triticum urartu
slide-46
SLIDE 46

Data ¡sources ¡in ¡AgroLD ¡

slide-47
SLIDE 47

Ontologies ¡in ¡AgroLD ¡

slide-48
SLIDE 48

Knowledge in AgroLD

AgroLD ¡ Ontologies ¡

slide-49
SLIDE 49

Biological process Cellular Component Molecular Function

Interaction

Gene ¡ Taxon

Protein ¡ protein ¡

Modification

Pathway

has_par7cipant ¡ contains ¡ has_func7on ¡ has_agent ¡ acts_on ¡ is_member_of ¡ codes_for ¡

  • c

c u r s _ i n ¡ has_source ¡

protein ¡

Target Gene

Knowledge representation in AgroLD

slide-50
SLIDE 50

www.agrold.org

slide-51
SLIDE 51

Search ¡and ¡browse ¡AgroLD ¡

Plant ¡height ¡

slide-52
SLIDE 52

Sparql ¡query ¡editor ¡

slide-53
SLIDE 53

Results ¡are ¡annotated ¡with ¡evidence_code ¡ ¡

hlp://geneontology.org/page/guide-­‑go-­‑evidence-­‑codes ¡

slide-54
SLIDE 54

Visualisa7on ¡of ¡queries ¡

slide-55
SLIDE 55

Web ¡Services ¡API ¡

From ¡Gildas ¡Tagny, ¡M2 ¡internship ¡ ¡

slide-56
SLIDE 56

Web ¡Services ¡API ¡ ¡

slide-57
SLIDE 57

Advanced ¡form-­‑based ¡search ¡

slide-58
SLIDE 58

Results ¡are ¡combined ¡with ¡external ¡services ¡ ¡

slide-59
SLIDE 59

Galaxy ¡Wrapper ¡available ¡for ¡AgroLD ¡

From ¡Gildas ¡Tagny, ¡M2 ¡internship ¡ ¡

slide-60
SLIDE 60

FUTURE ¡DIRECTIONS ¡

slide-61
SLIDE 61

Exposing ¡the ¡French ¡agronomic ¡resources ¡as ¡Linked ¡Data ¡

IFB ¡-­‑ ¡2015 ¡– ¡Plant ¡node ¡

slide-62
SLIDE 62

Future directions

  • Phase II: having both wider and deeper coverage to promote

comparative analysis

  • Include varied data types – gene expression data, protein-protein

interaction, Transcription factor- target gene

  • Developing methods to aid the process of hypotheses generation - e.g.

inference rules.

  • Query translation – natural language query translation.
  • Engage with biologists to mobilise ‘user-pull’:
  • Develop real world use cases – studying the molecular mechanism
  • f panicle differentiation in rice
slide-63
SLIDE 63

Evalua7on ¡of ¡SPARQL ¡query ¡genera7on ¡from ¡natural ¡ language ¡ques7ons ¡ ¡ ¡

From ¡Imene ¡Chentli, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Dr ¡Konstan-n ¡Todorov ¡ ¡

slide-64
SLIDE 64

Evalua7on ¡of ¡SPARQL ¡query ¡genera7on ¡from ¡natural ¡ language ¡ques7ons ¡

From ¡Imene ¡Chentli, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Dr ¡Konstan-n ¡Todorov ¡ ¡

slide-65
SLIDE 65

Evalua7on ¡of ¡SPARQL ¡query ¡genera7on ¡from ¡natural ¡ language ¡ques7ons ¡

From ¡Imene ¡Chentli, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Jim-­‑Dong ¡Kim ¡ ¡

slide-66
SLIDE 66

Evalua7on ¡of ¡SPARQL ¡query ¡genera7on ¡from ¡natural ¡ language ¡ques7ons ¡

From ¡Imene ¡Chentli, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Dr ¡Konstan-n ¡Todorov ¡ ¡

slide-67
SLIDE 67

Using ¡NLP ¡to ¡extract ¡informa7on ¡or ¡rela7onship ¡between ¡ biological ¡objects ¡

  • Comment’s ¡literal ¡from ¡protein ¡URI ¡(source:uniprot) ¡ ¡
  • Knowledge ¡extrac-on ¡from ¡publica-ons ¡
slide-68
SLIDE 68

Benchmarking ¡triplestores ¡

From ¡Luyen ¡Le ¡Ngoc, ¡M2 ¡internship ¡ Collabora-on ¡with ¡Anne ¡Tireau ¡ Loading ¡ Query ¡ Query ¡Union ¡ Inference ¡

slide-69
SLIDE 69

Acknowledgements ¡

Elizabeth ¡Arnaud, ¡ ¡ Leo ¡ValeFe, ¡ ¡ Marie-­‑Angelique ¡Laporte, ¡ ¡ Julian ¡Pietragalla ¡ Valen7n ¡Guignon ¡ Manuel ¡Ruiz, ¡ Nordine ¡El ¡Hassouni ¡ Aravind ¡Venkatesan, ¡ Gildas ¡Tagny ¡ Imene ¡Chentli ¡ Luyen ¡Le ¡Ngoc ¡ Esther ¡Dzalé-­‑Yeumo, ¡ Cyril ¡Pommier ¡ Anne ¡Tireau ¡ Pascal ¡Neveu ¡ Patrick ¡Valduriez ¡ Clement ¡Jonquet ¡ Konstan7n ¡Todorov ¡ Pierre ¡Larmande ¡ Contact: ¡pierre.larmande@ird.fr ¡