Part ¡1: ¡Knowledge ¡Graphs Part ¡2: ¡ Part ¡3: Knowledge ¡ Graph ¡ Extraction Construction Part ¡4: ¡Critical ¡Analysis 1
Tutorial ¡Outline 1. Knowledge ¡Graph ¡Primer ¡ [Jay] 2. ¡ Knowledge ¡Extraction ¡from ¡Text a. NLP ¡Fundamentals ¡ [Sameer] b. Information ¡Extraction ¡ [Bhavana] Coffee ¡Break 3. Knowledge ¡Graph ¡Construction a. Probabilistic ¡Models ¡ [Jay] b. Embedding ¡Techniques [Sameer] 4. Critical ¡Overview ¡and ¡Conclusion ¡ [Bhavana] 2
Critical Overview SUMMARY ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ SUCCESS ¡STORIES ¡ ¡ ¡ ¡ ¡ ¡ ¡ DATASETS, ¡TASKS, ¡SOFTWARES ¡ ¡ ¡ EXCITING ¡ACTIVE ¡RESEARCH ¡ ¡ ¡ ¡ FUTURE ¡RESEARCH ¡DIRECTIONS ¡ ¡ ¡ ¡ 3
Critical Overview SU SUMMAR ARY SUCCESS ¡STORIES DATASETS, ¡TASKS, ¡SOFTWARES EXCITING ¡ACTIVE ¡RESEARCH FUTURE ¡RESEARCH ¡DIRECTIONS 4
Why ¡do ¡we ¡need ¡Knowledge ¡graphs? •Humans ¡can ¡explore ¡large ¡database ¡in ¡intuitive ¡ ways •AI ¡agents ¡get ¡access ¡to ¡human ¡common ¡sense ¡ knowledge 5
Knowledge ¡graph ¡construction A 1 E 1 A 2 • Who ¡ are ¡the ¡entities ¡ (nodes) ¡in ¡the ¡graph? • What are ¡their ¡attributes ¡ E 2 and ¡types ¡(labels)? A 1 A 2 • How ¡ are ¡they ¡related ¡ E 3 (edges)? A 1 A 2 6
Knowledge ¡Graph ¡Construction Extraction Knowledge Knowledge ¡ Graph ¡ graph Text Extraction graph Construction 7
Two ¡perspectives Extraction ¡graph Knowledge ¡graph Who ¡are ¡the ¡entities? ¡ (nodes) What are ¡their ¡ attributes? ¡(labels) How ¡are ¡they ¡related? ¡ (edges) 8
Two ¡perspectives Extraction ¡graph Knowledge ¡graph Who ¡are ¡the ¡entities? ¡ Named ¡Entity ¡ Entity ¡Linking • • (nodes) Recognition Entity ¡Resolution • Entity ¡Coreference • What are ¡their ¡ Entity ¡Typing Collective ¡ • • attributes? ¡(labels) classification How ¡are ¡they ¡related? ¡ Semantic ¡role ¡ Link ¡prediction • • (edges) labeling Relation ¡Extraction • 9
Knowledge ¡Extraction John was born in Liverpool, to Julia and Alfred Lennon. Text NLP Lennon.. Mrs. ¡Lennon.. his ¡father the ¡Pool John ¡Lennon... .. ¡his ¡mother ¡.. Alfred he Location Person Person Person John was born in Liverpool, to Julia and Alfred Lennon. Annotated ¡text NNP VBD VBD IN NNP TO NNP CC NNP NNP Extraction ¡graph Information Alfred ¡ Extraction Lennon childOf birthplace John ¡ Liverpool Lennon Julia ¡ childOf Lennon 10
NLP Document Lennon.. Mrs. ¡Lennon.. his ¡father the ¡Pool Within-‑doc ¡Coreference... John ¡Lennon... .. ¡his ¡mother ¡.. Alfred he Location Person Person Person John was born in Liverpool, to Julia and Alfred Lennon. Sentence Dependency ¡Parsing, Part ¡of ¡speech ¡tagging, Named ¡entity ¡recognition… NNP VBD VBD IN NNP TO NNP CC NNP NNP John was born in Liverpool, to Julia and Alfred Lennon.
NLP ¡annotations ¡ à features ¡for ¡IE Combine ¡tokens, ¡dependency ¡paths, ¡and ¡entity ¡types ¡to ¡define ¡rules. appos nmod case det , DT CEO of Argument ¡1 Argument ¡2 Person Organization Bill ¡Gates, ¡the ¡CEO ¡of ¡Microsoft, ¡said ¡… Mr. ¡Jobs, ¡the ¡brilliant ¡and ¡charming ¡CEO ¡of ¡Apple ¡Inc., ¡said ¡… … announced ¡by ¡Steve ¡Jobs, ¡the ¡CEO ¡of ¡Apple. … announced ¡by ¡Bill ¡Gates, ¡the ¡director ¡and ¡CEO ¡of ¡Microsoft. … mused ¡Bill, ¡a ¡former ¡CEO ¡of ¡Microsoft. and ¡many ¡other ¡possible ¡instantiations… 12
Information ¡Extraction Single ¡extractor Supervised Defining ¡domain Learning ¡extractors ¡ Semi-‑supervised Scoring ¡candidate ¡facts Unsupervised Fusing ¡multiple ¡extractors 13
IE ¡systems ¡in ¡practice Defining ¡ Learning Scoring Fusing ¡ domain extractors candidate ¡ extractors facts ConceptNet NELL Heuristic ¡rules Knowledge ¡ Classifier Vault OpenIE 14
Knowledge ¡Graph ¡Construction Part ¡2: ¡ Extraction Part ¡3: Knowledge Knowledge ¡ graph Graph ¡ Text graph Extraction Construction 15
Issues ¡with ¡Extraction ¡Graph Extracted ¡knowledge ¡could ¡be: • ambiguous • incomplete • inconsistent 16
Two approaches for KG construction PROBABILISTIC ¡MODELS EMBEDDING ¡BASED ¡MODELS 17
Two approaches for KG construction PR PROBABILISTIC ¡ ¡MODELS EMBEDDING ¡BASED ¡MODELS 18
Two ¡classes ¡of ¡Probabilistic ¡Models GRAPHICAL ¡MODEL ¡BASED ¡ RANDOM ¡WALK ¡BASED ◦ Possible ¡facts ¡in ¡KG ¡are ¡ ◦ Possible ¡facts ¡posed ¡as ¡ variables queries ◦ Logical ¡rules ¡relate ¡facts ◦ Random ¡walks ¡of ¡the ¡KG ¡ constitute ¡“proofs” ◦ Probability ¡ ¡ ¡ ¡ ¡ ¡ ¡path ¡ ◦ Probability ¡ ¡ ¡ ¡ ¡ ¡ ¡satisfied ¡ lengths/transitions rules ◦ Local ¡grounding ◦ Universal-‑quantification 19
Two approaches for KG construction PROBABILISTIC ¡MODELS EM EMBED EDDING ¡ ¡BAS ASED ED ¡ ¡MODEL ELS 20
Why ¡embeddings? Limitations ¡of ¡ probabilistic ¡models Embedding ¡ based ¡models Limitation ¡to ¡Logical ¡Relations Representation ¡restricted ¡by ¡manual ¡design • Everything ¡as ¡dense ¡vectors • Clustering? ¡Asymmetric ¡implications? • Captures ¡many ¡relations • Information ¡flows ¡through ¡these ¡relations • Learned ¡from ¡data • Difficult ¡to ¡generalize ¡to ¡unseen ¡entities/relations • Can ¡generalize ¡to ¡unseen ¡ • entities ¡and ¡relations Computational ¡Complexity ¡of ¡Algorithms Efficient ¡inference ¡at ¡large ¡ • scale Learning ¡is ¡NP-‑Hard, ¡difficult ¡to ¡approximate Learning ¡using ¡stochastic ¡ • • Query-‑time ¡inference ¡is ¡also ¡NP-‑Hard gradient, ¡back-‑propagation • Not ¡easy ¡to ¡parallelize, ¡or ¡use ¡GPUs Querying ¡is ¡often ¡cheap • • Scalability ¡is ¡badly ¡affected ¡by ¡representation GPU-‑parallelism ¡friendly • •
Matrix ¡vs ¡Tensor ¡Factorization No encoding of type information Assume low-rank for pairs • • Can only predict for entity pairs that But many relations are not! • • appear in text together Spouse: you can have only ~1 • Sufficient evidence has to be seen Cannot learn pair specific information • • for each entity pair
Relation ¡Embeddings 23
Part ¡1: ¡Knowledge ¡Graphs Part ¡2: ¡ Part ¡3: Knowledge ¡ Graph ¡ Extraction Construction 24
Critical Overview SUMMARY SU SUCCESS ¡ SS ¡STORI RIES DATASETS, ¡TASKS, ¡SOFTWARES EXCITING ¡ACTIVE ¡RESEARCH FUTURE ¡RESEARCH ¡DIRECTIONS 25
Success ¡story: ¡OpenIE • Key ¡contributions: ¡ • No ¡need ¡for ¡human ¡defined ¡relation ¡schemas • First ¡ever ¡successful ¡open-‑source ¡open ¡domain ¡IE ¡system • ReVerb • Input ¡= ¡Clueweb09 ¡corpus (1B ¡web ¡pages) • Output ¡= ¡15M ¡high-‑precision ¡extractions 26
Success ¡story: ¡OpenIE ¡(ReVerb) openie.allenai.org 27
Recommend
More recommend