Part ¡1: ¡Knowledge ¡Graphs Part ¡2: ¡ Part ¡3: Knowledge ¡ Graph ¡ Extraction Construction Part ¡4: ¡Critical ¡Analysis 1
Tutorial ¡Outline 1. Knowledge ¡Graph ¡Primer ¡ [Jay] 2. ¡ Knowledge ¡Extraction ¡from ¡Text a. NLP ¡Fundamentals ¡ [Sameer] b. Information ¡Extraction ¡ [Bhavana] Coffee ¡Break 3. Knowledge ¡Graph ¡Construction a. Probabilistic ¡Models ¡ [Jay] b. Embedding ¡Techniques [Sameer] 4. Critical ¡Overview ¡and ¡Conclusion ¡ [Bhavana] 2
John was born in Liverpool, to Julia and Alfred Lennon. Text NLP Lennon.. Mrs. ¡Lennon.. his ¡father the ¡Pool John ¡Lennon... .. ¡his ¡mother ¡.. Alfred he Person Location Person Person John was born in Liverpool, to Julia and Alfred Lennon. Annotated ¡text NNP VBD VBD IN NNP TO NNP CC NNP NNP Extraction ¡graph Information Alfred ¡ Extraction Lennon childOf birthplace John ¡ Liverpool Lennon Julia ¡ childOf Lennon 3
Information ¡Extraction 3 ¡ 3 ¡IM IMPORTANT ¡S ¡SUB-‑ -‑PR PROBLEMS CATEGORIES ¡OF ¡IE ¡TECHNIQUES KNOWLEDGE ¡FUSION ¡ IE ¡SYSTEMS ¡IN ¡PRACTICE 4
Information ¡Extraction 3 ¡LEVELS ¡OF ¡SUPERVISION 3 ¡CONCRETE ¡SUB-‑PROBLEMS Supervised Defining ¡domain Learning ¡extractors ¡ Semi-‑supervised Scoring ¡the ¡facts Unsupervised 5
Information ¡Extraction 3 ¡LEVELS ¡OF ¡SUPERVISION 3 ¡CONCRETE ¡SUB-‑PROBLEMS Supervised Defining ¡domain Semi-‑supervised Learning ¡extractors ¡ Scoring ¡the ¡facts Unsupervised 6
Defining ¡Domain: ¡Manual Everything Food Animals Subset Disjoint Mammals Reptiles Vegetables Fruits [Toward an Architecture for Never-Ending Language Learning , Carlson et al. AAAI 2010] 7
Defining ¡Domain: ¡Manual • Highly ¡semantic ¡ ontology • Leads ¡to ¡high ¡ precision ¡ extractions Everything • Expensive ¡to ¡create • Requires ¡domain ¡ experts Animal-‑eats-‑Food Food Animals Mammals Reptiles Vegetables Fruits [Toward an Architecture for Never-Ending Language Learning, Carlson et al. AAAI 2010] 8
Defining ¡Domain: ¡Semi-‑automatic • Subset ¡of ¡types ¡are ¡ • SSL ¡methods ¡discover ¡ manually ¡defined new ¡types ¡from ¡unlabeled ¡ data Everything Everything Food Animals Food Animals Location Vegetables Mammals Reptiles Fruits Mammals Reptiles Fruits Vegetables Beverages Country City [ Exploratory ¡Learning , Dalvi ¡et ¡al., ¡ECML ¡2013 ] ¡ ¡ ¡ 9 [ Hierarchical ¡Semi-‑supervised ¡Classification ¡with ¡Incomplete ¡Class ¡Hierarchies, ¡Dalvi ¡et ¡al., ¡WSDM ¡2016 ]
Defining ¡Domain: ¡Semi-‑automatic • Assume: ¡Types ¡and ¡type ¡hierarchy ¡is ¡manually ¡defined E.g. ¡River, ¡City, ¡Food, ¡Chemical, ¡Disease, ¡Bacteria • Easier ¡to ¡derive ¡ types ¡using ¡ • Relations ¡are ¡automatically ¡discovered ¡ existing ¡resources using ¡clustering ¡methods • Relations ¡are ¡ discovered ¡from ¡ Discovered ¡ Patterns Seed ¡instances relation the ¡corpus River “in ¡heart ¡of” “Seine, ¡Paris”, ¡“Nile, ¡Cairo” • Leads ¡to ¡ -‑in ¡heart ¡of-‑ “in ¡the ¡center ¡of” “Tiber ¡river, ¡Rome” moderate ¡ City “which ¡flows ¡through” “River ¡arno, ¡Florence” precision ¡ Food “to ¡produce” “Salt, ¡Chlorine” extractions -‑to ¡produce-‑ “to ¡make” “Sugar, ¡Carbon ¡dioxide” • Partially ¡semantic ¡ Chemical “to ¡form” “Protein ¡, ¡Serotonin” ontology Disease “caused ¡by” “pneumonia, ¡legionella” -‑caused ¡by-‑ “is ¡the ¡causative ¡agent ¡of” “mastitis, ¡staphylococcus ¡aureus” Bacteria “is ¡the ¡cause ¡of” “gonorrhea, ¡neisseria gonorrhoeae” [ Discovering ¡Relations ¡between ¡Noun ¡Categories, Mohamed ¡et ¡al., ¡EMNLP ¡2011 ] 10
Defining ¡Domain: ¡Automatic • Cheapest ¡way ¡to ¡ induce ¡types/ ¡ • Any ¡noun ¡phrase ¡is ¡a ¡candidate ¡entity relations ¡from ¡corpus • Little ¡expert ¡ • Any ¡verb ¡phrase ¡is ¡a ¡candidate ¡relation annotations ¡needed • Limited ¡semantics • Leads ¡to ¡noisy ¡ extractions [ Open ¡Information ¡Extraction ¡from ¡the ¡Web , Banko et ¡al., ¡IJCAI ¡2007 ] 11
Information ¡Extraction 3 ¡LEVELS ¡OF ¡SUPERVISION 3 ¡CONCRETE ¡SUB-‑PROBLEMS Supervised Defining ¡domain Learning ¡extractors ¡ Semi-‑supervised Scoring ¡candidate ¡facts Unsupervised 12
Information ¡Extraction 3 ¡LEVELS ¡OF ¡SUPERVISION 3 ¡CONCRETE ¡SUB-‑PROBLEMS Supervised Defining ¡domain Learning ¡extractors ¡ Semi-‑supervised Scoring ¡candidate ¡facts Unsupervised 13
Learning ¡Extractors: ¡ Manual • Human ¡defined ¡high-‑precision ¡extraction ¡patterns ¡for ¡each ¡relation Person-‑member ¡of-‑Band <PERSON> ¡works ¡for ¡<BAND> <PERSON> ¡is ¡part ¡of ¡<BAND> Extract ¡relation ¡instances (John ¡Lennon, ¡The ¡Beatles) (Brian ¡Jones, ¡The ¡Rolling ¡Stones) 14
Information ¡Extraction 3 ¡LEVELS ¡OF ¡SUPERVISION 3 ¡CONCRETE ¡SUB-‑PROBLEMS Supervised Defining ¡domain Learning ¡extractors ¡ Semi-‑supervised Scoring ¡candidate ¡facts Unsupervised 15
Learning ¡Extractors: ¡ Semi-‑supervised Bootstrapping Apply ¡patterns ¡in ¡P ¡to ¡extract ¡ more ¡relation ¡instances Seed ¡ instances Set ¡of ¡relation ¡ Set ¡of ¡extraction ¡ instances ¡(I) patterns ¡(P) Extract ¡patterns ¡that ¡occur ¡ around ¡relation ¡instances ¡in ¡I 16
Learning ¡Extractors: ¡ Semi-‑supervised Person-‑member ¡of-‑Band Seed ¡instances Add ¡top-‑k Relation ¡instances Candidate ¡facts instances (John ¡Lennon, ¡Beatles) (Ringo ¡Starr, ¡The ¡Beatles) (Brian ¡Jones, ¡The ¡Rolling ¡Stones) (Nick ¡Mason, ¡Pink ¡Floyd) Learn ¡patterns <PERSON> ¡works ¡for ¡<BAND> Apply ¡patterns <PERSON> ¡is ¡part ¡of ¡<BAND> <BAND> ¡includes ¡<PERSON> <BAND> ¡was ¡admired ¡by ¡<PERSON> Semantic ¡Drift! [Toward an Architecture for Never-Ending Language Learning , Carlson et al. AAAI 2010] 17
Learning ¡Extractors ¡: ¡ Interactive Person-‑member ¡of-‑Band Seed ¡instances Positive ¡ Relation ¡instances Candidate ¡facts instances (John ¡Lennon, ¡Beatles) (Nick ¡Mason, ¡Pink ¡Floyd) + (Brian ¡Jones, ¡The ¡Rolling ¡Stones) -‑ (Allen ¡Klein, ¡The ¡Beatles) Learn ¡patterns + <PERSON> ¡works ¡for ¡<BAND> + <PERSON> ¡is ¡part ¡of ¡<BAND> Apply ¡correct ¡ <BAND> ¡was ¡invited ¡by ¡<PERSON> -‑ patterns <BAND>’s ¡manager ¡<PERSON> -‑ Helps ¡reduce ¡ semantic ¡drift! [ Open ¡information ¡extraction ¡to ¡KBP ¡relations ¡in ¡3 ¡hours , ¡Soderland et ¡al., ¡TAC ¡KBP ¡2013 ] 18
Information ¡Extraction 3 ¡LEVELS ¡OF ¡SUPERVISION 3 ¡CONCRETE ¡SUB-‑PROBLEMS Supervised Defining ¡domain Learning ¡extractors ¡ Semi-‑supervised Scoring ¡candidate ¡facts Unsupervised 19
Learning ¡Extractors ¡: ¡ Unsupervised •Identify ¡candidate ¡relations: for ¡each ¡verb ¡find ¡the ¡longest ¡sequence ¡of ¡words ¡ s.t. syntactic ¡and ¡lexical ¡constraints ¡are ¡satisfied ¡ •Identify ¡arguments ¡for ¡each ¡relation: For ¡each ¡identified ¡relation ¡phrase ¡r, ¡ find ¡the ¡closest ¡noun-‑phrases ¡on ¡the ¡left ¡and ¡right ¡of ¡r satisfying ¡certain ¡syntactic ¡constraints Syntactic ¡constraint Lexical ¡constraint Regular ¡expressions ¡of ¡POS ¡tags |distinct ¡arguments| ¡ a ¡relation ¡phrase ¡takes ¡ [ Identifying ¡Relations ¡for ¡Open ¡Information ¡Extraction, ¡Fader ¡et ¡al. , ¡EMNLP ¡2011 ] 20
Learning ¡Extractors ¡: ¡ Unsupervised Hudson ¡was ¡born ¡in ¡Hampstead, ¡which ¡is ¡a ¡suburb ¡of ¡London. e1: ¡(Hudson, ¡was ¡born ¡in, ¡Hampstead) ¡ e2: ¡(Hampstead, ¡is ¡a ¡suburb ¡of, ¡London) [ Identifying ¡Relations ¡for ¡Open ¡Information ¡Extraction, ¡Fader ¡et ¡al. , ¡EMNLP ¡2011 ] 21
Information ¡Extraction 3 ¡LEVELS ¡OF ¡SUPERVISION 3 ¡CONCRETE ¡SUB-‑PROBLEMS Supervised Defining ¡domain Learning ¡extractors ¡ Semi-‑supervised Scoring ¡candidate ¡facts Unsupervised 22
Recommend
More recommend