SYMPOSIUM ¡ON ¡BIAS ¡AND ¡ DIVERSITY ¡IN ¡IR ¡ ¡ A ¡TESTBED ¡FOR ¡DIVERSIFICATON ¡IN ¡SEARCH ¡ ¡ Koblenz, ¡August ¡31, ¡2011 ¡ Michael ¡Ma:hews, ¡Barcelona ¡Media/Yahoo! ¡Research ¡ 1 ¡
OVERVIEW ¡ • Introduc0on ¡to ¡LivingKnowledge ¡Testbed ¡ – ¡The ¡Diversity ¡Engine ¡ • GeAng ¡started ¡– ¡Our ¡first ¡applica0on! ¡ • Adding ¡text ¡analysis ¡ • Adding ¡mul0media ¡analysis ¡ • Evalua0on ¡ • Indexing ¡and ¡search ¡ • Developing ¡applica0ons ¡ • Future ¡work ¡ 2 ¡
DIVERSITY ¡ENGINE ¡ • Provide ¡collec0ons, ¡annota0on ¡tools ¡and ¡an ¡ evalua0on ¡framework ¡to ¡allow ¡for ¡ collabora0ve ¡and ¡comparable ¡research ¡ • Supports ¡indexing ¡and ¡searching ¡on ¡a ¡wide ¡ variety ¡of ¡document ¡annota0ons ¡including ¡ en00es, ¡bias, ¡trust, ¡polarity, ¡and ¡mul0media ¡ features ¡ ¡ • Support ¡development ¡of ¡bias ¡and ¡diversity ¡ aware ¡applica0ons ¡
ARCHITECTURE ¡ Analysis Index/ Application Document Pipeline Search Development Collections NYT Yahoo! News • Prediction ¡of ¡Community ¡Acceptance • Sentiment ¡in ¡Comments ¡ ßà Comment ¡Ratings • Polarizing ¡Videos ¡ ßà Distribution ¡of ¡Ratings ARC • Topic ¡of ¡Videos ¡ ßà Distribution ¡of ¡Ratings Crawls Evaluation Framework
¡DESIGN ¡DECISIONS ¡ • Use ¡Open ¡Source ¡tools ¡when ¡available ¡ • Programming ¡Language ¡-‑ ¡Java ¡1.6 ¡ • Data ¡format ¡– ¡LK ¡XML ¡ • Analysis ¡tools ¡Opera0ng ¡System ¡– ¡Linux ¡ (any ¡so\ware ¡language) ¡ • Indexing/Search ¡-‑ ¡Solr ¡ • GUI ¡– ¡JSP, ¡HTML, ¡JavaScript, ¡CSS ¡ 5 ¡
LK-‑XML ¡format. ¡
¡DOCUMENT ¡COLLECTIONS ¡ • Supported ¡Formats ¡-‑ARC ¡(Internet ¡ Memory ¡Crawls) ¡,Text, ¡HTML. ¡Kyoto, ¡ BBN, ¡NYT ¡ • Collec0ons ¡ – Tes0ng ¡Examples ¡included ¡with ¡Diversity ¡ Engine ¡ – Large ¡ARCs ¡available ¡from ¡Internet ¡Memory ¡ – Converters ¡provided ¡for ¡other ¡collec0ons ¡ (MPQA, ¡BBN, ¡NYT) ¡that ¡have ¡licensing ¡ restric0ons ¡ 7 ¡
¡ANALYSIS ¡MODULES ¡ Image ¡Processing Text ¡Processing OpenNLP ¡Entities Wikipedia ¡Places Face ¡Detection City/Landscape Wikipedia ¡People Disambiguated ¡Entities Naturalness Tone Document ¡Layout URLs Colourfulness Photomontage Readability4J SIFT ¡Features Face ¡Tampering Annotations Photo/Cartoon/CG Text ¡Annotation ¡Processing Sentiment Histogram POS EXIF Image ¡Clustering Syntax ¡& ¡ Dictionary TimeML Semantics Sentence ¡ Phrases Statements Subjectivity Image ¡Annotation ¡Processing Quotes SuperSense ¡Tagger Subjective ¡Expressions RDFa ¡Injection Vector ¡Quantisation 8 ¡
¡INDEXING/SEARCH ¡ • Solr ¡ – Enterprise ¡search ¡pladorm ¡built ¡on ¡top ¡of ¡Lucene ¡ – Xml ¡input ¡and ¡output ¡allows ¡for ¡easy ¡integra0on ¡ with ¡Diversity ¡Engine ¡ – Plug-‑in ¡framework ¡allows ¡customiza0on ¡ – Built-‑in ¡facet ¡capabili0es ¡support ¡indexing ¡and ¡ searching ¡on ¡annota0ons ¡ • Integra0on ¡ – Converter ¡from ¡LK ¡XML ¡– ¡Solr ¡XML ¡ – Plug-‑in ¡for ¡facet ¡ranking ¡and ¡speed ¡improvements ¡ 9 ¡
¡APPLICATION ¡DEVELOPMENT ¡ • Basis ¡for ¡LivingKnowledge ¡Applica0ons ¡ – Future ¡Predictor ¡ – Media ¡Content ¡Analysis ¡ • Support ¡development ¡– ¡coding ¡required! ¡ • Real ¡World ¡Problems ¡ – HTML ¡Extrac0on ¡ – Scaling ¡to ¡Large ¡Collec0ons ¡ – Provenance ¡ – Some ¡pluggable ¡GUI ¡components ¡ – Examples ¡to ¡ease ¡learning ¡curve ¡ ¡ 10 ¡
¡APPLICATION ¡DEVELOPMENT ¡ 11 ¡
¡APPLICATION ¡DEVELOPMENT ¡ 12 ¡
EVALUATION ¡FRAMEWORK ¡ • Framework ¡for ¡the ¡evalua0on ¡of ¡analysis ¡ tools ¡ • Evaluates ¡any ¡possible ¡annota0on ¡ pipeline ¡ • Measures ¡correctness ¡and ¡quality ¡ • Outputs ¡Precision ¡+ ¡Recall ¡ • Compares ¡annota0on ¡output ¡of ¡pipeline ¡ with ¡ground ¡truth ¡data ¡ 13 ¡
¡OUR ¡FIRST ¡APPLICATION ¡ Download ¡Diversity ¡Engine ¡release ¡from ¡SourceForge ¡ ¡ • tar ¡xzvf ¡[release ¡file] ¡ • cd ¡testbed ¡ • ant ¡build ¡ • apps/testbed ¡conf/testbed/tutorial-‑applica0on.xml ¡ • What ¡happened? ¡ • – 197 ¡text ¡files ¡and ¡127 ¡images ¡files ¡converted ¡from ¡arc ¡format ¡to ¡LK ¡XML ¡and ¡ stored ¡in ¡devapps/example/data/lkxml ¡ – 2 ¡annotators ¡were ¡run ¡over ¡collec0on ¡ • OpenNLP ¡for ¡tokeniza0on, ¡sentence ¡spliAng, ¡Pos ¡tags ¡ • SST ¡named ¡en0ty ¡recognizer ¡ • Results ¡stored ¡in ¡devapps/example/data/lkxml ¡ – Files ¡were ¡converted ¡to ¡Solr ¡xml ¡format ¡and ¡indexed ¡using ¡solr ¡ • Solr ¡XML ¡stored ¡to ¡devapps/example/data/solr ¡ – HTML ¡Visualiza0on ¡Files ¡stored ¡in ¡devapps/example/data/html ¡ ant ¡deploy-‑testbed ¡ • – Solr ¡running ¡at ¡hnp://localthost:8983/solr/ ¡ – Example ¡app ¡running ¡at ¡hnp://localhost:8983/testbed/ ¡ 14 ¡
¡EXAMPLE ¡SOLR ¡OUTPUT ¡ hnp://localhost:8983/solr/select/?q=pu0n ¡ 15 ¡
¡EXAMPLE ¡APPLICATION ¡ hnp://localhost:8983/testbed/results.jsp?query=pu0n ¡ 16 ¡
¡EXAMPLE ¡DOCUMENT ¡ 17 ¡
¡CONFIGURATION ¡FILE ¡ <lk-application logDir= "log" appDir= "devapps/example" > <corpus dir= "corpora/examples/smallarc" format= "arc" /> <image-pipeline> <annotators> </annotators> </image-pipeline> <pipeline> <annotators> <annotator exec= "./opennlp" /> <annotator exec= "./sst" /> </annotators> </pipeline> <visualize/> <indexer solrHomeDir= "solr/solr“ solrDataDir= "solr/solr/data“ converter= "conf/testbed/tutorial-lk2solr.xml" /> <searcher appTitle= "LivingKnowledge - Example Application" appShortTitle= "Example Application" appUrl= "http://localhost:8983/solr/" > <facets> <facet field= "per" description= "Person" /> <facet field= "loc" description= "Location" /> </facets> </searcher> </lk-application> 18 ¡
¡TEXT ¡ANALYSIS ¡ <pipeline> <annotators> <annotator exec= "./opennlp" /> <annotator exec= "./sst" /> </annotators> </pipeline> <pipeline> <annotators> <annotator exec= "./opennlp" /> <annotator exec= "./sst" /> <annotator exec= "./facts" /> <annotator exec= "./unitn_tagger" /> <annotator exec= "./unitn_subjexpr" /> </annotators> </pipeline> apps/testbed –run pipeline conf/testbed/tutorial-application.xml apps/testbed –run visualization conf/testbed/tutorial-application.xml 19 ¡
¡TEXT ¡ANALYSIS ¡-‑ ¡FACTS ¡ devapps/example/data/lkxml/EA-‑EUElecKons2009-‑euobserver-‑0729-‑20090729085530-‑00000.arc.15521713.facts.xml ¡ 20 ¡
¡TEXT ¡ANALYSIS ¡-‑ ¡FACTS ¡ devapps/example/data/html/EA-‑EUElecKons2009-‑euobserver-‑0729-‑20090729085530-‑00000.arc.15521713.html ¡ 21 ¡
¡IMAGE ¡ANALYSIS ¡ <image-pipeline> <annotators> <annotator exec= "./soton_haarfacedetector" /> </annotators> </pipeline> <pipeline> <annotators> <annotator exec= "./opennlp" /> <annotator exec= "./sst" /> <annotator exec= "./facts" /> <annotator exec= "./unitn_tagger" /> <annotator exec= "./unitn_subjexpr" /> <annotator exec= "./imageannots" /> </annotators> </pipeline> apps/testbed –run pipeline,image-pipeline –pipeline imageannots conf/testbed/tutorial-application.xml ls devapps/example/data/lkxml/img/* 22 ¡
Recommend
More recommend