Short Text Similarity with Word Embeddings Tom Kenter, Maarten de Rijke CIKM 2015 - October 2015 - Melbourne
Task: ¡predic-ng ¡short ¡text ¡similarity ¡ Given ¡two ¡sentences, ¡do ¡they ¡mean ¡ approximately ¡the ¡same? ¡ Melbourne is a nice city The beautiful town of Melbourne Melbourne is a nice city Sydney is close to Melbourne Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Central ¡ques-on ¡of ¡the ¡paper ¡ Can ¡we ¡find ¡out ¡if ¡two ¡sentences ¡mean ¡the ¡ same ¡thing... ¡ ¡ • without ¡using ¡external ¡sources ¡of ¡explicit ¡ seman-c ¡knowledge ¡(like ¡WordNet)? ¡ ¡ • without ¡using ¡prior ¡linguis-c ¡informa-on ¡ (as ¡implemented ¡in, ¡e.g., ¡parsers)? ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Answer ¡in ¡a ¡nutshell ¡ We ¡can! ¡ ¡ 1. Use ¡word ¡embeddings ¡for ¡a ¡word-‑by-‑word ¡ comparison ¡of ¡pairs ¡of ¡sentences ¡ 2. Derive ¡features ¡from ¡the ¡comparison ¡ 3. Train ¡SVM ¡classifier ¡ 4. Predict ¡similarity ¡for ¡new ¡unseen ¡sentence ¡ pairs ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Key ¡features ¡ • Arbitrary ¡number ¡of ¡word ¡embedding ¡ sets ¡ ¡ • Mul-ple ¡meta-‑features ¡from ¡the ¡ comparison ¡of ¡the ¡short ¡text ¡pairs ¡ ¡ • No ¡external ¡seman-c ¡knowledge ¡and ¡ linguis-c ¡tools ¡like ¡parsers ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
From ¡word ¡level ¡seman-cs ¡to ¡ sentence ¡level ¡seman-cs ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Mul-ple ¡embedding ¡spaces ¡ Out ¡of ¡the ¡box ¡ • word2vec ¡ • Mikolov, ¡et ¡al. ¡2013 ¡ • Baroni, ¡et ¡al. ¡2014 ¡ • GloVe ¡ • 42B ¡– ¡Pennington, ¡et ¡al. ¡2013 ¡ • 840B ¡– ¡Pennington, ¡et ¡al. ¡2013 ¡ Auxiliary ¡– ¡trained ¡on ¡INEX ¡dataset ¡ • word2vec ¡ • GloVe ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Seman-c ¡graph ¡ Features ¡from ¡seman-c ¡graph ¡ ¡ • bins ¡of ¡all ¡edges ¡ • bins ¡of ¡max ¡edges ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Saliency-‑weighted ¡seman-c ¡graph ¡ Features ¡from ¡ ¡seman-c ¡graph ¡ ¡ • bins ¡of ¡all ¡edges ¡ • bins ¡of ¡max ¡edges ¡ Saliency ¡weigh-ng ¡func-on ¡ sem(w, ¡s short ) ¡* ¡(k 1 ¡+ ¡1) ¡ IDF(w) ¡* ¡ ¡ sem(w, ¡s short ) ¡+ ¡k 1 ¡* ¡(1 ¡– ¡b ¡+ ¡b ¡* ¡(s short ¡/ ¡avsl)) ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Vector ¡means ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Results ¡on ¡MSR ¡Paraphrase ¡Corpus ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Error ¡analysis: ¡lexical ¡overlap ¡ 350 TP TN 300 FN FP 250 Number of examples 200 150 100 50 0 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 Lexical overlap (%) Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Key ¡features ¡ • Arbitrary ¡number ¡of ¡word ¡embedding ¡ sets ¡ ¡ • Mul-ple ¡meta-‑features ¡from ¡the ¡ comparison ¡of ¡the ¡short ¡text ¡pairs ¡ ¡ • No ¡external ¡seman-c ¡knowledge ¡and ¡ linguis-c ¡tools ¡like ¡parsers ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Thank ¡you! ¡ ¡ ¡ www.tomkenter.nl ¡ tom.kenter@uva.nl ¡ @TomKenter ¡ Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡
Recommend
More recommend