Speech ¡Act ¡Modeling ¡of ¡Wri3en ¡ Asynchronous ¡Conversa:ons ¡with ¡Task-‑ Specific ¡Embeddings ¡and ¡ ¡ Condi:onal ¡Structured ¡Models ¡ Shafiq ¡Joty ¡and ¡Enamul ¡Hoque ¡ Arabic ¡Language ¡Technology ¡(ALT) ¡Group ¡ Qatar ¡Compu:ng ¡Research ¡Ins:tute ¡-‑ ¡HBKU ¡ 16-‑08-‑08 ¡ ACL-‑2016 ¡ 1 ¡
Asynchronous Conversations • Conversations where participants communicate with each other at different times. • Examples: ¡ ¡ o Emails ¡ o Blogs ¡ ¡ o Forums ¡ o TwiKer ¡ o Facebook ¡ 16-‑08-‑08 ¡ ACL-‑2016 ¡ 2 ¡
The Task: Speech Act Recognition in Asynchronous Conversations My ¡son ¡wish ¡to ¡do ¡his ¡bachelor ¡degree ¡in ¡Mechanical ¡Engineering ¡in ¡an ¡ ST ¡ affordable ¡Canadian ¡university. ¡ The ¡info. ¡available ¡in ¡the ¡net ¡and ¡the ¡people ¡who ¡wish ¡to ¡offer ¡services ¡are ¡too ¡ C 1 ¡ ST ¡ many ¡and ¡some ¡are ¡misleading. ¡ The ¡preliminary ¡prepara?ons,eligibility,the ¡require ¡funds ¡etc., ¡are ¡some ¡of ¡the ¡ ¡Q ¡ issues ¡which ¡I ¡wish ¡to ¡know ¡from ¡any ¡panel ¡members ¡of ¡this ¡forum ¡who ¡… ¡ .. ¡take ¡a ¡list ¡of ¡canadian ¡universi?es ¡and ¡then ¡create ¡a ¡table ¡and ¡insert ¡all ¡ SU ¡ the ¡relevant ¡info. ¡by ¡reading ¡each ¡and ¡every ¡program ¡info. ¡on ¡the ¡web. ¡ C 2 ¡ Without ¡doing ¡a ¡research ¡my ¡advice ¡would ¡be ¡to ¡apply ¡to ¡UVIC ¡.. ¡for ¡the ¡ SU ¡ following ¡reasons ¡.. ¡ snakyy21: ¡UVIC ¡is ¡a ¡short ¡form ¡of? ¡I ¡ ¡have ¡already ¡started ¡researching ¡for ¡my ¡ C 3 ¡ ¡Q ¡ brother ¡and ¡found ¡``College ¡of ¡North ¡Atlan?c'' ¡and ¡.. ¡ .. ¡ ¡P ¡ thank ¡you ¡for ¡sharing ¡useful ¡?ps ¡ ¡will ¡follow ¡your ¡advise. ¡ C 5 ¡ 16-‑08-‑06 ¡ ACL-‑2016 ¡ 3 ¡
Contributions 1) ¡Sentence ¡representa:on ¡ • Exi:ng ¡methods ¡use ¡bag-‑of-‑ngrams ¡ • Should ¡consider ¡sentence ¡structure ¡ • Our ¡solu:on: ¡sequen:al ¡LSTM ¡ 2) ¡Conversa:onal ¡dependencies ¡ ¡ • Exi:ng ¡methods ¡usually ¡classify ¡each ¡sentence ¡locally ¡ ¡ • Should ¡consider ¡dependencies ¡inside ¡and ¡across ¡comments ¡ • Our ¡solu:on: ¡structured ¡models ¡ 3) ¡A ¡new ¡corpus ¡ ¡ • Forum ¡conversa:ons ¡ • Annotated ¡with ¡standard ¡tagset ¡ 16-‑08-‑09 ¡ 4 ¡ ACL-‑2016 ¡
Outline • Mo:va:on ¡ • Our ¡Approach ¡ o Sentence ¡representa:on ¡using ¡LSTMs ¡ o Condi:onal ¡structured ¡models ¡ • Corpora ¡ o Exis:ng ¡datasets ¡ o New ¡forum ¡corpus ¡ • Experiments ¡& ¡Analysis ¡ o Effec:veness ¡of ¡LSTM ¡RNNs ¡ o Effec:veness ¡of ¡CRFs ¡ • Conclusion ¡& ¡future ¡work ¡ 16-‑08-‑06 ¡ ACL-‑2016 ¡ 5 ¡
Our Approach Step ¡1: ¡LSTM ¡for ¡speech ¡act ¡classifica:on ¡& ¡sentence ¡encoding ¡ 1 ¡ 1 ¡ z 2 ¡ 2 ¡ z 1 ¡ z 1 ¡ 1 ¡ z 1 ¡ 1 ¡ z 2 ¡ 1 ¡ 2 ¡ y 1 ¡ 1 ¡ y 2 ¡ z 1 ¡ 2 ¡ y 1 ¡ LSTM ¡layer ¡ Lookup ¡layer ¡ Word ¡tokens ¡ 1 ¡ s 1 ¡ 2 ¡ s 1 ¡ 1 ¡ s 2 ¡ • Considers ¡word ¡order ¡in ¡a ¡sentence ¡ • Does ¡not ¡consider ¡the ¡interdependencies ¡between ¡sentences. ¡ 16-‑08-‑08 ¡ ACL-‑2016 ¡ 6 ¡
Our Approach Step ¡2: ¡Conversa:onal ¡dependencies ¡with ¡structured ¡models ¡ ¡ ¡ 1 ¡ z 1 ¡ 1 ¡ z 2 ¡ 1 ¡ y 1 ¡ 1 ¡ y 2 ¡ 1 ¡ z 2 ¡ 1 ¡ z 1 ¡ y 1 ¡ 2 ¡ 2 ¡ z 1 ¡ 2 ¡ z 1 ¡ Fully-‑connected ¡graph ¡ • Experimented ¡with ¡various ¡graph ¡structures ¡ 16-‑08-‑08 ¡ ACL-‑2016 ¡ 7 ¡
Conditional Structured Model • Learn ¡a ¡joint ¡model ¡with ¡global ¡normaliza:on ¡ ¡ | y j ¡ ψ e ( y i,j | z , w ) = e Pairwise ¡CRF ¡ y i ¡ z j ¡ y k ¡ ψ n ( y i | z , v ) = e z i ¡ z k ¡ exp( v T φ ( y i , z )) • Node ¡poten:al: ¡ ψ n ( y i | z , v ) = | T exp( w T φ ( y i,j , z )) • Edge ¡poten:al: ¡ ψ e ( y i,j | z , w ) = Y 2 1 • The ¡model: ¡ Y Y ψ e ( y i,j | z , w ) p ( y | v , w , z ) = ψ n ( y i | z , v ) Z ( v , w , z ) ( i,j ) 2 E i 2 V Y 8 ¡
CRF Graph Structures • Intra-‑ ¡and ¡ across-‑ comment ¡connec:ons ¡ Tag Connection type Applicable to NO No connection between nodes intra & across LC Linear chain connection intra & across FC Fully connected intra & across FC 1 Fully connected with first comment only across LC 1 Linear chain with first comment only across (a) NO-NO (MaxEnt) (b) LC-LC 16-‑08-‑08 ¡ ACL-‑2016 ¡ 9 ¡
CRF Graph Structures • Intra-‑ ¡and ¡ across-‑ comment ¡connec:ons ¡ Tag Connection type Applicable to NO No connection between nodes intra & across LC Linear chain connection intra & across FC Fully connected intra & across FC 1 Fully connected with first comment only across LC 1 Linear chain with first comment only across (d) LC-FC 1 (c) LC-LC 1 16-‑08-‑08 ¡ ACL-‑2016 ¡ 10 ¡
Training & Inference in CRFs • Online ¡learning ¡(SGD) ¡ Algorithm 1: Online learning algorithm for conditional random fields • Inference: ¡Loopy ¡belief ¡ ¡ 1. Initialize the model parameters v and w ; ¡ ¡ ¡ ¡propaga:on ¡(Pearl, ¡1988) ¡ 2. repeat for each thread G = ( V, E ) do a. Compute node and edge factors ψ n ( y i | z , v ) and ψ e ( y i,j | z , w ) ; b. Infer node and edge marginals using sum-product loopy BP; c. Update: v = v − η 1 | V | f 0 ( v ) ; d. Update: w = w − η 1 | E | f 0 ( w ) ; end until convergence ; 11 ¡ 16-‑08-‑09 ¡ ACL-‑2016 ¡
Outline • Mo:va:on ¡ • Our ¡Approach ¡ o Sentence ¡representa:on ¡using ¡LSTMs ¡ o Condi:onal ¡structured ¡models ¡ • Corpora ¡ o Exis:ng ¡datasets ¡ o New ¡forum ¡corpus ¡ • Experiments ¡& ¡Analysis ¡ o Effec:veness ¡of ¡LSTM ¡RNNs ¡ o Effec:veness ¡of ¡CRFs ¡ • Conclusion ¡& ¡future ¡work ¡ 16-‑08-‑08 ¡ ACL-‑2016 ¡ 12 ¡
Corpora: Existing Datasets • Asynchronous ¡domains ¡ TA BC3 o Trip ¡Advisor ¡ forum ¡ Total number of conv. 200 39 (Jeong ¡et ¡al. ¡2009) ¡ Avg. nb of comments per conv. 4.02 6.54 o BC3 ¡ email ¡corpus ¡ Avg. nb of sentences per conv. 18.56 34.15 (Ulrich ¡et ¡al. ¡2008) ¡ Avg. nb of words per sentence 14.90 12.61 Tag Description TA BC3 MRDA • Synchronous ¡domain ¡ SU Suggestion 7.71% 5.48% 5.97% o Mee:ng ¡Recorder ¡ R Response 2.4% 3.75% 15.63% Dialog ¡Act ¡or ¡MRDA ¡ Q Question 14.71% 8.41% 8.62% (Dhillon ¡et ¡al. ¡2004) ¡ P Polite 9.57% 8.63% 3.77% ST Statement 65.62% 73.72% 66.00% ¡ 16-‑08-‑06 ¡ ACL-‑2016 ¡ 13 ¡
Corpora: A New Forum Dataset • QC3 ¡conversa:onal ¡corpus ¡ o 50 ¡conversa:ons ¡from ¡Qatar ¡Living ¡forum. ¡ Total number of conv. 50 Speech Act Distribution κ Avg. nb of comments per conv. 13.32 Suggestion 17.38% 0.86 Avg. nb of sentences per conv. 33.28 Response 5.24% 0.43 Avg. nb of words per sentence 19.78 Question 12.59% 0.87 Polite 6.13% 0.75 Statement 58.66% 0.78 16-‑08-‑06 ¡ ACL-‑2016 ¡ 14 ¡
Experiments: Effectiveness of LSTMs • Data split: o Asynchronous: 80% train, 10% test, 10% valid. o MRDA: Same as Jenog et al. (2009) • Baselines: o ME: MaxEnt with BoW representation o MLP: One hidden layer MLP with BoW representation • LSTM settings: o ADAM (Kingma & Ba, 2014) learning alg. o Dropout & Early stopping. o Random & Word2Vec initialization. 16-‑08-‑07 ¡ ACL-‑2016 ¡ 15 ¡
Recommend
More recommend