dm group meeting
play

DM-Group Meeting Liangzhe Chen, Sep. 25 2014 Papers To - PowerPoint PPT Presentation

DM-Group Meeting Liangzhe Chen, Sep. 25 2014 Papers To be Discussed Finding Progression Stages in Time-evolving Event Sequences WWW


  1. ì ¡ DM-­‑Group ¡Meeting ¡ Liangzhe ¡Chen, ¡Sep. ¡25 ¡2014 ¡

  2. Papers ¡To ¡be ¡Discussed ¡ ì Finding ¡Progression ¡Stages ¡in ¡Time-­‑evolving ¡Event ¡ Sequences ¡ ì WWW ¡2014, ¡by ¡Jaewon ¡Yang ¡et. ¡al. ¡ ì DiscriminaKng ¡Non-­‑NaKve ¡English ¡with ¡350 ¡Words ¡ ì NAACL-­‑HLT ¡2013, ¡by ¡John ¡Henderson ¡et. ¡al. ¡ ì DiscriminaKng ¡Gender ¡on ¡TwiQer ¡ ì ENMLP ¡2011, ¡by ¡John ¡D. ¡Burger ¡et. ¡al. ¡ ì CMI: ¡An ¡InformaKon-­‑TheoreKc ¡Contrast ¡Measure ¡for ¡ Enhancing ¡Subspace ¡Cluster ¡and ¡Outlier ¡DetecKon ¡ ì SDM ¡2013, ¡by ¡Hoang ¡Vu ¡Nguyen ¡et. ¡al. ¡

  3. 1 st ¡Paper ¡ ì Finding ¡Progression ¡Stages ¡in ¡Time-­‑evolving ¡Event ¡ Sequences ¡ ì WWW ¡2014 ¡ ì Jaewon ¡Ynag, ¡Julian ¡McAuley, ¡Jure ¡Leskovec, ¡Paea ¡ LePendu, ¡Nigam ¡Shah ¡

  4. Motivation ¡ ì Things ¡progress ¡over ¡Kme. ¡ ì PaKents’ ¡medical ¡history ¡shows ¡a ¡progression ¡over ¡ Kme ¡as ¡the ¡disease ¡is ¡developing. ¡ ì People’s ¡opinion ¡towards ¡new ¡things ¡change ¡over ¡ Kme ¡as ¡they ¡gain ¡more ¡knowledge. ¡

  5. What ¡is ¡ ¡a ¡progression ¡ ì Assuming ¡we ¡are ¡given ¡a ¡set ¡of ¡event ¡sequences, ¡ we ¡aim ¡to ¡infer ¡their ¡progression ¡stages ¡and ¡ classes. ¡

  6. Problem ¡Definition ¡ ì Given ¡a ¡set ¡of ¡event ¡sequences, ¡the ¡problem ¡of ¡ sequence ¡segmentaKon ¡and ¡classificaKon ¡is ¡to: ¡ ì Find ¡the ¡class ¡that ¡each ¡sequence ¡belongs ¡to. ¡ ì Assign ¡each ¡event ¡to ¡a ¡stage, ¡with ¡stage ¡assignments ¡ being ¡non-­‑decreasing ¡over ¡Kme. ¡

  7. Generative ¡Model ¡Description ¡ ì Given ¡class ¡c i , ¡stages ¡s ij ¡for ¡sequence ¡x i ¡

  8. Infer ¡the ¡stages ¡ ì Maximize ¡the ¡log ¡likelihood ¡ ì Accent ¡strategy ¡to ¡solve ¡the ¡problem: ¡ ì Fix ¡c i , ¡s ij , ¡update ¡Θ. ¡(skipped) ¡ ì Fix ¡Θ, ¡update ¡c i ,s ij . ¡ ì UnKl ¡convergence. ¡

  9. Updating ¡c i , ¡s ij ¡

  10. Experiments: ¡Datasets ¡ Product ¡review ¡(BeerAdvocate, ¡RateBeer): ¡ ì Beer-­‑review ¡communiKes. ¡Construct ¡an ¡event ¡sequence ¡for ¡each ¡ ì user ¡from ¡the ¡list ¡of ¡beers ¡that ¡they ¡reviewed ¡in ¡chronological ¡ order. ¡ Textual ¡memes ¡(NIFTY): ¡ ì Quoted ¡phrases ¡in ¡news ¡arKcals ¡and ¡blog ¡posts. ¡Construct ¡an ¡event ¡ ì sequence ¡as ¡a ¡chronological ¡list ¡of ¡the ¡online ¡media ¡sources ¡that ¡ menKoned ¡a ¡specific ¡phrase. ¡ Medical ¡records ¡(Stanford ¡TranslaKonal ¡Research ¡Integrated ¡ ì Database ¡Environment ¡repository): ¡ Create ¡tuples ¡of ¡(medical ¡term, ¡paKent, ¡Kmeoffset). ¡Construct ¡as ¡ ì event ¡sequence ¡to ¡be ¡the ¡list ¡of ¡medical ¡terms ¡of ¡a ¡user ¡with ¡a ¡ diagnosis ¡of ¡CKD. ¡ Web ¡navigaKon ¡traces ¡(Wikispeedia): ¡ ì Each ¡trace ¡in ¡the ¡game ¡is ¡a ¡sequence. ¡ ì

  11. Experiments: ¡Events ¡

  12. Experiments: ¡Stages ¡

  13. Experiments: ¡Stages ¡

  14. 2 nd ¡& ¡3 rd ¡Papers ¡ ì DiscriminaKng ¡Gender ¡on ¡TwiQer ¡ ì ENMLP ¡2011 ¡ ì John ¡D. ¡Burger, ¡John ¡Henderson, ¡George ¡Kim, ¡Guido ¡ Zarrella ¡ ì DiscriminaKng ¡Non-­‑NaKve ¡English ¡with ¡350 ¡Words ¡ ì NAACL-­‑HLT ¡2013 ¡ ì John ¡Henderson, ¡Guido ¡Zarrella, ¡Craig ¡Pfeifer, ¡John ¡D. ¡ Burger ¡

  15. Find ¡Gender ¡ ì Dataset ¡ ì 213 ¡million ¡tweets, ¡18.5 ¡million ¡users ¡collected ¡since ¡ 2009. ¡ ì Look ¡at ¡users’ ¡blog ¡link ¡to ¡label ¡the ¡dataset ¡ automaKcally. ¡Finally ¡get ¡184,000 ¡users ¡with ¡labels. ¡

  16. Find ¡Gender ¡ ì Feature ¡selecKon: ¡ ì Use ¡Winnow ¡to ¡classfy. ¡

  17. Find ¡Gender ¡

  18. Find ¡Gender ¡

  19. Find ¡Gender ¡

  20. Find ¡Native ¡Language ¡ ì Task: ¡ ì IdenKfy ¡an ¡author’s ¡naKve ¡language ¡based ¡on ¡an ¡ English ¡essay. ¡ ì Dataset: ¡ ì A ¡set ¡of ¡12,100 ¡TOEFL ¡examinaKons ¡by ¡ETS. ¡ ì A ¡variety ¡of ¡binary ¡features, ¡including ¡characterisKc ¡ features ¡like ¡average ¡word ¡length, ¡word ¡count; ¡ word-­‑based ¡n-­‑gram ¡features; ¡character-­‑based ¡n-­‑ gram ¡features; ¡part ¡of ¡speech ¡tag ¡n-­‑gram ¡features ¡

  21. Find ¡Native ¡Language ¡ ì Classifiers ¡used: ¡ ì Carnie ¡ ì SRI’s ¡Language ¡Modeling ¡Toolkit ¡ ì LIBLINEAR ¡(use ¡SVM ¡and ¡logisKc ¡regression ¡ configuraKons) ¡

  22. Find ¡Native ¡Language ¡

  23. Find ¡Native ¡Language ¡

  24. Find ¡Native ¡Language ¡

  25. 4 th ¡Paper ¡ ì CMI: ¡An ¡InformaKon-­‑TheoreKc ¡Contrast ¡Measure ¡ for ¡Enhancing ¡Subspace ¡Cluster ¡and ¡Outlier ¡ DetecKon ¡ ì SDM ¡2013 ¡ ì Hoang ¡Vu ¡Nguyen, ¡Emmanuel ¡Muller, ¡Jilles ¡Vreeken, ¡ Fabian ¡Keller, ¡Klemens ¡Bohm ¡

  26. Motivation ¡ ì In ¡many ¡real ¡world ¡applicaKons ¡data ¡is ¡collected ¡in ¡ mulK-­‑dimensional ¡spaces, ¡with ¡the ¡knowledge ¡ hidden ¡only ¡in ¡a ¡subsets ¡of ¡the ¡dimensions ¡ (subspace). ¡ ì Loss ¡of ¡contrast ¡in ¡the ¡whole ¡space. ¡

  27. Goal ¡ ì Find ¡subspaces ¡with ¡strong ¡mutual ¡dependency ¡in ¡ the ¡selected ¡dimension ¡set. ¡

  28. Definitions ¡ ì Mutual ¡Independence: ¡ ì P(x 1 ,…,x d )=p(x 1 )…p(x d ) ¡ ì M-­‑wise ¡Independence: ¡ ì Any ¡subset ¡{X i1 ,…,X im } ¡of ¡{X 1 ,…,X d } ¡is ¡mutually ¡ independent ¡ ì A ¡subspace ¡is ¡referred ¡to ¡as ¡uncorrelated ¡if ¡its ¡ dimensions ¡are ¡mutually ¡independent. ¡

  29. Contrast ¡Score ¡ ì Property ¡1: ¡dim(S 1 )=dim(S 2 ), ¡if ¡S 1 ¡is ¡more ¡correlated ¡ than ¡S 2 , ¡then ¡C(S 1 )>C(S 2 ) ¡ ì Property ¡2: ¡C(S)=0 ¡iff ¡the ¡dimensions ¡of ¡S ¡are ¡ mutually ¡independent. ¡ ì Property ¡3: ¡If ¡S ¡is ¡m-­‑wise ¡independent ¡but ¡not ¡ mutually ¡independent, ¡then ¡C(S) ¡is ¡small ¡but ¡not ¡ zero. ¡

  30. Cumulative ¡mutual ¡information ¡ To ¡use ¡cumulaKve ¡distribuKons ¡in ¡CMI, ¡they ¡ introduce ¡cumulaKve ¡entropy, ¡which ¡are ¡based ¡on ¡ cumulaKve ¡distribuKons. ¡ ¡

  31. CE ¡ ì CumulaKve ¡entropy: ¡ ì CondiKonal ¡cumulaKve ¡entropy: ¡ ì CE ¡of ¡X ¡condiKoned ¡by ¡V: ¡

  32. CMI ¡ ì CMI(X 1 ,…,X d ): ¡

  33. CMI ¡

  34. Choice ¡of ¡permutation ¡ ì CMI ¡changes ¡with ¡dimension ¡permutaKons ¡ ì Find ¡the ¡permutaKon ¡that ¡maximizes ¡the ¡contrast. ¡ ì Greedy ¡approximaKon ¡to ¡find ¡dimensions ¡one ¡by ¡ one. ¡

  35. Experiments ¡

  36. Experiments ¡

  37. Experiments ¡

  38. Experiments ¡

Recommend


More recommend