d tection de communaut s dans des r seaux scientifiques
play

Dtection de communauts dans des rseaux scientifiques partir de - PowerPoint PPT Presentation

Dtection de communauts dans des rseaux scientifiques partir de donnes relationnelles et textuelles David C OMBE , Chris=ne L ARGERON , Elod E GYED -Z SIGMOND , Mathias G RY {david.combe,


  1. Détection de communautés dans des réseaux scientifiques à partir de données relationnelles et textuelles David ¡C OMBE , ¡Chris=ne ¡L ARGERON , ¡ ¡ Elod ¡E GYED -­‑Z SIGMOND , ¡Mathias ¡G ÉRY ¡ {david.combe, ¡chris=ne.largeron, ¡mathias.gery}@univ-­‑st-­‑e=enne.fr ¡(Lab. ¡H. ¡Curien, ¡St-­‑E=enne, ¡France) ¡ elod.egyed-­‑zsigmond@insa-­‑lyon.fr ¡(Liris, ¡Lyon, ¡France) ¡ 17 ¡octobre ¡2012 ¡– ¡MARAMI ¡ 1 ¡

  2. Outline Introduc=on ¡ • We ¡ evaluate ¡ the ¡ performance ¡ of ¡ three ¡ community ¡ detec=on ¡methods ¡combining ¡rela=ons ¡and ¡text. ¡ • Combina=on ¡methods ¡are ¡rarely ¡evaluated ¡over ¡real ¡ life ¡ clusters. ¡ We ¡ built ¡ a ¡ dataset ¡ with ¡ ground ¡ truth ¡ par==ons. ¡ ¡ 2 ¡ MARAMI’12 ¡

  3. Context  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 3 ¡ MARAMI’12 ¡

  4. Context Context ¡ • Social ¡ networks ¡ can ¡ be ¡ represented ¡ by ¡ a ¡ graph ¡ where ¡ver=ces ¡are ¡actors ¡and ¡edges ¡are ¡rela=ons ¡ between ¡them. ¡ • Actors ¡o^en ¡have ¡available ¡a\ributes ¡describing ¡ them. ¡ • Example: ¡Bibliographic ¡networks ¡ – Ver=ces ¡are ¡authors ¡ – Edges ¡are ¡par=cipa=ons ¡into ¡a ¡common ¡conference ¡ – A\ributes ¡are ¡publica=ons ¡of ¡authors ¡ 4 ¡ MARAMI’12 ¡

  5. Attributed graph  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 5 ¡ MARAMI’12 ¡

  6. Attributed graph A\ributed ¡graph ¡ • ¡ ¡ 6 ¡ MARAMI’12 ¡

  7. Attributed graph A\ributed ¡graph ¡clustering ¡problem ¡ • ¡ ¡ 7 ¡ MARAMI’12 ¡

  8. Attributed graph Scien=fic ¡locks ¡ • Learning/use ¡ of ¡ the ¡ prevalence ¡ of ¡ text ¡ over ¡ rela=ons ¡ and ¡ vice ¡versa ¡ – What ¡to ¡do ¡if ¡each ¡value ¡of ¡vectors ¡are ¡doubled ¡? ¡ – What ¡to ¡do ¡if ¡each ¡edge ¡see ¡its ¡weight ¡doubled ¡? ¡ ¡ ¡ ¡ ¡  ¡Networks ¡and ¡vectors ¡from ¡an ¡absolute ¡point ¡of ¡view ¡ • Being ¡able ¡to ¡lean ¡on ¡ one ¡aspect ¡of ¡data ¡or ¡the ¡other ¡ in ¡the ¡same ¡graph ¡ depending ¡on ¡the ¡context ¡( in ¡case ¡ of ¡lack ¡of ¡informa=on…) ¡ • Giving ¡a ¡sense ¡to ¡data ¡processes ¡ • Mul=-­‑scale ¡ communi=es: ¡ some ¡ communi=es ¡ can ¡ be ¡ absorbed ¡by ¡bigger ¡ones ¡even ¡if ¡they ¡are ¡well ¡defined. ¡ Big ¡communi=es ¡can ¡be ¡split ¡unexpectedly ¡too. ¡ 8 ¡ MARAMI’12 ¡

  9. Attributed graph Scien=fic ¡locks ¡(2) ¡ • Being ¡sure ¡to ¡provide ¡a ¡result ¡ at ¡least ¡as ¡good ¡ as ¡the ¡best ¡aspect ¡of ¡data ¡is ¡not ¡trivial. ¡ • Defini=on ¡of ¡what ¡a ¡ good ¡par==on ¡is ¡is ¡hard ¡in ¡ unsupervized ¡clustering. ¡ 9 ¡ MARAMI’12 ¡

  10. Attributed graph Prac=cal ¡locks ¡ • Distances ¡over ¡a\ributes ¡can ¡be ¡long ¡to ¡ compute ¡ – Discre=za=on, ¡dimensionality ¡reduc=on ¡can ¡help ¡ • Difficulty ¡to ¡tackle ¡large ¡amounts ¡of ¡a\ributes ¡ (curse ¡of ¡dimensionality). ¡ 10 ¡ MARAMI’12 ¡

  11. State of the art  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 11 ¡ MARAMI’12 ¡

  12. State of the art Type ¡of ¡combina=on ¡ • Precocious ¡combina=on ¡ – Combina=on ¡of ¡distances ¡ – Clustering ¡over ¡an ¡hybrid ¡representa=on ¡and/or ¡ distance ¡ • Mid-­‑level ¡combina=on ¡ – Combinaison ¡is ¡integrated ¡in ¡the ¡algorithm ¡ • Late ¡combina=on ¡ – Different ¡par==ons, ¡some ¡from ¡rela=ons, ¡some ¡from ¡ a\ributes, ¡are ¡merged ¡into ¡a ¡single ¡par==on. ¡ 12 ¡ MARAMI’12 ¡

  13. State of the art Precocious ¡combina=on ¡ • Elabora=on ¡of ¡a ¡new ¡distance ¡based ¡both ¡on ¡ rela=ons ¡and ¡a\ributes ¡ – Crea=on ¡of ¡edges ¡based ¡on ¡a\ributes ¡[Zhou ¡2009] ¡ ¡ – Valua=on ¡of ¡edges ¡based ¡on ¡a\ributes ¡[Combe ¡ 2012] ¡ ¡  ¡Taking ¡the ¡context ¡into ¡account ¡is ¡difficult ¡at ¡this ¡ =me. ¡ 13 ¡ MARAMI’12 ¡

  14. State of the art Summariza=on ¡as ¡a ¡graph ¡ • Crea=on ¡of ¡new ¡ver=ces ¡and ¡edges ¡[Zhou ¡ 2009]. ¡ 14 ¡ MARAMI’12 ¡

  15. State of the art Mid-­‑level ¡combina=on ¡ – NetScan ¡algorithm ¡[Ester ¡2006]: ¡ Extended ¡K-­‑means ¡with ¡an ¡internal ¡connexity ¡ constraint ¡ • Number ¡of ¡classes ¡needs ¡to ¡be ¡known ¡ – JointClust ¡algorithm ¡[Moser ¡2007]: ¡ Extension ¡of ¡Netscan ¡where ¡the ¡ number ¡of ¡ classes ¡is ¡not ¡required ¡ – Extension ¡of ¡the ¡modularity ¡in ¡order ¡to ¡take ¡also ¡ ¡ into ¡account ¡the ¡similarity ¡between ¡the ¡a\ributes ¡ of ¡two ¡ver=ces ¡[Dang ¡2011] ¡ 15 ¡ MARAMI’12 ¡

  16. State of the art Late ¡combinaison: ¡ Clustering ¡combina=on ¡ Generate ¡par>>ons ¡from: ¡ -­‑ Graph ¡clustering ¡algorithms ¡ Consensus ¡over ¡par==ons ¡can ¡ -­‑ Non ¡supervised ¡clustering ¡ be ¡achieved ¡through ¡ algorithm ¡adapted ¡for ¡vectors. ¡ -­‑ Vo=ng ¡ -­‑ Mutual ¡informa=on ¡ Par==ons ¡can ¡be ¡ generated ¡ using: ¡ -­‑ Hypergraph ¡par==onning ¡ -­‑ Different ¡algorithms ¡ -­‑ … ¡ -­‑ Different ¡subsets ¡of ¡objects/ features ¡ -­‑ Projec=ons ¡in ¡subspaces ¡ -­‑ Randomized ¡runs ¡ -­‑ Resampling ¡ 16 ¡ [Ghaemi ¡2009] ¡ MARAMI’12 ¡

  17. Clustering scenarios and underlying hypothesis  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡ hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 17 ¡ MARAMI’12 ¡

  18. Clustering scenarios and underlying hypothesis Clustering ¡methods ¡ Proposi=on ¡ of ¡ 3 ¡ clustering ¡ methods ¡ which ¡exploit ¡text ¡and ¡rela=ons: ¡ • Combina=on ¡ method ¡ TS1: ¡ Structure-­‑based ¡ clustering ¡on ¡a\ribute ¡weighted ¡graph ¡ • Combina=on ¡ method ¡ TS2: ¡ A\ribute-­‑based ¡ clustering ¡on ¡structural ¡distance ¡ • Combina=on ¡method ¡TS3: ¡Linear ¡combina=on ¡ 18 ¡ MARAMI’12 ¡

  19. Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS1: ¡Structure-­‑based ¡ clustering ¡on ¡aDribute ¡weighted ¡graph ¡ Cosine distance matrix computed on the tf idf textual vectors Weighted-­‑graphs ¡ clustering ¡algorithm ¡ ¡ Informa=on ¡ Graph ¡valued ¡ with ¡textual ¡ network ¡ distance ¡ 19 ¡ MARAMI’12 ¡

  20. Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS2: ¡ADribute-­‑based ¡ clustering ¡on ¡structural ¡distance ¡ Textual distance (cosine) matrix Informa=on ¡ network ¡ Shortest path distance matrix Hierarchical Graph ¡valued ¡with ¡ agglomerative textual ¡distance ¡ clustering (average linkage) 20 ¡ MARAMI’12 ¡

  21. Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS3: ¡ ¡ Linear ¡combina>on ¡ Textual distance (cosine) matrix Combined Graph ¡valued ¡with ¡ 1-­‑ α ¡ distances textual ¡distance ¡ matrix α ¡ α ¡ Vertices Shortest ¡path ¡ distance Hierarchical matrix processing ¡ agglomerative clustering (average linkage) 21 ¡ MARAMI’12 ¡

  22. Experiment  Context ¡  A\ributed ¡graph ¡  State ¡of ¡the ¡art ¡  Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡  Experiment ¡  Results ¡  Conclusion ¡ 22 ¡ MARAMI’12 ¡

  23. Experiment Elabora=on ¡of ¡a ¡benchmark ¡dataset ¡with ¡ground ¡truth ¡ suitable ¡for ¡a\ributed ¡graph ¡clustering ¡evalua=on ¡ ¡ • ¡ ¡ A ¡ Bioinforma=cs ¡ B ¡ C ¡ Robo=cs ¡ D ¡ Constraints ¡ 23 ¡ MARAMI’12 ¡

Recommend


More recommend