Détection de communautés dans des réseaux scientifiques à partir de données relationnelles et textuelles David ¡C OMBE , ¡Chris=ne ¡L ARGERON , ¡ ¡ Elod ¡E GYED -‑Z SIGMOND , ¡Mathias ¡G ÉRY ¡ {david.combe, ¡chris=ne.largeron, ¡mathias.gery}@univ-‑st-‑e=enne.fr ¡(Lab. ¡H. ¡Curien, ¡St-‑E=enne, ¡France) ¡ elod.egyed-‑zsigmond@insa-‑lyon.fr ¡(Liris, ¡Lyon, ¡France) ¡ 17 ¡octobre ¡2012 ¡– ¡MARAMI ¡ 1 ¡
Outline Introduc=on ¡ • We ¡ evaluate ¡ the ¡ performance ¡ of ¡ three ¡ community ¡ detec=on ¡methods ¡combining ¡rela=ons ¡and ¡text. ¡ • Combina=on ¡methods ¡are ¡rarely ¡evaluated ¡over ¡real ¡ life ¡ clusters. ¡ We ¡ built ¡ a ¡ dataset ¡ with ¡ ground ¡ truth ¡ par==ons. ¡ ¡ 2 ¡ MARAMI’12 ¡
Context Context ¡ A\ributed ¡graph ¡ State ¡of ¡the ¡art ¡ Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡ Experiment ¡ Results ¡ Conclusion ¡ 3 ¡ MARAMI’12 ¡
Context Context ¡ • Social ¡ networks ¡ can ¡ be ¡ represented ¡ by ¡ a ¡ graph ¡ where ¡ver=ces ¡are ¡actors ¡and ¡edges ¡are ¡rela=ons ¡ between ¡them. ¡ • Actors ¡o^en ¡have ¡available ¡a\ributes ¡describing ¡ them. ¡ • Example: ¡Bibliographic ¡networks ¡ – Ver=ces ¡are ¡authors ¡ – Edges ¡are ¡par=cipa=ons ¡into ¡a ¡common ¡conference ¡ – A\ributes ¡are ¡publica=ons ¡of ¡authors ¡ 4 ¡ MARAMI’12 ¡
Attributed graph Context ¡ A\ributed ¡graph ¡ State ¡of ¡the ¡art ¡ Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡ Experiment ¡ Results ¡ Conclusion ¡ 5 ¡ MARAMI’12 ¡
Attributed graph A\ributed ¡graph ¡ • ¡ ¡ 6 ¡ MARAMI’12 ¡
Attributed graph A\ributed ¡graph ¡clustering ¡problem ¡ • ¡ ¡ 7 ¡ MARAMI’12 ¡
Attributed graph Scien=fic ¡locks ¡ • Learning/use ¡ of ¡ the ¡ prevalence ¡ of ¡ text ¡ over ¡ rela=ons ¡ and ¡ vice ¡versa ¡ – What ¡to ¡do ¡if ¡each ¡value ¡of ¡vectors ¡are ¡doubled ¡? ¡ – What ¡to ¡do ¡if ¡each ¡edge ¡see ¡its ¡weight ¡doubled ¡? ¡ ¡ ¡ ¡ ¡ ¡Networks ¡and ¡vectors ¡from ¡an ¡absolute ¡point ¡of ¡view ¡ • Being ¡able ¡to ¡lean ¡on ¡ one ¡aspect ¡of ¡data ¡or ¡the ¡other ¡ in ¡the ¡same ¡graph ¡ depending ¡on ¡the ¡context ¡( in ¡case ¡ of ¡lack ¡of ¡informa=on…) ¡ • Giving ¡a ¡sense ¡to ¡data ¡processes ¡ • Mul=-‑scale ¡ communi=es: ¡ some ¡ communi=es ¡ can ¡ be ¡ absorbed ¡by ¡bigger ¡ones ¡even ¡if ¡they ¡are ¡well ¡defined. ¡ Big ¡communi=es ¡can ¡be ¡split ¡unexpectedly ¡too. ¡ 8 ¡ MARAMI’12 ¡
Attributed graph Scien=fic ¡locks ¡(2) ¡ • Being ¡sure ¡to ¡provide ¡a ¡result ¡ at ¡least ¡as ¡good ¡ as ¡the ¡best ¡aspect ¡of ¡data ¡is ¡not ¡trivial. ¡ • Defini=on ¡of ¡what ¡a ¡ good ¡par==on ¡is ¡is ¡hard ¡in ¡ unsupervized ¡clustering. ¡ 9 ¡ MARAMI’12 ¡
Attributed graph Prac=cal ¡locks ¡ • Distances ¡over ¡a\ributes ¡can ¡be ¡long ¡to ¡ compute ¡ – Discre=za=on, ¡dimensionality ¡reduc=on ¡can ¡help ¡ • Difficulty ¡to ¡tackle ¡large ¡amounts ¡of ¡a\ributes ¡ (curse ¡of ¡dimensionality). ¡ 10 ¡ MARAMI’12 ¡
State of the art Context ¡ A\ributed ¡graph ¡ State ¡of ¡the ¡art ¡ Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡ Experiment ¡ Results ¡ Conclusion ¡ 11 ¡ MARAMI’12 ¡
State of the art Type ¡of ¡combina=on ¡ • Precocious ¡combina=on ¡ – Combina=on ¡of ¡distances ¡ – Clustering ¡over ¡an ¡hybrid ¡representa=on ¡and/or ¡ distance ¡ • Mid-‑level ¡combina=on ¡ – Combinaison ¡is ¡integrated ¡in ¡the ¡algorithm ¡ • Late ¡combina=on ¡ – Different ¡par==ons, ¡some ¡from ¡rela=ons, ¡some ¡from ¡ a\ributes, ¡are ¡merged ¡into ¡a ¡single ¡par==on. ¡ 12 ¡ MARAMI’12 ¡
State of the art Precocious ¡combina=on ¡ • Elabora=on ¡of ¡a ¡new ¡distance ¡based ¡both ¡on ¡ rela=ons ¡and ¡a\ributes ¡ – Crea=on ¡of ¡edges ¡based ¡on ¡a\ributes ¡[Zhou ¡2009] ¡ ¡ – Valua=on ¡of ¡edges ¡based ¡on ¡a\ributes ¡[Combe ¡ 2012] ¡ ¡ ¡Taking ¡the ¡context ¡into ¡account ¡is ¡difficult ¡at ¡this ¡ =me. ¡ 13 ¡ MARAMI’12 ¡
State of the art Summariza=on ¡as ¡a ¡graph ¡ • Crea=on ¡of ¡new ¡ver=ces ¡and ¡edges ¡[Zhou ¡ 2009]. ¡ 14 ¡ MARAMI’12 ¡
State of the art Mid-‑level ¡combina=on ¡ – NetScan ¡algorithm ¡[Ester ¡2006]: ¡ Extended ¡K-‑means ¡with ¡an ¡internal ¡connexity ¡ constraint ¡ • Number ¡of ¡classes ¡needs ¡to ¡be ¡known ¡ – JointClust ¡algorithm ¡[Moser ¡2007]: ¡ Extension ¡of ¡Netscan ¡where ¡the ¡ number ¡of ¡ classes ¡is ¡not ¡required ¡ – Extension ¡of ¡the ¡modularity ¡in ¡order ¡to ¡take ¡also ¡ ¡ into ¡account ¡the ¡similarity ¡between ¡the ¡a\ributes ¡ of ¡two ¡ver=ces ¡[Dang ¡2011] ¡ 15 ¡ MARAMI’12 ¡
State of the art Late ¡combinaison: ¡ Clustering ¡combina=on ¡ Generate ¡par>>ons ¡from: ¡ -‑ Graph ¡clustering ¡algorithms ¡ Consensus ¡over ¡par==ons ¡can ¡ -‑ Non ¡supervised ¡clustering ¡ be ¡achieved ¡through ¡ algorithm ¡adapted ¡for ¡vectors. ¡ -‑ Vo=ng ¡ -‑ Mutual ¡informa=on ¡ Par==ons ¡can ¡be ¡ generated ¡ using: ¡ -‑ Hypergraph ¡par==onning ¡ -‑ Different ¡algorithms ¡ -‑ … ¡ -‑ Different ¡subsets ¡of ¡objects/ features ¡ -‑ Projec=ons ¡in ¡subspaces ¡ -‑ Randomized ¡runs ¡ -‑ Resampling ¡ 16 ¡ [Ghaemi ¡2009] ¡ MARAMI’12 ¡
Clustering scenarios and underlying hypothesis Context ¡ A\ributed ¡graph ¡ State ¡of ¡the ¡art ¡ Clustering ¡scenarios ¡and ¡underlying ¡ hypothesis ¡ Experiment ¡ Results ¡ Conclusion ¡ 17 ¡ MARAMI’12 ¡
Clustering scenarios and underlying hypothesis Clustering ¡methods ¡ Proposi=on ¡ of ¡ 3 ¡ clustering ¡ methods ¡ which ¡exploit ¡text ¡and ¡rela=ons: ¡ • Combina=on ¡ method ¡ TS1: ¡ Structure-‑based ¡ clustering ¡on ¡a\ribute ¡weighted ¡graph ¡ • Combina=on ¡ method ¡ TS2: ¡ A\ribute-‑based ¡ clustering ¡on ¡structural ¡distance ¡ • Combina=on ¡method ¡TS3: ¡Linear ¡combina=on ¡ 18 ¡ MARAMI’12 ¡
Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS1: ¡Structure-‑based ¡ clustering ¡on ¡aDribute ¡weighted ¡graph ¡ Cosine distance matrix computed on the tf idf textual vectors Weighted-‑graphs ¡ clustering ¡algorithm ¡ ¡ Informa=on ¡ Graph ¡valued ¡ with ¡textual ¡ network ¡ distance ¡ 19 ¡ MARAMI’12 ¡
Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS2: ¡ADribute-‑based ¡ clustering ¡on ¡structural ¡distance ¡ Textual distance (cosine) matrix Informa=on ¡ network ¡ Shortest path distance matrix Hierarchical Graph ¡valued ¡with ¡ agglomerative textual ¡distance ¡ clustering (average linkage) 20 ¡ MARAMI’12 ¡
Clustering scenarios and underlying hypothesis Combina>on ¡method ¡TS3: ¡ ¡ Linear ¡combina>on ¡ Textual distance (cosine) matrix Combined Graph ¡valued ¡with ¡ 1-‑ α ¡ distances textual ¡distance ¡ matrix α ¡ α ¡ Vertices Shortest ¡path ¡ distance Hierarchical matrix processing ¡ agglomerative clustering (average linkage) 21 ¡ MARAMI’12 ¡
Experiment Context ¡ A\ributed ¡graph ¡ State ¡of ¡the ¡art ¡ Clustering ¡scenarios ¡and ¡underlying ¡hypothesis ¡ Experiment ¡ Results ¡ Conclusion ¡ 22 ¡ MARAMI’12 ¡
Experiment Elabora=on ¡of ¡a ¡benchmark ¡dataset ¡with ¡ground ¡truth ¡ suitable ¡for ¡a\ributed ¡graph ¡clustering ¡evalua=on ¡ ¡ • ¡ ¡ A ¡ Bioinforma=cs ¡ B ¡ C ¡ Robo=cs ¡ D ¡ Constraints ¡ 23 ¡ MARAMI’12 ¡
Recommend
More recommend