8/9/14 ¡ Social Fingerprinting: Identifying Users of Social Networks by their Data Footprint The University of Tennessee Electrical Engineering and Computer Science Dissertation Defense Denise Koessler Gosnell Is a social network user’s behavior unique? 2 1 ¡
8/9/14 ¡ Has social data made anonymity impossible? 87% ¡ U.S. ¡young ¡adults ¡ U.S. ¡adults’ ¡loca4on ¡ carry ¡their ¡phone ¡ is ¡known ¡via ¡their ¡ wherever ¡they ¡go ¡ mobile ¡phone ¡ 96% ¡ AT&T ¡ MIT ¡T.R. ¡ 3 Outline: 1. Define and Motivate 2. Model and Software 3. Individual Printing Algorithm 4. Community Printing Algorithm 5. Conclusions 4 2 ¡
8/9/14 ¡ A Social Fingerprint Social ¡Network ¡User ¡A ¡ Social ¡Network ¡User ¡B ¡ 5 Why is this hard? 6 3 ¡
8/9/14 ¡ Why is this hard? ?? ¡ 7 Previous Work A CADEMIA I NDUSTRY § Bounds of Human § IBM Watson SMSim Privacy, MIT § Topology Statistics § SNAP Project, Stanford § Private Companies § Graph Modeling § …? Libraries § Simulated topologies and statistics 8 4 ¡
8/9/14 ¡ The Model § Connectivity? § Time? § Multiple Edges? § Empirical Data vs. Assumptions? 9 The Model Build ¡network ¡ Node ¡Distribu4on ¡ Construct ¡Nodes ¡ Build ¡Edges ¡ Simulate ¡Weight ¡ 10 5 ¡
8/9/14 ¡ Scale-free Distribution 11 The Base Model Scale-‑Free ¡Graph ¡ Random ¡Graph ¡ Hierarchical ¡Graph ¡ 12 6 ¡
8/9/14 ¡ Multiple Edges 13 Dynamic Edges 𝐻↓ 1 ¡ 𝐻↓ 2 ¡ 𝐻↓ 3 ¡ 14 7 ¡
8/9/14 ¡ Simulating Edge Weights 15 Maximal Diffusion Algorithm 16 8 ¡
8/9/14 ¡ Maximal Diffusion Algorithm 17 Maximal Diffusion Algorithm 18 9 ¡
8/9/14 ¡ SOcial Fingerprint Analysis Software (SOFAS) Apply ¡Distribu4on ¡ SOFAS ¡ Ini4alize ¡ Construct ¡Nodes ¡ Build ¡network ¡ Build ¡Edges ¡ Distribute ¡Weight ¡ Translate ¡network ¡ Fingerprint ¡Users ¡ 19 SOFAS: Phases 1 & 2 Apply ¡Distribu4on ¡ SOFAS ¡ Ini4alize ¡ Construct ¡Nodes ¡ Build ¡network ¡ Build ¡Edges ¡ Distribute ¡Weight ¡ Translate ¡network ¡ Fingerprint ¡Users ¡ 20 10 ¡
8/9/14 ¡ SOFAS: Phases 3 and 4 Apply ¡Distribu4on ¡ SOFAS ¡ Ini4alize ¡ Construct ¡Nodes ¡ Build ¡network ¡ Build ¡Edges ¡ Distribute ¡Weight ¡ Translate ¡network ¡ Fingerprint ¡Users ¡ 21 SOFAS: Phase 5 Apply ¡Distribu4on ¡ SOFAS ¡ Ini4alize ¡ Construct ¡Nodes ¡ Build ¡network ¡ Build ¡Edges ¡ Distribute ¡Weight ¡ Translate ¡network ¡ Fingerprint ¡Users ¡ 22 11 ¡
8/9/14 ¡ SOFAS: Memory Performance 23 SOFAS: Time 24 12 ¡
8/9/14 ¡ SOFAS: Diffusion Time 25 SOFAS: Distribution Error 26 13 ¡
8/9/14 ¡ Scale-free Distribution 27 SOFAS: Distribution Error 28 14 ¡
8/9/14 ¡ Social Fingerprinting: Identifying the Individual 29 The Theory 30 15 ¡
8/9/14 ¡ The Theory 31 The Theory 32 16 ¡
8/9/14 ¡ Social Fingerprint Procedure: 1. For each person, construct a neighborhood graph 2. Given the neighborhood graph, determine candidate prints 3. Rank the prints 4. Evaluate 33 Print Construction 34 17 ¡
8/9/14 ¡ Print Construction Training ¡Data ¡ Tes4ng ¡Data ¡ 35 Intersection Score 36 18 ¡
8/9/14 ¡ Subgraph Matching 37 All Ranking Functions Edge Based Node Based § Intersection § Absolute Difference § Graph Matching § Percent Difference § Hamming Distance § Euclidean Distance § Euclidean Distance, Ensemble Style threshold based § BCS § Euclidean Distance, § Olympic Score inverse sum 38 19 ¡
8/9/14 ¡ Graph Prints: Test Cases § Number of People: 1K, 10K, 100K § Length of time: 6 § Attrition on relationships: varies § Training/Testing Split: varies § Model Types: Binary and Weighted § Total trials: 57,000 example graphs 39 Validation of Approach Correct ¡Construc8ons ¡ A7ri8on ¡of ¡rela8onships ¡ 40 20 ¡
8/9/14 ¡ Ranking Function Performance Correct ¡Iden8fica8ons ¡ A7ri8on ¡of ¡rela8onships ¡ 41 Best of the Best 42 21 ¡
8/9/14 ¡ Social Fingerprinting: Picking the individual out of crowd 43 What does this look like? 44 22 ¡
8/9/14 ¡ Social Fingerprint Procedure: 1. Construct matrix A and query vector(s) 2. Semidiscrete Decomposition of matrix A to yield rank- k approximation 3. Compute new query vectors 4. Rank the vectors w.r.t. cosine similarity 5. Evaluate 45 Construction: 0 ¡ 4 ¡ 1 ¡ 3 ¡ 2 ¡ Time ¡ t ¡ 46 23 ¡
8/9/14 ¡ Construction: 0 ¡ 4 ¡ 1 ¡ 3 ¡ 2 ¡ Time ¡ t ¡ 47 Construction: Query Vectors 0 ¡ 4 ¡ 1 ¡ 3 ¡ 2 ¡ Time ¡ t ¡+ ¡1 ¡ 48 24 ¡
8/9/14 ¡ Semidiscrete Decomposition (SDD) [Kolda and O’Leary 1998] 49 Validation: q t+1 [j]*V (t) [i] V[0] V[1] V[2] V[3] V[4] q[0] 0.8467 0.8467 0 0 0.5319 0 q[1] 0.0704 0.9859 0.9859 0.9859 0.1516 0.9859 q[2] 0.9778 0.9778 0.9778 0.9778 0.9778 0.9778 0.2095 0 q[3] 0.9693 0.9693 0.2454 0 0 0 q[4] 0.9899 0.9899 0.9899 0.9899 0.9899 0.9899 0.1414 0 50 25 ¡
8/9/14 ¡ SDD: Test Cases § Number of People: 100, 500 or 1,000 § Length of time: 12 § Attrition on relationships: 37% § Low Rank Approximation rank: varies § Training/Testing Split: varies § Total trials: 84,000 51 Binary Model Results 52 26 ¡
8/9/14 ¡ Weighted Model Results 53 Binary vs Weighted Model Error 54 27 ¡
8/9/14 ¡ SDD: Case Study § Number of People: 100 § Length of time: 12 § Attrition on relationships: 37% § Low Rank Approximation rank: 75% § Training/Testing Split: 50/50 55 SDD: Case Study Results § Binary Model Accuracy: 81% § Weighted Model Accuracy: 27% WM: ¡Incorrect ¡ WM: ¡Correct ¡ BM: ¡Incorrect ¡ 12 ¡ 7 ¡ BM: ¡Correct ¡ 61 ¡ 20 ¡ 56 28 ¡
8/9/14 ¡ Model Insights Binary ¡Model ¡ ¡ Weighted ¡Model ¡ ¡ Similarity ¡Matrix ¡ Similarity ¡Matrix ¡ 57 Accomplishments and Contributions § Introduced a novel problem § Created and released a modeling environment: SOFAS § Modeled and defined first approaches for social fingerprint identification 58 29 ¡
8/9/14 ¡ Open Research § New models for social fingerprint detection § Additional features and graph statistics of the SOFA software § Fingerprint Evasion 59 Acknowledgements Dr. Michael Berry Dr. Judy Day Dr. Jens Gregor Dr. Bruce MacLennan 60 30 ¡
8/9/14 ¡ Social Fingerprinting: Identifying Users of Social Networks by their Data Footprint The University of Tennessee College of Engineering Dissertation Defense Dr. Denise Koessler Gosnell, PhD Computer Science (Nerdery) 31 ¡
Recommend
More recommend