da data mini ning ng and nd da data scienc nce
play

Da Data Mini ning ng and nd Da Data Scienc nce - PowerPoint PPT Presentation

Da Data Mini ning ng and nd Da Data Scienc nce Dr. Laura E. Brown Rekhi 307 CS 1000 10/6/15 My Background 2 My Background 3 My Background Engineering Pre-Med 4 My


  1. Da Data ¡ ¡Mini ning ng ¡ ¡and ¡ nd ¡ Da Data ¡ ¡Scienc nce Dr. ¡Laura ¡E. ¡Brown Rekhi 307 CS ¡1000 10/6/15

  2. My ¡Background 2

  3. My ¡Background 3

  4. My ¡Background Engineering Pre-­‑Med 4

  5. My ¡Background B.S. ¡in ¡Engineering ¡with ¡ Concentration ¡ in ¡Computer ¡ Science Engineering Computer ¡Science 5

  6. My ¡Background 6

  7. My ¡Background M.S.E ¡in ¡Computer ¡Science • Starting ¡to ¡get ¡into ¡Artificial ¡ Intelligence • Studying ¡AI: • Planning • Machine ¡Learning 7

  8. My ¡Background 8

  9. My ¡Background Ph.D in ¡Biomedical ¡Informatics Smoking Medicine ¡Y Research ¡Focus: • Algorithm ¡Development ¡for Protein Level ¡X • Learning ¡Bayesian ¡Network • Causal ¡Discovery Lung Cancer • Feature ¡Selection ¡ Yellow Fingers Tumor Fatigue Reduction 9

  10. My ¡Research • Machine ¡Learning ¡and ¡ Artificial ¡Intelligence • Applications ¡to ¡multiple ¡ domains • Healthcare Predict ¡Length ¡of ¡Survival ¡in ¡ Oncology ¡Patients 10

  11. My ¡Research • Machine ¡Learning ¡and ¡ Artificial ¡Intelligence • Applications ¡to ¡multiple ¡ domains • Healthcare • Computer ¡Systems Model ¡Cross-­‑Architecture ¡Co-­‑tenancy ¡Performance ¡Interference 11

  12. My ¡Research • Machine ¡Learning ¡and ¡ Artificial ¡Intelligence Distributed ¡Management ¡ • Applications ¡to ¡multiple ¡ Of ¡Microgrids domains • Healthcare • Computer ¡Systems • Energy ¡Systems 12

  13. My ¡Research • Machine ¡Learning ¡and ¡ • Other ¡Projects Artificial ¡Intelligence • Data ¡Mining ¡in ¡Mining • Recommendation ¡Systems • Applications ¡to ¡multiple ¡ • Pediatric ¡Decision ¡Support ¡ domains Tool • Healthcare • Computer ¡Systems • Energy ¡Systems Work ¡with ¡~8 ¡undergraduate ¡ and ¡graduate ¡students 13

  14. My ¡Classes • Discrete ¡Structures, ¡ CS2311 • Artificial ¡Intelligence, ¡CS4811/CS5811 • Data ¡Mining, ¡CS4821 14

  15. About ¡Me 15

  16. Data ¡Mining ¡and Data ¡Science Why? ¡What? 16

  17. Data ¡Explosion Growing ¡by ¡a ¡ factor ¡of ¡44 2009 0.8 ¡Zb Real-­‑time ¡data ¡and ¡new ¡kinds ¡of ¡data, ¡coupled ¡ with ¡unprecedented ¡processing ¡power, ¡present ¡ 2020 new ¡and ¡unique ¡challenges 35.2 ¡Zettabytes Source: ¡IDC ¡Digital ¡Universe ¡Study, ¡sponsored ¡by ¡EMC, ¡May, ¡2010 17

  18. Data ¡Explosion 1 • Flood ¡of ¡Data • All ¡types ¡of ¡data: 2 • Scientific ¡data: ¡astronomy, ¡biology, ¡medicine, ¡… • Examples: • Remote ¡sensors ¡on ¡a ¡satellite • Telescopes ¡scanning ¡the ¡skies • High-­‑throughput ¡gene ¡expression ¡data 3 • Scientific ¡simulations 4 1. http://www.flickr.com/photos/gsfc/7651367068/in/photostream/ 2. http://www.flickr.com/photos/quirky/451275880/ 3. http://visualonline.cancer.gov/details.cfm?imageid=1849 Slide ¡adapted ¡from ¡Tan, ¡Steinbach, ¡Kumar 18 4. http://www.flickr.com/photos/climatesafety/4456630071/

  19. Data ¡Explosion • Flood ¡of ¡Data • All ¡types ¡of ¡data: • Scientific ¡data: ¡astronomy, ¡biology, ¡medicine, ¡… • Business ¡transactions, ¡phone ¡calls, ¡texts, ¡… • Examples: • Web ¡data, ¡click-­‑through, ¡e-­‑commerce • Purchases ¡at ¡brick ¡and ¡mortar ¡stores • Bank ¡/ ¡credit ¡transactions • Directed ¡advertisement 19

  20. Data ¡Explosion • Flood ¡of ¡Data • All ¡types ¡of ¡data: • Scientific ¡data: ¡astronomy, ¡biology, ¡medicine, ¡… • Business ¡transactions, ¡phone ¡calls, ¡texts, ¡… • Web, ¡text, ¡tweets, ¡images, ¡video, ¡… • Examples • Emails • Tweets • Images • Videos 20

  21. What ¡is ¡Data ¡Mining? • “Data-­‑driven ¡discovery ¡of ¡models ¡and ¡patterns ¡ from ¡massive ¡observational ¡data ¡sets” • “Non-­‑trivial ¡extraction ¡of ¡implicit, ¡previously ¡ unknown ¡and ¡potentially ¡useful ¡information ¡ from ¡data” • “Exploration ¡and ¡analysis, ¡by ¡automatic ¡or ¡ semi-­‑automatics ¡means, ¡of ¡large ¡quantities ¡of ¡ data ¡in ¡order ¡to ¡discover ¡meaningful ¡patterns” 21

  22. Alternative ¡and ¡Related ¡Names • Knowledge ¡discovery ¡in ¡databases ¡(KDD) • Knowledge ¡extraction • Data ¡/ ¡pattern ¡analysis • Data ¡archeology • Data ¡dredging • Information ¡harvesting • Business ¡intelligence • Predictive ¡analytics • Data ¡Science • … 22

  23. What ¡is ¡Data ¡Science? Domain ¡ Expertise Data ¡ Math ¡ Science Hacking and ¡ Skills Statistics 23

  24. What ¡is ¡Data ¡Science? 24

  25. What ¡is ¡Data ¡Science? 25

  26. Data ¡Everywhere • Drowning ¡in ¡data, ¡but ¡ starving ¡for ¡knowledge • Data ¡may ¡contain ¡hidden ¡information ¡and ¡patterns • Human ¡analysis ¡may ¡takes ¡days/weeks/months/never ¡ find ¡useful ¡information • CAUTION! ¡Throwing ¡more ¡data ¡at ¡a ¡problem ¡does ¡not ¡ always ¡lead ¡to ¡better ¡results • Need ¡a ¡good ¡problem/question ¡definition • Want ¡data ¡to ¡assist ¡in ¡answering ¡the ¡question 26

  27. Small ¡World ¡Experiment Data ¡Science ¡Example 27

  28. Six ¡Degrees ¡of ¡Separation Small ¡World ¡Experiment Data ¡Science ¡Example 28

  29. Six ¡Degrees ¡of ¡Separation Small ¡World ¡Experiment Data ¡Science ¡Example 29

  30. Small ¡World ¡Experiment • Problem ¡reported ¡by ¡Stanley ¡Milgram ¡‘67 • Selected ¡300 ¡people ¡in ¡Omaha, ¡Nebraska ¡ and ¡ Wichita, ¡Kansas • Asked ¡them ¡to ¡get ¡a ¡letter ¡to ¡a ¡stock-­‑broker ¡ in ¡ Boston ¡ • Passing ¡it ¡through ¡friends • 20% ¡of ¡the ¡paths ¡reached ¡the ¡target • Mean ¡number ¡of ¡intermediaries ¡= ¡5.2 • Six ¡degrees ¡of ¡separation 30

  31. Small ¡World ¡Experiment, ¡2003 • Redo ¡small ¡world ¡experiment ¡with ¡e-­‑mail ¡[Dodds, ¡ Muhamed, ¡ Watts, ¡’03] • 18 ¡different ¡targets ¡in ¡13 ¡different ¡countries • Over ¡60,000 ¡participants, ¡with ¡24,000 ¡paths • Ave. ¡chain ¡length ¡= ¡4.01 • Only ¡384 ¡path ¡completed ¡(1.5%) • Correcting ¡for ¡this ¡get ¡typical path ¡length ¡of ¡7 MA NE 31

  32. Small ¡World ¡Experiment, ¡2008 • Microsoft ¡Messenger ¡instant ¡messages ¡ [Leskovec ¡and ¡Horvitz, ¡‘08] • 30 ¡billion ¡conversations ¡ between ¡240 ¡million ¡ people • Communication ¡ graph: ¡ • 180 ¡million ¡nodes • 1.3 ¡billion ¡undirected ¡edges • Ave. ¡path ¡length ¡is ¡6.6 32

  33. Small ¡World ¡Experiment, ¡2011 • Redo ¡small-­‑world ¡experiment ¡with ¡Facebook ¡ [Backstrom, ¡et ¡al. ¡‘11] • Experiment ¡with ¡entire ¡Facebook ¡network ¡of ¡active ¡users • ~720 ¡million ¡users, ¡~69 ¡billion ¡friendship ¡links • Ave. ¡path ¡length ¡= ¡4.74 • 3.74 ¡intermediaries ¡-­‑> ¡“degrees ¡of ¡separation” 33

  34. 6 ¡Degrees ¡of ¡Kevin ¡Bacon • “Oracle ¡of ¡Bacon” • ~1.2 ¡million ¡actors ¡and ¡~200,000 ¡nicknames • Google ¡searchable ¡item: ¡ • “Elvis ¡Presley ¡bacon ¡number” • Bacon ¡number ¡– number ¡of ¡edges ¡(on ¡the ¡ shortest ¡path) ¡to ¡Kevin ¡Bacon 34

  35. 35

  36. Academic ¡Collaboration ¡Graph • Erdös ¡Number ¡– number ¡of ¡edges ¡(on ¡the ¡shortest ¡ path ¡to ¡Paul ¡Erdös • Paul ¡Erdös ¡was ¡a ¡mathematician ¡published ¡at ¡least ¡1.525 ¡ publications • Authored ¡papers ¡with ¡504 ¡direct ¡collaborators 36

  37. Academic ¡Collaboration ¡Graph 37

  38. Erdös numbers are small! Academic ¡Collaboration ¡Graph 38 9/30/2013 Jure Leskovec, Stanford CS224W: Social and Information Network Analysis, http://cs224w.stanford.edu 25

  39. Academic ¡Collaboration ¡Graph • Famous ¡People ¡Erdös ¡Numbers • Albert ¡Einstein ¡– 2 • Erwin ¡Schrodinger ¡– 8 • Noam ¡Chomsky ¡– 4 • John ¡Nash ¡– 4 • Alan ¡Turing ¡– 5 • Stephen ¡Hawking ¡– 4 • Bill ¡Gates ¡– 4 • Sergey ¡Brin ¡– 3 39

  40. Other ¡Collaboration ¡Graphs ¡ http://exposedata.com/marvel/ 40

  41. Other ¡Collaboration ¡Graphs ¡ http://exposedata.com/marvel/ 41

Recommend


More recommend