understanding machine learning for empirical so7ware
play

Understanding Machine Learning for Empirical So7ware - PowerPoint PPT Presentation

Understanding Machine Learning for Empirical So7ware Engineering 9m@menzies.us h>p://menzies.us usa, wvu, csee, ai march 2012 This work is licensed under


  1. Understanding ¡Machine ¡Learning ¡for ¡ Empirical ¡So7ware ¡Engineering ¡ 9m@menzies.us ¡ h>p://menzies.us ¡ usa, ¡wvu, ¡csee, ¡ai ¡ march ¡2012 ¡ This ¡work ¡is ¡licensed ¡under ¡a ¡ ¡Crea9ve ¡Commons ¡A>ribu9on ¡3.0 ¡Unported ¡License. ¡ ¡ See ¡h>p://goo.gl/Li 3. ¡

  2. Do ¡you ¡understand ¡ ¡ data ¡mining? ¡ • Can ¡you ¡map ¡between ¡data ¡ • Can ¡you ¡take ¡M ¡data ¡mining ¡ miners ¡and ¡ ¡business ¡ methods ¡and ¡remix ¡them? ¡ needs? ¡ – Not ¡M ¡methods ¡ ¡ – But ¡2 M! ¡Combos ¡ • Can ¡you ¡make ¡them ¡run ¡ • Can ¡you ¡explain ¡them ¡to ¡ fast? ¡Scale ¡to ¡large ¡data ¡ other ¡people? ¡ sets? ¡ – Empower ¡them ¡to ¡explore ¡ – Linear, ¡or ¡logLinear, ¡ new ¡miners ¡for ¡new ¡domains? ¡ approxima9ons ¡ ¡ ¡ – Random ¡sampling ¡ • Can ¡you ¡avoid ¡bogus ¡ complexity? ¡ • Can ¡you ¡code ¡them? ¡ – in ¡1,000 ¡LOC ¡(or ¡less)? ¡ 2 ¡

  3. More ¡complex ¡methods ¡ ¡ aren’t ¡making ¡us ¡be>er ¡ • Hall, ¡T.; ¡Beecham, ¡S.; ¡Bowes, ¡D.; ¡Gray, ¡ Dejaeger, ¡K.; ¡Verbeke, ¡W.; ¡ • D.; ¡Counsell, ¡S.; ¡, ¡"A ¡Systema9c ¡Review ¡ Martens, ¡D.; ¡Baesens, ¡B.; ¡, ¡"Data ¡ of ¡Fault ¡Predic9on ¡Performance ¡in ¡ Mining ¡Techniques ¡for ¡So7ware ¡ So7ware ¡Engineering," ¡ So#ware ¡ Effort ¡Es9ma9on: ¡A ¡Compara9ve ¡ Engineering, ¡IEEE ¡Transac2ons, ¡doi: ¡ Study," ¡ So#ware ¡Engineering, ¡IEEE ¡ 10.1109/TSE.2011.103 ¡ Transac2ons, ¡doi: ¡10.1109/TSE. 2011 ¡ – Support ¡Vector ¡Machine ¡(SVM) ¡ perform ¡less ¡well. ¡ ¡ – Simple, ¡understandable ¡ – Models ¡based ¡on ¡C4.5 ¡seem ¡to ¡ techniques ¡like ¡Ordinary ¡least ¡ under-­‑perform ¡if ¡they ¡use ¡ squares ¡regressions ¡with ¡log ¡ imbalanced ¡data. ¡ transforma9on ¡of ¡a>ributes ¡ – Models ¡performing ¡compara9vely ¡ and ¡target ¡perform ¡as ¡well ¡as ¡ well ¡are ¡rela9vely ¡simple ¡ (or ¡be>er ¡than) ¡nonlinear ¡ techniques ¡that ¡are ¡easy ¡to ¡use ¡and ¡ techniques. ¡ ¡ well ¡understood.. ¡E.g. ¡Naïve ¡Bayes ¡ and ¡Logis9c ¡regression ¡ 3 ¡

  4. And ¡we ¡aren’t ¡so ¡good ¡at ¡ ¡ the ¡simpler ¡methods ¡ ¡ ¡ • Data ¡miners ¡(WEKA, ¡R, ¡MATLAB, ¡… ¡) ¡ • Overwhelmingly: ¡ – Quick ¡and ¡easy ¡to ¡use ¡ ¡ – “C” ¡ – see ¡Shepperd ¡(2011) ¡ – Quick ¡and ¡easy ¡to ¡use ¡… ¡ ¡poorly ¡ • Not ¡enough ¡to ¡use ¡these ¡ • Hall ¡(2011) ¡: ¡ ¡ tools ¡black ¡box ¡ – IEEE ¡TSE ¡pre-­‑prints ¡ – Not ¡enough ¡to ¡poke ¡& ¡pray ¡ – Large ¡survey ¡on ¡defect ¡predic9on ¡via ¡ data ¡mining. ¡ – What ¡explain ¡the ¡variance ¡in ¡ performance ¡results? ¡ Need ¡ ¡a ¡deep ¡ A. How ¡the ¡data ¡is ¡mined ¡(the ¡ understanding ¡ of ¡what ¡these ¡ algorithms)? ¡ tools ¡ ¡do ¡ B. What ¡data ¡is ¡mined ¡ ¡ C. Who ¡does ¡the ¡data ¡mining ¡ ¡ 4 ¡

  5. More ¡“data ¡mining” ¡and ¡less ¡ “algorithm ¡mining” ¡ • We ¡do ¡data ¡mining ¡not ¡ to ¡study ¡algorithms. ¡ – ¡But ¡to ¡study ¡data ¡ • Our ¡results ¡should ¡be ¡ insights ¡about ¡data, ¡ – not ¡trivia ¡about ¡(say) ¡ decision ¡tree ¡ algorithms ¡ • Besides, ¡the ¡thing ¡that ¡ most ¡predicts ¡for ¡ performance ¡is ¡the ¡ data, ¡not ¡the ¡algorithm, ¡ – Pedro ¡Domingos ¡and ¡Michael ¡J. ¡ Pazzani, ¡On ¡the ¡Op9mality ¡of ¡the ¡ Simple ¡Bayesian ¡Classifier ¡under ¡ Zero-­‑One ¡Loss, ¡Machine ¡ Learning, ¡Volume ¡29, ¡number ¡ 2-­‑3, ¡pages ¡103-­‑130, ¡1997 ¡ 5 ¡

  6. Data ¡mining ¡= ¡data ¡“carving” ¡ • Data ¡is ¡like ¡ ¡a ¡block ¡of ¡marble, ¡ ¡ – wai9ng ¡for ¡a ¡sculptor ¡(that’s ¡you) ¡ – to ¡find ¡the ¡shape ¡within ¡ • To ¡build ¡a ¡data ¡miner, ¡throw ¡ stuff ¡away ¡ – Chip ¡away ¡the ¡irrelevancies ¡ ¡ – To ¡find ¡ ¡what ¡lies ¡beneath. ¡ 6 ¡

  7. Understanding ¡data ¡mining ¡for ¡SE ¡ • Standard ¡machine ¡learning ¡ • SE ¡informa9on ¡needs: ¡ algorithms: ¡ ¡ – Uncovering ¡trends ¡in ¡data; ¡ ¡ – Clustering, ¡ ¡ – Learning ¡when ¡to ¡raise ¡an ¡alert; ¡ ¡ – Dendograms, ¡ ¡ – Forecas9ng ¡the ¡future; ¡ – Ac9ve ¡learning ¡ – Summarizing ¡the ¡current ¡ – Mul9-­‑objec9ve ¡op9miza9on ¡ situa9on; ¡ – Data ¡stream ¡mining, ¡ – Planning; ¡ ¡ – Anomaly ¡detectors, ¡ – Modeling; ¡ ¡ – Discre9za9on, ¡ ¡ – Benchmarking; ¡ – Decision-­‑tree ¡learning, ¡ ¡ – Running ¡what-­‑if ¡queries. ¡ – Contrast ¡rule ¡learning, ¡ ¡ – Bayes ¡classifiers, ¡ ¡ – Scenario ¡genera9on ¡and ¡simula9on ¡ • While ¡the ¡above ¡list ¡of ¡learning ¡algorithms ¡seems ¡very ¡long.. ¡ – Once ¡an ¡analyst ¡understand ¡a ¡set ¡of ¡core ¡func9onality ¡of ¡ML ¡ – Straight-­‑forward ¡to ¡combine ¡and ¡tune ¡and ¡apply ¡these ¡algorithms ¡ ¡ – to ¡a ¡wide ¡range ¡of ¡so7ware ¡engineering ¡tasks. ¡ 7 ¡

  8. For ¡more ¡informa9on ¡ • For ¡answers ¡to ¡these ¡ques9ons: ¡ – What ¡so7ware ¡engineering ¡tasks ¡can ¡be ¡helped ¡by ¡data ¡mining? ¡ – What ¡kinds ¡of ¡so7ware ¡engineering ¡data ¡can ¡be ¡mined? ¡ – How ¡are ¡data ¡mining ¡techniques ¡used ¡in ¡so7ware ¡engineering? ¡ • See ¡Tao ¡Xie’s ¡excellent ¡Bibliography ¡ ¡ – “Mining ¡So7ware ¡Engineering ¡Data” ¡ – ¡h>p://goo.gl/14cAs ¡ 8 ¡

  9. Roadmap ¡ • Introduc9on ¡ • Throwing ¡stuff ¡away ¡ • Business ¡info ¡needs ¡ • IDEA ¡ • Dimensionality ¡reduc9on ¡ • Row ¡reduc9on ¡ • Column ¡reduc9on ¡ • Rule ¡reduc9on ¡ • Sanity ¡Check ¡ • The ¡End ¡ 9 ¡

  10. Roadmap ¡ • Introduc9on ¡ • Throwing ¡stuff ¡away ¡ • Business ¡info ¡needs ¡ • IDEA ¡ • Dimensionality ¡reduc9on ¡ • Row ¡reduc9on ¡ • Column ¡reduc9on ¡ • Rule ¡reduc9on ¡ • Sanity ¡Check ¡ • The ¡End ¡ 10 ¡

  11. The ¡world ¡is ¡a ¡complex ¡place, ¡right? ¡ • If ¡so, ¡then ¡… ¡ – How ¡do ¡dumb ¡apes ¡(like ¡me) ¡managed ¡to ¡gain ¡(some) ¡control ¡over ¡a ¡ (seemingly) ¡impossibly ¡complex ¡world? ¡ ¡ • So ¡few ¡Einsteins, ¡so ¡many ¡Menziess ¡ 11 ¡

  12. Are ¡some ¡details ¡superfluous? ¡ X-­‑axis ¡ ordered ¡by ¡ informa1on ¡ content ¡of ¡ each ¡ a5ribute ¡ 12 ¡

  13. Why ¡are ¡some ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡The ¡greater ¡the ¡ details ¡superfluous? ¡ ¡ detail, ¡the ¡fewer ¡the ¡ suppor9ng ¡ • N-­‑sphere: ¡ the ¡size ¡of ¡ ¡ examples ¡ the ¡region ¡of ¡similar ¡examples ¡ V 2 ¡= ¡ π ¡r 2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ V 3 ¡= ¡4/3 ¡ π ¡r 3 ¡ ¡ V n ¡= ¡V n-­‑2 ¡ ¡ * ¡2 ¡ π ¡r 2 ¡ / ¡n ¡ ¡ • Volume ¡decreases ¡a7er ¡n ¡> ¡2 π ¡ r 2 ¡ ¡ For ¡the ¡unit ¡sphere ¡(r ¡= ¡1), ¡ ¡ • size ¡is ¡zero ¡a7er ¡2 ¡dozen ¡dimensions ¡ Repeated ¡effects ¡can’t ¡use ¡many ¡dimensions: ¡else, ¡no ¡suppor9ng ¡evidence ¡ • Lo7i ¡Zadeh: ¡ • – As ¡the ¡complexity ¡of ¡a ¡system ¡increase, ¡a ¡threshold ¡is ¡reached ¡beyond ¡ which ¡precision ¡and ¡significance ¡become ¡mutually ¡exclusive ¡proper9es. ¡ ¡ 13 ¡

  14. Data ¡mining ¡= ¡data ¡“carving” ¡ • Data ¡is ¡like ¡ ¡a ¡block ¡of ¡marble, ¡ ¡ – wai9ng ¡for ¡a ¡sculptor ¡(that’s ¡you) ¡ – to ¡find ¡the ¡shape ¡within ¡ • To ¡build ¡a ¡data ¡miner, ¡throw ¡ stuff ¡away ¡ – Chip ¡away ¡the ¡irrelevancies ¡ ¡ – To ¡find ¡ ¡what ¡lies ¡beneath. ¡ 14 ¡

Recommend


More recommend