data wrangling
play

Data Wrangling John Meehan Jeff Rasley Working with raw - PowerPoint PPT Presentation

Data Wrangling John Meehan Jeff Rasley Working with raw data sucks. Data comes in all shapes and sizes CSV files, PDFs, stone tablets,


  1. Data ¡Wrangling ¡ John ¡Meehan ¡ Jeff ¡Rasley ¡

  2. Working ¡with ¡raw ¡data ¡sucks. ¡ • Data ¡comes ¡in ¡all ¡shapes ¡and ¡sizes ¡ – CSV ¡files, ¡PDFs, ¡stone ¡tablets, ¡.jpg… ¡ • Different ¡files ¡have ¡different ¡formaIng ¡ – Spaces ¡instead ¡of ¡NULLs, ¡extra ¡rows ¡ • “Dirty” ¡data ¡ – Unwanted ¡anomalies ¡ – Duplicates ¡

  3. Current ¡Tools ¡ • Focus ¡on ¡specific ¡problems ¡ – Resolving ¡enQQes ¡ – Removing ¡duplicates ¡ – Schema ¡matching ¡ • Most ¡systems ¡are ¡non-­‑interacQve ¡ – Inaccessible ¡to ¡general ¡audience ¡ • A ¡lot ¡of ¡people ¡just ¡use ¡Excel ¡or ¡regular ¡ expressions… ¡

  4. Data ¡Wrangling ¡ • Goal: ¡extract ¡and ¡standardize ¡the ¡raw ¡data ¡ – Combine ¡mulQple ¡data ¡sources ¡ – Clean ¡data ¡anomalies ¡ • Combine ¡automaQon ¡with ¡interacQve ¡ visualizaQons ¡to ¡aid ¡in ¡cleaning ¡ • Improve ¡efficiency ¡and ¡scale ¡of ¡data ¡imporQng ¡ • Lower ¡the ¡threshold ¡for ¡broader ¡audiences ¡

  5. Missing ¡headers, ¡ Three ¡Data ¡Sources: ¡ MulQple ¡date ¡formats, ¡ Database, ¡PDF, ¡CSV ¡ Merged ¡columns ¡ ¡ Success! ¡ ¡ ¡………but ¡ immediately ¡geIng ¡error: ¡ “Empty ¡cells ¡in ¡column ¡3” ¡ Ugh, ¡screw ¡it….. ¡ Back ¡to ¡imporQng. ¡ Analysis ¡possible, ¡but ¡ Data ¡reimported, ¡ data ¡quality ¡sQll ¡sucks ¡ More ¡cleaning ¡ SUCCESS!!!! ¡ Repeat ¡data ¡loading ¡ less ¡painful, ¡but ¡sQll ¡ annoying ¡

  6. Types ¡of ¡Data ¡Problems ¡ • Missing ¡data ¡ • Incorrect ¡data ¡ • Inconsistent ¡representaQons ¡of ¡the ¡same ¡data ¡ • About ¡75% ¡of ¡data ¡problems ¡require ¡human ¡ intervenQon ¡ • Cleaning ¡data ¡vs ¡overly-­‑saniQzing ¡data ¡

  7. Diagnosing ¡data ¡problems ¡ • VisualizaQons ¡can ¡convey ¡“raw” ¡data ¡ • Different ¡visual ¡representaQons ¡highlight ¡ different ¡types ¡of ¡data ¡issues ¡ – Outliers ¡oaen ¡stand ¡out ¡in ¡a ¡plot ¡ – Missing ¡data ¡will ¡cause ¡gap ¡or ¡zero ¡value ¡ • Becomes ¡increasingly ¡difficult ¡as ¡data ¡gets ¡ larger ¡ – Visual ¡design ¡coupled ¡with ¡interacQon ¡ – Sampling ¡

  8. Node-­‑Link ¡Diagram ¡

  9. Matrix ¡View ¡

  10. Sorted ¡Matrix ¡View ¡

  11. Visualizing ¡Missing ¡Data ¡ • Set ¡values ¡to ¡zero? ¡ • Interpolate ¡based ¡on ¡exisQng ¡data? ¡ • Omit ¡missing ¡data? ¡

  12. Visualizing ¡Uncertain ¡Data ¡ • Can ¡arise ¡from: ¡ – Measurement ¡errors ¡ – Missing ¡data ¡ – Sampling ¡ • VisualizaQon ¡must ¡ – Consider ¡all ¡components ¡of ¡uncertainty ¡ – Depict ¡mulQple ¡kinds ¡of ¡uncertainty ¡ – Interact ¡with ¡uncertainty ¡depicQons ¡

  13. Transforming ¡Data ¡ • SpliIng ¡columns, ¡converQng ¡into ¡meaningful ¡ records ¡ • Typical ¡methods: ¡regular ¡expressions, ¡ programming ¡by ¡demonstraQon ¡ – Prone ¡to ¡errors, ¡tedious ¡ • InteracQve ¡tools ¡simplify ¡the ¡process ¡ – Guide ¡user ¡through ¡seIng ¡automated ¡constraints ¡ – Generates ¡scripts ¡for ¡the ¡user ¡

  14. Transforming ¡Data ¡(cont) ¡ • Data ¡formaIng, ¡extracQon, ¡and ¡conversion ¡ • CorrecQng ¡erroneous ¡values ¡ • IntegraQng ¡mulQple ¡data ¡sets ¡

  15. EdiQng ¡and ¡AudiQng ¡TransformaQons ¡ • Data ¡Provenance ¡ – Maintaining ¡the ¡data ¡history ¡ – Track ¡the ¡lineage ¡of ¡a ¡specific ¡item’s ¡origins ¡ • Used ¡for ¡the ¡modificaQon, ¡reuse, ¡and ¡ understanding ¡of ¡a ¡transformaQon ¡ • What ¡transformaQon ¡language ¡should ¡be ¡ used? ¡ – Extend ¡exisQng ¡languages? ¡

  16. Wrangling ¡in ¡the ¡Cloud ¡ • Allows ¡the ¡sharing ¡of ¡data ¡transformaQons ¡ • Mining ¡records ¡of ¡wrangling ¡ – Befer ¡automaQc ¡suggesQons ¡ • User-­‑defined ¡data ¡types ¡ • Feedback ¡from ¡downstream ¡analysts ¡ – Crowdsourcing ¡the ¡final ¡result ¡ – Allow ¡users ¡to ¡annotate ¡or ¡correct ¡the ¡data ¡

  17. Checkpoint-­‑Conclusion ¡ • Data ¡wrangling ¡is ¡oaen ¡a ¡second-­‑class ¡ciQzen ¡ • Common ¡problems, ¡very ¡Qme-­‑consuming ¡ – Manual ¡approach ¡is ¡no ¡longer ¡a ¡viable ¡opQon ¡ • Future ¡work: ¡extend ¡visual ¡approaches ¡into ¡ the ¡data ¡wrangling ¡phase ¡ • Plenty ¡of ¡research ¡direcQons ¡

  18. Secure ¡Data ¡AnalyQcs ¡ • Private/sensiQve ¡data ¡ – SSN, ¡Medical, ¡Classified, ¡etc. ¡ • Cloud-­‑base ¡analysis ¡currently ¡doesn’t ¡work ¡ • Local ¡analysis ¡is ¡key ¡ • Research ¡area? ¡

  19. Pofer's ¡Wheel: ¡An ¡InteracQve ¡Data ¡ Cleaning ¡System ¡ • Vijayshankar ¡Raman ¡and ¡Joseph ¡Hellerstein ¡ (VLDB ¡‘01) ¡ • Provide ¡a ¡graphical ¡interacQve ¡tool ¡to ¡support ¡ various ¡data ¡transformaQons ¡with ¡suggesQons ¡

  20. TransformaQons ¡

  21. Download! ¡ • Pofer's ¡Wheel ¡A-­‑B-­‑C: ¡An ¡InteracQve ¡Tool ¡for ¡ Data ¡Analysis, ¡Cleansing, ¡and ¡TransformaQon ¡ – hfp://control.cs.berkeley.edu/abc/ ¡ • (But ¡you ¡probably ¡don’t ¡want ¡to, ¡last ¡release ¡ was ¡Oct ¡10, ¡2000) ¡

  22. Data ¡Wrangler ¡ • Wrangler: ¡InteracQve ¡Visual ¡SpecificaQon ¡of ¡ Data ¡TransformaQon ¡Scripts ¡(CHI ¡‘11) ¡ – Sean ¡Kandel, ¡Andreas ¡Paepcke, ¡Joseph ¡Hellerstein, ¡ Jeffrey ¡Heer ¡(Stanford ¡Vis ¡Group ¡+ ¡Berkeley) ¡ D3 ¡ $4.3M ¡in ¡Series ¡A ¡funding! ¡(1/12) ¡

  23. What’s ¡new? ¡ • Similar ¡goals ¡as ¡Pofer’s ¡Wheel ¡ • Improved ¡UI ¡for ¡the ¡web ¡ • Python ¡& ¡JavaScript ¡libraries ¡ • AddiQonal ¡transformaQons ¡such ¡as ¡fill ¡

  24. Demo ¡ ¡ (~10min) ¡

  25. 7 ¡Command-­‑Line ¡Tools ¡for ¡Data ¡Science ¡ • hfp://jeroenjanssens.com/2013/09/19/ seven-­‑command-­‑line-­‑tools-­‑for-­‑data-­‑ science.html ¡

Recommend


More recommend