lenses an on demand approach to etl
play

Lenses: An On-Demand Approach to ETL Ying Yang + , Niccolo - PowerPoint PPT Presentation

The ODIn Lab @ Lenses: An On-Demand Approach to ETL Ying Yang + , Niccolo Meneghe0 + , Ronny Fehling*,Zhen Hua Liu*, Oliver Kennedy + + SUNY Buffalo, * Oracle {yyang25,


  1. The ODIn Lab @ Lenses: An On-Demand Approach to ETL Ying ¡Yang + , ¡Niccolo ¡Meneghe0 + , ¡Ronny ¡Fehling*,Zhen ¡Hua ¡Liu*, ¡Oliver ¡Kennedy + ¡ + ¡SUNY ¡Buffalo, ¡ * ¡Oracle ¡ ¡ ¡ {yyang25, ¡niccolom, ¡okennedy}@buffalo.edu ¡ {ronny.fehling, ¡zhen.liu}@oracle.com ¡ ¡

  2. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ 2 ¡

  3. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ Data ¡ ETL ¡Tool ¡ Data ¡Mart ¡ Lake ¡ 3 ¡

  4. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 4 ¡

  5. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 5 ¡

  6. The ODIn Lab @ Ef#icient ¡analytics ¡depends ¡on ¡ accurate, ¡reliable, ¡high-­‑quality ¡ information. ¡ ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 6 ¡

  7. The ODIn Lab @ But, ¡raw ¡data ¡are ¡messy. ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 7 ¡

  8. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Product: ¡missing ¡data. ¡ • Rating1: ¡missing ¡data. ¡ ¡ • Rating1 ¡and ¡Rating2: ¡different ¡schemas. ¡ • Mobile ¡Application: ¡Rating2 ¡ Survey: ¡Rating1 ¡ … evaluation ¡ pid ¡ Num_ratings ¡ ROWID ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … 3 ¡ 121 ¡ R10 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P34234 ¡ … 5 ¡ 5 ¡ R11 ¡ P2345 ¡ … ¡ NULL ¡ 245 ¡ R8 ¡ P34235 ¡ … 4.5 ¡ 4 ¡ R12 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ HappyBuy: ¡Product ¡ id ¡ name ¡ brand ¡ category ¡ ROWID ¡ P123 ¡ Apple ¡6s, ¡White ¡ NULL ¡ phone ¡ R1 ¡ P124 ¡ Apple ¡5s, ¡Black ¡ NULL ¡ phone ¡ R2 ¡ P125 ¡ Samsung ¡Note2 ¡ Samsung ¡ phone ¡ R3 ¡ P2345 ¡ Sony ¡to ¡inches ¡ NULL ¡ NULL ¡ R4 ¡ P34234 ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell ¡ laptop ¡ R5 ¡ ¡ P34235 ¡ HP, ¡AMD ¡2 ¡core ¡ HP ¡ laptop ¡ R6 ¡ 8 ¡

  9. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Product: ¡missing ¡data. ¡ • HappyBuy: ¡Product ¡ id ¡ name ¡ brand ¡ category ¡ ROWID ¡ P123 ¡ Apple ¡6s, ¡White ¡ NULL ¡ phone ¡ R1 ¡ P124 ¡ Apple ¡5s, ¡Black ¡ NULL ¡ phone ¡ R2 ¡ P125 ¡ Samsung ¡Note2 ¡ Samsung ¡ phone ¡ R3 ¡ P2345 ¡ Sony ¡to ¡inches ¡ NULL ¡ NULL ¡ R4 ¡ P34234 ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell ¡ laptop ¡ R5 ¡ ¡ P34235 ¡ HP, ¡AMD ¡2 ¡core ¡ HP ¡ laptop ¡ R6 ¡ 9 ¡

  10. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Rating1: ¡missing ¡data. ¡ • Mobile ¡Application: ¡Rating2 ¡ Survey: ¡Rating1 ¡ … evaluation ¡ pid ¡ Num_ratings ¡ ROWID ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … 3 ¡ 121 ¡ R10 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P34234 ¡ … 5 ¡ 5 ¡ R11 ¡ P2345 ¡ … ¡ NULL ¡ 245 ¡ R8 ¡ P34235 ¡ … 4.5 ¡ 4 ¡ R12 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ 10 ¡

  11. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Rating1 ¡and ¡Rating2: ¡different ¡schemas. ¡ • Mobile ¡Application: ¡Rating2 ¡ Survey: ¡Rating1 ¡ … evaluation ¡ pid ¡ Num_ratings ¡ ROWID ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … 3 ¡ 121 ¡ R10 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P34234 ¡ … 5 ¡ 5 ¡ R11 ¡ P2345 ¡ … ¡ NULL ¡ 245 ¡ R8 ¡ P34235 ¡ … 4.5 ¡ 4 ¡ R12 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ 11 ¡

  12. The ODIn Lab @ The ¡data ¡is ¡very ¡messy: ¡ Product: ¡missing ¡data. ¡ • Rating1: ¡missing ¡data. ¡ ¡ • Rating1 ¡and ¡Rating2: ¡different ¡schemas. ¡ • Mobile ¡Application: ¡Rating2 ¡ Survey: ¡Rating1 ¡ … evaluation ¡ pid ¡ Num_ratings ¡ ROWID ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … 3 ¡ 121 ¡ R10 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P34234 ¡ … 5 ¡ 5 ¡ R11 ¡ P2345 ¡ … ¡ NULL ¡ 245 ¡ R8 ¡ P34235 ¡ … 4.5 ¡ 4 ¡ R12 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ HappyBuy: ¡Product ¡ id ¡ id ¡ name ¡ name ¡ brand ¡ brand ¡ category ¡ category ¡ ROWID ¡ ROWID ¡ P123 ¡ P123 ¡ Apple ¡6s, ¡White ¡ Apple ¡6s, ¡White ¡ NULL ¡ NULL ¡ phone ¡ phone ¡ R1 ¡ R1 ¡ P124 ¡ P124 ¡ Apple ¡5s, ¡Black ¡ Apple ¡5s, ¡Black ¡ NULL ¡ NULL ¡ phone ¡ phone ¡ R2 ¡ R2 ¡ P125 ¡ P125 ¡ Samsung ¡Note2 ¡ Samsung ¡Note2 ¡ Samsung ¡ Samsung ¡ phone ¡ phone ¡ R3 ¡ R3 ¡ P2345 ¡ P2345 ¡ Sony ¡to ¡inches ¡ Sony ¡to ¡inches ¡ NULL ¡ NULL ¡ NULL ¡ NULL ¡ R4 ¡ R4 ¡ P34234 ¡ P34234 ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell ¡ Dell ¡ laptop ¡ laptop ¡ R5 ¡ ¡ R5 ¡ ¡ P34235 ¡ P34235 ¡ HP, ¡AMD ¡2 ¡core ¡ HP, ¡AMD ¡2 ¡core ¡ HP ¡ HP ¡ laptop ¡ laptop ¡ R6 ¡ R6 ¡ 12 ¡

  13. The ODIn Lab @ The ¡clean ¡data ¡ AllRatings ¡ pid ¡ … ¡ rating ¡ review_ct ¡ ROWID ¡ P125 ¡ … ¡ 3 ¡ 121 ¡ R10 ¡ P34234 ¡ … ¡ 5 ¡ 5 ¡ R11 ¡ P34235 ¡ … ¡ 4.5 ¡ 4 ¡ R12 ¡ P123 ¡ … ¡ 4.5 ¡ 50 ¡ R7 ¡ P2345 ¡ … ¡ 5 ¡ 245 ¡ R8 ¡ P124 ¡ … ¡ 4 ¡ 100 ¡ R9 ¡ HappyBuy: ¡Product ¡ id ¡ name ¡ brand ¡ category ¡ ROWID ¡ P123 ¡ Apple ¡6s, ¡White ¡ Apple ¡ phone ¡ R1 ¡ P124 ¡ Apple ¡5s, ¡Black ¡ Apple ¡ phone ¡ R2 ¡ P125 ¡ Samsung ¡Note2 ¡ Samsung ¡ phone ¡ R3 ¡ P2345 ¡ Sony ¡to ¡inches ¡ Sony ¡ TV ¡ R4 ¡ P34234 ¡ Dell, ¡Intel ¡4 ¡core ¡ Dell ¡ laptop ¡ R5 ¡ ¡ P34235 ¡ HP, ¡AMD ¡2 ¡core ¡ HP ¡ laptop ¡ R6 ¡ 13 ¡

  14. The ODIn Lab @ Upfront ¡cleaning ¡ Data ¡Cleaning ¡Technician: ¡ ¡ Cleaning ¡all ¡messy ¡data ¡before ¡analysis ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ Unnecessary ¡processing ¡of ¡unused ¡data. ¡ 14 ¡

  15. The ODIn Lab @ Inline ¡cleaning ¡ Data ¡Analyst : ¡ Cleaning ¡all ¡messy ¡data ¡ ¡ when ¡ ¡analysis ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ (1) Unnecessary ¡processing ¡of ¡unused ¡data. ¡ ¡ (2) Duplication ¡of ¡work. ¡ 15 ¡

  16. The ODIn Lab @ On-­‑demand ¡cleaning ¡ Data ¡Scientist/Crowdsourcing: ¡ Delay ¡the ¡cleaning ¡process ¡until ¡ needed ¡and ¡clean ¡ incrementally. ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ 16 ¡

  17. The ODIn Lab @ SELECT r.pid, r.rating,r.review_ct FROM Rating r WHERE r.rating >= 4 and r. review_ct >=100 Feedback: ¡ Interacting ¡with ¡ paygo : ¡ ¡ ¡ ¡ Alice : ¡I ¡want ¡to ¡clean ¡the ¡data . ¡ ¡ ¡ Paygo: ¡OK, ¡does ¡“rating” ¡ ¡ ¡match ¡to ¡“evaluation”? ¡ Analysis ¡Result ¡ More ¡Accurate ¡ Query ¡ ¡ Analysis ¡Result ¡ ... ¡ Alice: ¡ Yes . ¡ ... ¡ ¡ Paygo: ¡Good, ¡here ¡is ¡the ¡result, ¡ do ¡you ¡want ¡to ¡clean ¡further? ¡ ¡ Alice: ¡… ¡ 17 ¡

  18. The ODIn Lab @ On-­‑demand ¡cleaning ¡ Data ¡Scientist/Crowdsourcing: ¡ Delay ¡the ¡cleaning ¡process ¡ until ¡needed ¡and ¡clean ¡ incrementally. ¡ ¡ Data ¡ Data ¡ ETL ¡Tool ¡ Warehouse ¡ Lake ¡ Time ¡and ¡cost ¡ef#icient ¡comparatively ¡ ¡ We ¡need ¡a ¡general ¡on-­‑demand ¡cleaning ¡framework ¡ 18 ¡

Recommend


More recommend