discovering olap dimensions in semi structured data
play

Discovering OLAP Dimensions in Semi-Structured Data - PowerPoint PPT Presentation

Discovering OLAP Dimensions in Semi-Structured Data Svetlana Mansmann, Nafees Ur Rehman, Andreas Weiler, Marc H. Scholl Database & InformaEon Systems


  1. Discovering ¡OLAP ¡Dimensions ¡in ¡ Semi-­‑Structured ¡Data ¡ Svetlana ¡Mansmann, ¡Nafees ¡Ur ¡Rehman, ¡Andreas ¡Weiler, ¡Marc ¡H. ¡Scholl ¡ Database ¡& ¡InformaEon ¡Systems ¡(DBIS) ¡ Dept ¡of ¡Computer ¡Science, ¡University ¡of ¡Konstanz, ¡Germany ¡ 02-­‑Nov-­‑12 ¡ 1 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  2. Outline ¡  IntroducEon ¡& ¡MoEvaEon ¡  Social ¡Networks ¡and ¡Big ¡Data ¡  OLAP ¡and ¡Data ¡Mining ¡for ¡“Big ¡Data” ¡  Acquiring ¡Facts ¡and ¡Dimensions ¡  Data ¡TransformaEon ¡  Discovering ¡New ¡Elements ¡  Modeling ¡Discovered ¡Elements ¡  Usage ¡& ¡Maintenance ¡of ¡Dynamic ¡Elements ¡  Conclusion ¡ ¡ 02-­‑Nov-­‑12 ¡ 2 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  3. IntroducEon ¡& ¡MoEvaEon ¡  Social ¡Networks ¡  Growing ¡popularity ¡  Huge ¡data ¡volumes ¡  High ¡data ¡generaEon ¡rate ¡  Heterogeneity ¡ ¡  “Big ¡Data” ¡ 02-­‑Nov-­‑12 ¡ 3 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  4. IntroducEon ¡& ¡MoEvaEon ¡  Data ¡Warehouse ¡vs. ¡noSQL ¡  Established ¡and ¡mature ¡technology ¡  Standardized ¡for ¡interchangeability ¡  IntegraEon ¡with ¡Data ¡Mining ¡  Abundance ¡of ¡tools ¡for ¡various ¡tasks ¡  Challenges ¡  Heterogeneous ¡and ¡semi-­‑structured ¡content ¡  Dynamic ¡data, ¡changing ¡dimensions ¡  High ¡data ¡arrival ¡rate ¡  Non-­‑trivial ¡analysis ¡tasks ¡ 02-­‑Nov-­‑12 ¡ 4 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  5. Twi_er: ¡A ¡moEvaEonal ¡scenario ¡  Why ¡Twi_er? ¡  News ¡broadcast ¡& ¡InformaEon ¡exchange ¡placorm ¡  AcEve ¡Users ¡  ¡> ¡140 ¡million ¡  Daily ¡Tweets ¡  ¡> ¡340 ¡million ¡  Set ¡of ¡configurable ¡APIs: ¡ ¡  Search, ¡Rest, ¡Stream ¡ 02-­‑Nov-­‑12 ¡ 5 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  6. Twi_er: ¡Output ¡Data ¡Format ¡  Twi_er ¡APIs ¡output ¡the ¡semi-­‑structured ¡data ¡ as ¡JSON ¡objects: ¡  User ¡data ¡ <tweet> ¡ ¡ <text> ¡  Status ¡(tweet) ¡data ¡ ¡ ¡ ¡ ¡ ¡ ¡If ¡you ¡havent ¡read ¡about ¡Mario ¡Balotelli ¡yet, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡you ¡MUST ¡before ¡todays ¡#EURO2012 ¡final: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡h_p://t.co/2aFDjnsD ¡ ¡  Timeline ¡data ¡ ¡ </text> ¡ ¡ ¡ ¡ ¡ ¡ ¡<truncated>true</truncated> ¡ ¡ ¡ ¡ ¡ ¡ ¡<date>2012-­‑01-­‑07 ¡18:36:05.000</date> ¡  Over ¡67 ¡metadata ¡fields ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<source>web</source> ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<retweeted>true</retweeted> ¡ ¡<user> ¡  10% ¡of ¡the ¡public ¡stream ¡ ¡ ¡ ¡ ¡<name>Marcel***</name> ¡ ¡ ¡ ¡ ¡<date>2011-­‑08-­‑01 ¡06:06:34:12.000</date> ¡ ¡ ¡ ¡ ¡<utc-­‑offset>-­‑18000</utc-­‑offset> ¡ ¡ ¡ ¡ ¡<language>en</language> ¡ ¡ ¡ ¡ ¡is ¡available ¡ ¡ ¡ ¡ ¡<geo-­‑enabled>False</geo-­‑enabled> ¡ ¡ ¡ ¡ ¡<statuses_count>1521</statuses_count> ¡ ¡ ¡ ¡ ¡<followers_count>121</followers_count> ¡ ¡ ¡ ¡ ¡</user> ¡ </tweet> ¡ 02-­‑Nov-­‑12 ¡ 6 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  7. MulE-­‑Layered ¡Architecture ¡for ¡Twi_er ¡Data ¡Warehouse ¡ 5th layer: PRESENTATION OLAP frontend Data Mining tool DSS frontend spreadsheet web frontend 4th layer: ANALYSIS OLAP Data Mining DSS methods Tweet Mart User Mart Media Mart Microsos ¡ ¡ Archiving system SQL ¡Server Metadata Monitoring Administration 3rd layer: DATA WAREHOUSE BaseX XML storage Extractor ¡ Enrichment ¡ Staging area 2nd layer: ETL 1st layer: DATA SOURCES external sources REST API Search API Streaming API 02-­‑Nov-­‑12 ¡ 7 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  8. Twi_er ¡stream ¡ ¡-­‑ ¡a ¡Structured ¡View ¡  Twi_er ¡data ¡model: ¡  Original ¡model ¡is ¡not ¡available ¡  Streamed ¡data ¡is ¡poorly ¡documented ¡  RelaEonships ¡between ¡fields ¡are ¡not ¡obvious ¡  Reverse ¡engineering ¡of ¡the ¡data ¡model ¡  Related ¡fields ¡are ¡grouped ¡into ¡classes ¡  RelaEonships ¡between ¡classes ¡are ¡specified ¡  Constraints ¡are ¡defined ¡ 8 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡ 02-­‑Nov-­‑12 ¡

  9. Twi_er ¡stream ¡ ¡-­‑ ¡a ¡Structured ¡View ¡ 9 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡ 02-­‑Nov-­‑12 ¡

  10. Acquiring ¡Facts ¡and ¡Dimensions ¡  Cube ¡candidates: ¡  user-­‑related ¡data ¡  tweet-­‑related ¡data ¡  content ¡elements ¡  Granularity ¡levels: ¡  user ¡staEsEcs ¡  messaging ¡staEsEcs ¡  topics ¡& ¡terms ¡ ¡ 02-­‑Nov-­‑12 ¡ 10 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  11. Acquiring ¡Facts ¡and ¡Dimensions ¡  Simple ¡derivaEon ¡/ ¡computaEon ¡  Including ¡external ¡data ¡sources ¡  geo-­‑informaEon, ¡vocabularies ¡  Applying ¡external ¡funcEons ¡(APIs) ¡  language ¡detecEon ¡and ¡translaEon ¡ ¡  senEment ¡analysis ¡  spam ¡detecEon ¡  … ¡  Data ¡mining ¡  hidden ¡relaEonships, ¡clustering, ¡ranking ¡ 02-­‑Nov-­‑12 ¡ 11 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  12. Discovered ¡Facts ¡and ¡Dimensions ¡  Simple ¡DerivaEon ¡ Watching ¡#Euro ¡final ¡at ¡BriEsh ¡pub ¡in ¡  Fact/Measure ¡ExtracEon ¡ Capitola ¡while ¡staring ¡at ¡the ¡beach. ¡ Not ¡what ¡I ¡expected ¡but ¡I‚ll ¡take ¡it! ¡  Length ¡of ¡Tweet ¡: ¡64 ¡ Viva ¡Italia ¡  Number ¡of ¡Hashtags: ¡1 ¡  Dimension ¡ ALL ¡  Source ¡  Web, ¡App, ¡Phone ¡ Source ¡  Hierarchy ¡ Brand ¡  Source ¡ User ¡ 02-­‑Nov-­‑12 ¡ 12 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  13. Discovered ¡Facts ¡and ¡Dimensions ¡  External ¡Data ¡Sources ¡& ¡APIs ¡  Language ¡ ¡ Watching ¡#Euro ¡final ¡at ¡BriEsh ¡pub ¡in ¡  English ¡ Capitola ¡while ¡staring ¡at ¡the ¡beach. ¡  EnEty ¡DetecEon ¡ Not ¡what ¡I ¡expected ¡but ¡I‚ll ¡take ¡it! ¡  Event ¡ Viva ¡Italia ¡  Euro ¡(Championship) ¡ ¡  Facility ¡  BriEsh ¡pub ¡  Country ¡  Italy ¡  Topic ¡  Sports ¡  Tags: ¡Sports, ¡Fun, ¡Eurocup ¡  SenEment: ¡PosiEve ¡ 02-­‑Nov-­‑12 ¡ 13 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  14. Discovered ¡Facts ¡and ¡Dimensions ¡  Data ¡Mining ¡  Clusters ¡of ¡Users ¡  Trending, ¡Spam, ¡Lifestyle, ¡etc. ¡  Clusters ¡of ¡Tweets ¡  Popularity ¡  Non-­‑Trivial ¡RelaEonships ¡  What ¡contributes ¡to ¡popularity ¡& ¡trending ¡of ¡  users ¡  tweets ¡ 02-­‑Nov-­‑12 ¡ 14 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

  15. Discovered ¡Facts ¡and ¡Dimensions ¡  Tweet ¡Popularity ¡ Classifier ¡  User ¡Popularity ¡ Classifier ¡ 02-­‑Nov-­‑12 ¡ 15 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-­‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡

Recommend


More recommend