Discovering ¡OLAP ¡Dimensions ¡in ¡ Semi-‑Structured ¡Data ¡ Svetlana ¡Mansmann, ¡Nafees ¡Ur ¡Rehman, ¡Andreas ¡Weiler, ¡Marc ¡H. ¡Scholl ¡ Database ¡& ¡InformaEon ¡Systems ¡(DBIS) ¡ Dept ¡of ¡Computer ¡Science, ¡University ¡of ¡Konstanz, ¡Germany ¡ 02-‑Nov-‑12 ¡ 1 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Outline ¡ IntroducEon ¡& ¡MoEvaEon ¡ Social ¡Networks ¡and ¡Big ¡Data ¡ OLAP ¡and ¡Data ¡Mining ¡for ¡“Big ¡Data” ¡ Acquiring ¡Facts ¡and ¡Dimensions ¡ Data ¡TransformaEon ¡ Discovering ¡New ¡Elements ¡ Modeling ¡Discovered ¡Elements ¡ Usage ¡& ¡Maintenance ¡of ¡Dynamic ¡Elements ¡ Conclusion ¡ ¡ 02-‑Nov-‑12 ¡ 2 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
IntroducEon ¡& ¡MoEvaEon ¡ Social ¡Networks ¡ Growing ¡popularity ¡ Huge ¡data ¡volumes ¡ High ¡data ¡generaEon ¡rate ¡ Heterogeneity ¡ ¡ “Big ¡Data” ¡ 02-‑Nov-‑12 ¡ 3 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
IntroducEon ¡& ¡MoEvaEon ¡ Data ¡Warehouse ¡vs. ¡noSQL ¡ Established ¡and ¡mature ¡technology ¡ Standardized ¡for ¡interchangeability ¡ IntegraEon ¡with ¡Data ¡Mining ¡ Abundance ¡of ¡tools ¡for ¡various ¡tasks ¡ Challenges ¡ Heterogeneous ¡and ¡semi-‑structured ¡content ¡ Dynamic ¡data, ¡changing ¡dimensions ¡ High ¡data ¡arrival ¡rate ¡ Non-‑trivial ¡analysis ¡tasks ¡ 02-‑Nov-‑12 ¡ 4 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Twi_er: ¡A ¡moEvaEonal ¡scenario ¡ Why ¡Twi_er? ¡ News ¡broadcast ¡& ¡InformaEon ¡exchange ¡placorm ¡ AcEve ¡Users ¡ ¡> ¡140 ¡million ¡ Daily ¡Tweets ¡ ¡> ¡340 ¡million ¡ Set ¡of ¡configurable ¡APIs: ¡ ¡ Search, ¡Rest, ¡Stream ¡ 02-‑Nov-‑12 ¡ 5 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Twi_er: ¡Output ¡Data ¡Format ¡ Twi_er ¡APIs ¡output ¡the ¡semi-‑structured ¡data ¡ as ¡JSON ¡objects: ¡ User ¡data ¡ <tweet> ¡ ¡ <text> ¡ Status ¡(tweet) ¡data ¡ ¡ ¡ ¡ ¡ ¡ ¡If ¡you ¡havent ¡read ¡about ¡Mario ¡Balotelli ¡yet, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡you ¡MUST ¡before ¡todays ¡#EURO2012 ¡final: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡h_p://t.co/2aFDjnsD ¡ ¡ Timeline ¡data ¡ ¡ </text> ¡ ¡ ¡ ¡ ¡ ¡ ¡<truncated>true</truncated> ¡ ¡ ¡ ¡ ¡ ¡ ¡<date>2012-‑01-‑07 ¡18:36:05.000</date> ¡ Over ¡67 ¡metadata ¡fields ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<source>web</source> ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<retweeted>true</retweeted> ¡ ¡<user> ¡ 10% ¡of ¡the ¡public ¡stream ¡ ¡ ¡ ¡ ¡<name>Marcel***</name> ¡ ¡ ¡ ¡ ¡<date>2011-‑08-‑01 ¡06:06:34:12.000</date> ¡ ¡ ¡ ¡ ¡<utc-‑offset>-‑18000</utc-‑offset> ¡ ¡ ¡ ¡ ¡<language>en</language> ¡ ¡ ¡ ¡ ¡is ¡available ¡ ¡ ¡ ¡ ¡<geo-‑enabled>False</geo-‑enabled> ¡ ¡ ¡ ¡ ¡<statuses_count>1521</statuses_count> ¡ ¡ ¡ ¡ ¡<followers_count>121</followers_count> ¡ ¡ ¡ ¡ ¡</user> ¡ </tweet> ¡ 02-‑Nov-‑12 ¡ 6 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
MulE-‑Layered ¡Architecture ¡for ¡Twi_er ¡Data ¡Warehouse ¡ 5th layer: PRESENTATION OLAP frontend Data Mining tool DSS frontend spreadsheet web frontend 4th layer: ANALYSIS OLAP Data Mining DSS methods Tweet Mart User Mart Media Mart Microsos ¡ ¡ Archiving system SQL ¡Server Metadata Monitoring Administration 3rd layer: DATA WAREHOUSE BaseX XML storage Extractor ¡ Enrichment ¡ Staging area 2nd layer: ETL 1st layer: DATA SOURCES external sources REST API Search API Streaming API 02-‑Nov-‑12 ¡ 7 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Twi_er ¡stream ¡ ¡-‑ ¡a ¡Structured ¡View ¡ Twi_er ¡data ¡model: ¡ Original ¡model ¡is ¡not ¡available ¡ Streamed ¡data ¡is ¡poorly ¡documented ¡ RelaEonships ¡between ¡fields ¡are ¡not ¡obvious ¡ Reverse ¡engineering ¡of ¡the ¡data ¡model ¡ Related ¡fields ¡are ¡grouped ¡into ¡classes ¡ RelaEonships ¡between ¡classes ¡are ¡specified ¡ Constraints ¡are ¡defined ¡ 8 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡ 02-‑Nov-‑12 ¡
Twi_er ¡stream ¡ ¡-‑ ¡a ¡Structured ¡View ¡ 9 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡ 02-‑Nov-‑12 ¡
Acquiring ¡Facts ¡and ¡Dimensions ¡ Cube ¡candidates: ¡ user-‑related ¡data ¡ tweet-‑related ¡data ¡ content ¡elements ¡ Granularity ¡levels: ¡ user ¡staEsEcs ¡ messaging ¡staEsEcs ¡ topics ¡& ¡terms ¡ ¡ 02-‑Nov-‑12 ¡ 10 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Acquiring ¡Facts ¡and ¡Dimensions ¡ Simple ¡derivaEon ¡/ ¡computaEon ¡ Including ¡external ¡data ¡sources ¡ geo-‑informaEon, ¡vocabularies ¡ Applying ¡external ¡funcEons ¡(APIs) ¡ language ¡detecEon ¡and ¡translaEon ¡ ¡ senEment ¡analysis ¡ spam ¡detecEon ¡ … ¡ Data ¡mining ¡ hidden ¡relaEonships, ¡clustering, ¡ranking ¡ 02-‑Nov-‑12 ¡ 11 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Discovered ¡Facts ¡and ¡Dimensions ¡ Simple ¡DerivaEon ¡ Watching ¡#Euro ¡final ¡at ¡BriEsh ¡pub ¡in ¡ Fact/Measure ¡ExtracEon ¡ Capitola ¡while ¡staring ¡at ¡the ¡beach. ¡ Not ¡what ¡I ¡expected ¡but ¡I‚ll ¡take ¡it! ¡ Length ¡of ¡Tweet ¡: ¡64 ¡ Viva ¡Italia ¡ Number ¡of ¡Hashtags: ¡1 ¡ Dimension ¡ ALL ¡ Source ¡ Web, ¡App, ¡Phone ¡ Source ¡ Hierarchy ¡ Brand ¡ Source ¡ User ¡ 02-‑Nov-‑12 ¡ 12 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Discovered ¡Facts ¡and ¡Dimensions ¡ External ¡Data ¡Sources ¡& ¡APIs ¡ Language ¡ ¡ Watching ¡#Euro ¡final ¡at ¡BriEsh ¡pub ¡in ¡ English ¡ Capitola ¡while ¡staring ¡at ¡the ¡beach. ¡ EnEty ¡DetecEon ¡ Not ¡what ¡I ¡expected ¡but ¡I‚ll ¡take ¡it! ¡ Event ¡ Viva ¡Italia ¡ Euro ¡(Championship) ¡ ¡ Facility ¡ BriEsh ¡pub ¡ Country ¡ Italy ¡ Topic ¡ Sports ¡ Tags: ¡Sports, ¡Fun, ¡Eurocup ¡ SenEment: ¡PosiEve ¡ 02-‑Nov-‑12 ¡ 13 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Discovered ¡Facts ¡and ¡Dimensions ¡ Data ¡Mining ¡ Clusters ¡of ¡Users ¡ Trending, ¡Spam, ¡Lifestyle, ¡etc. ¡ Clusters ¡of ¡Tweets ¡ Popularity ¡ Non-‑Trivial ¡RelaEonships ¡ What ¡contributes ¡to ¡popularity ¡& ¡trending ¡of ¡ users ¡ tweets ¡ 02-‑Nov-‑12 ¡ 14 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Discovered ¡Facts ¡and ¡Dimensions ¡ Tweet ¡Popularity ¡ Classifier ¡ User ¡Popularity ¡ Classifier ¡ 02-‑Nov-‑12 ¡ 15 ¡ Discovering ¡OLAP ¡Dimensions ¡in ¡Semi-‑Structured ¡Data ¡– ¡DOLAP’12 ¡Hawaii ¡USA ¡
Recommend
More recommend