Continuous Queries over Data Streams Shivnath Babu and Jennifer - PowerPoint PPT Presentation

Continuous Queries over Data Streams Shivnath Babu and Jennifer Widom Stanford University Presented by Chung Leung, LAM

Overview • Use of continuous data stream • Survey & New architecture • Continuous Queries over Data Stream • The STREAM (STandford stREam datA Management) project

The Survey • [TGNO92] - Continuous queries • [JMS95] - Data streams • [SPAM91] - Triggers • [GM95] - Materialized views • [HHW97], [HH99] - Online-processing • [MRL99], [GK01] - Summarization

A Concrete Example PT c PT b ISP ISP Customer Router A Router B Backbone • An ISP that collects packet trace from two links • Incoming packets from the link - data stream (unbounded-append only database) • Collect packet trace - continuous query over data stream • Conventional DBMS technology is inadequate

With Load As (Select sadd, daddr, sum(length) as traffic From PT b Group By saddr, daddr) Select sadd, daddr,, traffic From Load As L 1 Where (Select count(*) From Load as L 2 Where L 2 .traffic < L 1 .traffic) > (Select 0.95Xcount(*) From Load) Order By traffic

Data Stream VS Traditional Stored Data Sets • A single, continuous stream of tuples • A single continuous query Q • Data stream as unbounded append-only database D

• Many possible ways to handle Q with ramifications • E.g. Q is a selection or a group-by query • Different ways to address such issues • Suggested to have a new architecture

Architecture

D • New tuple a remain in answer A “forever” because of new tuple t from stream - Send the new tuple a to the Stream • New tuple t cause update or delete of Store - Answer tuples moved from Store to Stream • When t is not needed now or later - t is sent to Throw

Query Processing Scenarios • Scenario - Always store and make available the current answer to Q D • In terms of the architecture - Stream is empty - Store always contains A - Scratch contains data to keep Store up-to-date

Triggers & Materialized Views • Triggers - Stream and Store may remain empty - Scratch store data for monitor complex events or evaluate conditions • Materialized Views - Base data stored in Scratch - The view is maintained in Store - Updates to the base data represented as data streams

Basic Problems • Online-processing - New tuples arrived in data stream must be “consumed” immediately - Some of them may need to be ignored • Storage constraints - Store and/or Scratch may be unbounded size - Performance requirements reside in limited amount of main memory

New Techniques • Summarization - Sampling, histograms, wavelets • Online data structures - Data structure designed specifically to handle continuous data flow (e.g. [FW98]) • Adaptivity - Long-running query need to consider more parameters (e.g. amount of available memory, stream data flow rate) - Adaptive query processing techniques

Data Stream Management System • Build a complete DSMS • With similar functionalities and performance with tradition DBMS • Build from scratch • Complete prototype - STREAM - A flexible interface - A processor - A client API

Summary • Focused on continuous queries over data stream • Survey on previous related work • Proposed a new architecture • Discussed related issues and research problems • Introduce the STREAM project

Questions?

Continuous Queries over Data Streams Shivnath Babu and Jennifer - PowerPoint PPT Presentation

Continuous Queries over Data Streams Shivnath Babu and Jennifer Widom Stanford University Presented by Chung Leung, LAM Overview Use of continuous data stream Survey & New architecture Continuous Queries over Data Stream The

Streaming Queries over Streaming Data Sirish Chandrasekaran UC Berkeley August 20, 2002 VLDB

Queries in PSM The following rules apply to the use of queries: CS 235: 1. Queries

WITH C++ Prof. Amr Goneid AUC Part 9. Streams & Files Prof. amr Goneid, AUC 1 Streams

Top-k Queries over Uncertain Scores Qing Liu, Debabrota Basu, Talel Abdessalem, St ephane

Stream Algorithmics Albert Bifet March 2012 Data Streams Big Data & Real Time Data Streams

Environmental Health Science Data Streams Data Streams Health Data Health Data Brian S.

Processing Complex Aggregate Queries over Data Streams SIGMOD 2002 Alin Dobra Minos Garofalakis

Frequency Counts Frequency Counts over over Data Streams Data Streams Gurmeet Singh Manku

Data Streams Many large sources of data are generated as streams of updates: IP Network

Data Streams Many large sources of data are generated as streams of updates: IP Network

Range Minimum and Lowest Common Ancestor Queries Slides by Solon P. Pissis November 15, 2019

Top- -k k Queries Queries on SQL on SQL Databases Databases Top Top-k Queries on SQL

Middleware Queries Queries Middleware Middleware Queries Prof. Paolo Ciaccia Prof. Paolo

Stream Bank Stabilization in Open Space Streams in open space There are approximately 35

CSE 143 Streams as C++ Classes Streams are C++ classes Streams have lots of built-in

Comparing Data Streams Using Hamming Norms Graham Cormode, Mayur Datar, Piotr Indyk, S.

MeDeduce Telling the Clinical Story May 2016 The Team Dr. Refael Barkan Michal Olshak Dr.

Oklahoma Insurance Market Analysis Prepared for Oklahoma State Department of Health August 6,

MWCropDSS for SCY4cast system MBMS SDBMS DSSAT 4.6 FILE-X & Admin. boundary OTHER INPUTS

Scaling NewSum Big data text Clustering and https://www.scify.org Summarization using N-Gram

OPENCBS Adaptive open source technology for financial inclusion opencbs.com OpenCBS Tablet

MiFleet for your Fleet. MiFleet now offers a combined Electronic Driver Log Applica>on

LOOKING FORWARD: USING DATA TO MINIMIZE COSTS Consultant presentation to EEAC April 15, 2016

CompuLEAD: Lead Retrieval App for Exhibitors New For 2018 -Faster Scanning -Autonomous

Continuous Queries over Data Streams Shivnath Babu and Jennifer - PowerPoint PPT Presentation

Continuous Queries over Data Streams Shivnath Babu and Jennifer Widom Stanford University Presented by Chung Leung, LAM Overview Use of continuous data stream Survey & New architecture Continuous Queries over Data Stream The

Streaming Queries over Streaming Data Sirish Chandrasekaran UC Berkeley August 20, 2002 VLDB

Queries in PSM The following rules apply to the use of queries: CS 235: 1. Queries

WITH C++ Prof. Amr Goneid AUC Part 9. Streams &amp; Files Prof. amr Goneid, AUC 1 Streams

Top-k Queries over Uncertain Scores Qing Liu, Debabrota Basu, Talel Abdessalem, St ephane

Stream Algorithmics Albert Bifet March 2012 Data Streams Big Data &amp; Real Time Data Streams

Environmental Health Science Data Streams Data Streams Health Data Health Data Brian S.

Processing Complex Aggregate Queries over Data Streams SIGMOD 2002 Alin Dobra Minos Garofalakis

Frequency Counts Frequency Counts over over Data Streams Data Streams Gurmeet Singh Manku

Data Streams Many large sources of data are generated as streams of updates: IP Network

Data Streams Many large sources of data are generated as streams of updates: IP Network

Range Minimum and Lowest Common Ancestor Queries Slides by Solon P. Pissis November 15, 2019

Top- -k k Queries Queries on SQL on SQL Databases Databases Top Top-k Queries on SQL

Middleware Queries Queries Middleware Middleware Queries Prof. Paolo Ciaccia Prof. Paolo

Stream Bank Stabilization in Open Space Streams in open space There are approximately 35

CSE 143 Streams as C++ Classes Streams are C++ classes Streams have lots of built-in

Comparing Data Streams Using Hamming Norms Graham Cormode, Mayur Datar, Piotr Indyk, S.

MeDeduce Telling the Clinical Story May 2016 The Team Dr. Refael Barkan Michal Olshak Dr.

Oklahoma Insurance Market Analysis Prepared for Oklahoma State Department of Health August 6,

MWCropDSS for SCY4cast system MBMS SDBMS DSSAT 4.6 FILE-X &amp; Admin. boundary OTHER INPUTS

Scaling NewSum Big data text Clustering and https://www.scify.org Summarization using N-Gram

OPENCBS Adaptive open source technology for financial inclusion opencbs.com OpenCBS Tablet

MiFleet for your Fleet. MiFleet now offers a combined Electronic Driver Log Applica&gt;on

LOOKING FORWARD: USING DATA TO MINIMIZE COSTS Consultant presentation to EEAC April 15, 2016

CompuLEAD: Lead Retrieval App for Exhibitors New For 2018 -Faster Scanning -Autonomous

WITH C++ Prof. Amr Goneid AUC Part 9. Streams & Files Prof. amr Goneid, AUC 1 Streams

Stream Algorithmics Albert Bifet March 2012 Data Streams Big Data & Real Time Data Streams

MWCropDSS for SCY4cast system MBMS SDBMS DSSAT 4.6 FILE-X & Admin. boundary OTHER INPUTS

MiFleet for your Fleet. MiFleet now offers a combined Electronic Driver Log Applica>on