outlier detection for temporal data a survey
play

Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. - PowerPoint PPT Presentation

Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. presented by Seoul National University ga0408@snu.ac.kr July 06, 2018 1/50 Table of Contents 1. Introduction 2.


  1. Outlier Detection for Temporal DATA: A Survey Manish Gupta et al. presented by 이 종 진 Seoul National University ga0408@snu.ac.kr July 06, 2018 1/50

  2. Table of Contents 1. Introduction 2. 시 계 열 데 이 터 에 서 의 이 상 점 탐 지 3. 스 트 림 데 이 터 에 서 의 이 상 점 탐 지 4. Stream Data in Distributed Scenarios 에 서 의 이 상 점 탐 지 5. Spatio-Temporal Data 에 서 의 이 상 점 탐 지 6. Temporal Networks 에 서 의 이 상 점 탐 지 7. 시 간 관 련 데 이 터 의 이 상 점 탐 지 기 법 의 적 용 사 례 2/50

  3. Overview ◮ 통 계 학 에 서 지 난 수십 년 간 시 계 열 의 이 상 점 탐 지 에 대 한 연 구 가 꾸 준 히 이 루 어 져 왔 다 . ◮ 최 근 하 드 웨 어 와 소 프 트 웨 어 의 발 달 로 컴 퓨 터 공 학 에 서 도 시 간 에 따 른 이 상 점 탐 지 에 대 해 많 은 연 구 가 진 행 되 고 있 다 . ◮ 다 양 한 종 류 의 시 간 관 련 데 이 터 에 대 해 이 상 점 탐 지 연 구 가 진 행 되 고 있 다 . 1. Data streams 2. Spatio-temporal data 3. Distributed streams 4. Temporal networks 5. Time series data 3/50

  4. Overview ◮ 연 구 가 활 발 함 에 따 라 , 시 간 에 따 른 이 상 점 탐 지 에 대 해 진 행 된 연 구 에 대 한 체 계 적 이 고 자 세 하 게 정 리 하 는 것 에 대 한 필 요 성 이 생 겨 났 다 . ◮ 이 논 문 에 서 는 시 간 데 이 터 의 이 상 점 탐 지 에 대 해 서 포 괄 적 이 면 서 체 계 적 으 로 정 리 하 고 있 다 . → 다 양 한 형 태 의 시 간 관 련 데 이 터 에 대 해 서 이 상 점 의 정 의 , 탐 지 기 술 , 특 정 정 의 와 기 술 이 적 용 되 는 시 나 리 오 를 제 시 . 4/50

  5. 1. Introduction ◮ 시 간 관 련 데 이 터 에 서 이 상 점 분 석 문 제 는 여 러 측 면 에 따 라 분 류 할 수 있 다 . ◮ 이 분 야 는 매 우 풍 부 해 서 시 간 관 련 데 이 터 를 어 떤 특 정 범 주 로 한 정 지 을 순 없 으 며 다 양 한 범 주 들 의 조 합 으 로 나 타 난 다 . 1. 시 계 열 vs 고 차 원 데 이 터 : 시 계 열에 서 는 시 간 의 연 속성 이 가 장 중 요 하 고 시 간 의 작은 창 을 잘 선 정 하 여 분 석 을 한 다 . 반 면 에 고 차 원 데 이 터 는 시 간 적 특 성 에 크 게 의 존 하 지 않 고 일 반 적 인 고 차 원 이 상 점 분 석 기 법 과 크 게 다 르 지 않 은 기 법 을 이 용 하 여 분 석 을 한 다 . 2. 점 vs 창 : 시 간 데 이 터 에 서 비 정 상 적 인 점 을 찾 는 것 을 목 표 로 하 느 냐 , 비 정 상 정 인 변 화 의 패 턴 을 찾 는 것 을 목 표 로 하 느 냐 에 따 라 분 류 된 다 . 3. 데 이 터 타 입 에 따 른 분 류 : 연 속 형 , 이 산 형 , 고 차 원 스 트 림 혹 은 네 트 워 크 데 이 터 에 따 라 다 른 분 석 기 법 이 필 요 하 다 . 4. 지 도 vs 비 지 도 : 과거 의 비 정 상 예 시 가 이 용 가 는 한 지 의 여 부 에 따 라 분 류 된 다 . 이 분 류 는 시 간 데 이 터 에 만 국 한 되 는 것 이 아 니 라 다 른 형 태 의 데 이 터 이 상 점 탐 지 에 도 해 당 되 는 내 용 이 다 . ◮ 이 논 문 은 총 162 개 의 논 문 에 서 의 이 상 점 탐 지 방법 에 대 해 정 리 하 고 있으 며 , 이 상 점 탐 지 방법 을 데 이 터 의 다 양 한 측 면 에 따 라 다 양 한 종 류 의 시 나 리 오 를 따 라 정 리 해 놓 았 다 . 5/50

  6. 2. 시 계 열 데 이 터 에 서 의 이 상 점 탐 지 ◮ 시 계 열 데 이 터 베 이 스 안에 서 이 상 시 계 열 및 이 상 패 턴 탐 지 ◮ 단 일 시 계 열안에 서 이 상 패 턴 및 이 상 점 탐 지 6/50

  7. 2.1 시 계 열 데 이 터 베 이 스 안에 서 이 상 시 계 열 및 이 상 패 턴 탐 지 ◮ 각 시 계 열 의 이 상 점 수 (Anomal Score) 계 산 을 통 해 이 상 시 계 열 탐 지 ◮ 이 상 점 수 를 계 산 하 는 방법 에 따 라 두 가 지 유 형 으 로 나 뉨 – Direct Detection of Outlier Time Series. 1. Unsupervised Discriminative Approaches 2. Unsupervised Parametric Approaches 3. Unsupervised OLAP Approaches 4. Supervised Approaches – Window-Based Detection of Outlier Time Series 1. Normal Pattern Database Approach 2. Negative and Mixed Pattern Database Approaches – Outlier Subsequences in Test Time Series 7/50

  8. D1. Unsupervised Discriminative Approaches ◮ 판 별 함 수 는 두 시 계 열 간 의 유 사 도 를 측 정 하 는 유 사 도 함 수 의 종 류 와 군 집 화 방법 에 따 라 달 라 진 다 . ◮ 유 사 도 함 수 : Simple match count based sequence similiarity, Normalized length of the longest common subsequence(LCS) → "ABCDGH" and "AEDFHR", length of LCS = 3("ADH"), Normalized 3 length = √ 6 ∗ 6 ◮ 군 집 화 방법 : k- 평 균 , EM, phased k- 평 균 , 동 적 군 집 화 , k- 대 표 , 단 일 연 결 법 , 주 성 분분 석 을 이 용 한 고 차 원 시 계 열 의 군 집 화 , one-class SVM, 자 기 조 직 화 지 도 (self-organizing maps). ◮ 이 상 점 수 는 test 시 계 열 과 가 장 가 까 운 군 집 의 평 균 값 혹 은 중 심 값 까 지 의 거 리 로 정 의 ◮ 어 떤 시 계 열 의 이 상 점 수 가 정 해 진 기 준 보 다 낮 으 면 이 상 시 계 열 로 판 별 8/50

  9. D2. Unsupervised Parametric Approaches ◮ 시 계 열 을 생 성 하 는 모 형 을 모 수 적 모 형 으 로 추 정 ◮ 이 상 점 수 는 각 시 계 열 이 생 성 될 확 률 값 ◮ 유 명 한 모 형 으 로 는 유 한 상 태 기 계 (FSA), 마르 코 프 모 형 , 은 닉 마르 코 프 모 형 . – 유 한 상 태 기 계 : 크 기 가 l 인 부분 시 계 열 들 을 이 용 하 여 , 모 형 을 적 합 시 키 고 , test 시 계 열에 서 가 능 한 모 든 크 기 l 의 부분 시 계 열 을 이 용 하 여 모 형 에 넣 어 본 다 . FSA 가 더 이 상 밖 으 로 향하 지 않 는 상 태 에 도 달 하 면 이 상 시 계 열 로 판 단 . – 마르 코 프 모 형 – 은 닉 마르 코 프 모 형 : 은 닉 상 태 와 전 이 확 률 은 시 간 적 의 존 성 을 혼 합 성 분 으 로 모 형화 , 설 명 력 이 높 다는 것과 이 론 적 기 반 이 잘 되 어 있 다는 것 이 장 점 . 9/50

  10. D3. Unsupervised OLAP Based Approach ◮ OLAP : OnLin Analytical Processing( 온 라 인 분 석 처 리 ) ◮ 온 라 인 분 석 처 리 는 의 사 결 정 지 원 시스 템 중 하 나 로 , 사 용 자 가 데 이 터 들 을 여 러 기 준 을 선 택 적 으 로 이 용 하 여 다 차 원 데 이 터 분 석 을 할 수 있 도 록 도 와 준 다 . ◮ 데 이 터 베 이 스 에 있 는 시 계 열 들 이 각각 고 차 원 특 성 들 과 관 련 이 있을 때 , OLAP cube 를 이 용 하 여 재 표 현 가 능 하 다 . ◮ 시 계 열 의 추 세 , 추 세 의 크 기 등 이 기 대 값과 현 저 히 차 이 가 날 때 , 이 상 시 계 열 로 판 별 10/50

  11. D4. Supervised Approaches ◮ position system call features with RIPPER Classifer( 규 칙 기 반 분 류 모 형 ) ◮ subsequences of positive and negative strings of behavior feature with string match classifier ◮ 인 공 신 경 망 ◮ Elman network ◮ motion features with SVMs ◮ bag of system calls with decision tree, Naive Bayes, SVMs. ◮ Sliding window subsequence features with SVMs, rule based classifer, HMMs. 11/50

  12. W1. Normal Pattern Database Approach ◮ 정 상 시 계 열 은 크 기 가 w 이 면 서 겹 치 는 부분 시 계 열 ( 창 ) 으 로 나 눈 후 , 데 이 터 베 이 스 로 저 장 한 다 . ◮ Test 시 계 열 또 한 크 기 가 w 인 부분 시 계 열 로 나 눈 후 , 데 이 터 베 이 스 와 비 교 했 을 때 , 데 이 터 베 이 스 에 없 는 부분 시 계 열 이 많 이 나 온 다 면 이 상 시 계 열 로 판 단 한 다 . ◮ soft mismatch score 를 도 입 하 여 완 전 히 동 일 한 부분 수 열 이 없 을 때 도 얼 마 나 유 사 한 지 여 부 에 따 라 점 수 를 주 는 방법 도 있 다 . ◮ 정 상 데 이 터 베 이 스 를 만 들 때 , 인 접 한 부분 시 계 열 사 이의 관 계 를 이 용 하 기 도 한 다 . 12/50

  13. W2. Negative and Mixed Pattern Database Approaches ◮ 이 상 시 계 열 의 데 이 터 베 이 스 또 한 만 드 는 방법 . ◮ 정 상 시 계 열 의 크 기 가 w 인 모 든 가 능 한 부분 수 열 을 정 상 데 이 터 베 이 스 로 저 장 한 다 . ◮ 정 상 데 이 터 베 이 스 에 있 지 않 은 크 기 가 w 인 수 열 을 detectors 혹 은 negative subsequences 로 간 주 한 다 . ◮ Test 시 계 열에 어 떤 detector 가 존 재 한 다 면 이 상 시 계 열 로 판 단 한 다 . ◮ Detecter 는 랜 덤 하 게 생 성 할 수 있 고 , 특 정 상 황 에 대 한 지 식 을 이 용 하 여 정 상 시 계 열에 없 을 것 이 라 고 판 단 되 는 부분 시 계 열 을 이 용 할 수 있 다 . 13/50

  14. S1. Outlier Subsequences in a Test Time Series ◮ 이 상 패 턴 ( 이 상 부분 시 계 열 ) 을 찾 아 내 는 방법 이 다 . ◮ Test 시 계 열 의 이 상 패 턴 (p) 의 이 상 점 수 는 test 시 계 열에 서 패 턴 p 의 빈 도 와 데 이 터 베 이 스 에 서 의 패 턴 p 의 평 균 빈 도 의 차 이 로 정 의 된 다 . ◮ 빈 도 역 시 soft match version 을 이 용 해 구 하 기 도 한 다 .( 부분 수 열 의 빈 도 , Permutation of p 의 빈 도 ) ◮ TARZAN alogorithm, Interolated Markov Models(IMM) 14/50

Recommend


More recommend