Chapter ¡14. ¡ Bayesian ¡Filtering ¡for ¡State ¡ Estimation ¡of ¡Dynamic ¡Systems Neural ¡Networks ¡and ¡Learning ¡Machines ¡ (Haykin) 2019 Lecture ¡Notes ¡on ¡ Self-‑learning ¡Neural ¡Algorithms Byoung-‑Tak ¡Zhang School ¡of ¡Computer ¡Science ¡and ¡Engineering Seoul ¡National ¡University Version ¡20171115/20191105
Contents 14.1 ¡Introduction ¡ ¡……………………………………………….…………………………….... ¡ 3 14.2 ¡State-‑Space ¡Models ¡ ¡ ¡………………………………….……..……………………..…. ¡ 4 14.3 ¡Kalman Filters ¡ ¡…………………….…….………………………………………..…….... ¡ 6 14.6 ¡The ¡Bayesian ¡Filter ………………………………...…….…………………….…...…. ¡ 9 14.7 ¡Particle ¡Filters ….…………….…….…………….……..……..……………………….. ¡ 15 14.9 ¡Computer ¡Experiment ¡ ¡……………………………………………………………….. ¡ 24 Summary ¡ ¡ . ………………………………….……….…….………………………….………... ¡ 26 (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 2
14.1 Introduction Estimation ¡of ¡the ¡state ¡of ¡a ¡dynamic ¡system, ¡given ¡a ¡sequence ¡of ¡ • observations ¡dependent ¡on ¡the ¡state. The ¡observations ¡take ¡place ¡in ¡ discrete ¡time . ¡The ¡state ¡is ¡not ¡only ¡ • unknown, ¡but ¡also ¡ hidden from ¡the ¡observer ¡(inverse ¡problem). ¡ The ¡first ¡rigorous ¡treatment ¡ of ¡sequential ¡state-‑estimation ¡theory ¡ • appeared ¡in ¡ Kalman’s classic ¡paper ¡ (1960). ¡Kalman derived ¡a ¡ recursive ¡formula ¡to ¡find ¡the ¡ optimal ¡estimate ¡ of ¡the ¡unknown ¡ state ¡with ¡two ¡simplifying ¡assumptions ¡ – The ¡dynamic ¡system ¡is ¡entirely ¡ linear – The ¡noise ¡processes ¡perturbing ¡the ¡state ¡of ¡the ¡dynamic ¡system ¡and ¡the ¡ observables ¡are ¡ additive ¡and ¡Gaussian State-‑estimation ¡theory ¡remains ¡an ¡active ¡area, ¡for ¡nonlinear ¡and ¡ • non-‑Gaussian ¡situations. ¡Instead ¡of ¡finding ¡the ¡optimal ¡estimate, ¡ one ¡has ¡to ¡settle ¡on ¡an ¡ approximate ¡estimator (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 3
14.2 ¡State-‑Space ¡Models ¡(1/2) + = x a x w ( , ) 1. System ¡(state) ¡model n 1 n n n = y b x v ( , ) 2. Measurement ¡(observation) ¡ model n n n n Linear, ¡Gaussian § = + x A 1 , x w + + n 1 n n n = + y B x v n n n n Nonlinear, ¡Gaussian § + = + x a x ( ) w n 1 n n n = + y b x ( ) v n n n n Figure ¡14.1 Generic ¡state-‑space ¡model ¡of ¡a ¡time-‑varying, ¡nonlinear ¡dynamic ¡system, ¡ where ¡ z –1 I ¡ denotes ¡a ¡block ¡of ¡unit-‑time ¡delays. N ∑ = ℵ Σ p x ( ) c , ( , x ) i i i = (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 4 i 1
14.2 ¡State-‑Space ¡Models (2/2) Figure ¡14.2 Evolution ¡of ¡the ¡state ¡across ¡time, ¡viewed ¡as ¡a ¡first-‑order ¡Markov ¡chain.
14.3 ¡Kalman Filters ¡(1/3) Figure ¡14.3 Signal-‑flow ¡graph ¡of ¡the ¡Kalman filter, ¡depicting ¡it ¡as ¡a ¡double-‑loop ¡ feedback ¡system.
14.3 ¡Kalman Filters ¡(2/3)
14.3 ¡Kalman Filters (3/3)
14.6 ¡The ¡Bayesian ¡Filter ¡(1/6) (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 9
14.6 ¡The ¡Bayesian ¡Filter ¡(2/6) = n Y sequence of observations, denoting { y } = n i i 1 p ( x Y | )= predictive distribution of the state x at the current time n, given − n n 1 n the entire sequence of observations up to and includin g y . − n 1 p ( x Y | )= posterior distribution of the current state x , given the entire n n n sequence of observations up to and including the current time n; this distribution is commonly referred to simply as the "posterior" p x x ( | )= transition-state distribution of the current state x , given the immediate − n n 1 n past state x ; this distrubution is commonly re ferred to as the "transition prior" − n 1 or simply "prior" l y x ( | )= likelihood function of the current observation y , given the current state x n n n n (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 10
14.6 ¡The ¡Bayesian ¡Filter ¡(3/6) Assumptions = p ( x | y ) p ( x ) 0 0 0 n = ∏ l ( y y , ,..., y | x x , ,..., x ) l ( y | x ) 1 2 n 1 2 n i i = i 1 Update ¡formulas 1. ¡Time ¡update = ∫ p ( x | Y ) p ( x | x ) ( p x | Y )d x 1 4 2 4 3 1 4 2 4 3 1 4 4 2 4 4 3 − − − − − n n 1 n n 1 n 1 n 1 n 1 Predictive Prior Old posterior distribution 2. ¡Measurement ¡update 1 = ∫ = p ( x | Y ) p ( x | Y ) ( l y | x ) where Z l ( y | x ) ( p x | Y ) d x 1 4 2 43 1 4 2 4 3 1 4 2 4 3 − − n n n n 1 n n n n n n n 1 n Z n Updated Predictive Likelihood distribution function posterior (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 11
14.6 ¡The ¡Bayesian ¡Filter ¡(4/6) Optimality ¡of ¡the ¡Bayesian ¡filter The Bayesian filter of Fig. 14.4 is optimal in a conceptual sense, with two interesting properties: 1. The model operates in a recursive manner by propagating the posterior distribution p x ( | Y ) . n n 2. Knowl edge of the model about the state x , extracted from the entire observations n process Y , is completely contained in the posterior distribution ( p x | Y ) . n n n (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 12
14.6 ¡The ¡Bayesian ¡Filter ¡(5/6) Approximate ¡Bayesian ¡Filtering Bayes ¡estimator = ∫ = E h [ ( h x )] h ( x ) ( p x | Y ) d x n p n n n n n Nonlinear ¡filtering ¡objective Given the entire observations sequence Y at time n pertaining to the nonlinear state-space n model of Eqs. (14.7) and (14.8), derive an approximate realization of the Bayes estimator h ( x ), defined in Eq . (14.84), that is subject to two practical requirements: n 1. computational plausibility; 2. recursive implementability. (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 13
14.6 ¡The ¡Bayesian ¡Filter ¡(6/6) Two ¡methods ¡for ¡approximate ¡Bayesian ¡filtering 1. Direct Numerical Approximation of the Posterior. The rationale behind this direct approach to nonlinear filtering is summed up as follows: In general, it is easier to approximate the posterior distribution ( p x | Y ) directly and in a local n n sense than it is to approximate the nonlinear function characterizing the system (state) model of the filter. 2. Indirect Numerical Approximation of the Posterior. The rationale behind this second approach to nonlinear filtering is summed up as follows: The posterior distribution ( p x | Y ) is approximated indire ctly and in a global sense through n n the use of Monte Carlo simulation, so as to make the Bayesian framework for nonlinear filtering computationally tractable. (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 14
14.8 ¡Particle Filters ¡(1/9) Monte ¡Carlo ¡Integration p ( X | Y ) = r ( X | Y ) n n n n q ( X | Y ) n n ⎛ ⎞ p ( X | Y ) ∫ ∫ = = h h ( X ) n n q ( X | Y ) d x h ( X ) ( r X | Y ) ( q X | Y ) d x ⎜ ⎟ n n n n n n n n n n n q ( X | Y ) ⎝ ⎠ n n 1 N ∑ ˆ ( ≈ % ( ) i ( ) i h N ) w h ( X ) n n n N = i 1 ( ) i p ( X | Y ) % = = = ( ) i ( ) i w r ( X | Y ) n n , i 1,2, ..., N n n n ( ) i q ( X | Y ) n n N ∑ ˆ ( ≈ ( ) i ( i ) h N ) w h ( X ) n n n = i 1 % ( ) i w = = ( ) i n w , i 1,2, ..., N n N ∑ % ( ) j w n = j 1 ˆ → l im h N ( ) h → ∞ N n n (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 15
14.8 ¡Particle ¡Filters (2/9) ( ) i N 1. Sampling. Randomly draw an iid set of N samples { X } from the importance distribution = i 1 q ( X Y | ) . 2. Weighting. Using Eq. (14.110), compute the corresponding set of normalized ( ) i N weights {w } . = i 1 3. Resampling. (1) (2) ( N ) ( ) i Given the intermediate samples X , X , ..., X , conditionally and independently (1) (2) ( ) L dr aw a set of discrete random variables { L I , I , ..., I } that take values (1) (2) ( N ) in the set {1, 2 , .. ., } with probabilities ( N w , w , ..., w ) as shown by, for example, = = = (1) ( ) j P (I j ) w for j 1,2, ..., N ≤ (2) ( ) L and so on for I , ..., I ; typicall y, we have L N . ( ) i = = ( ) L ( ) ii Set X X for i 1,2, ..., L (c) ¡2017 ¡Biointelligence ¡Lab, ¡SNU 16
Recommend
More recommend