Tutorials Interpretable Deep Learning: Towards Understanding & Explaining DNNs P a r t 3 : V a l i d a t i n g E x p l a n a t i o n s W o j c i e c h S a m e k , G r é g o i r e M o n t a v o n , K l a u s - R o b e r t M ü l l e r 1 / 2 8
F r o m M L S u c c e s s e s t o A p p l i c a t i o n s Deep Net outperforms Medical Diagnosis humans in image classification AlphaGo beats Go human champ Autonomous Driving Visual Reasoning Networks (smart grids, etc.) 2 / 2 8
M a k i n g M L M o d e l s I n t e r p r e t a b l e 3 / 2 8
L a y e r - W i s e R e l e v a n c e P r o p a g a t i o n ( L R P ) [ B a c h ’ 1 5 ] 4 / 2 8
D e e p T a y l o r D e c o m p o s i t i o n [ M o n t a v o n ’ 1 7 ] S u p p o s e t h a t w e h a v e p r o p a g a t e d t h e r e l e v a n c e u n t i l Q u e s t i o n : a g i v e n l a y e r . H o w s h o u l d i t b e p r o p a g a t e d o n e l a y e r f u r t h e r ? I d e a : B y p e r f o r m i n g a T a y l o r e x p a n s i o n o f t h e r e l e v a n c e . 5 / 2 8
D e e p T a y l o r D e c o m p o s i t i o n R e l e v a n c e n e u r o n : T a y l o r e x p a n s i o n : R e d i s t r i b u t i o n : 6 / 2 8
R e v i s i t i n g t h e D T D R o o t P o i n t ( D e e p T a y l o r g e n e r i c ) C h o i c e o f r o o t p o i n t 1 . n e a r e s t r o o t ✔ 2 . r e s c a l e d e x c i t a t i o n s ✔ 3 . g e n e r a l i z e d G e n e r a l i z e d r u l e 7 / 2 8
T h e S p e c i a l C a s e “ = 1 . 0 ” γ F i n d t h e d i f f e r e n c e . . . I s t h e r e a c o n n e c t i o n b e t w e e n t h e t w o m e t h o d s ? Q u e s t i o n : 8 / 2 8
T h e S p e c i a l C a s e “ = 1 . 0 ” γ w h i c h c a n a l s o b e r e w r i t t e n a s : [Shrikumar’17] Not Just a F o r n e t w o r k s w i t h b i a s z e r o , t h e Black Box: Learning p r o c e d u r e b e c o m e s e q u i v a l e n t t o Important Features Through Propagating Activation 9 / 2 8 g r a d x i n p u t [ s e e a l s o S h r i k u m a r ’ 1 7 ] Differences, ArXiv
Question: How to select the optimal parameter “ γ ” ? 1 0 / 2 8
E x p l a n a t i o n S e l e c t i o n 1 1 / 2 8
E x p l a n a t i o n S e l e c t i o n M o r e d i r e c t a p p r o a c h : T r y a l l p a r a m e t e r s , a n d s e l e c t t h e o n e p r o d u c i n g t h e b e s t e x p l a n a t i o n s . H o w t o a s s e s s e x p l a n a t i o n q u a l i t y ? Q u e s t i o n : 1 2 / 2 8
E v a l u a t i n g E x p l a n a t i o n s H u m a n a s s e s s m e n t - A e s t h e t i c p r o p e r t i e s - U s a b i l i t y o f t h e e x p l a n a t i o n ( e . g . t o u n d e r s t a n d t h e c l a s s i fi e r ) . → R e q u i r e s a n e x p e r i me n t a l s t u d y . 1 3 / 2 8
E v a l u a t i n g E x p l a n a t i o n s I d e a : T e s t i n g i f e x p l a n a t i o n s s a t i s f y c e r t a i n a x i o m s / p r o p e r t i e s . E x a mp l e s : - E x p l a n a t i o n m u s t b e s e l f - c o n s i s t e n t ( e . g . ) c o n s e r v a t i o n o f e v i d e n c e - E x p l a n a t i o n m u s t b e c o n s i s t e n t i n i n p u t d o m a i n ( e . g . ) c o n t i n u i t y - E x p l a n a t i o n m u s t b e c o n s i s t e n t i n t h e s p a c e o f m o d e l s ( e . g . i m p l e m e n t a t i o n i n v a r i a n c e ) 1 4 / 2 8
E x a m p l e 1 : C o n s e r v a t i o n S i m p l e e x a m p l e : P o s s i b l e e x p l a n a t i o n s : 1 5 / 2 8
E x a m p l e 1 : C o n s e r v a t i o n 1 6 / 2 8
E x a m p l e 1 : C o n s e r v a t i o n 1 7 / 2 8
W h y G r a d x I n p u t S c o r e s E x p l o d e ? A n s w e r : y d e p t h 1 0 1 1 2 N e u r a l n e t w o r k d e p t h c a u s e s x y t h e f u n c t i o n t o b e c o m e s t e e p 2 -1 x 0 a n d t h e g r a d i e n t v e r y l a r g e . 0 1 -1 y [ c f . B e n g i o ’ 9 4 , M o n t u f a r ’ 1 4 ] 0 0 d e p t h 2 1 1 1 2 2 x y 2 -1 2 -1 x [Bengio’94] Learning long- 0 0 1 -1 -1 term dependencies with gradient descent is difficult. y 0 0 0 IEEE Trans. Neural Networks d e p t h 3 1 1 1 1 2 2 2 x y [Montufar’14] On the Number 2 -1 2 -1 2 -1 x of Linear Regions of DNNs. 0 1 8 / 2 8 0 1 -1 -1 -1 NIPS 2014.
W h y G r a d x I n p u t S c o r e s E x p l o d e ? T h i s c a n a l s o b e s e e n f r o m t h e f o r m u l a s : d i v i s i o n b y z e r o 1 9 / 2 8
E x a m p l e 2 : C o n t i n u i t y [ M o n t a v o n ’ 1 8 ] E x p l a n a t i o n s c o r e s m u s t b e c o n t i n u o u s i n i n p u t d o m a i n . 2 0 / 2 8
C o n t i n u i t y D e m o v i d e o i n p u t A n i m a t i o n s a v a i l a b l e a t : 2 1 / 2 8 h t t p : / / w w w . h e a t m a p p i n g . o r g / e v a l u a t i n g
W h y i s G r a d x I n p u t D i s c o n t i n u o u s ? A n s w e r : y d e p t h 1 0 1 1 2 A g a i n , b e c a u s e o f d e p t h , x y s p e c i fi c a l l y , b e c a u s e t h e 2 -1 x 0 f u n c t i o n b e c o m e s h i g h l y 0 1 -1 n o n - s m o o t h . y 0 0 d e p t h 2 1 1 1 2 2 [ c f . M o n t u f a r ’ 1 4 , B a l d u z z i ’ 1 7 ] x y 2 -1 2 -1 x 0 [Montufar’14] On the Number 0 1 -1 -1 of Linear Regions of DNNs. y 0 0 0 NIPS 2014. d e p t h 3 1 1 1 1 2 2 2 x y [Balduzzi’17] The Shattered Gradients Problem: If resnets 2 -1 2 -1 2 -1 x 0 2 2 / 2 8 are the answer [...] ICML 2017 0 1 -1 -1 -1
E x a m p l e 3 : I m p l . I n v a r i a n c e [ S u n d a r a r a j a n ’ 1 7 ] t w o n e t w o r k s i m p l e m e n t i n g t h e m a x i m u m f u n c t i o n : E x a mp l e : C o u n t e r - e x a m p l e f o r : G r a d i e n t i s i m p l e m e n t a t i o n i n v a r i a n t , t h e r e f o r e e x p l a n a t i o n t o o . N e t w o r k ( a ) : N e t w o r k ( b ) : [Sundararajan’17] M Sundararajan, A Taly, Q Yan: Axiomatic Attribution for Deep 2 3 / 2 8 Networks. ICML 2017
I m p l e m e n t a t i o n M a t t e r s f o r L R P n a i v e i m p l e m e n t a t i o n s b e t t e r i m p l e m e n t a t i o n 2 4 / 2 8
A B l i n d S p o t i n E x p l a n a t i o n S e l e c t i o n C o n s i d e r t h e s i m p l e e x p l a n a t i o n t e c h n i q u e : r e d i s t r i b u t i n g u n i f o r m l y o n p i x e l s . I t i s : - c o n s e r v a t i v e - c o n t i n u o u s - i m p l e m e n t a t i o n i n v a r i a n t i t i s a l s o c o m p l e t e l y u n i n f o r m a t i v e . b u t → N e e d t o v e r i f y ( i . e . t h e e x p l a n a t i o n s h o u l d s e l e c t i v i t y d i s c r i m i n a t e b e t w e e n r e l e v a n t a n d i r r e l e v a n t v a r i a b l e s . ) 2 5 / 2 8
Recommend
More recommend