Image ¡Super-‑Resolution ¡Using ¡ Deep ¡Convolutional ¡Networks Chen ¡Change ¡Loy 吕健勤 Chinese ¡University ¡of ¡Hong ¡Kong www.ie.cuhk.edu.hk/~ccloy/
Waifu2x http://waifu2x.udp.jp/ 2
Waifu2x 3
Waifu2x 2x ¡upscaling Original 4
Waifu2x 5
Waifu2x http://ejohn.org/blog/using-‑waifu2x-‑to-‑upscale-‑japanese-‑prints/ 6
Waifu2x 7
Waifu2x https://github.com/nagadomi/waifu2x 8
Outline • SRCNN • Image ¡super-‑resolution • Image ¡Super-‑Resolution ¡Using ¡Deep ¡Convolutional ¡Networks C. ¡Dong, ¡C. ¡C. ¡Loy, ¡K. ¡He, ¡and ¡X. ¡Tang IEEE ¡Transactions ¡on ¡Pattern ¡Analysis ¡and ¡Machine ¡Intelligence, ¡2015 • Learning ¡a ¡Deep ¡Convolutional ¡Network ¡for ¡Image ¡Super-‑Resolution C. ¡Dong, ¡C. ¡C. ¡Loy, ¡K. ¡He, ¡X. ¡Tang in ¡Proceedings ¡of ¡European ¡Conference ¡on ¡Computer ¡Vision, ¡pp ¡184-‑199, ¡2014 • Boosting ¡optical ¡character ¡recognition • Boosting ¡Optical ¡Character ¡Recognition: ¡A ¡Super-‑Resolution ¡Approach C. ¡Dong, ¡X. ¡Zhu, ¡Y. ¡Deng, ¡C. ¡C. ¡Loy, ¡Y. ¡Qiao Technical ¡report, ¡arXiv:1506.02211, ¡2015 • ARCNN • Compression ¡artifacts ¡reduction • Compression ¡Artifacts Reduction ¡by ¡a ¡Deep ¡Convolutional ¡Network C. ¡Dong, ¡Y. ¡Deng, ¡C. ¡C. ¡Loy, ¡X. ¡Tang Technical ¡report, ¡arXiv:1504.06993, ¡2015 9
Image ¡Super-‑Resolution ¡Using ¡ Deep ¡Convolutional ¡Networks C. ¡Dong, ¡C. ¡C. ¡Loy, ¡K. ¡He, ¡X. ¡Tang IEEE ¡Transactions ¡on ¡Pattern ¡Analysis ¡and ¡Machine ¡Intelligence, ¡2015 European ¡Conference ¡on ¡Computer ¡Vision, ¡2014
Single ¡image ¡super-resolution ¡单帧图像超分辨率重建 Low ¡resolution ¡(LR) High ¡resolution ¡(HR) 2x ¡upscaling Reconstruct ¡a ¡high-‑resolution ¡image ¡ from ¡a ¡given ¡low-‑resolution ¡image 11
Applications • Digital ¡high ¡definition ¡TV ¡– From ¡SDTV ¡ to ¡HDTV • Medical ¡Imaging • Satellite ¡imaging • CCTV ¡surveillance ¡(car ¡plate ¡or ¡face) • Airborne ¡surveillance 12
Single ¡image ¡super-resolution ¡单帧图像超分辨率重建 Low ¡resolution ¡(LR) High ¡resolution ¡(HR) 2x ¡upscaling Example-‑based ¡ SR external databases 13
Example-based ¡methods • Exploit ¡internal ¡similarities ¡of ¡the ¡ same ¡image ¡ Glasner, D., Bagon, S., Irani, M.: Super-resolution from a single image. In: IEEE International Conference on Computer Vision. pp. 349–356 (2009) 14
Example-based ¡methods • Learn ¡mapping ¡functions ¡from ¡external ¡low-‑ and ¡high-‑resolution ¡ exemplar ¡pairs ¡ 1. Overlapping patches are densely cropped from the input image and pre-processed 2. Patches are encoded by a low-resolution dictionary 3. The sparse coefficients are passed into a high-resolution dictionary for reconstructing high- resolution patches 4. Constructed patches are aggregated ( e.g., by weighted averaging) to produce the final output [1] ¡J. ¡Yang ¡et ¡al., ¡T .: ¡Coupled ¡dictionary ¡ training ¡for ¡image ¡super-‑resolution. ¡TIP ¡21(8), ¡3467-‑3478 ¡(2012) 15 [2] ¡J. ¡Yang ¡et ¡al., ¡Image ¡super-‑resolution ¡via ¡sparse ¡representation. ¡ TIP ¡19(11), ¡2861-‑2873 ¡(2010)
Contributions • We ¡directly ¡learn ¡an ¡end-‑to-‑end ¡mapping ¡between ¡low-‑ and ¡high-‑ resolution ¡images, ¡with ¡no ¡extra ¡pre/post-‑processing ¡beyond ¡the ¡ optimization ¡ • We ¡shows ¡that ¡the ¡traditional ¡sparse ¡coding ¡SR ¡method ¡can ¡be ¡ viewed ¡as ¡deep ¡convolutional ¡neural ¡network. • We ¡demonstrate ¡deep ¡learning ¡is ¡useful ¡in ¡the ¡classical ¡computer ¡ vision ¡problemof ¡super-‑resolution, ¡and ¡can ¡achieve ¡good ¡quality ¡and ¡ speed. ¡ 16
Contributions Source: ¡Dong ¡et ¡al., ¡Image ¡Super-‑Resolution ¡Using ¡Deep ¡Convolutional ¡Networks, ¡TPAMI ¡2015 17
Super-resolution ¡CNN ¡(SRCNN) • Put ¡together ¡operations ¡that ¡were ¡traditionally ¡treated ¡individually • Patch ¡extraction ¡and ¡representation • Non-‑linear ¡mapping ¡ • Reconstruction ¡ 18
Super-resolution ¡CNN ¡(SRCNN) Patch ¡extraction ¡and ¡representation F 1 ( Y ) = max (0 , W 1 ∗ Y + B 1 ) filters n 1 -‑dimensional ¡biases f 1 × f 1 × n 1 19
Examine ¡the ¡learned ¡filters Laplacian/Gaussian ¡ filters Edge ¡detectors Texture ¡extractor ¡ Dead ¡filters ¡similar ¡to ¡those ¡observed ¡in ¡Zeiler ECCV ¡2014 Patterns ¡may ¡emerge ¡given ¡long ¡enough ¡training ¡time Zeiler, ¡M.D., ¡Fergus, ¡R.: ¡Visualizing ¡and ¡understanding ¡convolutional ¡neural ¡networks. ¡ECCV ¡(2014) 20
Super-resolution ¡CNN ¡(SRCNN) Non-‑linear ¡mapping F 2 ( Y ) = max (0 , W 2 ∗ F 1 ( Y ) + B 2 ) filters -‑dimensional ¡biases n 1 × 1 × 1 × n 2 n 2 21
Super-resolution ¡CNN ¡(SRCNN) Reconstruction F ( Y ) = W 3 ∗ F 2 ( Y ) + B 3 filters 1-‑dimensional ¡biases n 2 × f 3 × f 3 22
Relation ¡to ¡the ¡sparse-coding-based ¡methods ¡ responses neighbouring patches of patch of Patch extraction Non-linear Reconstruction and representation mapping Sparse ¡coding SRCNN Extract f 1 × f 1 low-‑ resolution ¡ patch Equivalent ¡to ¡applying ¡n 1 linear ¡filters ¡(f 1 × f 1 ) ¡on ¡the ¡input ¡ Mean ¡subtraction image ¡ Projected ¡onto a ¡(low-‑resolution) ¡dictionary, ¡ size ¡n 1 Mean ¡subtraction ¡is absorbed ¡ 23
Relation ¡to ¡the ¡sparse-coding-based ¡methods ¡ responses neighbouring patches of patch of Patch extraction Non-linear Reconstruction and representation mapping Sparse ¡coding SRCNN Apply ¡sparse ¡coding ¡solver ¡on ¡the ¡projected ¡n 1 coefficients ¡ Equivalent ¡to ¡non-‑linear ¡mapping The ¡outputs ¡are ¡n 2 coefficients representing ¡ the the ¡high-‑ Feed-‑forward resolution ¡patch. Iterative ¡algorithm 24
Relation ¡to ¡the ¡sparse-coding-based ¡methods ¡ responses neighbouring patches of patch of Patch extraction Non-linear Reconstruction and representation mapping Sparse ¡coding SRCNN n 2 coefficients ¡are ¡then ¡projected ¡onto ¡another ¡(high-‑ Equivalent ¡to ¡to ¡linear ¡ convolutions ¡on ¡the ¡n 2 feature ¡maps resolution) ¡dictionary ¡ to ¡produce ¡a ¡high-‑resolution ¡ The ¡over-‑lapping ¡high-‑resolution ¡patches ¡are ¡then ¡ averaged 25
Loss ¡function ¡ • Estimate Θ = { W 1 , W 2 , W 3 , B 1 , B 2 , B 3 } • Minimizing ¡the ¡loss ¡between ¡the ¡reconstructed ¡images ¡F ¡(Y; ¡Θ) ¡and ¡the ¡ corresponding ¡ground ¡truth ¡high-‑resolution ¡images ¡X n L (Θ) = 1 X || F ( Y i ; Θ) − X i || 2 n i =1 • The ¡loss ¡is ¡minimized ¡using ¡stochastic ¡gradient ¡descent ¡with ¡the ¡standard ¡ backpropagation ¡ 26
Training ¡data • Yang’s ¡paper ¡[1] • 91 ¡images ¡(on ¡average ¡200x200). • Total ¡24,800 ¡patches ¡(33x33). ¡ • ImageNet • 395,909 ¡images ¡from ¡the ¡ILSVRC ¡2013 ¡ImageNet detection ¡training ¡partition ¡ • Decomposed ¡into ¡5 ¡million ¡sub-‑images ¡using ¡a ¡stride ¡ of ¡33 ¡ [1] ¡J. ¡Yang, ¡et ¡al., ¡"Image ¡super-‑resolution ¡as ¡sparse ¡representation ¡of ¡raw ¡image ¡patches." CVPR ¡2008. ¡ 27
Training ¡data • More ¡training ¡data ¡leads ¡to ¡better ¡performance 28
Filter ¡number • In ¡general, ¡the ¡performance ¡would ¡improve ¡if ¡we ¡increase ¡the ¡ network ¡width, ¡ i.e., ¡ adding ¡more ¡filters, ¡at ¡the ¡cost ¡of ¡running ¡time. 29
Filter ¡size • A ¡larger ¡filter ¡size ¡leads ¡to ¡better ¡results. ¡ • A ¡reasonably ¡larger ¡filter ¡size ¡could ¡grasp ¡richer ¡structural ¡ information, ¡which ¡in ¡turn ¡lead ¡to ¡better ¡results ¡ • Trade-‑off ¡between ¡performance ¡and ¡speed ¡ 30
Deeper ¡structure • The ¡deeper ¡the ¡better? ¡ • Sensitive ¡to ¡the ¡initialization ¡parameters ¡and ¡learning ¡rate. ¡ 31
Recommend
More recommend