Institute of Computing Technology, Chinese Academy of Sciences : ¡ ¡Life ¡and ¡Medical ¡Biology ¡Data ¡Accelerator ¡ (Lambda) ¡ Guangming ¡Tan ¡ Ins>tute ¡of ¡Compu>ng ¡Technology, ¡Chinese ¡Academy ¡of ¡Sciences ¡ 1
Institute of Computing Technology, Chinese Academy of Sciences Biological ¡Imaging ¡Data ¡Challenge GAP: ¡O(years) ¡! Higher ¡Resolu>on High-Throughput Image Data Analysis is Required! Moritz ¡Helmstaedter, ¡Cellular ¡resolu>on ¡connectomics: ¡challenges ¡of ¡dense ¡neural ¡circuit ¡reconstruc>on , ¡Nature ¡Method , ¡10(6), ¡2013 ¡ ¡ ¡ 2
Institute of Computing Technology, Chinese Academy of Sciences High ¡Spa>otemporal ¡Resolu>on ¡Two-‑Photon ¡ Microscope ¡Imaging ¡System • In ¡vivo ¡ • High ¡Dimension Peking ¡University 3
Institute of Computing Technology, Chinese Academy of Sciences Event ¡Detec>on ¡at ¡Cellular ¡Level Elementary ¡Events ¡of ¡Calcium ¡Signals ¡ Superoxide ¡Flash ¡ Cheng, ¡H ¡ Cheng, ¡H ¡ Calcium ¡Spark Cell ¡ 2008 ¡ Science ¡1993 ¡ Superoxide ¡Flash ¡ ¡ Sparks ¡and ¡Transients Visualiza>on ¡of ¡Reac>ve ¡oxygen ¡species ¡(ROS) 5µ m 5 ¡mm 5µ Animal’s ¡dynamic ¡neural ¡signals ¡ Dendrite ¡Calcium ¡Imaging ¡ 2µ m 2µ ( Zhuang Zhou , Xiaowei Can ) 4
Institute of Computing Technology, Chinese Academy of Sciences Life and Medical Biology Data Accelerator (Lambda, λ ) PostgreSQL • Data ¡ Bio-Format • Domain-Specific Accelerator • Engine ¡ lambda Auto-tuning library • Built-in modules • Pipeline ¡ Customizable framework • 5
Institute of Computing Technology, Chinese Academy of Sciences λ-‑Image ¡ ¡ SoYware/Hardware ¡Stack Cardiovasology ¡ Mouse ¡embryo ¡heart Biological Data Analysis Pipeline ¡image ¡cell ¡lineage ¡ (cell event detection, segmentation) Biological Data Analysis Algorithm Toolkit Brain deconvolution denoising stencil machine learning Mice ¡brain ¡cell ¡Ca2+ ¡spark ¡detec>on ¡ MPI Spark CUDA OpenCL Endocrinology Database ¡ RDMA ¡ Accelerator Islet ¡forming ¡in ¡pancrea>c ¡and ¡imaging ¡in ¡vivo ¡ High-‑dimension ¡& ¡mul>-‑mode ¡biological ¡image ¡data ¡system ¡ ¢ Data ¡analysis ¡pipeline ¡for ¡massive ¡biological ¡image ¡ ¢ Accelera>ng ¡data-‑intensive ¡algorithms ¡for ¡biological ¡image ¡analysis ¢ 6
Institute of Computing Technology, Chinese Academy of Sciences High-‑throughput ¡Image ¡Processing ¡Algorithm O(N*P 3 ) fMRI ¡ ssTEM ¡ sBEM ¡ LSFM Unbiased ¡Analysis ¡of ¡Events Machine ¡Learning Current ¡Compu>ng ¡Systems ( SoYware/Hardware ): O(Years ) High ¡accuracy Interac>ve High ¡Performance ¡Compu>ng ¡Pla_orm: ¡O(Minutes) 7
Institute of Computing Technology, Chinese Academy of Sciences Paralleliza>on ¡with ¡in-‑memory ¡Compu>ng ¡Model Raw ¡Data Map ... ... Image ¡L1 Image ¡L2 Image ¡R1 Image ¡R2 Raw ¡Data Left ¡Side Right ¡Side Preprocess Preprocess Preprocess Preprocess 3D ¡Deconvolution Match Preprocessed Preprocessed Preprocessed Preprocessed Image ¡L1 Image ¡L2 Image ¡R1 Image ¡R2 Intensity ¡Normalization Powell Registration Registration Registration Registration Subtract ¡Background Mutual ¡Information Registered ¡ Registered ¡ Registered ¡ Registered ¡ Preprocessed ¡Data Left ¡Side Right ¡Side Image ¡L1 Image ¡L2 Image ¡R1 Image ¡R2 Fusion Fusion ... Fused ¡Image1 Fused ¡Image2 Left ¡Side Right ¡Side Merge ¡Image ¡Stack Wavelet ¡Decomposition Fused ¡Image ¡Stack Activity ¡Measure Fused ¡Data Fusion ¡Decomposition Segmetation Planarity ¡Enhancement Reduce Fused ¡Data Tensor ¡Voting Final ¡Result ¡For ¡Visualization ¡Process 3D ¡Watershed Spark Labelmap ¡Image ¡Data 8
Institute of Computing Technology, Chinese Academy of Sciences GPU ¡Accelera>on ¡of ¡Algorithm ¡Modules 40 ¡ CPU ¡ GPU ¡ 35 ¡ 30 ¡ 25 ¡ 20 ¡ 15 ¡ 10 ¡ 5 ¡ 0 ¡ DeconvoluJon ¡ Median ¡Filter ¡ Objectness ¡Filter ¡IteraJve ¡Closing ¡ 9
Institute of Computing Technology, Chinese Academy of Sciences Image Processing & Analysis Pipeline GPU Spark Registra>on ¡ Deconvolu>on ¡ 2D and 3D iterative ✔ ✔ RL/Sparse deconvolution. Mutual Information is derived from Information Theory and Mutual ✔ ✔ its application to image registration has been Information proposed in different forms Fusion ¡ Fusion ¡ Wavelet use global five-level ✔ wavelet decomposition based Segmenta>on ¡ Watershed ✔ ✔ segmentation Machine Learning Labelmap selection Particle analysis Analysis ¡ ✔ ✔ Machine Learning (Event detection or Pattern Analysis) Mice Brain Cell Ca 2+ Spike Detection 10
Institute of Computing Technology, Chinese Academy of Sciences Deconvolu>on ¡of ¡Pancreas ¡Islet ¡Images Terabyte ¡EM ¡Images e:image p:psf for N iterations /*apple imaging model to estimate*/ E=gpu_fft(e, batch) B=gpu_multiply(E, PSF, batch) Preprocessing b=gpu_ifft(B, batch) /*captured image divided by ¡ GPU ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ blurred estimate*/ r=gpu_divide(o, b, batch) deconvolution batch /*calculate correction vector*/ R=gpu_fft(r, batch) C=gpu_multiply(R, PSF, batch) c=gpu_ifft(C, batch) /*apply correction vector*/ 4 ¡GPUs ¡(K20) e=gpu_multiply(e,c, batch) 4.7YEARS end Fiji 2 ¡DAYS #ite GPU speed name pixel(XYZ) size (JAV rs up A) beta.tif 1024x2048x51 100 408MB 60m 22s 163 glucose_sequen 512x512x400 50 200MB 30m 10s 180 tial2.tif 11
Institute of Computing Technology, Chinese Academy of Sciences Extrac>ng ¡Cells ¡from ¡Mouse ¡Embryos ¡Images 200 ¡Time ¡points ¡ Time1 Time2 Time3 2x500 ¡images ¡ light-‑sheet 2048x2048 ¡pixels ¡ ¡microscopes ¡images 4GB*2*200 ¡= ¡ 1.6TB ……… 1.5 ¡DAYS detecJon excitaJon detecJon ReconstrucJon ¡ ¡ culture Fast, ¡ ¡ two-‑side, ¡ ¡ 3D, ¡ ¡ duel-‑color ¡imaging 12
Institute of Computing Technology, Chinese Academy of Sciences Blitz : High ¡Performance ¡Machine ¡Learning ¡Toolkit NVIDIA ¡DIGITS ¡ (Customized) Clustering Dimensionality DNN Classifica>on Algorithm ¡Interface PCA CNN K-‑means SVM KNN Distributed ¡ Data ¡ Pipelining ¡ Communica>on ¡ Model ¡ Parallelism Parallelism Avoiding Parallelism Parallelism Layer ¡Opera>on Performance ¡ ¡ Operator ¡Language ¡ ¡(Linear ¡Algebra ¡/ ¡Tensor ¡Primi>ves) ¡ Interface Automa>c ¡Performance ¡Tuning vectoriza>on Accelerator : Virtual ¡Backend Programming ¡ ¡ mul>thread Hardware RDMA Sugon ¡Xmachine 13
Institute of Computing Technology, Chinese Academy of Sciences Convolu>onal ¡Nets ¡2012 ¡(AlexNet) 13-‑layer ¡architecture Pool2 ¡192@13 * 13 Conv2 ¡192@27*27 Pool1 ¡64@27*27 Conv1 ¡64@55*55 Layer Type Maps ¡and ¡neurons Kernel ¡size Input ¡3@224*224 0 Input 1 ¡map ¡of ¡224*224 ¡neurons 1 ConvoluJon 64 ¡maps ¡of ¡55*55 ¡neurons 11*11 Convolu>ons Convolu>ons Pooling 2 Pooling 64 ¡maps ¡of ¡27*27 ¡neurons ¡ 3*3 Pooling 3 ConvoluJon 192 ¡maps ¡of ¡27*27 ¡neurons 5*5 Hardware ¡Environment ¡ CPU: ¡Dual ¡Intel(R) ¡Xeon(R) ¡CPU ¡E5-‑2680 ¡v3, ¡28 ¡ ¡ 4 Pooling 192 ¡maps ¡of ¡13*13 ¡neurons 3*3 CPU-‑Memory: ¡128GB ¡ ¡ GPU: ¡Tesla ¡K20 ¡ ¡ 5 ConvoluJon 384 ¡maps ¡of ¡13*13 ¡neurons 3*3 GPU-‑Memory:6GB ¡ batch ¡size=128 ¡ 6 ¡ ConvoluJon 256 ¡maps ¡of ¡13*13 ¡neurons ¡ 3*3 1 ¡epoch ¡running ¡>me ¡ 7 ¡ ConvoluJon 256 ¡maps ¡of ¡13*13 ¡neurons 3*3 8 ¡ Pooling 256 ¡maps ¡of ¡6*6 ¡neurons 3*3 blitz ¡ 1310s ¡ ¡ Fully-‑ 9 ¡ 4096 ¡neurons 1*1 connected caffe ¡ ¡ 1960s ¡ 10 ¡ Dropout 4096 ¡neurons 1*1 1 ¡batch ¡size ¡running ¡>me Fully-‑ 11 ¡ 4096 ¡neurons 1*1 connected 12 ¡ Dropout 4096 ¡neurons 1*1 blitz ¡ 125ms Fully-‑ 13 ¡ 1000 ¡neurons 1*1 caffe ¡ 196ms connected 14
Institute of Computing Technology, Chinese Academy of Sciences Flash ¡Detec>on E.Coli, ¡Jme ¡series, ¡512X512X(100 ¡frames). ¡ A ¡nonstandard ¡flash ¡is ¡not A B C ¡found ¡by ¡ ¡either ¡expert ¡or Intensity ¡increases ¡rapidly ¡ Intensity ¡declines ¡obviously ¡ ¡averaged ¡intensi>es ¡change ¡con>nuously ¡ ¡threshold-‑based ¡method 15
Recommend
More recommend