speech the next generation
play

Speech: The Next Generation Bryan Catanzaro along with - PowerPoint PPT Presentation

Speech: The Next Generation Bryan Catanzaro along with Baidu SVAIL Speech Recognition: interface of the future Awni Hannun Bryan Catanzaro Speech


  1. Speech: ¡The ¡Next ¡Generation ¡ Bryan ¡Catanzaro ¡ along ¡with ¡Baidu ¡SVAIL ¡

  2. Speech ¡Recognition: ¡interface ¡of ¡the ¡future ¡ Awni ¡Hannun ¡ Bryan ¡Catanzaro ¡

  3. Speech ¡Recognition: ¡Traditional ¡ASR ¡ • Traditional ¡speech ¡systems ¡are ¡hard ¡to ¡build. ¡ – Many ¡specialized ¡stages ¡combined. ¡ Acoustic ¡Model ¡ Transcription ¡ Language ¡ Features ¡ Model ¡ HMM ¡ “The ¡quick ¡brown ¡fox ¡ jumps ¡over ¡the ¡lazy ¡dog.” ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  4. Speech ¡Recognition: ¡Traditional ¡ASR ¡ • Getting ¡higher ¡performance ¡is ¡hard ¡ • Improve ¡each ¡stage ¡by ¡engineering ¡ Expert ¡engineering. ¡ Traditional ¡ASR ¡ Accuracy ¡ Data ¡+ ¡Model ¡Size ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  5. Speech ¡recognition: ¡Traditional ¡ASR ¡ • Huge ¡investment ¡in ¡features ¡for ¡speech! ¡ – Decades ¡of ¡work ¡to ¡get ¡very ¡small ¡improvements ¡ Spectrogram ¡ Flux ¡ MFCC ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  6. Speech ¡Recognition ¡2: ¡Deep ¡Learning! ¡ • Since ¡2011, ¡deep ¡learning ¡for ¡features ¡ Transcription ¡ Acoustic ¡Model ¡ Language ¡ Model ¡ HMM ¡ “The ¡quick ¡brown ¡fox ¡ jumps ¡over ¡the ¡lazy ¡dog.” ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  7. Speech ¡Recognition ¡2: ¡Deep ¡Learning! ¡ • With ¡more ¡data, ¡DL ¡acoustic ¡models ¡perform ¡ better ¡than ¡traditional ¡models ¡ DL ¡V1 ¡for ¡Speech ¡ Traditional ¡ASR ¡ Accuracy ¡ Data ¡+ ¡Model ¡Size ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  8. Speech ¡Recognition ¡3: ¡ ¡“Deep ¡Speech” ¡ • End-­‑to-­‑end ¡learning ¡ Transcription ¡ “The ¡quick ¡brown ¡fox ¡ jumps ¡over ¡the ¡lazy ¡dog.” ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  9. Speech ¡Recognition ¡3: ¡“Deep ¡Speech” ¡ • End-­‑to-­‑end ¡DL ¡may ¡work ¡better ¡ ¡ Deep ¡Speech ¡ when ¡we ¡have ¡big ¡models ¡and ¡ ¡ lots ¡of ¡data ¡ DL ¡V1 ¡for ¡Speech ¡ Traditional ¡ASR ¡ Accuracy ¡ Data ¡+ ¡Model ¡Size ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  10. End-­‑to-­‑end ¡speech ¡with ¡DL ¡ • Deep ¡neural ¡network ¡predicts ¡characters ¡directly ¡from ¡audio ¡ T H _ E … D O G . ¡. ¡. ¡ ¡ . ¡. ¡. ¡ ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  11. Bidirectional ¡Recurrent ¡Network ¡ • RNNs ¡model ¡temporal ¡dependence ¡ • Various ¡flavors ¡used ¡in ¡many ¡applications ¡ – Especially ¡time ¡series ¡data ¡ • Sequential ¡dependence ¡complicates ¡parallelism ¡ Bryan ¡Catanzaro ¡

  12. Connectionist ¡Temporal ¡Classification ¡ T H _ E … D O G ? ¡ ? ¡ • How ¡to ¡connect ¡speech ¡data ¡with ¡transcription? ¡ – Transcription ¡not ¡labeled ¡per ¡millisecond ¡ • Use ¡CTC, ¡from ¡[Graves ¡06] ¡ • Efficient ¡dynamic ¡programming ¡of ¡all ¡possible ¡ alignments ¡to ¡compute ¡error ¡of ¡{audio, ¡transcription} ¡ Bryan ¡Catanzaro ¡

  13. Speech ¡Recognition ¡3: ¡“Deep ¡Speech” ¡ • To ¡make ¡this ¡work, ¡we ¡need ¡ Deep ¡Speech ¡ – bigger ¡datasets ¡ – bigger ¡models ¡ DL ¡V1 ¡for ¡Speech ¡ Traditional ¡ASR ¡ Accuracy ¡ Data ¡+ ¡Model ¡Size ¡ Bryan ¡Catanzaro ¡

  14. More ¡labeled ¡speech ¡ • Speech ¡transcription ¡is ¡expensive ¡(so ¡use ¡AMTurk!) ¡ 8000 ¡ 7000 ¡ 6000 ¡ 5000 ¡ Hours ¡ 4000 ¡ 3000 ¡ 2000 ¡ 1000 ¡ 0 ¡ WSJ ¡ Switchboard ¡ Fisher ¡ Deep ¡Speech ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  15. More ¡labeled ¡speech ¡ • Need ¡lots ¡of ¡data ¡for ¡“noisy” ¡environments. ¡ – Want ¡system ¡to ¡give ¡correct ¡character ¡outputs ¡ even ¡when ¡input ¡is ¡noisy! ¡ – Solution: ¡ ¡synthesize ¡“noisy” ¡recordings ¡by ¡ combining ¡audio ¡clips. ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  16. Dataset ¡synthesis ¡ 120000 ¡ >100,000 ¡ 100000 ¡ 80000 ¡ Hours ¡ Synthesized ¡ 60000 ¡ data ¡ 40000 ¡ 20000 ¡ 2000 ¡ 300 ¡ 0 ¡ WSJ ¡ Switchboard ¡ Fisher ¡ Deep ¡Speech ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  17. Training ¡Parallelization ¡ • 2x ¡model ¡parallelism ¡ GPU 0 GPU 1 • 4x ¡data ¡parallelism ¡ (synchronous ¡ implementation) ¡ . ¡. ¡. ¡ ¡ • Training ¡model ¡on ¡8 ¡ . ¡. ¡. ¡ ¡ K40s ¡total ¡ • Takes ¡about ¡4 ¡days ¡to ¡ train ¡our ¡model ¡ • 5 ¡billion ¡connections ¡ Bryan ¡Catanzaro ¡

  18. Systems ¡Infrastructure ¡ • Small ¡clusters ¡+ ¡MPI ¡+ ¡CUDA ¡ – Strong ¡scaling ¡most ¡important ¡ • Infiniband ¡ – Latency ¡matters ¡ • GPUs ¡ – Currently ¡training ¡with ¡ ¡ Tesla ¡K40 ¡and ¡GTX980 ¡ Bryan ¡Catanzaro ¡

  19. Results ¡on ¡Hub5’00 ¡ • Widely ¡used ¡dataset. ¡Conversational, ¡little ¡noise. ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  20. Results, ¡continued ¡ • Our ¡goal: ¡ ¡improve ¡in ¡noisy ¡environments. ¡How’d ¡we ¡do? ¡ – Construct ¡a ¡new ¡dataset ¡of ¡~200 ¡recordings ¡in ¡both ¡clean ¡and ¡noisy ¡ settings. ¡ 50 ¡ Word ¡Error ¡Rate ¡(%) ¡ 40 ¡ Apple ¡Dictation ¡ Bing ¡Speech ¡ 30 ¡ Google ¡API ¡ 20 ¡ wit.ai ¡ 10 ¡ Deep ¡Speech ¡ 0 ¡ Clean ¡ Noisy ¡ Combined ¡ Adam ¡Coates ¡ Bryan ¡Catanzaro ¡

  21. Conclusion ¡ • End-­‑to-­‑end ¡deep ¡learning ¡works ¡for ¡speech ¡ recognition ¡ • We ¡are ¡pushing ¡boundaries ¡of ¡multi-­‑GPU ¡ training ¡for ¡speech ¡networks ¡ – Always ¡looking ¡for ¡great ¡GPU ¡hackers ¡to ¡help ¡ make ¡progress ¡in ¡AI! ¡ bcatanzaro@baidu.com ¡ ¡ Bryan ¡Catanzaro ¡

Recommend


More recommend