Understanding ¡individual-‑level ¡speech ¡variability: ¡ ¡ From ¡novel ¡speech ¡production ¡data ¡to ¡robust ¡speaker ¡recognition Shrikanth ¡(Shri) ¡ ¡Narayanan ¡ Signal ¡Analysis ¡and ¡Interpreta6on ¡Laboratory ¡(SAIL) ¡ h:p://sail.usc.edu ¡ University ¡of ¡Southern ¡California ¡ IEEE Odyssey June 2016
Different ¡individuals…. ..each ¡with ¡a ¡uniquely ¡shaped ¡vocal ¡instrument 2
Different ¡individuals…. nose tongue velum ..each ¡with ¡a ¡uniquely ¡shaped ¡vocal ¡instrument 3
And ¡with ¡differing ¡arDculatory ¡strategies ¡during ¡speech ¡… FiEeen ¡different ¡individuals ¡producing ¡vowel ¡/i/
Theme What role can speech science play in understanding and supporting speech technology development? 5
Talk ¡focus: ¡Vocal ¡tract ¡Structure ¡and ¡Function Characterize ¡ interplay ¡between ¡vocal-‑tract ¡structure ¡and ¡function ¡ • Structure: ¡ Physical ¡characteristics ¡of ¡the ¡vocal-‑tract ¡apparatus ¡ • ¡ e.g. ¡hard ¡palate ¡geometry, ¡tongue ¡volume, ¡velum ¡mass ¡ • Function: ¡ Behavioral ¡characteristics ¡of ¡speech ¡articulation ¡ • ¡ e.g. ¡dynamic ¡formation ¡of ¡constrictions ¡in ¡the ¡vocal ¡tract 6
Overarching ¡Questions • How ¡are ¡individual ¡vocal-‑tract ¡ structural ¡differences ¡ reflected ¡ in ¡the ¡speech ¡acoustics? ¡ • Can ¡structural ¡differences ¡be ¡ predicted ¡from ¡acoustics? ¡ • How ¡do ¡individuals ¡adopt ¡to ¡structural ¡differences ¡to ¡achieve ¡ phonetic ¡equivalence ? ¡ • What ¡contributes ¡to ¡distinguishing ¡speakers ¡from ¡one ¡another ¡ from ¡the ¡speech ¡signal? Not only try to differentiate individuals from their speech signal but understand what makes them different from a structure-function perspective 7
Summary ¡of ¡specific ¡goals ¡of ¡this ¡talk • Quantify ¡individual ¡variability ¡ in ¡vocal-‑tract ¡morphology ¡ • Predict ¡morphological ¡details ¡from ¡acoustics ¡ • Characterize ¡ individual ¡articulatory ¡strategy ¡ • Explore ¡applications ¡to ¡automatic ¡speaker ¡recognition ¡ • Interpret ¡speaker ¡recognition ¡as ¡variability ¡ in ¡morphology ¡and ¡ strategy ¡(including ¡speaking ¡style ¡differences) 8
Speech Production and Articulation kNowledge Group http://sail.usc.edu/span Multimodal Data Acquisition Diverse Stimuli 3d MRI EMA RT-MRI Audio • Vowels, Continuants • Read sentences • Spontaneous • Non speech gestures Scientific Multimodal Analysis & Modeling Insights, Models, Theory • direct image analysis APPLICATIONS TECHNOLOGY • forced alignment • articulator tracking • acoustic feature extraction • dynamics of production • cross-modal registration • 3d vocal tract shaping • airway segmentation • morphological characterization • articulatory coordination • task-dynamic modeling • source-filter interaction • realization of prosody • dynamic 3d vocaltract modeling • speaker-specific phonetics • joint factor analysis, manifold learning, multiview learning
Rest ¡of ¡the ¡talk • Measuring ¡speech ¡producDon: ¡geTng ¡data ¡ - focus ¡on ¡magne6c ¡resonance ¡imaging ¡ • Analysis ¡of ¡speech ¡producDon ¡data ¡ • Some ¡modeling ¡& ¡applicaDon ¡results ¡ - Characterizing ¡vocal ¡tract ¡morphology ¡ - Understanding ¡speaker ¡specific ¡ar6culatory ¡strategy ¡ - Inferring ¡vocal ¡tract ¡structure/strategy ¡from ¡speech ¡signal ¡ - Enriching ¡Speaker ¡Verifica6on ¡with ¡produc6on ¡informa6on 10
Methods for vocal tract imaging getting speech production data….
Speech ¡ProducDon ¡Studies: ¡ ¡ Data ¡Is ¡Integral • Observe, ¡measure, ¡visualize ¡ar6culatory ¡details ¡during ¡speech ¡ Long ¡history ¡of ¡instrumenta6on ¡and ¡imaging ¡applica6ons ¡ • Number ¡of ¡techniques, ¡each ¡with ¡its ¡own ¡strengths ¡and ¡limita6ons ¡ ¡ • – Spa6al ¡and ¡temporal ¡resolu6on ¡ – Subject ¡safety ¡ ¡ ¡ – Flexibility, ¡ease ¡of ¡use, ¡portability ¡ – Data ¡interpretability ¡ – Specific ¡research ¡and ¡applica6on ¡needs 12
Commonly used speech production data types X-‑ray ¡ ¡ ¡ ¡ + ¡high ¡temporal ¡and ¡spa6al ¡resolu6on ¡ ¡ − ¡radia6on; ¡limited ¡resolu6on ¡for ¡sob ¡6ssue ¡ Electromagnetometry ¡(EMA) ¡ + ¡safe; ¡high ¡temporal ¡resolu6on; ¡flesh ¡point ¡tracking ¡ ¡ − ¡invasive; ¡spa6ally ¡sparse ¡data; ¡not ¡for ¡pharyngeal ¡structures ¡ Ultrasound ¡ + ¡safe; ¡high ¡temporal ¡resolu6on; ¡portable ¡ − ¡provides ¡incomplete ¡view ¡of ¡vocal ¡tract ¡ Palatography ¡ + ¡safe; ¡high ¡temporal ¡resolu6on; ¡portable ¡ − ¡invasive; ¡provides ¡indirect ¡informa6on ¡on ¡oral ¡cavity ¡ 13
Classic ¡Speech ¡ProducDon ¡Data ¡Examples X-‑ray ¡(Stevens, ¡1962) ¡ Ultrasound ¡(Stone, ¡1980) ¡ http://www.speech.umaryland.edu http://psyc.queensu.ca/~munhallk/05_database.htm upper lip velum tongue Electropalatography teeth lower lip (courtesy: ¡UCLA ¡Phone6cs ¡Lab) Electromagnetometry
Newer ¡PossibiliDes: ¡ ¡ MRI ¡for ¡structural ¡vocal ¡tract ¡imaging Capable of 3D imaging of the hydrogen concentration in human body Number ¡of ¡advantages: ¡ ¡ Non-‑invasive, ¡no ¡ionizing ¡radia6on ¡ – – Arbitrary ¡scan ¡plane: ¡Informa6on ¡on ¡complete ¡vocal ¡tract ¡geometry ¡ ¡ Excellent, ¡flexible ¡structural ¡differen6a6on: ¡Good ¡sob ¡6ssue ¡contrast, ¡SNR ¡ ¡ – Amenable ¡to ¡ ¡computerized ¡3D ¡modeling: ¡reconstruc6on ¡and ¡visualiza6on ¡ – Quan6ta6ve ¡informa6on: ¡area ¡func6on ¡and ¡acous6c ¡rela6ons ¡ – Variability ¡analyses ¡ – LimitaDons/Challenges ¡ – Slow: ¡Spa6al ¡& ¡Temporal ¡resolu6on ¡tradeoffs, ¡op6mizing ¡to ¡a ¡given ¡applica6on ¡ Noisy ¡images: ¡Suscep6bility, ¡blurring ¡ar6facts ¡ – Imaging ¡teeth ¡ – Interac6on ¡with ¡other ¡physiological ¡ac6vi6es: ¡respira6on, ¡swallowing, ¡other ¡movement ¡ – Clean, ¡Synchronized ¡audio ¡(and ¡other ¡modali6es, ¡as ¡needed) ¡ – Ease ¡of ¡experimenta6on, ¡including ¡cost ¡ ¡and ¡portability – 15
MRI: ¡Toward ¡real ¡Dme ¡acquisiDon ¡for ¡speech ¡ (circa ¡2004) Improving ¡MRI ¡temporal ¡resoluDon ¡ – A ¡non ¡2D-‑FFT ¡acquisi6on ¡strategy ¡ ¡( spiral ¡k-‑space ¡trajectory ) ¡on ¡a ¡GE ¡Signa ¡1.5T ¡ CV/i ¡scanner ¡with ¡a ¡low-‑flip ¡angle ¡spiral ¡gradient ¡echo, ¡9-‑10 ¡images/second ¡ – Adapted ¡pulse ¡sequence ¡originally ¡developed ¡for ¡cardiac ¡imaging. ¡ ¡ VELUM – Effec6ve ¡reconstruc6on ¡rates ¡of ¡24-‑35 ¡frames/second ¡ • sliding ¡window ¡reconstruc6on ¡technique ¡ First ¡to ¡use ¡real-‑Dme ¡MRI ¡and ¡ ¡ synchronous ¡noise-‑cancelled ¡audio ¡ ¡ to ¡understand ¡vocal ¡tract ¡movements ¡ during ¡natural ¡speech ¡producDon. TONGUE Narayanan. ¡S., ¡Nayak, ¡K., ¡ ¡Lee, ¡S., ¡Sethy, ¡A., ¡and ¡Byrd, ¡D. ¡An ¡approach ¡to ¡real-‑6me ¡magne6c ¡resonance ¡imaging ¡for ¡ speech ¡produc6on. ¡J. ¡Acoust. ¡Soc. ¡Am., ¡115:1771-‑1776, ¡2004. 16
Can ¡we ¡speed ¡up ¡MRI ¡to ¡even ¡better ¡rates? ¡ 17
SpaDal ¡vs.Time ¡resoluDon: ¡speech ¡MRI • Our ¡new ¡system ¡( circa ¡2015 ) ¡ ¡enables ¡visualiza6on ¡of ¡all ¡speech ¡tasks 4 Cartesian (R=2.4, 1 slice) consonant constrictions Closures of alveolar trills Spiral (R=6.5, 1 slice) 3.5 sustained Spatial resolution:(mm 2 ) 3 velic sounds velo- movements 2.5 pharyngeal tongue closure movements 2 Single slice • (vowel to consonant 12 ms/frame 1.5 transitions) (83 fps) co-articulation 1 events 0.5 0 Proposed 50 100 150 200 250 300 Time resolution (msec) Sajan Lingala, Yinghua Zhu, Yoon-Chul Kim, Asterios T outios, Shrikanth Narayanan, Krishna Nayak. A fast and flexible MRI system for the study of dynamic vocal tract shaping. Magnetic Resonance in Medicine. 2016
Recommend
More recommend