speech audio coding
play

Speech & Audio Coding TSBK01 Image Coding and Data Compression - PowerPoint PPT Presentation

Speech & Audio Coding TSBK01 Image Coding and Data Compression Lecture 11, 2003 Jrgen Ahlberg Outline Part I - Speech Speech History of speech synthesis & coding Speech coding methods Part II Audio


  1. Speech & Audio Coding TSBK01 Image Coding and Data Compression Lecture 11, 2003 Jörgen Ahlberg

  2. Outline • Part I - Speech – Speech – History of speech synthesis & coding – Speech coding methods • Part II – Audio – Psychoacoustic models – MPEG-4 Audio

  3. Speech Production • The human’s vocal apparatus consists of: – lungs – trachea (wind pipe) – larynx • contains 2 folds of skin called vocal cords which blow apart and flap together as air is forced through – oral tract – nasal tract

  4. The Speech Signal �

  5. The Speech Signal

  6. The Speech Signal ������������������������������ � ������������������������������������� � ������������������������������������������������������ � ������������������������������������������������� � �������������������������������� � �������������������������������������������� � ������

  7. The Speech Signal ������ � ���������������� ������������������������������������������ � ���������������������������������������������������������������������������� ������������������������� ������������������������������������������ ������������������������������������������������������������������� ����������������������������������������������� ����������� �����������������

  8. History of Speech Coding � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ��������������������������� ������ ��������� �� ������������ �������������� ������ ������� ����������������

  9. History of Speech Coding � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ���������������� ���� ��������������������������� ������������������������������ ������

  10. ����������������������������������� ����������

  11. ������������������� ������ � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ���������������� ���� ������������������������� ��������������������� ������ � ������ ������������������������������������������������������ � ������ µ ����������������������������������������������������������� ���������������� � ������ ��������������� � ������ ��������������������������������������������������������������� �������������������������������������

  12. Source-filter Model of Speech Production � ����������������������������������������������������������������������������������� ����������������������������������� � ������������������� Y ����� 1 ����������������������������������������������� ����������� � ���������������������������������������������������������������������������� ����������������������������� � ���������������������������������������������������������������� ����������������� ������������������������������������������������

  13. Speech Coding Strategies 1. PCM • Invented 1926, deployed 1962. • The speech signal is sampled at 8 kHz. • Uniform quantization requires >10 bits/sample. • Non-uniform quantization (G.711, 1972) • Quantizing y to 8 bits -> 64 kbit/s.

  14. Speech Coding Strategies 2. Adaptive DPCM • Example: G.726 (1974) • Adaptive predictor based on six previous differences. • Gain-adaptive quantizer with 15 levels � 32 kbit/s.

  15. Speech Coding Strategies 3. Model-based Speech Coding • Advanced speech coders are based on models of how speech is produced: Excitation Vocal source tract

  16. An Excitation Source Noise generator Pitch Pulse generator

  17. Vocal Tract Filter 1: A Fixed Filter Bank g 1 BP g 2 BP g n BP

  18. Vocal Tract Filter 2: A Controllable Filter

  19. Linear Predictive Coding (LPC) • The controllable filter is modelled as y n = ∑ a i y n-i + G ε n where ε n is the input signal and y n is the output. • We need to estimate the vocal tract parameters (a i and G) and the exciatation parameters (pitch, v/uv). • Typically the source signal is divided in short segments and the parameters are estimated for each segment. • Example: The speech signal is sampled at 8 kHz and divided in segments of 180 samples (22.5 ms/segment).

  20. Typical Scheme of an LPC Coder Noise generator Vocal tract filter Pulse generator Pitch v/uv Gain Filter coeffs

  21. Estimating the Parameters • v/uv estimation – Based on energy and frequency spectrum. • Pitch-period estimation – Look for periodicity, either via the a.c.f our some other measure, for example that gives you a minimum value when p equals the pitch period. – Typical pitch-periods: 20 - 160 samples.

  22. Estimating the Parameters • Vocal tract filter estimation – Find the filter coefficients that minimize the error ε 2 = ( y n - ∑ a i y n-i + G ε n ) 2 – Compare to the computation of optimal predictors (Lecture 7).

  23. Estimating the Parameters • Assuming a stationary signal: where R and p contain acf values. • This is called the autocorrelation method .

  24. Estimating the Parameters • Alternatively, in case of a non-stationary signal: where • This is called the autocovariance method .

  25. Example • Coding of parameters using LPC10 (1984): v/uv 1 bit Pitch 6 bits Voiced filter 46 bits Unvoiced filter 46 bits Synchronization 1 bit 54 bits � 2.4 kbit/s Sum:

Recommend


More recommend