Speech & Audio Coding TSBK01 Image Coding and Data Compression Lecture 11, 2003 Jörgen Ahlberg
Outline • Part I - Speech – Speech – History of speech synthesis & coding – Speech coding methods • Part II – Audio – Psychoacoustic models – MPEG-4 Audio
Speech Production • The human’s vocal apparatus consists of: – lungs – trachea (wind pipe) – larynx • contains 2 folds of skin called vocal cords which blow apart and flap together as air is forced through – oral tract – nasal tract
The Speech Signal �
The Speech Signal
The Speech Signal ������������������������������ � ������������������������������������� � ������������������������������������������������������ � ������������������������������������������������� � �������������������������������� � �������������������������������������������� � ������
The Speech Signal ������ � ���������������� ������������������������������������������ � ���������������������������������������������������������������������������� ������������������������� ������������������������������������������ ������������������������������������������������������������������� ����������������������������������������������� ����������� �����������������
History of Speech Coding � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ��������������������������� ������ ��������� �� ������������ �������������� ������ ������� ����������������
History of Speech Coding � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ���������������� ���� ��������������������������� ������������������������������ ������
����������������������������������� ����������
������������������� ������ � ������ ����� ���������������������������������������������������������� ��������������������������������������������������������������� � ������ ��������������� � ���������������� ���� ������������������������� ��������������������� ������ � ������ ������������������������������������������������������ � ������ µ ����������������������������������������������������������� ���������������� � ������ ��������������� � ������ ��������������������������������������������������������������� �������������������������������������
Source-filter Model of Speech Production � ����������������������������������������������������������������������������������� ����������������������������������� � ������������������� Y ����� 1 ����������������������������������������������� ����������� � ���������������������������������������������������������������������������� ����������������������������� � ���������������������������������������������������������������� ����������������� ������������������������������������������������
Speech Coding Strategies 1. PCM • Invented 1926, deployed 1962. • The speech signal is sampled at 8 kHz. • Uniform quantization requires >10 bits/sample. • Non-uniform quantization (G.711, 1972) • Quantizing y to 8 bits -> 64 kbit/s.
Speech Coding Strategies 2. Adaptive DPCM • Example: G.726 (1974) • Adaptive predictor based on six previous differences. • Gain-adaptive quantizer with 15 levels � 32 kbit/s.
Speech Coding Strategies 3. Model-based Speech Coding • Advanced speech coders are based on models of how speech is produced: Excitation Vocal source tract
An Excitation Source Noise generator Pitch Pulse generator
Vocal Tract Filter 1: A Fixed Filter Bank g 1 BP g 2 BP g n BP
Vocal Tract Filter 2: A Controllable Filter
Linear Predictive Coding (LPC) • The controllable filter is modelled as y n = ∑ a i y n-i + G ε n where ε n is the input signal and y n is the output. • We need to estimate the vocal tract parameters (a i and G) and the exciatation parameters (pitch, v/uv). • Typically the source signal is divided in short segments and the parameters are estimated for each segment. • Example: The speech signal is sampled at 8 kHz and divided in segments of 180 samples (22.5 ms/segment).
Typical Scheme of an LPC Coder Noise generator Vocal tract filter Pulse generator Pitch v/uv Gain Filter coeffs
Estimating the Parameters • v/uv estimation – Based on energy and frequency spectrum. • Pitch-period estimation – Look for periodicity, either via the a.c.f our some other measure, for example that gives you a minimum value when p equals the pitch period. – Typical pitch-periods: 20 - 160 samples.
Estimating the Parameters • Vocal tract filter estimation – Find the filter coefficients that minimize the error ε 2 = ( y n - ∑ a i y n-i + G ε n ) 2 – Compare to the computation of optimal predictors (Lecture 7).
Estimating the Parameters • Assuming a stationary signal: where R and p contain acf values. • This is called the autocorrelation method .
Estimating the Parameters • Alternatively, in case of a non-stationary signal: where • This is called the autocovariance method .
Example • Coding of parameters using LPC10 (1984): v/uv 1 bit Pitch 6 bits Voiced filter 46 bits Unvoiced filter 46 bits Synchronization 1 bit 54 bits � 2.4 kbit/s Sum:
Recommend
More recommend