Age and Gender Recognition from Speech Patterns Based on Supervised Non�Negative Matrix Factorization Mohamad Hasan Bahari Hugo Van hamme � July 2011
Outline � Introduction and Motivations � Age and Gender Recognition � Corpora � Supervised Non�negative Matrix Factorization � Supervised Non�negative Matrix Factorization � Proposed Method � Results � Conclusions and Future Researches �
Introduction Confirming the identity of individuals � Biometric Characteristics � Fingerprint � Face � Iris Iris � � Hand Geometry � Ear Shape � ������������� � + � Choosing a characteristic � Availability � Reliability � �
Motivation In many real world cases, only speech patterns are available � (kidnapping, threatening calls, +) Speech patterns can include many interesting information � Gender � Age Age � � D ialect (original or previous regions) � Membership of a particular social group � + � �� ����������� �� ����������� � �������� �� ������ ���� ��� ������ �� �������� �
Goal ����� To extract different physical and psychological characteristics of the speaker from his/her voice patterns ( ����������������� ). Physical: Physical: Psychological: Psychological: Gender 1. Anxiousness 1. Age 2. Stress 2. Accent 3. Confidence 3. + 4. + 4. �
Age and Gender Recognition ����� ����������� �� �������� ���� ������ ������� ��� �������� ��� �������� ��� ��� ������ ������ ���������� ���������� ������� ���� �������� ��� ������� ������� �
Age and Gender Recognition �� �������� ���� ������ ������� � ��������� �������� �������� ���� ���� ���� �� ����������� ��������� � !����� ���� "� !���� �������� ����� #� $ � %� ������� ��� �������� �������� ������� ���� ��� ��� ����� �&��� �������� �� ��� ����'�� ���� � (����������� ������ ��� ��������������� ���&������� & ����� �������� ��� �������� �� ���� ����� ����������) ���� �� ������) ������) ����� �������) ��������� ���������) $ �
Age and Gender Recognition *����� �� +�� ��� ,����� �� ������ -����������� ���������� .�/ � +��0��0����0���0��0������0���������0 ���0������0���0������������0��������0 ��������� � ��0��0����������0��0��������0���0���0 �������0�����������0���0����0��0������ � 1����������0��0������0���0���0����0�0 �����������0������0������0��0����0 ������ [1] W. S. Brown, R. J. Morris, H. Hollien, and E. Howell, Journal of Voice, vol. 5, pp. 310–315, 1991. �
Age and Gender Recognition ��� �������� ��� ������ ���������� ������� � �� �� �� ����� ���������� �������� & �������� ��� ������ ���������� ������ �� ��� ����'�� �� ���� ���������� �
Age and Gender Recognition ���� �������� ��� ������� ������ � �� ����� ��� ������ ����������� �������) ��� ������� ������ �� ������� ����� 2����� ���'��� ������ -2����� � 3���� ��� ����� ������� �� ������ ����������� �������� -2���� � � � 4��� ������������ 4��� ������������ � +������� �� �������5��� �������� & ����� �&��� � ���������� ������� ��� ��� �� � ����'�� �� ���������) ��� ����� ������ ���� & (�������������� ������& ��
Corpora � 555 speakers from the N�best evaluation corpus [1] � The corpus contains live and read commentaries, news, interviews, and reports broadcast in Belgium � Different age groups and genders ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������������� ���� ������ ���� ������ ���� ������ Age 18�35 18�35 36�45 36�45 46�81 46�81 Number of Speakers 85 53 160 41 191 25 �� [1] D. A. Van Leeuwen, J. Kessens, E. Sanders, and H. van den Heuvel, In proc. Interspeech, pp. 2571�2574, 2009.
SNMF � 6��7�������� �����& �������5����� -6��� �� � ������� ������� �������� ��������� .�/ � �� �� ���� �� ���������� �� ������������ ������ � !��������� 6�� �� !6�� �� � ������� ����������� ������ .�/ � �� �� ���� ��������� �� ��� ���� �� ���� ��������� ����� ������ � �� �� � ���������� ����������� � �� ��� �������� �������� �������� ���� �������� ������� -�� ���� �� ������ ��� ������� ���� �������� ������ ���������������� �� [1] H. Van hamme, In proc. Interspeech, Australia, pp. 2554�2557, 2008.
SNMF Problem Statement: Given a training data�set: S tr = {( x 1 , y 1 ) , . . ., ( x n , y n ), . . . , ( x N , y N )} x n is a vector of observed characteristics for the data item y n denotes a label vector which represents the class that x n belongs to Goal: Approximation of a classifier function ( g ), such that ŷ = g ( x tst ) is as close as possible to the true label. x tst is an unseen observation ��
SNMF SNMF in Training Phase: First step: Second step: [ ] �� �� = � � �� � � � �� � � ≈ ≈ �� �� �� � � �� � � � � � � � = �� � � [ ] �� �� � � �� = � �� � � � � � � � � � � Extended Kullbeck�Leibler divergence: ( ) �� ( ) ( ) � ∑ ∑ = + − + ρ �� �� �� �� �� �� �� �� � � � � � ��� �� � � � � ( ) �� �� �� �� �� �� �� � � �� �� �� Multiplicative updating formula: [ ] [ ] �� �� � � �� ← �� � � - � � � [ ] [ ] �� � �� �� � - � � � � × � � [ ] [ ] �� �� � � ← �� �� � � - � � � [ ] [ ] �� � + ρ �� �� - � � � � � × � � ��
Recommend
More recommend