Elsevier

Speech Communication

Volume 12, Issue 4, August 1993, Pages 383-392
Speech Communication

On the use of a family of signal limiters for recognition of noisy speech

https://doi.org/10.1016/0167-6393(93)90085-YGet rights and content

Abstract

The performance of a speech recognizer is often degraded by noise. Part of the reason for this performance degradation is due to the fact that there is often a strong mismatch between the training and the testing conditions, i.e. the recognition features used in the training case are vastly different from the features used in the testing condition because of the effect of the noise. One way to circumvent this mismatch problem is to use features which are less susceptible to changing noise conditions. In this paper, we propose the use of a family of signal limiters for recognition of noisy speech. The signal limiter, when properly scaled, is equivalent to performing an arcsin transformation on the autocorrelation functions of the original signal. The effect of using the signal limiter as preprocessor is to reduce the variability of the feature vector, so that the mismatch between training and testing conditions in noise is reduced. Testing on a 39-word English alpha-digit vocabulary, in a speaker trained mode, indicates that the recognition performance of a template-based, dynamic time-warping (DTW) recognizer can be significantly improved in noisy conditions when the robust signal limiter is used as a pre-processor to reduce the variability of the features in strong mismatch conditions.

Zusammenfassung

Erkennungsraten von Spracherkennern verschlechtern sich im allgemeinen mit steigendem Hintergrundgeräsch. Ein Teilgrund für diese Leistungsminderung ist die Tatsache, dass Lern- und Testbedingungen sehr unterschiedlich sind, d.h., die im Test zur Erkennung benutzten Signalmerkmale weichen von denen im Training benutzten Merkmalen, durch das Geräusch bedingt, stark ab. Ein Weg, dieses Problem zu vermeiden, ist, Signalmerkmale zu benutzen, die gegenüber Hintergrundrauschen weniger empfindlich sind. In diesem Beitrag schlagen wir den Einsatz einer speziellen Art von Signalbegrenzern zur Erkennung von verrauschter Sprache vor. Der Signalbegrenzer, wenn optimal skaliert, ist üquivalent mit einer Arcus-Sinus-Transformation der Autokorrelationsfunktion des Originalsignals. Der Effekt des Signalbegrenzers in der Signalvorverarbeitung ist die Variabilität des Merkmalvektors zu reduzieren, so dass sich Unterschiede zwischen Lern- und Testbedingungen verringern. Tests mit einem englischen alphanumerischen Vokabular von 39 Worten im sprecherabhängigen Modus ergaben dass die Erkennungsrateeines DTW-Erkenners im Rauschen mit Einsatz des robusten Signalbegrenzers in der Signalvorverarbeitung durch die Verringerung der Merkmalsvariation zwischen stark-unterschiedlichen Bedingungen signifikant verbessert werden kann.

Résumé

Les performances d'un système de reconnaissance sont souvent dégradées par la présence de bruit. Cette dégradation est en partie due au fait qu'il y a souvent une grande différence entre les conditions d'appentissage et de test, c'est-à-dire que les valeurs des paramètres mesurés lors de l'apprentissage sont très différences des valeurs mesurées en condition de test sous l'effet du bruit. Une solution pour contourner ce problème est d'utiliser des paramètres qui sont moins sensibles aux conditions de bruit. Dans cet article, nous proposons l'utilisation d'une famille de limiteurs de signal pour la reconnaissance de parole bruitée. Le limiteur de signal correctement ajusté équivaut à appliquer une transformation arcsin sur les fonctions d'autocorrelation du signal d'origine. L'effet de l'utilisation du limiteur de signal comme préprocesseur est de réduire la variabilité du vecteur de paramètres de sorte que la différence entre les conditions d'apprentissage et de test se trouve réduite. L'évaluation sur le vocabulaire des chiffres etdes lettres en anglais, en mode monolocuteur, montre que les performances d'un système de reconnaissance par alignement temporel dynamique (DTW) peuvent etre augmentées lorsque le limiteur de signal est utilisé comme préprocesseur pour réduire la variabilité due à des conditions très différentes.

References (13)

  • B.-H. Juang

    Speech recognition in adverse environments

    Comput. Speech Language

    (1991)
  • A. Acero et al.

    Environmental robustness in speech recognition

  • A.L. Fawe

    Interpretation of infinitely clipped speech properties

    IEEE Trans. Audio Electroacoust.

    (1964)
  • B.-H. Juang et al.

    On the use of bandpass liftering in speech recognition

    IEEE Trans. Acoust. Speech Signal Process.

    (1987)
  • J.F. Flanagan (1988), Personal...
  • C.-H. Lee et al.

    Speech recognition under additive noise

There are more references available in the full text version of this article.

Cited by (13)

  • Speaker identification in teleconferencing environments using microphone arrays and neural networks

    2019, ESCA Workshop on Automatic Speaker Recognition, Identification, and Verification, ASRIV 1994
  • Robust speech features based on LPC using weighted arcsin transform

    2003, IEICE Transactions on Information and Systems
View all citing articles on Scopus

Work completed while Chi-Heng Lin was on leave from Telecommunication Laboratories, Chung-Li, Taiwan.

View full text