On the use of a family of signal limiters for recognition of noisy speech☆
Abstract
The performance of a speech recognizer is often degraded by noise. Part of the reason for this performance degradation is due to the fact that there is often a strong mismatch between the training and the testing conditions, i.e. the recognition features used in the training case are vastly different from the features used in the testing condition because of the effect of the noise. One way to circumvent this mismatch problem is to use features which are less susceptible to changing noise conditions. In this paper, we propose the use of a family of signal limiters for recognition of noisy speech. The signal limiter, when properly scaled, is equivalent to performing an arcsin transformation on the autocorrelation functions of the original signal. The effect of using the signal limiter as preprocessor is to reduce the variability of the feature vector, so that the mismatch between training and testing conditions in noise is reduced. Testing on a 39-word English alpha-digit vocabulary, in a speaker trained mode, indicates that the recognition performance of a template-based, dynamic time-warping (DTW) recognizer can be significantly improved in noisy conditions when the robust signal limiter is used as a pre-processor to reduce the variability of the features in strong mismatch conditions.
Zusammenfassung
Erkennungsraten von Spracherkennern verschlechtern sich im allgemeinen mit steigendem Hintergrundgeräsch. Ein Teilgrund für diese Leistungsminderung ist die Tatsache, dass Lern- und Testbedingungen sehr unterschiedlich sind, d.h., die im Test zur Erkennung benutzten Signalmerkmale weichen von denen im Training benutzten Merkmalen, durch das Geräusch bedingt, stark ab. Ein Weg, dieses Problem zu vermeiden, ist, Signalmerkmale zu benutzen, die gegenüber Hintergrundrauschen weniger empfindlich sind. In diesem Beitrag schlagen wir den Einsatz einer speziellen Art von Signalbegrenzern zur Erkennung von verrauschter Sprache vor. Der Signalbegrenzer, wenn optimal skaliert, ist üquivalent mit einer Arcus-Sinus-Transformation der Autokorrelationsfunktion des Originalsignals. Der Effekt des Signalbegrenzers in der Signalvorverarbeitung ist die Variabilität des Merkmalvektors zu reduzieren, so dass sich Unterschiede zwischen Lern- und Testbedingungen verringern. Tests mit einem englischen alphanumerischen Vokabular von 39 Worten im sprecherabhängigen Modus ergaben dass die Erkennungsrateeines DTW-Erkenners im Rauschen mit Einsatz des robusten Signalbegrenzers in der Signalvorverarbeitung durch die Verringerung der Merkmalsvariation zwischen stark-unterschiedlichen Bedingungen signifikant verbessert werden kann.
Résumé
Les performances d'un système de reconnaissance sont souvent dégradées par la présence de bruit. Cette dégradation est en partie due au fait qu'il y a souvent une grande différence entre les conditions d'appentissage et de test, c'est-à-dire que les valeurs des paramètres mesurés lors de l'apprentissage sont très différences des valeurs mesurées en condition de test sous l'effet du bruit. Une solution pour contourner ce problème est d'utiliser des paramètres qui sont moins sensibles aux conditions de bruit. Dans cet article, nous proposons l'utilisation d'une famille de limiteurs de signal pour la reconnaissance de parole bruitée. Le limiteur de signal correctement ajusté équivaut à appliquer une transformation arcsin sur les fonctions d'autocorrelation du signal d'origine. L'effet de l'utilisation du limiteur de signal comme préprocesseur est de réduire la variabilité du vecteur de paramètres de sorte que la différence entre les conditions d'apprentissage et de test se trouve réduite. L'évaluation sur le vocabulaire des chiffres etdes lettres en anglais, en mode monolocuteur, montre que les performances d'un système de reconnaissance par alignement temporel dynamique (DTW) peuvent etre augmentées lorsque le limiteur de signal est utilisé comme préprocesseur pour réduire la variabilité due à des conditions très différentes.
References (13)
- B.-H. Juang
Speech recognition in adverse environments
Comput. Speech Language
(1991) - A. Acero et al.
Environmental robustness in speech recognition
- A.L. Fawe
Interpretation of infinitely clipped speech properties
IEEE Trans. Audio Electroacoust.
(1964) - B.-H. Juang et al.
On the use of bandpass liftering in speech recognition
IEEE Trans. Acoust. Speech Signal Process.
(1987) - J.F. Flanagan (1988), Personal...
- C.-H. Lee et al.
Speech recognition under additive noise
Cited by (13)
Smoothing hidden Markov models by using an adaptive signal limiter for noisy speech recognition
1999, Speech CommunicationWhen a speech recognition system is deployed in the real world, environmental interference will make noisy speech signals and reference models mismatched and cause serious degradation in recognition accuracy. To deal with the effect of environmental mismatch, a family of signal limiters has been successfully applied to a template-based DTW recognizer to reduce the variability of speech features in noisy conditions. Though simulation results indicate that heavily smoothing can effectively reduce the variability of speech features in low signal-to-noise ratio (SNR), it would also cause the loss of information in speech features. Therefore, we suggest that the smoothing factor of a signal limiter should be related to SNR and adapted on a frame by frame basis. In this paper, an adaptive signal limiter (ASL) is proposed to smooth the instantaneous and dynamic spectral features of reference models and test speech. By smoothing spectral features, the smoothed covariance matrices of reference models can be obtained by means of maximum likelihood (ML) estimation. A speech recognition task for multispeaker isolated Mandarin digits has been conducted to evaluate the effectiveness and robustness of the proposed method. Experimental results indicate that the adaptive signal limiter can achieve significant improvement in noisy conditions and is more robust than the hard limiter over a wider range of SNR values.
On stochastic feature and model compensation approaches to robust speech recognition
1998, Speech CommunicationBy now it should not be surprising that high performance speech recognition systems can be designed for a wide variety of tasks in many different languages. This is mainly attributed to the use of powerful statistical pattern matching paradigms coupled with the availability of a large amount of task-specific language and speech training examples. However, it is also well-known that such a high performance can not be maintained when the testing data do not resemble the training data. The speech distortion usually appears as a combination of various acoustic differences but the exact form of the distortion is often unknown and difficult to model. One way to reduce such acoustic mismatches is to adjust speech features according to some models of the differences. Another method is to modify the parameters of the statistical models, e.g. hidden Markov models, to make the modified models characterize the distorted speech features better. Depending on the knowledge used, this family of feature and model compensation techniques can be roughly categorized into three classes, namely: (1) training-based compensation, (2) blind compensation, and (3) structure-based compensation. This paper provides an overview of the capabilities and limitations of the compensation approaches and illustrates their similarities and differences. The relationship between adaptation and compensation will also be discussed.
Heutzutage sollte es nicht mehr erstaunlich sein, daß leistungsfähige Spracherkennungssysteme für eine große Anzahl von Aufgaben und für viele verschiedene Sprachen entwickelt werden können. Dies kann hauptsächlich auf die Verwendung von leistungsfähigen statistischen Mustererkennungsmethoden zusammen mit der Verfügbarkeit von einer großen Menge von aufgabenspezifischen Sprach- und Akustiklernbeispielen zurückgeführt werden. Andererseits ist bekannt, daß eine derartig hohe Leistungsfähigkeit nicht erzielt werden kann, falls die Testdaten nicht den Lerndaten ähnlich sind. Die Sprachverformung manifestiert sich normalerweise als Kombination von verschiedenen akustischen Unterschieden, aber die exakte Form der Verformung ist oft unbekannt oder schwer zu modellieren. Eine Möglichkeit diese akustischen Fehlerkennungen zu verringern, besteht darin, die Sprachmerkmale entsprechend einem Modell der Unterschiede anzupassen. Desweiteren können die Parameter des statistischen Modells, z.Bsp. des “Hidden Markov Modells”, derart verändert werden, sodaß das modifizierte Modell besser die verformten akustischen Merkmale charakterisiert. In Abhängigkeit des verwendeten Wissens, kann man die Merkmal- und Modellkompensationstechniken grob in drei Klassen einteilen: (1) Kompensation unter Ausnutzung von Trainingsdaten, (2) blinde Kompensation, (3) struktur-basierte Kompensation. Dieser Artikel gibt einen Überblick über die Möglichkeiten und Grenzen der Kompensationstechniken und beschreibt die Ähnlichkeiten und Unterschiede. Der Zusammenhang zwischen Adaptierung und Kompensation wird ebenfalls erörtert.
Au jour d'aujourd'hui, il est possible de développer des systèmes de reconnaissance de la parole exhibant de très bonnes performances pour différentes tâches et langues. Ceci résulte surtout de l'utilisation de puissantes approches statistiques de reconnaissance de formes, couplées avec la disponibilité de très grandes bases de données contenant des exemples de parole et de grammaire spécifiques à la tâche étudiée. Il est cependant également connu que ces bonnes performances de reconnaissance ne peuvent être préservées lorsque les données de test ne “ressemblent” pas aux données d'entraı̂nement. Une déformation du signal de parole apparait généralement comme une combinaison de variations acoustiques diverses, mais la forme exacte de cette distorsion est souvent inconnue et difficile à modéliser. Une façon de réduire ces différences acoustiques consiste à ajuster les paramètres caractéristiques du signal de parole selon des modéles de la distorsion. Une autre solution consiste à adapter les paramètres des modèles statistiques, par exemple les modèles de Markov cachès, de façon à ce que les modèles modifiés caractérisent mieux les caractéristiques du signal perturbé. Dépendant des connaissances utilisées, cette famille de méthodes de compensation des vecteurs caractéristiques et des paramètres des modèles peut se subdiviser en trois classes, à savoir: (1) compensation basée sur 1′ entraı̂nement, (2) compensation aveugle, et (3) compensation basée sur la structure. Cet article présente un aperçu des possibilités et limitations des approches de compensation et illustre leurs similarités et différences. La relation entre adaptation et compensation sera également discutée.
Frameworks for recognition of Mandarin syllables with tones using sub-syllabic units
1996, Speech CommunicationThe recognition of Mandarin syllables is a key problem in large vocabulary Mandarin speech recognition. Conventionally, the tone and base syllable corresponding to a syllable are separately recognized by using a tone recognizer and a base syllable recognizer, respectively. In this paper, we propose a framework for Mandarin syllable recognition based on the classification of sub-syllabic units such as initials, finals and transitions. The final units are classified in accordance with the variations of tones to enhance the capability of tone discrimination. By using hidden Markov models (HMM) based on LPC-derived cepstral parameters, we develop a Mandarin syllable recognizer in which base syllables and their corresponding tones are jointly recognized. Experimental results indicate that the proposed syllable recognizer yields higher recognition rates than the conventional syllable recognizer does when sufficient amount of training data is used. We also show that the performance of the proposed syllable recognizer can be further improved with the incorporation of a tone recognizer.
Die Silbenerkennung ist eines der Schlüsselprobleme der Spracherkennung des Mandarin mit groβem Wortschatz. Herkömmlicherweise werden der Silbenton und die einer bestimmten Silbe entsprechende Grundsilbe getrennt erkannt. In diesem Artikel wird ein Erkennungsansatz für die Silben des Mandarin vorgeschlagen, der sich auf die Klassifikation der subsilabischen Einheiten “initiale, finale und transitorische Abschnitte” stützt. Die finalen Einheiten werden unter Berücksichtigung der Tonvariationen klassifiziert, um die Bestimmungen des Tons zu verbessern. Unter Verwendung von Hidden-Markov Modellen, die auf LPC derivierten cepstralen Parametern beruhen, konnte ein Silbenerkennungssystem für Mandarin entwickelt werden, in dem die Grundsilbe und der dazugehörige Silbenton zusammen erkannt werden. Experimentelle Tests haben ergeben, daβ dieses System dann bessere Erkennungsraten erzielt, wenn eine ausreichende Menge an Trainingsdaten benutzt wird. Es wird schlieβlich gezeigt, daβ die Leistung des Systems noch verbessert werden kann, wenn es mit einem Tonerkennungssystem gekoppelt wird.
La reconnaissance des syllabes est un problème-clé pour les systèmes de reconnaissance de larges vocabulaires en Madarin. Traditionnellement, le ton et la syllabe de base correspondant à une syllabe donnée sont reconnus séparément. Dans cet article, on propose une approche de la reconnaissance des syllabes en Madarin basée sur la classification d'unités sub-syllabiques: parties initiales, finales et transitions. Les unités finales sont classées en fonction des variations des tons pour optimiser les possibilités de discrimination tonale. Nous avons développé un système de reconnaissance des syllabes en Mandarin qui utilise des modèles de Markov cachés (HMM) à partir de paramètres cepstraux et dans lequel les syllabes de base et leurs tons associés sont reconnus conjointement. Les résultats expérimentaux montrent que ce système fournit une taux de reconnaissance plus élevé que les systèmes de reconnaissance de syllabes tranditionnels quand on utilise une quantité suffisante de données d'apprentissage. On montre également que les performances de ce système peuvent être améliorées en y incorporant un système de reconnaissance de tons.
A maximum-likelihood approach to stochastic matching for robust speech recognition
1996, IEEE Transactions on Speech and Audio ProcessingSpeaker identification in teleconferencing environments using microphone arrays and neural networks
2019, ESCA Workshop on Automatic Speaker Recognition, Identification, and Verification, ASRIV 1994Robust speech features based on LPC using weighted arcsin transform
2003, IEICE Transactions on Information and Systems
- ☆
Work completed while Chi-Heng Lin was on leave from Telecommunication Laboratories, Chung-Li, Taiwan.