4. Speech recognition
Integrated phoneme and function word architecture of hidden control neural networks for continuous speech recognition

https://doi.org/10.1016/0167-6393(92)90021-XGet rights and content

Abstract

We present a context-dependent, phoneme and function word based, Hidden Control Neural Network (HCNN-CDF) architecture for continuous speech recognition. The system can be seen as a large vocabulary extension of the word-based HCNN system proposed by Levin in 1990. Initially, we analysed context-independent HCNN modeling principle in the framework of the Linked Predictive Neural Network (LPNN) speech recognition system and found that it results in a 6% increase of the word recognition accuracy at perplexity 402. Significant savings compared to the LPNN in the resource requirements and computational load for the HCNN implementation can be achieved. In speaker-dependent recognition experiments with perplexity 111, the current versions of the LPNN and HCNN-CDF systems achieve 60% and 75% word recognition accuracies, respectively.

Zusammenfassung

Wir stellen im folgenden eine kontextabhängige auf Phonemen und Funktionswörtern basierende Hidden Control Neural Network Architektur (HCNN-CDF) für die Erkennung von kontinuierlicher Sprache vor. Das System ist eine Erweiterung des wortbasierten HCNN Systems von Levin in 1990 auf ein großes Vokabular. Wir haben zuerst das Prinzip der kontextunabhängigen HCNN-Modellierung im Rahmen des Linked Predictive Neural Network (LPNN) Spracherkennungs-systems untersucht und eine Verbesserung der Worterkennungsrate um 6% bei einer Perplexität von 402 festgestellt. Für die HCNN-Implementation konnte eine bedeutende Parameterreduktion und Einsparung von Rechenzeit gegenüber LPNN erreicht werden. Bei sprecherabhängigen Erkennungsexperimenten mit der Perplexität 111 erreichten die aktuellen Versionen des LPNN und des HCNN-CDF Systems Worterkennungsraten von 60% bzw. 75%.

Résumé

Nous présentons une architecture d'Hidden Control Neural Network (HCNN-CDF) dépendant du contexte pour la reconnaissance de la parole continue, basée sur les phonémes et les mots fonctionnels. Le système peut être considéré comme une large extension du vocabulaire du système HCNN basé sur les mots, proposé par Levin. Initialement, nous avons analysé les principes de modélisation de HCNN sous une forme indépendante du contexte, dans le cadre du système de reconnaissance de la parole Linked Predictive Neural Networks (LPNN) et avons trouvé qu'il aboutit à une augmentation de 6% dans la précision de reconnaissance de la parole à un degré de perplexité 402. Comparé à LPNN, nous avons pu obtenir des réductions significatives dans les exigences de ressources et les charges computationnelles grâce à notre implémentation HCNN. Dans des expériences de reconnaissance dépendant du locuteur, avec un degré de perplexité 111, les versions actuelles des systèmes LPNN et HCNN-CDF obtiennent respectivement une précision de reconnaissance de mots de 60% et 75%.

References (20)

  • H. Bourlard

    Neural nets and hidden Markov models: Review and generalizations

  • H. Bourlard et al.

    Links between Markov models and multilayer perceptions

    IEEE Trans. Pattern Anal. Machine Intell.

    (1990)
  • D.S. Broomhead et al.

    Multivariable functional interpolation and adaptive networks

    Complex Systems

    (1988)
  • M.A. Franzini et al.

    Recent work in continuous speech recognition using the connectionist Viterbi training procedure

  • K. Iso et al.

    Speaker-independent word recognition using a neural prediction model

  • K. Iso et al.

    Large vocabulary speech recognition using neural prediction model

  • K.F. Lee

    Large vocabulary speaker independent continuous speech recognition: The SPHINX system

  • E. Levin

    Word recognition using hidden control neural architecture

  • E. Levin

    Modeling time varying systems using a hidden control neural network architecture

    Advances in Neural Information Processing Systems 3

    (1991)
  • J.L. McClelland et al.
There are more references available in the full text version of this article.

Cited by (5)

  • On the predictive connectionist models for automatic speech recognition

    2000, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
  • LINEAR AND NONLINEAR PREDICTION FOR SPEECH RECOGNITION WITH HIDDEN MARKOV MODELS

    1993, 3rd European Conference on Speech Communication and Technology, EUROSPEECH 1993
1

The author is now with the Department of Computer Science, Faculty of Electrical Engineering and Computer Science, University of Ljubljana, Slovenia.

View full text