Elsevier

Speech Communication

Volume 15, Issues 3–4, December 1994, Pages 355-365
Speech Communication

A spoken dialogue system with active/non-active word control for CD-ROM information retrieval

https://doi.org/10.1016/0167-6393(94)90085-XGet rights and content

Abstract

This paper describes a development of a spoken dialogue travel guidance system, TARSAN. TARSAN uses commercial CD-ROM guidebooks as its knowledge source, containing a large amount of travel information. To deal with this amount of information, a large vocabulary has to be accepted by a speech recognizer without reducing its performance. Thus, we propose two steps of active/non-active word control methods: (1) a word/grammar prediction strategy, and (2) unknown word re-evaluation algorithm. The word/grammar prediction strategy dynamically changes a recognition network according to a conversation situation by making use of results retrieved from the CD-ROMs. This strategy makes users to access almost all data on the CD-ROMs using a small vocabulary speech recognizer. The unknown word re-evaluation algorithm processes unknown words and non-active words using Garbage Models by integrating them into the recognition network, and once the Garbage Models are recognized, the unknown part will be compared with the non-active words. This algorithm enhances the ability of the word/grammar prediction. In the experiment without Garbage Models, 80.9% of the utterances were correctly understood. In the unknown word re-evaluation experiment using the Garbage Models, 86.4% were correctly re-evaluated, while the false alarms of 5% were found.

Zusammenfassung

Dieser Artikel beschreibt die Entwicklung eines mündliches Dialogsystem, TARSAN, daβ einen kommerziellen CD-ROM Führer als Informationsquelle benutzt, der eine groβe Menge an Reiseinformationen enthält. Um mit einer solchen Menge an Informationen umgehen zu können, muβ das Spracherkennungssystem einen groβen Wortschatz akzeptieren ohne in der Leistung nachzulassen. Daher schlagen wir zwei Schritte für die aktive/nicht-aktive Wortkontrolle vor: (1) eine Strategie zur Wort/Grammatik Vorhersage, und (2) einen Algorithmus zur Wiederbewertung unbekannter Wörter. Die Strategie der Wort/Grammatik Vorhersage modifiziert dynamisch das Spracherkennungsnetz in Bezug auf die Redesituation, indem sie die aus den CD-ROMs gewonnenen Ergebnisse benutzt. Diese Strategie erlaubt dem Benutzer den Zugriff auf quasi sämtliche Informationen des CD-ROMs mit Hilfe eines Erkennungssystems mit kleinem Wortschatz. Der Algorithmus zur Wiederbewertung unbekannter Wörter behandelt unbekannte Wörter und nicht-aktive Wörter mit einem Müllmodell, das sie in das Erkennungsnetz integriert. Sobald die Müllmodelle erkannt werden, wird der verbleibende Teil mit den nicht-aktiven Wörtern verglichen. Dieser Algorithmus verbessert die Leistung der Wort/Grammatik Vorhersage. Bei Experimenten ohne Müllmodelle wurden 80,9% der äuβerungen korrekt erkannt. Bei dem Experiment mit dem Müllmodell mit der Wiederbewertung unbekannter Wörter wurden 86,4% korrekt wiederbewertet, mit einer Rate von 5% Fehlalarmen.

Résumé

Cet article décrit un système de dialogue oral en cours de développement, TARSAN, pour guider des personnes en voyager. TARSAN utilise comme source de connaissance des guides commercialisés sous la forme de CD-ROMs qui comportent une grande quantité d'informations touristiques. Pour manipuler une telle quantité d'informations, le système de reconnaissance doit pouvoir accepter un très large vocabulaire sans réduire ses performances. Dans ce but, nous proposons deux étages de contrôle des mots actifs/non-actifs: (1) une stratégie de prédiction des mots/de la grammaire, et (2) un algorithme de ré-estimation des mots inconnus. La stratégie de prédiction mot/grammaire modifie de façon dynamique le réseau de reconnaissance en fonction de l'état de la conversation en utilisant les résultats retrouvés à partir des CD-ROMs. Cette stratégie permet aux utilisateurs d'accéder à quasiment toutes les informations du CD-ROM en utilisant un système de reconnaissance de petit vocabulaire. L'algorithme de ré-estimation des mots inconnus traite les mots inconnus et les mots non-actifs par des modèles poubelles en les intégrant dans le réseau de reconnaissance. Une fois que les modèles poubelles sont reconnus, la partie inconnue est comparée avec les mots non-actifs. Cet algorithme améliore l'efficacité de la prédiction mot/grammaire. Dans les expériences sans modèles poubelle, 80.9% des énoncés étaient correctement reconnus. Dans l'expérience utilisant les modèles poubelles pour la ré-estimation des mots inconnus, 86.4% étaient correctement ré-estimés, pour un taux de fausse-alarme de 5%.

References (9)

  • A. Asadi et al.

    Automatic detection of new words in a large vocabulary continuous speech recognition system

  • JTB
  • T. Kobayashi et al.

    ASJ continuous speech corpus for research

    J. Acoust. Soc. Japan

    (1992)
  • Co. Kosaido
There are more references available in the full text version of this article.

Cited by (6)

View full text