Ein gehörorientierter Spracherkenner, der robust ist gegen zeitliche Schwankungen im Silben- und Phonembereich

Paping, M.; Strube, H. W.

doi:10.1007/978-3-642-77785-1_30

Ein gehörorientierter Spracherkenner, der robust ist gegen zeitliche Schwankungen im Silben- und Phonembereich

M. Paping³ &
H. W. Strube³

Conference paper

99 Accesses

Part of the book series: Informatik aktuell ((INFORMAT))

Zusammenfassung

Bei der automatischen Erkennung von Sprache führt es häufig zu Problemen, wenn der verwendete Wortschatz eine zu hohe Varianz in der Aussprachegeschwindigkeit aufweist. Diese natürlichen Schwankungen betreffen sowohl die gesamte Länge einer Äußerung als auch lokale Übergänge im Silben- und Phonembereich. In einer früheren Veröffentlichung wurde ein gehörorientiertes Sprachverarbeitungsmodell vorgestellt, das ein kurzes isoliert gesprochenes Wort unabhängig von seiner exakten Dauer auf einen Merkmalsvektor fester Länge abbildet [3]. Ein wesentliches Merkmal dieses Modells ist die Transformation des Zeitsignals in den Modulationsfrequenzbereich, eine Darstellung, wie sie auch entlang der Hörbahn im auditorischen System von Säugetieren und Vögeln nachgewiesen wurde. Das konstante Format des Merkmalsvektors wird erreicht durch eine zeitliche Integration der miteinander korrelierten Kanäle des Modulationsspektrogramms. Diese Methode kann unter Umständen zum Verlust der Eindeutigkeit eines Wortes führen, etwa wenn sich zwei Äußerungen lediglich in der Reihenfolge ihrer Phoneme unterscheiden.

In der folgenden Untersuchung wird anhand eines speziellen Wortschatzes gezeigt, daß das Modell robust ist gegen Vertauschung von Silben, Vokalen und Konsonanten. In drei Erkennungsexperimenten mit sechzehn Wörtern, die lediglich aus drei Vokalen und drei Konsonanten zusammengesetzt sind, wurde jeweils nur ein Wort falsch erkannt.

This is a preview of subscription content, log in via an institution.

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 54.99; Price excludes VAT (USA)

Softcover Book: USD 69.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Literatur

Haggard M. (1985) „Temporal patterning in speech: the implications of temporal resolution and signal-processing“in: Time resolution in auditory systems, Hrsg. A. Michelsen, Springer, Berlin: 215–237
Chapter Google Scholar
Koch R., Püschel D., Kollmeier B. (1991) „Simulation des Cocktail-Party-Effekts: Störgeräuschreduktion in räumlichen Hörsituationen mit Hilfe binauraler Modulations-Spektren“in: Fortschritte der Akustik — DAGA 1991, DPG-GmbH, Bad Honnef: 797–800
Google Scholar
Paping M. (1992) „Verwendung von Modulationsmerkmalen bei der automatischen Spracherkennung“in: Fortschritte der Akustik — DAGA 1992, DPG-GmbH, Bad Honnef (im Druck)
Google Scholar
Rees A., Møller A. (1987) „Stimulus properties influencing the responses of inferior colliculus neurons to amplitude-modulated sounds“, Hearing Research 27: 129–143
Google Scholar
Rees A., Palmer A.R. (1989) „Neuronal responses to amplitude-modulated and pure-tone stimuli in the guinea pig inferior colliculus, and their modification by broadband noise“, J. Acoust. Soc. Am. 85: 1987–1994
Article Google Scholar
Schreiner C.E., Langner G. (1988) „Coding of temporal patterns in the central auditory nervous system“in: Auditory functions, Hrsg. Edelman, Gall, Cowan; Wiley, New York: 337–361
Google Scholar
Steeneken H.J., Houtgast T. (1980) „A physical method for measuring speech-transmission quality“, J. Acoust. Soc. Am. 67: 318–326
Article Google Scholar
Strube H.W. (1985) „A computationally efficient basilar-membrane model“, Acustica 58: 207–214
Google Scholar

Download references

Author information

Authors and Affiliations

Abt. Sprache und Neuronale Netzwerke, Drittes Physikalisches Institut der Universität Göttingen, Bürgerstraße 42-44, W-3400, Göttingen, Deutschland
M. Paping & H. W. Strube

Authors

M. Paping
View author publications
You can also search for this author in PubMed Google Scholar
H. W. Strube
View author publications
You can also search for this author in PubMed Google Scholar

Editor information

Editors and Affiliations

Institut für Datenbanken und Künstliche Intelligenz, Technische Universität Dresden, Mommsenstraße 13, O-8027, Dresden, Deutschland
S. Fuchs
Institut für Technische Akustik, Technische Universität Dresden, Mommsenstraße 13, O-8027, Dresden, Deutschland
R. Hoffmann

Rights and permissions

Reprints and permissions

Copyright information

About this paper

Cite this paper

Paping, M., Strube, H.W. (1992). Ein gehörorientierter Spracherkenner, der robust ist gegen zeitliche Schwankungen im Silben- und Phonembereich. In: Fuchs, S., Hoffmann, R. (eds) Mustererkennung 1992. Informatik aktuell. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-77785-1_30

Download citation

DOI: https://doi.org/10.1007/978-3-642-77785-1_30
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-55936-8
Online ISBN: 978-3-642-77785-1
eBook Packages: Springer Book Archive

Publish with us

Policies and ethics