Skip to main content

Ein gehörorientierter Spracherkenner, der robust ist gegen zeitliche Schwankungen im Silben- und Phonembereich

  • Conference paper
  • 99 Accesses

Part of the book series: Informatik aktuell ((INFORMAT))

Zusammenfassung

Bei der automatischen Erkennung von Sprache führt es häufig zu Problemen, wenn der verwendete Wortschatz eine zu hohe Varianz in der Aussprachegeschwindigkeit aufweist. Diese natürlichen Schwankungen betreffen sowohl die gesamte Länge einer Äußerung als auch lokale Übergänge im Silben- und Phonembereich. In einer früheren Veröffentlichung wurde ein gehörorientiertes Sprachverarbeitungsmodell vorgestellt, das ein kurzes isoliert gesprochenes Wort unabhängig von seiner exakten Dauer auf einen Merkmalsvektor fester Länge abbildet [3]. Ein wesentliches Merkmal dieses Modells ist die Transformation des Zeitsignals in den Modulationsfrequenzbereich, eine Darstellung, wie sie auch entlang der Hörbahn im auditorischen System von Säugetieren und Vögeln nachgewiesen wurde. Das konstante Format des Merkmalsvektors wird erreicht durch eine zeitliche Integration der miteinander korrelierten Kanäle des Modulationsspektrogramms. Diese Methode kann unter Umständen zum Verlust der Eindeutigkeit eines Wortes führen, etwa wenn sich zwei Äußerungen lediglich in der Reihenfolge ihrer Phoneme unterscheiden.

In der folgenden Untersuchung wird anhand eines speziellen Wortschatzes gezeigt, daß das Modell robust ist gegen Vertauschung von Silben, Vokalen und Konsonanten. In drei Erkennungsexperimenten mit sechzehn Wörtern, die lediglich aus drei Vokalen und drei Konsonanten zusammengesetzt sind, wurde jeweils nur ein Wort falsch erkannt.

This is a preview of subscription content, log in via an institution.

Buying options

Chapter
USD   29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD   54.99
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD   69.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. Haggard M. (1985) „Temporal patterning in speech: the implications of temporal resolution and signal-processing“in: Time resolution in auditory systems, Hrsg. A. Michelsen, Springer, Berlin: 215–237

    Chapter  Google Scholar 

  2. Koch R., Püschel D., Kollmeier B. (1991) „Simulation des Cocktail-Party-Effekts: Störgeräuschreduktion in räumlichen Hörsituationen mit Hilfe binauraler Modulations-Spektren“in: Fortschritte der Akustik — DAGA 1991, DPG-GmbH, Bad Honnef: 797–800

    Google Scholar 

  3. Paping M. (1992) „Verwendung von Modulationsmerkmalen bei der automatischen Spracherkennung“in: Fortschritte der Akustik — DAGA 1992, DPG-GmbH, Bad Honnef (im Druck)

    Google Scholar 

  4. Rees A., Møller A. (1987) „Stimulus properties influencing the responses of inferior colliculus neurons to amplitude-modulated sounds“, Hearing Research 27: 129–143

    Google Scholar 

  5. Rees A., Palmer A.R. (1989) „Neuronal responses to amplitude-modulated and pure-tone stimuli in the guinea pig inferior colliculus, and their modification by broadband noise“, J. Acoust. Soc. Am. 85: 1987–1994

    Article  Google Scholar 

  6. Schreiner C.E., Langner G. (1988) „Coding of temporal patterns in the central auditory nervous system“in: Auditory functions, Hrsg. Edelman, Gall, Cowan; Wiley, New York: 337–361

    Google Scholar 

  7. Steeneken H.J., Houtgast T. (1980) „A physical method for measuring speech-transmission quality“, J. Acoust. Soc. Am. 67: 318–326

    Article  Google Scholar 

  8. Strube H.W. (1985) „A computationally efficient basilar-membrane model“, Acustica 58: 207–214

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 1992 Springer-Verlag Berlin Heidelberg

About this paper

Cite this paper

Paping, M., Strube, H.W. (1992). Ein gehörorientierter Spracherkenner, der robust ist gegen zeitliche Schwankungen im Silben- und Phonembereich. In: Fuchs, S., Hoffmann, R. (eds) Mustererkennung 1992. Informatik aktuell. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-77785-1_30

Download citation

  • DOI: https://doi.org/10.1007/978-3-642-77785-1_30

  • Publisher Name: Springer, Berlin, Heidelberg

  • Print ISBN: 978-3-540-55936-8

  • Online ISBN: 978-3-642-77785-1

  • eBook Packages: Springer Book Archive

Publish with us

Policies and ethics