When using hidden Markov models for speech recognition, it is usually assumed that the probability that a particular acoustic vector is emitted at a given time only depends on the current state and the current acoustic vector observed. In this paper, we introduce another idea, i.e., we assume that, in a given state, the acoustic vectors are generated by a continuous Markov process. Indeed, the time evolution of the acoustic vector is inherently dynamic and continuous, and sampling only occurs for the purpose of computation. This allows us to assign a probability density to the time trajectory of the acoustic vector inside the state, reflecting the probability that this particular path has been generated by the continuous Markov process associated with this state. Roughly speaking, it measures the “adequacy” of the observed trajectory with respect to an ideal trajectory, which is modelled by a vectorial linear differential equation. This model is introduced in order to describe the dynamic behaviour of the acoustic vector inside a state. Once the segmentation is fixed, reestimation formulae for the parameters of the continuous Markov process are derived for the Viterbi algorithm. As usual, the segmentation can be obtained by sampling the continuous process, and by applying dynamic programming to find the best path over all the possible sequences of states and all the possible durations. Finally, we sketch a possible generalization to path mixtures, for which different trajectories are available in each state. However, we have to stress that no experimental results are available at present. Indeed, we did not have the opportunity to test the algorithm on real speech. We are aware of the fact that the assumptions we did may not be appropriate for the modelling of speech.
Wenn man “hidden” Markovmodelle zur Spracherkennung benutzt, macht man gewöhnlich die Hypothese, daß die Ausgabewahrscheinlichkeit eines akustischen nur vom derzeitigen Zustand und Vektor abhängt. In diesem Beitrag betrachten wir eine weniger einschränkende Hypothese: wir nehmen an, daß innerhalb eines Zustands der Markovkette, die akustischen Vektoren durch einen kontinuierlichen Markovprozess generiert werden. In der Tat, der Zeitverlauf des Sprachsignals ist in Wirklichkeit kontinuierlich und die Abtastung wird nur ausgeführt zu Zwecken der numerischen Berechnung. Wir weisen dem beobachteten Zeitverlauf des akustischen Vektors eine Wahrscheinlichkeitsdichte zu, welche die Wahrscheinlichkeit angibt, daß dieser bestimmte Zeitverlauf von dem jeweiligen Markovprozess ausgegeben wurde. Die Warhscheinlichkeitsdichte misst die Angemessenheit der beobachteten Zeitverlaufs im Verhältnis zu einem idealen Zeitverlauf welcher anhand einer Differentialgleichung beschrieben wird. Wenn die Segmentierung bestimmt ist, können die Formeln der Wiedereinschätzung der Parameter des kontinuierlichen Markovmodells anhand des Viterbi-algorithmus berechnet werden. Die wahrscheinlichste Segmentierung (im Sinne der maximalen Wahrscheinlichkeit) wird erhalten indem der kontinuierliche Prozes abgetastet wird und mit Hilfe der dynamischen Programmierung der beste Weg errechnet wird für alle möglichen Segmentierungen und Dauern. Schliesslich, erwähnen wir eine mögliche Generalisierung für eine Mischung von Zeitverläufen wenn mehrere Zeitverläufe von dem gleichen Zustand aus erreichbar sind. Wir sind uns bewußt, daß unsere Annahmen möglicherweise nicht auf das Sprachsignal übertragbar sind.
Lorsqu'on utilise des modèles de Markov cachés pour la reconnaissance de la parole, l'on fait habituellement l'hypothèse que la probabilité d'émission d'un vecteur acoustique ne dépend que de l'état courant et du vecteur acoustique actuellement observé. Dans cet article, nous envisageons une hypothèse moins restrictive: nous considérons qu'au sein d'un même état de la chaîne de Markov, les vecteurs acoustiques sont générés par un processus markovien continu. En effet, l'évolution temporelle du signal de parole est intrinsèquement continue, et l'échantillonnage n'est réalisé que pour les besoins de calculs numériques. Nous assignons une densité de probabilité à la trajectoire temporelle observée du vecteur acoustique, reflétant la probabilité que cette particulière a été générée par le processus markovien continu associé à l'état. Elle mesure “l'adéquation” de cette trajectoire observée par rapport à une trajectoire idéale, supposée générée par équation différentielle vectorielle linéaire. Une fois la segmentation fixée, les formules de réestimation pour les paramètres du modèle markovien continu peuvent être calculées dans le cadre de l'algorithme de Viterbi. La segmentation la plus probable (au sens du maximum de vraisemblance) s'obtient en échantillonnant le processus continu, et en calculant le meilleur chemin à travers toutes les segmentations possibles et toutes les durées possibles par programmation dynamique. Ensuite, nous mentionnons une extension possible à des mélanges de trajectoires, pour laquelle plusieures trajectoires sont accessibles dans un même état. Cependant, aucun test expérimental n'a encoure été effectué pour le moment, si bien que les hypothèses que nous avons faites ne pourraient pas s'appliquer au signal de parole.