Skip to main content
Log in

Algorithmus 21 Bewertete Markovprozesse im stationären Zustand —Ein neuer Algorithmus mit Beispiel

Ergodic marcovprocesses with Rewards — A new algorithm

  • Algorithmen
  • Published:
Computing Aims and scope Submit manuscript

Zusammenfassung

Ausgehend von einem Modell zur Erfassung von allgemeinen Steuerungsproblemen verschiedenster Art [8], kann ein funktionalanalytisches Maximumprinzip bewiesen werden, das den Wertzuwachs durch eine verallgemeinerte Hamiltonfunktion charakterisiert [5, 6, 7, 8]. Dieses Modell und die entwickelte Methode (auf die in dieser Arbeit nur verwiesen wird) sind allgemein genug, um sie (ohne Grenzübergänget→∞ betrachten zu müssen) auf Markovprozesse im stationären Zustand anwenden zu können. Man wird dann auf die Politikiteration von Howard geführt, weiters aber auf einen neuen Algorithmus, der umso effektiver ist, je mehr Entscheidungen pro Zustand zur Wahl stehen.

Hier werden die Rechenschritte genau beschrieben (unsere numerischen Erfahrungen und Testergebnisse gehen darin ein) und zur Verdeutlichung an einem Beispiel nachvollzogen.

Abstract

Starting with a model for general problems of optimal control, a maximumprinciple can be derived by partial deviation of objective functional and process in direction of state variables. Application of model and method (presented in 5, 6, 7, 8) to ergodic Marcovprocesses with rewards results in Howard's method of policy iteration and a new algorithm, which is more effective, specially when the number of possible decision is great.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Literatur

  1. Gessner, P., und K. Spremann: Optimierung in Funktionenräumen. Lecture Notes in Econ. a. Math. Syst.64, Springer 1972.

  2. Howard, R. A.: Dynamic Programming and Markov Processes, 2. Aufl., S. 32–43. Cambridge: MIT Press. 1962.

    Google Scholar 

  3. Kushner, H.: Introduction to stochastic Control. New York: Holt, Rinehart and Watson. 1971. (Umfassendes Standardwerk.)

    Google Scholar 

  4. Spremann, K.: Ein funktionalanalytischer Beweis des Maximumprinzips von Pontrjagin und dessen Verwendung zur Herleitung der Politikiteration von Howard. Computing9, 343–353 (1972).

    Google Scholar 

  5. Spremann, K.: Beweisprinzipien für Optimalitätsbedingungen bei zeitabhängigen Prozessen. Diss. TU München, 1972.

  6. Spremann, K.: Optimierung verschiedener Steuerungsprobleme mit einem funktionalanalytischen Maximumprinzip. Vortrag auf der Diskussionstagung des ADOW (Arbeitskreis für Dynamische Optimierung in den Wirtschaftswissenschaften) in Rheda/Schloss bei Bielefeld am 31. 5. 1973 (ersch. in ZAMM).

  7. Spremann, K.: Eine konstruktive Methode zur Lösung von Kontrollproblemen. Discussion Paper Nr. 4 des Instituts für Wirtschaftstheorie und Operations Research der Universität Karlsruhe. Mai 1973.

  8. Spremann, K., und P. Gessner: Konstruktive Optimierung dynamischer und stochastischer Prozesse. Mathematical Systems in Economics. Meisenheim am Glan: Verl. A. Hain. 1973.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

About this article

Cite this article

Gessner, P. Algorithmus 21 Bewertete Markovprozesse im stationären Zustand —Ein neuer Algorithmus mit Beispiel. Computing 13, 173–181 (1974). https://doi.org/10.1007/BF02246616

Download citation

  • Received:

  • Issue Date:

  • DOI: https://doi.org/10.1007/BF02246616

Navigation