Uniformization for semi-Markov decision processes under stationary policies-Reference-Cited by-同舟云学术

Uniformization for semi-Markov decision processes under stationary policies

Published:1987-09 Issue:3 Volume:24 Page:644-656
ISSN:0021-9002
Container-title:Journal of Applied Probability
language:en
Short-container-title:Journal of Applied Probability

Author:

Beutler Frederick J.,Ross Keith W.

Abstract

Uniformization permits the replacement of a semi-Markov decision process (SMDP) by a Markov chain exhibiting the same average rewards for simple (non-randomized) policies. It is shown that various anomalies may occur, especially for stationary (randomized) policies; uniformization introduces virtual jumps with concomitant action changes not present in the original process. Since these lead to discrepancies in the average rewards for stationary processes, uniformization can be accepted as valid only for simple policies.We generalize uniformization to yield consistent results for stationary policies also. These results are applied to constrained optimization of SMDP, in which stationary (randomized) policies appear naturally. The structure of optimal constrained SMDP policies can then be elucidated by studying the corresponding controlled Markov chains. Moreover, constrained SMDP optimal policy computations can be more easily implemented in discrete time, the generalized uniformization being employed to relate discrete- and continuous-time optimal constrained policies.

Publisher

Cambridge University Press (CUP)

Subject

Statistics, Probability and Uncertainty,General Mathematics,Statistics and Probability

Reference12 articles.

1. Optimal policies for controlled Markov chains with a constraint

2. Controlled Markov Chains and Stochastic Networks

3. Technical Note—An Equivalence Between Continuous and Discrete Time Markov Decision Processes

4. Applying a New Device in the Optimization of Exponential Queuing Systems

Cited by 20 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Queueing Network Controls via Deep Reinforcement Learning;Stochastic Systems;2022-03

2. A useful technique for piecewise deterministic Markov decision processes;Operations Research Letters;2021-01

3. Joint Computation Offloading and Multiuser Scheduling Using Approximate Dynamic Programming in NB-IoT Edge Computing System;IEEE Internet of Things Journal;2019-06

4. Customizing exponential semi-Markov decision processes under the discounted cost criterion;European Journal of Operational Research;2018-04

5. On zero-sum two-person undiscounted semi-Markov games with a multichain structure;Advances in Applied Probability;2017-09