Optimizing Average Reward Using Discounted Rewards-Reference-Cited by-同舟云学术

Optimizing Average Reward Using Discounted Rewards

Published:2001 Issue: Volume: Page:605-615
ISSN:0302-9743
Container-title:Lecture Notes in Computer Science
language:
Short-container-title:

Author:

Kakade Sham

Publisher

Springer Berlin Heidelberg

Link

http://link.springer.com/content/pdf/10.1007/3-540-44581-1_40

Reference10 articles.

1. P. Bartlett and J. Baxter. Estimation and approximation bounds for gradient based reinforcement learning. Technical report, Australian National University, 2000.

2. J. Baxter and P. Bartlett. Direct gradient-based reinforcement learning. Technical report, Australian National University, Research School of Information Sciences and Engineering, July 1999.

3. J. Baxter and P. Bartlett. Algorithms for infinite-horizon policy-gradient estimation. Journal of Artificial Intelligence Research, 2001. (forthcoming).

4. D.P. Bertsekas. Dynamic Programming and Optimal Control, Volumes 1 and 2. Athena Scientific, 1995.

5. P. Marbach and J. Tsitsiklis. Simulation-based optimization of markov reward processes. Technical report, Massachusetts Institute of Technology, 1998.

Cited by 11 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Learning-Based Latency-Constrained Fronthaul Compression Optimization in C-RAN;2023 IEEE 28th International Workshop on Computer Aided Modeling and Design of Communication Links and Networks (CAMAD);2023-11-06

2. Deep Reinforcement Learning Based TCP Congestion Control in UAV Assisted Wireless Networks;2023 International Conference on Wireless Communications and Signal Processing (WCSP);2023-11-02

3. Smoothing policies and safe policy gradients;Machine Learning;2022-10-20

4. Examining Average and Discounted Reward Optimality Criteria in Reinforcement Learning;AI 2022: Advances in Artificial Intelligence;2022

5. Preventing undesirable behavior of intelligent machines;Science;2019-11-22