Revisiting Natural Actor-Critics with Value Function Approximation-Reference-Cited by-同舟云学术

Revisiting Natural Actor-Critics with Value Function Approximation

Published:2010 Issue: Volume: Page:207-218
ISSN:0302-9743
Container-title:Modeling Decisions for Artificial Intelligence
language:
Short-container-title:

Author:

Geist Matthieu,Pietquin Olivier

Publisher

Springer Berlin Heidelberg

Link

http://link.springer.com/content/pdf/10.1007/978-3-642-16292-3_21

Reference16 articles.

1. Barto, A.G., Sutton, R.S., Anderson, C.W.: Neuronlike adaptive elements that can solve difficult learning control problems, pp. 535–549 (1988)

2. Watkins, C.: Learning from Delayed Rewards. PhD thesis, Cambridge University, Cambridge, England (1989)

3. Sutton, R.S., McAllester, D.A., Singh, S.P., Mansour, Y.: Policy Gradient Methods for Reinforcement Learning with Function Approximation. In: Advances in Neural Information Processing Systems (NIPS 12), pp. 1057–1063 (2000)

4. Konda, V.R., Tsitsiklis, J.N.: Actor-Critic Algorithms. In: Advances in Neural Information Processing Systems, NIPS 12 (2000)

5. Peters, J., Vijayakumar, S., Schaal, S.: Reinforcement Learning for Humanoid Robotics. In: Third IEEE-RAS International Conference on Humanoid Robots, Humanoids 2003 (2003)

Cited by 4 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Compatible natural gradient policy search;Machine Learning;2019-05-20

2. Algorithmic Survey of Parametric Value Function Approximation;IEEE Transactions on Neural Networks and Learning Systems;2013-06

3. Reinforcement learning and optimal adaptive control: An overview and implementation examples;Annual Reviews in Control;2012-04

4. Kalman Temporal Differences;Journal of Artificial Intelligence Research;2010-10-29