Reward tampering problems and solutions in reinforcement learning: a causal influence diagram perspective-Reference-Cited by-同舟云学术

Reward tampering problems and solutions in reinforcement learning: a causal influence diagram perspective

Author:

Everitt Tom^ORCID,Hutter Marcus,Kumar Ramana,Krakovna Victoria

Publisher

Springer Science and Business Media LLC

Subject

General Social Sciences,Philosophy

Link

Reference64 articles.

1. Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mane, D. (2016). Concrete problems in AI Safety. arXiv: 1606.06565.

2. Armstrong, S., & O’Rourke, X. (2017). ‘Indifference’ methods for managing agent rewards. arXiv: 1712.06365.

4. Balke, A., & Pearl, J. (1994). Probabilistic evaluation of counterfactual queries. In AAAI (pp. 230–237).

5. Bostrom, N. (2014). Superintelligence: Paths, dangers, strategies. Oxford University Press.

Cited by 21 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

2. Ranking with Long-Term Constraints;Proceedings of the 17th ACM International Conference on Web Search and Data Mining;2024-03-04

3. Deep Reinforcement Learning for Unpredictability-Induced Rewards to Handle Spacecraft Landing;2023 13th International Conference on Information Science and Technology (ICIST);2023-12-08

5. Designing Fiduciary Artificial Intelligence;Equity and Access in Algorithms, Mechanisms, and Optimization;2023-10-30