Thompson Sampling: An Asymptotically Optimal Finite-Time Analysis-Reference-Cited by-同舟云学术

Thompson Sampling: An Asymptotically Optimal Finite-Time Analysis

Published:2012 Issue: Volume: Page:199-213
ISSN:0302-9743
Container-title:Lecture Notes in Computer Science
language:
Short-container-title:

Author:

Kaufmann Emilie,Korda Nathaniel,Munos Rémi

Publisher

Springer Berlin Heidelberg

Link

http://link.springer.com/content/pdf/10.1007/978-3-642-34106-9_18.pdf

Reference14 articles.

1. Agrawal, S., Goyal, N.: Analysis of thompson sampling for the multi-armed bandit problem. In: Conference on Learning Theory, COLT (2012)

2. Audibert, J.-Y., Bubeck, S.: Regret bounds and minimax policies under partial monitoring. Journal of Machine Learning Research 11, 2785–2836 (2010)

3. Audibert, J.-Y., Munos, R., Szepesvári, C.: Exploration-exploitation trade-off using variance estimates in multi-armed bandits. Theoretical Computer Science 410(19), 1876–1902 (2009)

4. Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time analysis of the multiarmed bandit problem. Machine Learning 47(2), 235–256 (2002)

5. Chapelle, O., Li, L.: An empirical evaluation of thompson sampling. In: NIPS (2011)

Cited by 181 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Information-Directed Policy Sampling for Episodic Bayesian Markov Decision Processes;IISE Transactions;2024-08-19

2. The Online Shortest Path Problem: Learning Travel Times Using a Multiarmed Bandit Framework;Transportation Science;2024-08-16

3. Analyzing and Enhancing Queue Sampling for Energy-Efficient Remote Control of Bandits;2024 IEEE International Mediterranean Conference on Communications and Networking (MeditCom);2024-07-08

4. Thompson sampling for networked control over unknown channels;Automatica;2024-07

5. Dynamic metaheuristic selection via Thompson Sampling for online optimization;Applied Soft Computing;2024-06