多臂赌博机论文 - 专知

会员服务 ·

多臂赌博机

多臂赌博机

Online Bandits with (Biased) Offline Data: Adaptive Learning under Distribution Mismatch

Arxiv

0+阅读 · 12月18日

Bandit-Based Rate Adaptation for a Single-Server Queue

Arxiv

0+阅读 · 12月12日

Balancing Performance and Costs in Best Arm Identification

Arxiv

0+阅读 · 12月5日

Representative Action Selection for Large Action Space: From Bandits to MDPs

Arxiv

0+阅读 · 11月27日

Model Predictive Control is almost Optimal for Heterogeneous Restless Multi-armed Bandits

Arxiv

0+阅读 · 11月11日

Revisiting Clustering of Neural Bandits: Selective Reinitialization for Mitigating Loss of Plasticity

Arxiv

0+阅读 · 12月2日

Ksurf-Drone: Attention Kalman Filter for Contextual Bandit Optimization in Cloud Resource Allocation

Arxiv

0+阅读 · 11月12日

Optimal Activation of Halting Multi-Armed Bandit Models

Arxiv

0+阅读 · 2023年4月20日

Continuous Time Bandits With Sampling Costs

Arxiv

0+阅读 · 2023年4月19日

Testing Indexability and Computing Whittle and Gittins Index in Subcubic Time

Arxiv

0+阅读 · 2023年4月19日

A Field Test of Bandit Algorithms for Recommendations: Understanding the Validity of Assumptions on Human Preferences in Multi-armed Bandits

Arxiv

0+阅读 · 2023年4月16日

Bandit-Based Policy Invariant Explicit Shaping for Incorporating External Advice in Reinforcement Learning

Arxiv

0+阅读 · 2023年4月14日

Regret Distribution in Stochastic Bandits: Optimal Trade-off between Expectation and Tail Risk

Arxiv

0+阅读 · 2023年4月10日

Sharp Deviations Bounds for Dirichlet Weighted Sums with Application to analysis of Bayesian algorithms

Arxiv

0+阅读 · 2023年4月6日

Stochastic Submodular Bandits with Delayed Composite Anonymous Bandit Feedback

Arxiv

0+阅读 · 2023年3月23日

参考链接

微信扫码咨询专知VIP会员