We study dynamic pricing of a product with an unknown demand distribution over a finite horizon. Departing from the standard no-regret learning environment in which prices can be adjusted at any time, we restrict price changes to predetermined points in time to reflect common retail practice. This constraint, coupled with demand model ambiguity and an unknown customer arrival pattern, imposes a high risk of revenue loss, as a price based on a misestimated demand model may be applied to many customers before it can be revised. We develop an adaptive risk learning (ARL) framework that embeds a data-driven ambiguity set (DAS) to quantify demand model ambiguity by adapting to the unknown arrival pattern. Initially, when arrivals are few, the DAS includes a broad set of plausible demand models, reflecting high ambiguity and revenue risk. As new data is collected through pricing, the DAS progressively shrinks, capturing the reduction in model ambiguity and associated risk. We establish the probabilistic convergence of the DAS to the true demand model and derive a regret bound for the ARL policy that explicitly links revenue loss to the data required for the DAS to identify the true model with high probability. The dependence of our regret bound on the arrival pattern is unique to our constrained dynamic pricing problem and contrasts with no-regret learning environments, where regret is constant and arrival-pattern independent. Relaxing the constraint on infrequent price changes, we show that ARL attains the known constant regret bound. Numerical experiments further demonstrate that ARL outperforms benchmarks that prioritize either regret or risk alone by adaptively balancing both without knowledge of the arrival pattern. This adaptive risk adjustment is crucial for achieving high revenues and low downside risk when prices are sticky and both demand and arrival patterns are unknown.


翻译:我们研究在有限时间范围内对需求分布未知的产品进行动态定价。与标准无遗憾学习环境中价格可随时调整不同,我们限制价格变更只能在预定时间点进行,以反映常见的零售实践。这一约束,加上需求模型的不确定性和未知的客户到达模式,带来了较高的收入损失风险,因为基于错误估计需求模型的价格可能在修正前应用于大量客户。我们开发了一种自适应风险学习(ARL)框架,该框架嵌入数据驱动的模糊集(DAS),通过适应未知到达模式来量化需求模型的不确定性。初始时,当到达客户较少时,DAS包含一组广泛的可能需求模型,反映了较高的不确定性和收入风险。随着通过定价收集新数据,DAS逐渐缩小,捕捉模型不确定性和相关风险的降低。我们建立了DAS向真实需求模型的概率收敛性,并推导了ARL策略的遗憾界,该遗憾界明确将收入损失与DAS以高概率识别真实模型所需的数据联系起来。我们的遗憾界对到达模式的依赖是我们受限动态定价问题所特有的,与无遗憾学习环境形成对比,后者遗憾是常数且独立于到达模式。放宽对价格变更频率的限制后,我们证明ARL能达到已知的常数遗憾界。数值实验进一步表明,ARL在不知道到达模式的情况下,通过自适应平衡遗憾和风险,优于仅优先考虑遗憾或风险的基准方法。当价格具有粘性且需求和到达模式均未知时,这种自适应风险调整对于实现高收入和低下行风险至关重要。

0
下载
关闭预览

相关内容

【ICML2024】悲观遇上风险:风险敏感的离线强化学习
专知会员服务
24+阅读 · 2024年7月11日
专知会员服务
25+阅读 · 2021年9月25日
专知会员服务
15+阅读 · 2021年9月25日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Arxiv
0+阅读 · 12月10日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员