大规模优化领域最持久的挑战之一在于如何突破可扩展性边界,同时不牺牲性能或严谨性。数十年来,计算能力的指数级增长提供了直接解决方案:更庞大的问题可由更强大的机器处理。然而近年来,单纯依靠算力已难以应对实际应用日益增长的复杂性与规模,这一趋势日益明显。此外,尽管通用线性与整数优化方法取得显著成功,但这些方法在涉及复杂动态、高维特性或需细粒度序列决策的领域仍面临挑战。由此引出关键问题:能否设计可扩展性更优的新型优化方法?本文提出融合动态规划、强化学习与列生成的实践路径,以应对多场景需求。首先在强化学习与动态规划框架内开发并完善方法论体系,继而拓展至列生成的应用实践,最终展示如何通过技术融合赋能基础机器学习方法,实现大规模优化目标。
第二章:探讨强化学习与博弈求解在扑克游戏中的应用。通过引入新颖的紧凑型扑克特征表征及全局最优决策树,解决状态空间表征问题并避免黑箱方法。本章将反事实遗憾最小化与上述技术结合,构建了可解释扑克智能体,其性能超越原世界冠军智能体Slumbot。
第三章:介绍动态规划求解超大规模问题的方法,并将其应用于广受欢迎的文字游戏Wordle。推导该游戏的数学模型及对应的贝尔曼方程,引入深度受限搜索与剪枝等优化技术,实现算法的大规模扩展以求解游戏。最终确定SALET为最优起始词,并证明最优策略最多使用5次猜测即可获胜——超越所有现有近似方法。
第四章:引入列生成与分支定价优化方法,在秒级时间内求解超大规模武器目标分配问题。将广义分配问题重构为适用于该方法的形式,并推导高效算法求解分支定价的各个组件。实验结果表明,相较现有方法实现多个数量级的加速。
第五章:将前几章开发的优化方法扩展至最优决策树训练领域。提出新颖的问题松弛形式,采用列生成与分支定价进行求解,并运用早期章节开发的动态规划方法高效处理分支定价的各个组件。将该方法推广至回归问题、广义损失函数及集成学习技术。实验证明相较现有方法实现数量级加速,且样本外性能超越传统方法,最终验证了该方法的优势。
第六章:将前述优化技术扩展至K均值聚类问题的最优求解。提出基于指数级规模公式的分支定价框架,包含可扩展求解器初始化策略与高效分支定界管理。针对定价问题提出创新的基于图的重构方法,显著降低计算复杂度,消除对数据维度的传统指数级依赖。通过将该方法扩展至k中心点聚类、鲁棒聚类变体,以及稠密子图、团优化等图挖掘问题,验证其广泛适用性。跨数据集综合实验表明,相较现有方法运行时间提升1-3个数量级,最优解相比启发式方法具有显著性能优势,验证了整体方法的鲁棒性与通用性。
第七章:总结本论文的核心贡献并给出结论性评述。