0-带在线搜索和自适应的尺度组合优化神经改进启发式算法(未完)(code)
code: https://github.com/federico-camerota/LRBS
文章目录
- Abstract
- 1 Introduction
- 2 Preliminary and Related Work
- 使用DRL改进TSP解决方案
- Search in Neural CO
- Adaptive Methods for Neural CO
- 3 Searching with LRBS
- The LRBS algorithm
- 4 Adapting Pre-Trained Policies with LRBS
- 5 Experimental Results
- 6 Conclusion
Abstract
我们提出了一种名为受限展开束搜索(Limited Rollout Beam Search, LRBS)的束搜索策略,该策略用于基于深度强化学习(DRL)的组合优化改进启发式算法。通过在欧几里得旅行商问题(Euclidean Traveling Salesperson Problem)上使用预训练模型,LRBS 显著提升了同分布性能及对更大问题实例的泛化能力,其最优性差距优于现有的改进启发式算法,并缩小了与最先进的构造方法之间的差距。我们还将分析扩展到两个接送旅行商问题(TSP)变体上以验证结果。最终,我们运用这种搜索策略对预训练的改进策略进行离线和在线适应,从而提升了搜索性能,并超越了最近的构造启发式方法。
1 Introduction
组合优化 (CO) 问题广泛存在于多个领域,包括空中交通调度 (Bertsimas, Lulli, 和 Odoni 2011)、供应链优