【标题】Data efficient reinforcement learning and adaptive optimal perimeter control of network traffic dynamics
【作者团队】C. Chen, Y.P. Huang, W.H.K. Lam, T.L. Pan, S.C. Hsu, A. Sumalee, R.X. Zhong
【发表日期】2022.6.28
【论文链接】https://www.sciencedirect.com/sdfe/reader/pii/S0968090X22001929/pdf
【推荐理由】现有的数据驱动和反馈流量控制策略没有考虑实时数据测量的异构性。此外,传统的交通控制强化学习(RL)方法由于缺乏数据效率,通常收敛缓慢。而且传统的最优周界控制方案需要准确了解系统动力学,因此它们容易受到内生不确定性的影响。本文提出了一种基于整体强化学习 (IRL) 的方法来学习宏观交通动态,以实现自适应最优周界控制。本文主要贡献:(a)开发了具有离散增益更新的连续时间控制,以适应离散时间传感器数据。(b) 为了降低采样复杂度并更有效地使用可用数据,将经验重放 (ER) 技术引入 IRL 算法。(c) 所提出的方法以“无模型”的方式放宽了对模型校准的要求,通过数据驱动的 RL 算法实现了对建模不确定性的鲁棒性并提高了实时性能。(d) 基于 IRL 的算法的收敛性和受控交通动态的稳定性得到理论证明。最优控制律被参数化,然后通过神经网络 (NN) 进行逼近,从而降低了计算复杂度。