摘要:针对高度“中心”连接的多园区网络中,负载不均衡造成传输时延长和网络拥塞问题,提出一种基于自适应多采样机制 的决斗深度强化网络(adaptive multi-sampling Dueling deep Q-network, AMD-DQN)动态路由优化算法。 首先,在网络模型中引入 决斗网络(dueling DQN)的思想,同时对多层感知器组成结构进行中心化处理改进,防止高估计价值函数;然后,经验回放机制 采用了自适应多采样机制,该机制融合了随机、就近和优先采样方式,根据负载情况进行自适应调整,并根据权值概率随机选取 采样模式;最后,利用 AMD-DQN 网络结构结合强化学习信号和随机梯度下降来训练神经网络,选出每步最大价值动作,直至传 输成功。 实验结果表明,相比传统的 DQN 和 Dueling DQN 算法,AMD-DQN 算法平均时延为 128. 046 ms,吞吐量达到 5. 726 个/ s, 有效减少了数据包的传输时延,提高了吞吐量,同时从 5 个方向对拥塞程度进行评价,取得了较好的实验结果,进一步缓解了网 络的拥塞。