星地融合网络多智能体协同技术研究取得进展_科技瞭望

星地融合网络多智能体协同技术研究取得进展

来源: 上海高等研究院时间: 2026-03-24

　　随着第六代移动通信技术不断发展，低轨道卫星网络凭借覆盖范围广、传播时延低等优势，已成为我国构建空天地一体化信息网络的重要基础设施。然而，低轨道卫星网络存在拓扑结构随时间快速变化、链路容量有限、业务负载动态波动等特性，传统基于静态拓扑或全局网络状态的路由方法难以及时适应复杂网络环境，易导致网络拥塞和传输时延增加等问题。因此，如何在高动态变化的卫星组网环境中，实现高效、稳定的路径选择与资源调度，成为当前卫星通信领域亟待解决的关键问题。

　　近日，中国科学院上海高等研究院等研究团队，聚焦星地融合网络多路径路由实时选择问题，提出了基于元强化学习的多智能体协同技术，实现了在动态卫星网络环境下的高效路径选择与自适应路由优化。

　　研究团队围绕动态卫星网络环境下，长距离复杂端到端路径选择与时延优化问题展开了系统研究，针对现有路由方法在低轨卫星网络中存在的网络链路拥塞波动、策略收敛速度慢等关键挑战，首次在多智能体强化学习框架中引入了元学习思想，并提出基于元强化学习的多智能体近端策略优化的多路径选择方法。该方法将星地融合网络中多源多目的通信问题，建模为分布式部分可观测马尔可夫决策过程，并通过跨任务经验，共享学习具有良好泛化能力的策略初始化模型，使算法在新的网络场景中可实现快速适配与稳定优化。

　　研究团队进一步在算法设计上，基于K最短路径算法生成候选路由集合，结合链路队列长度、传输时延等网络状态构建局部观测维度，并通过联合考虑端到端时延与链路拥塞程度的奖励函数，引导智能体形成兼顾低时延与负载均衡的路由选择策略。仿真实验结果表明，在96颗卫星组成的Walker星座网络场景下，该方法较传统路由算法和其他强化学习方法，在平均端到端时延方面至少降低5%，并在不同服务时间条件下保持零丢包率，策略收敛速度明显提升，展现出良好的稳定性与适应能力。

　　该研究在理论上实现了元强化学习与卫星网络路由机制的有效融合，也在复杂动态网络环境中展现出较强的鲁棒性和可扩展性，为未来大规模卫星互联网中的智能路由与资源调度提供了新的技术思路，对提升空间信息网络的通信效率和服务质量具有重要意义。

　　相关研究成果发表在《IEEE物联网期刊》（IEEE Internet of Things Journal）上。研究工作得到国家自然科学基金委员会、科学技术部、上海市的支持。

　　论文链接

供稿人：杨越

审核人：文成锋