基于强化学习的无线传感器网络路由协议研究 现有的临时路由协议基于节点之间链接的离散双峰模型:链接存在或断开。该模型通常仅将最新传输视为确定链路状态。不幸的是,该模型无法将由于干扰或拥塞而失败的传输与由于目标超出传输范围而失败的传输区分开。本文提出了一种基于连续(而不是离散)模型的网络中新的自组织路由协议。我们使用链接性能随时间的统计量度来表示链接的质量。 我们建议,这样的模型对于现实无线网络中的有效操作是必需的。 为了在具有可变质量链接的网络中定义最佳路由,我们将自组织路由建模为协作式强化学习问题。协作式强化学习描述了机器学习中的一类问题,其中代理试图通过反复试验和信息共享来优化其与动态环境的