针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自适应OFDM调制系统。该系统由发送端、矿井无线信道和接收端组成,发送端为矿井下装有传感器的小车,可以在狭长的巷道内自由移动。发送端利用Q-学习算法在与矿井无线信道的动态交互中不断更新状态-动作值函数,并根据更新的状态-动作值函数,采用贪婪策略来选择调制方式,逼近最优自适应调制策略,以达到降低系统误码率提高通信吞吐量的目的。与基于SARSA算法、固定信噪比门限的2种矿井自适应OFDM调制系统性能进行仿真对比,结果表明:矿井小车在匀速和移动速度变化状态下,基于Q-学习算法的自适应OFDM调制系统平均误码率分别为1.1×10