本文提出了一种计算方法来解决离散时间非线性最优控制问题,该问题受到一系列随机噪声的干扰。由于不可能获得这种最优控制问题的精确解决方案,因此目前需要估计状态动态。在此,假设可以从实际工厂过程中测量输出。在我们的方法中,应用状态平均传播来构造基于线性模型的最优控制问题,其中模型输出是可测量的。在此基础上,定义了一个输出误差,该误差考虑了实际输出与模型输出之间的差异。然后,通过应用随机逼近方法将输出误差最小化。在计算过程中,建立了随机梯度,因此可以迭代更新所使用模型的最优解。一旦实现收敛,尽管存在模型-现实差异,但迭代解仍近似于原始最优控制问题的真实最优解。为了说明这一点,研究了一个