马尔科夫决策过程中可以采用策略迭代方式得到最优策略,本算法程序用matlab语言编程实现,可以调用该程序得到最优策略