人工智能模型与算法 强化学习 提纲 1强化学习定义马尔科夫决策过程 2 强化学习中策略优化与策略评估 3 强化学习求解Q-Learning 4 深度强化学习深度学习+强化学习 西游记 致加西亚的信与强化学习 人生没有预先写好的剧本与生活这一环境交互和成长 序列学习 取经路上花费十四年给加西亚送信开销九天 唐太宗送别唐三藏于长安城 如果有一个人能够寻找到加西 宁恋本乡一捻土莫爱他乡万两金 亚将军的