第一章基于强化学习的实时搜索排序策略调控第二章延迟奖赏在搜索排序场景中的作用分析第三章基于多智能体强化学习的多场景联合优化第四章强化学习在淘宝锦囊推荐系统中的应用第五章基于强化学习的引擎性能优化第六章基于强化学习分层流量调控第七章风险商品流量调控第八章虚拟淘宝第九章组合优化视角下基于强化学习的精准定向广告OCPC业务优化第十章策略优化方法在搜索广告排序和竞价机制中的应用第十一章TaskBot-阿里小蜜的任务型问答技术第十二章DRL导购-阿里小蜜的多轮标签推荐技术