王守崑:对话机器人的算法、产品与商业实践 状态追踪 Dialogue State Tracking (DST) • 对话状态应该包含持续对话所需要的各种信息 • DST问题:依据最新的系统和用户动作,更新对话状态 • Q:如何表示对话状态 状态追踪 旧状态 (DST) 用户动作 系统动作 新状态 策略优化 Dialogue Policy Optimization (DPO) • 系统如何做出反馈动作 • 作为序列决策过程进行优化:增强学习