任务型对话系统已被广泛应用于聊天机器人和个人语音助手中,如苹果的Siri、微软的Cortana以及谷歌的Home等。任务型对话系统的对话策略是这些产品回答用户问题的关键,而目前主流的对话策略学习方法是釆用强化学习。通过强化学习,任务型对话系统可以在与用户的交互过程中渐渐学会如何回答用户的问题.