在传统的数据挖掘过程中,用户需根据专业知识对数据进行预处理,为模型设定参数后构建模型,通过评估指标判断模型是否可行。该过程的不便性体现在模型以黑盒的方式构建,用户不可见其中间过程,模型产生的结果也不易被理解。在海量数据的环境下,传统数据挖掘过程在预处理时异常数据的定位和模型生成后知识的表达方面都有不便。为了解决传统数据挖掘过程存在的问题,本文提出了一种大数据环境下的交互式数据挖掘框架。该框架使交互贯穿整个数据挖掘的过程,使得用户可以轻松定位异常输入源数据,参与模型训练过程,对模型生成的结果溯源。本文还基于Spark对该框架进行了实现,并在食源性疾病爆发预测场景下验证了其可行性。