LCQMC是哈尔滨工业大学在自然语言处理国际顶会COLING2018构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。构建的方式是先针对不同的领域从百度问答中抽取高频的相关问题,然后通过Wassersteindistance进行初步筛选,最后人工进行标注。数据集一共有260068对标注结果,分为三部分,238766训练集、8802验证集和12500测试集。