BQ语料库:大规模的特定领域汉语语料库的句子语义对等识别
本文介绍了银行疑问句(BQ)语料库,这是一种用于句子语义对等识别(SSEI)的中文语料库。 BQ语料库包含来自1年在线银行客户服务日志的120,000个问题对。 为了有效地处理和注释来自如此大量日志的问题,本文提出了一种基于聚类的注释方法,以实现具有相同意图的问题。 首先,通过基于WordMover的距离(WMD)的亲和力传播(AP)算法将具有相同答案的重复数据删除问题聚集成堆栈。 然后,要求注释者为不同的意图类别分配集群问题。 最后,在相同的意图类别和不同的意图类别之间分别选择SSEI的正面和负面问题对。 我们还在语料库上展示了六个SSEI基准性能,包括最新算法。 BQ语料库是银行领域最大的手动注释中文公共SSEI语料库,不仅对中文问题语义匹配研究有用,而且对跨语言和跨域SSEI研究也有重要意义。 该语料库在公众场合可用。