结合神经语言模型,分布式单词表示在计算语言学和文本挖掘中获得了明显的优势。 现有的大多数模型都以无人监督的方式从大规模数据中估计分布式词向量,但是,这些词向量并没有考虑到丰富的语言知识。 语言知识既可以表示为基于链接的知识,也可以表示为基于偏好的知识,并且我们提出了知识正则化的单词表示模型(KRWR),以结合这些先验知识来学习分布式单词表示。 实验结果表明,我们的估计单词表示在语义相关性排序任务中取得了较好的表现。 这表明我们的方法可以有效地将知识库中的先验知识和大规模文本语料库中的统计知识编码到一个统一的词表示模型中,这将有益于文本挖掘中的许多任务。