词嵌入(Word Embedding)或者分布式向量(Distributional Vectors)是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。由于要考虑多种因素比如词的语义(同义词近义词)、语料中词之间的关系(上下文)和向量的维度(处理复杂度)等等,希望近义词或者表示同类事物的单词之间的距离可以理想地近,只有拿到很理想的单词表示形式,才更容易地去做翻译、问答、信息抽取等进一步的工作。 现在最流行的是Word2Vec。 2013年,Google团队发表了word2vec工具。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continu