一、word2cev 1、回顾skip-grams word2vec的主要步骤是遍历整个语料库,利用每个窗口的中心词来预测上下文的单词,然后对每个这样的窗口利用SGD来进行参数的更新。 对于每一个窗口而言,我们只有2m+1个单词(其中m表示窗口的半径),因此我们计算出来的梯度向量是十分稀疏的。我们会在每个窗口更新损失函数。对于2dv的参数而言,我们只能更新一小部分。因此一个解决方法是提供一个单词到词向量的哈希映射。 2、负采样(negative sampling) 在word2vec的计算中有一个问题是条件概率的分母计算很复杂。 我们可以使用负采样来解决这个问题。负采样的中心思想是:只对可