词嵌入word2vec

word2vec作为神经概率语言模型的输入,是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说,“某个语言模型”指的是CBOWSkip-gram。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical SoftmaxNegative Sampling。两个模型乘以两种方法,一共有四种实现。

下面是手写版本的推导

CBOW + Hierarchical Softmax

image

Skip-gram + Hierarchical Softmax

image

CBOW + Negative Sampling

image

Skip-gram + Negative Sampling

image

参考文献: