word2vec

2020-09-27 19:03:01

是一种试图通过预测文档中话语的上下文来学习词向量（word embedding）的算法和工具 (https://code.google.com/p/word2vec/)。

最终得到的词矢量（word vector）有一些有趣的性质，例如vector(\'queen\') ~=vector(\'king\') - vector(\'man\') + vector(\'woman\') （女王~=国王-男人+女人）。

两个不同的目标函数可以用来学习这些嵌入：Skip-Gram 目标函数尝试预测一个词的上下文，CBOW 目标函数则尝试从上下文预测这个词。