潜在语义分析(Latent Semantic Analysis, LSA)

向量空间模型:给定一个文本,用一个向量表示该文本的”语义“,向量的每以一维对应一个单词,其数值为该单词在文本中出现的频数或权值。

基本假设:

  1. 文本中所有单词出现的情况表示了文本的语义内容;
  2. 文本集合中的每个文本都表示为一个向量,存在于一个向量空间;
  3. 向量空间的度量,如内积或标准化内积表示文本之间的”语义相似度“。

文本集合$D=\{d_1,d_2,\cdots,d_n\}$
单词集合$W=\{w_1,w_2,\cdots,w_m\}$

单词向量空间:单词-文本矩阵

其中,元素$x_{ij}$表示单词$w_i$在文本$d_j$中出现的频次或权值。

单词频率-逆文本频率

其中,$tf_{ij}$是单词$w_i$出现在文本$d_j$中的频数,$tf_{\bullet j}$是文本$d_j$中出现的所有单词的频数之和,$df_i$是含有单词$w_i$的文本数,$df$是文本集合$D$的全本文本数。

单词向量:单词文本矩阵的第$j$列向量$x_j$表示文本$d_j$

则单词文本矩阵$X$可表示为$X=\left[x_1,x_2,\cdots,x_n\right]$。

文本$d_i$与文本$d_j$之间的相似度可表示为文本单词向量$x_i$与文本单词向量$x_j$的内积

或标准化内积(余弦)

其中,$\cdot$表示向量内积,$|\cdot|$表示向量的范数。

话题:文本所讨论的内容或主题。一个文本一般包含若干个话题。两个文本的话题相似,那么两者的语义应该也相似。
话题集合$L=\{l_1,l_2,\cdots,l_k\}$

话题向量:假设所有文本共含有$k$个话题,每个话题由定义在单词集合$W$上的$m$维向量表示

其中,$t_{il}$是单词$w_i$在话题$t_l$的取值。

话题向量空间:单词-话题矩阵

其中,元素$x_{ij}$表示单词$w_i$在文本$d_j$中出现的频次或权值。单词-话题矩阵$T$可表示为$T=\left[t_1,t_2,\cdots,t_k\right]$。


Machine Learning      nlp topic model

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!

pLSA 上一篇
word2vec 下一篇