潜在语义分析（Latent Semantic Analysis, LSA）

$\begin{align} \end{align}$

向量空间模型：给定一个文本，用一个向量表示该文本的”语义“，向量的每以一维对应一个单词，其数值为该单词在文本中出现的频数或权值。

基本假设：

文本中所有单词出现的情况表示了文本的语义内容；
文本集合中的每个文本都表示为一个向量，存在于一个向量空间；
向量空间的度量，如内积或标准化内积表示文本之间的”语义相似度“。

文本集合$D=\{d_1,d_2,\cdots,d_n\}$
单词集合$W=\{w_1,w_2,\cdots,w_m\}$

单词向量空间：单词-文本矩阵

$X= \left[\begin{matrix} x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} & \cdots & x_{2n} \\ \vdots & \vdots & & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{mn} \end{matrix}\right]$

其中，元素$x_{ij}$表示单词$w_i$在文本$d_j$中出现的频次或权值。

单词频率-逆文本频率

$TFIDF_{ij}=\frac{tf_{ij}}{tf_{\bullet j}}\log\frac{df}{df_i},\quad i=1,2,\cdots,m;\quad j=1,2,\cdots,n$

其中，$tf_{ij}$是单词$w_i$出现在文本$d_j$中的频数，$tf_{\bullet j}$是文本$d_j$中出现的所有单词的频数之和，$df_i$是含有单词$w_i$的文本数，$df$是文本集合$D$的全本文本数。

单词向量：单词文本矩阵的第$j$列向量$x_j$表示文本$d_j$

$x_j=\left[\begin{matrix} x_{1j} \\ x_{2j} \\ \vdots \\ x_{mj} \end{matrix}\right], \quad j=1,2,\cdots,n$

则单词文本矩阵$X$可表示为$X=\left[x_1,x_2,\cdots,x_n\right]$。

文本$d_i$与文本$d_j$之间的相似度可表示为文本单词向量$x_i$与文本单词向量$x_j$的内积

$x_i \cdot x_j$

或标准化内积（余弦）

$\frac{x_i \cdot x_j}{\|x_i\| \|x_j\|}$

其中，$\cdot$表示向量内积，$|\cdot|$表示向量的范数。

话题：文本所讨论的内容或主题。一个文本一般包含若干个话题。两个文本的话题相似，那么两者的语义应该也相似。
话题集合$L=\{l_1,l_2,\cdots,l_k\}$

话题向量：假设所有文本共含有$k$个话题，每个话题由定义在单词集合$W$上的$m$维向量表示

$t_l=\left[\begin{matrix} t_{1l} \\ t_{2l} \\ \vdots \\ t_{ml} \end{matrix}\right], \quad l=1,2,\cdots,k$

其中，$t_{il}$是单词$w_i$在话题$t_l$的取值。

话题向量空间：单词-话题矩阵

$T= \left[\begin{matrix} t_{11} & t_{12} & \cdots & t_{1k} \\ t_{21} & t_{22} & \cdots & t_{2k} \\ \vdots & \vdots & & \vdots \\ t_{m1} & t_{m2} & \cdots & t_{mk} \end{matrix}\right]$

其中，元素$x_{ij}$表示单词$w_i$在文本$d_j$中出现的频次或权值。单词-话题矩阵$T$可表示为$T=\left[t_1,t_2,\cdots,t_k\right]$。

Machine Learning nlp topic model

本博客所有文章除特别声明外，均采用 CC BY-SA 3.0协议。转载请注明出处！

pLSA 上一篇

word2vec 下一篇