seq2seq with Encoder-Decoder

$\begin{align} \end{align}$

1 RNN Encoder-Decoder神经网络架构

RNN Encoder-Decoder神经网络架构使用循环神经网络学习将变长源序列$X$编码成定长向量表示$\mathbf{c}$，并将学习的定长向量表示$\mathbf{c}$解码成变长目标序列$Y$。模型的编码器和解码器被联合训练，以最大化给定源序列的目标序列的条件概率。

源文本序列：$X=\left(\mathbf{x}_{1}, \mathbf{x}_{2}, \dots, \mathbf{x}_{N}\right)$
其中，$\mathbf{x}_i=\left(l_1,l_2,\cdots,l_j,\cdots,l_K\right)$，其中$l_j=I\left(i=j\right),\quad\left(j=1,\cdots,K\right)$。

目标文本序列：$Y=\left(\mathbf{y}_{1}, \mathbf{y}_{2}, \dots, \mathbf{y}_{M}\right)$
其中，$\mathbf{y}_i=\left(l_1,l_2,\cdots,l_j,\cdots,l_K\right)$，其中$l_j=\left(i=j\right),\quad\left(j=1,\cdots,K\right)$

最大化条件似然函数

$\max_\theta \frac{1}{N}\sum_{n=1}^N \ln p_\theta\left(\mathbf{y}_n|\mathbf{x}_n\right)$

其中，$\theta$是模型参数，$\left(\mathbf{y}_n,\mathbf{x}_n\right)$输入输出、输入序列对。

2 编码器Encoder

源文本单词的词嵌入表示：$e\left(\mathbf{x}_i\right)\in\mathbb{R}^{500}$

编码器的隐藏状态由1000个隐藏单元组成。
编码器隐藏状态初始化，在$t=0$时刻第$j$个隐藏单元

$h_j^{\langle0\rangle}=0$

在$t$时刻第$j$个隐藏单元 $h_{j}^{\langle t\rangle}=z_{j} h_{j}^{\langle t-1\rangle}+\left(1-z_{j}\right) \tilde{h}_{j}^{\langle t\rangle}$
其中，

$\begin{align} \tilde{h}_{j}^{\langle t \rangle}&=\tanh \left(\left[\mathbf{W} e\left(\mathbf{x}_{t}\right)\right]_{j}+\left[\mathbf{U}\left(\mathbf{r} \odot \mathbf{h}^{\langle t-1\rangle}\right)\right]_{j}\right)\\ z_{j}&=\sigma\left(\left[\mathbf{W}_{z} e\left(\mathbf{x}_{t}\right)\right]_{j}+\left[\mathbf{U}_{z} \mathbf{h}^{\langle t-1\rangle}\right]_{j}\right) \\ r_{j}&=\sigma\left(\left[\mathbf{W}_{r} e\left(\mathbf{x}_{t}\right)\right]_{j}+\left[\mathbf{U}_{r} \mathbf{h}^{\langle t-1\rangle}\right]_{j}\right) \end{align}$

$\sigma\left(\cdot\right)$为sigmoid函数，$\odot$为向量元素乘法，$\mathbf{W},\mathbf{W}_z,\mathbf{W}_r\in\mathbb{R}^{1000\times 500}$和$\mathbf{U},\mathbf{U}_z,\mathbf{U}_r\in\mathbb{R}^{1000\times 1000}$为权值矩阵。为了使方程齐整，省略了偏置项。

源文本最后第$N$时刻，编码器的隐藏状态计算完成，源文本的定长向量表示 $\mathbf{c}=\tanh \left(\mathbf{V h}^{\langle N\rangle}\right)$
其中，$\mathbf{V}\in\mathbb{R}^{1000\times 1000}$为权值矩阵。

3 解码器Decoder

解码器隐藏状态初始化，在$t=0$时刻

$\mathbf{h}^{\prime\langle 0\rangle}=\tanh \left(\mathbf{V}^{\prime} \mathbf{c}\right)$

其中，$\mathbf{V}\in\mathbb{R}^{1000\times 1000}$为权值矩阵。

在$t$时刻第$j$个隐藏单元

$h_{j}^{\prime\langle t\rangle}=z_{j}^{\prime} h_{j}^{\prime\langle t-1\rangle}+\left(1-z_{j}^{\prime}\right) \tilde{h^{\prime}}_{j}^{\langle t \rangle} )$

其中，

$\begin{align} \tilde{h^{\prime}}_{j}^{\langle t\rangle}&=\tanh \left(\left[\mathbf{W}^{\prime} e\left(\mathbf{y}_{t-1}\right)\right]_{j}+r_{j}^{\prime}\left[\mathbf{U}^{\prime} \mathbf{h}_{\langle t-1\rangle}^{\prime}+\mathbf{C} \mathbf{c}\right]\right) \\ z_{j}^{\prime}&=\sigma\left(\left[\mathbf{W}_{z}^{\prime} e\left(\mathbf{y}_{t-1}\right)\right]_{j}+\left[\mathbf{U}_{z}^{\prime} \mathbf{h}^{\prime}_{\langle t-1\rangle}\right]_{j}+\left[\mathbf{C}_{z} \mathbf{c}\right]_{j}\right) \\ r_{j}^{\prime}&=\sigma\left(\left[\mathbf{W}_{r}^{\prime} e\left(\mathbf{y}_{t-1}\right)\right]_{j}+\left[\mathbf{U}_{r}^{\prime} \mathbf{h}^{\prime}_{\langle t-1\rangle}\right]_{j}+\left[\mathbf{C}_{r} \mathbf{c}\right]_{j}\right) \end{align}$

其中，$\mathbf{W}^{\prime},\mathbf{W}_z^{\prime},\mathbf{W}_r^{\prime}\in\mathbb{R}^{1000\times 500}$和$\mathbf{U}^{\prime},\mathbf{U}_z^{\prime},\mathbf{U}_r^{\prime}\in\mathbb{R}^{1000\times 1000}$以及$\mathbf{C}^{\prime},\mathbf{C}_z^{\prime},\mathbf{C}_r^{\prime}\in\mathbb{R}^{1000\times 1000}$为权值矩阵。

目标文本单词的词嵌入表示：$e\left(\mathbf{y}_i\right)\in\mathbb{R}^{500}$，且在$t=0$时刻$e\left(\mathbf{y}_0\right)=\mathbf{0}$。

在每个时刻$t$，解码器计算生成第$j$个单词的概率

$p\left(y_{t, j}=1 | \mathbf{y}_{t-1}, \ldots, \mathbf{y}_{1}, X\right)=\frac{\exp \left(\mathbf{g}_{j} \mathbf{s}_{\langle t\rangle}\right)}{\sum_{j^{\prime}=1}^{K} \exp \left(\mathbf{g}_{j^{\prime}} \mathbf{s}_{\langle t\rangle}\right)}$

其中，最大输出单元（maxout unit）

$s_{i}^{\langle t\rangle}=\max \left\{s_{2 i-1}^{\prime \langle t\rangle}, s_{2 i}^{\prime\langle t\rangle}\right\}$

且

$\mathbf{s}^{\prime\langle t\rangle}=\mathbf{O}_{h} \mathbf{h}^{\prime\langle t\rangle}+\mathbf{O}_{y} \mathbf{y}_{t-1}+\mathbf{O}_{c} \mathbf{c}$

$\mathbf{O}_h,\mathbf{O}_c\in\mathbb{R}^{500\times 1000}$和$\mathbf{O}_y\in\mathbb{R}^{500\times 500}$以及$\mathbf{G}=\left[\mathbf{g}_1,\cdots,\mathbf{g}_K\right]\in\mathbb{R}^{K\times 1000}$为权值矩阵。

Deep Learning nlp seq2seq encoder-decoder

本博客所有文章除特别声明外，均采用 CC BY-SA 3.0协议。转载请注明出处！

seq2seq_with_attention 上一篇

Transformer_Notes 下一篇