CoCon: A Self-Supervised Approach for Controlled Text Generation

Motivation

在使用语言模型做文本生成的任务时，给定提示文字 $x_{:t-1}=\{x_1,\cdots,x_{t-1}\}$，后续的文本 $\{x_{t}, \cdots, x_{l}\}$ 是通过自回归的方式生成的：

\[p\left(x_{t}, \ldots, x_{l} \mid x_{1}, \ldots, x_{t-1}\right)=\prod_{i=t}^{l} p\left(x_{i} \mid x_{1}, \ldots, x_{i-1}\right)\]

之前的利用语言模型做可控文本生成任务的研究工作，如PPLM和CTRL等，都认为 $p(x)$ 可以以目标属性或控制代码为条件，来控制文本的情感或主题：

\[p\left(x_{t}, \ldots, x_{l} \mid x_{1}, \ldots, x_{t-1}\right)=\prod_{i=1}^{l} p\left(x_{i} \mid \mathbf{a},\left\{x_{1}, \ldots, x_{i-1}\right\}\right)\]

其中，$\mathbf{a}$ 是目标属性。这些控制生成的方法都是基于一个全局的属性（情感或主题），而不是更加局部的内容（词或词组）。因此，这激发了一种以输入目标内容 $\mathbf{c}$ 为条件的方法，以便对文本生成进行更细粒度的控制：

\[p\left(x_{t}, \ldots, x_{l} \mid x_{1}, \ldots, x_{t-1}\right)=\prod_{i=1}^{l} p\left(x_{i} \mid \mathbf{c},\left\{x_{1}, \ldots, x_{i-1}\right\}\right)\]

Model Architecture

语言模型的生成过程可以分为两个部分：编码器 $enc$ 和解码器 $dec$ 。编码器用作特征提取器，它接受输入序列的embedding，并输出中间表示 $\mathbf{h}_{: t-1}=\operatorname{enc}\left(x_{: t-1}\right)$。然后，解码器根据这一个中间表示产生下一个词：

\[\mathbf{o}\_{t}=\mathrm{LM}\left(x_{: t-1}\right)=\operatorname{dec}\left(\operatorname{enc}\left(x_{: t-1}\right)\right)=\operatorname{dec}\left(\mathbf{h}_{: t-1}\right)\]

作者提出一个CoCon块，将 $\mathbf{h}$ 转换为以目标内容 $\mathbf{c}$ 为条件的表示：

\[\mathbf{h}_{: t-1}^{\prime}=\operatorname{CoCon}\left(\mathbf{h}_{: l_{c}}^{(\mathbf{c})}, \mathbf{h}_{: t-1}\right)\]

其中，$\mathbf{h}_{: l_{c}}^{(\mathbf{c})}=\operatorname{enc}(\mathbf{c})$ 是目标内容的表示，$l_c$ 是目标文本的长度。作者使用一个Transformer块来作为CoCon块。与传统的语言模型中的注意力层相似， $\mathbf{Q}, \mathbf{K}, \mathbf{V} \in \mathbb{R}^{(t-1) \times d}$ 矩阵通过中间表示的线性变换得到。为了加入内容表示 $\mathbf{h}_{: l_{r}}^{(\mathbf{c})}$，关于内容的 $\mathbf{K}^{(\mathbf{c})}, \mathbf{V}^{(\mathbf{c})} \in \mathbb{R}^{l_{c} \times d}$ 矩阵也需要计算，然后与矩阵拼接起来：

\[\mathbf{K}^{\prime}=\left[\mathbf{K}^{(\mathbf{c})} ; \mathbf{K}\right], \quad \mathbf{V}^{\prime}=\left[\mathbf{V}^{(\mathbf{c})} ; \mathbf{V}\right], \quad \mathbf{A}=\operatorname{Softmax}\left(\mathbf{Q} \mathbf{K}^{\prime \top}\right) \mathbf{V}^{\prime}=\operatorname{Softmax}(\mathbf{W}) \mathbf{V}^{\prime}\]

其中，$\mathbf{A}=\{\mathbf{a}_{1}, \ldots, \mathbf{a}_{t-1}\}$ 和 $\mathbf{W} \in \mathbb{R}^{(t-1) \times\left(l_{c}+t-1\right)}$ 代表了注意力权重。CoCon块的输出由如下得到：

\[\mathbf{h}_{i}^{\prime}=\operatorname{FF}\left(\mathbf{a}_{i}\right), \quad \tilde{\mathbf{o}}_{t}=\operatorname{dec}\left(\left[\mathbf{h}_{: t-2} ; \mathbf{h}_{t-1}^{\prime}\right]\right), \quad p_{\theta, \psi}\left(\tilde{x}_{t} \mid \mathbf{c}, x_{: t-1}\right)=\operatorname{Softmax}\left(\tilde{\mathbf{o}}_{t}\right)\]

Multiple Content Inputs：CoCon允许在同一个生成过程中输入多个目标内容。假设有 $N$ 个目标内容 $\left(\mathbf{c^1},\cdots,\mathbf{c^N}\right)$，输出文本可以以注意力的键值矩阵为条件得到：

\[\mathbf{K}^{\prime}=\left[\mathbf{K}^{\left(\mathbf{c}^{1}\right)} \ldots \mathbf{K}^{\left(\mathbf{c}^{N}\right)} ; \mathbf{K}\right], \quad \mathbf{V}^{\prime}=\left[\mathbf{V}^{\left(\mathbf{c}^{1}\right)} \ldots \mathbf{V}^{\left(\mathbf{c}^{N}\right)} ; \mathbf{V}\right], \quad \mathbf{A}=\operatorname{Softmax}\left(\mathbf{Q} \mathbf{K}^{\prime \top}\right) \mathbf{V}^{\prime}\]

Strength of Content Conditioning：可以为内容注意力权重 $\mathbf{W}_{:,: l_{c}} \in \mathbb{R}^{(t-1) \times l_{c}}$ 添加偏置项 $\tau_{content}$。正的偏置项可以增强内容控制，负的偏置会减轻控制作用。

Self-Supervised Learning

作者采用自我监督的学习方法训练 CoCon。给定长度为 $l$ 的自然语言文本 $\mathbf{x}=\{x_{1}, \ldots, x_{t-1}, x_{t}, \ldots, x_{l}\}$，可以将其切分为两个连续的片段 $\mathbf{x}^{a}=\{x_{1}, \ldots, x_{t-1}\}$ 和 $\mathbf{x}^{b}=\{x_{t}, \ldots, x_{l}\}$，于是有 $\mathbf{x}=\left[\mathbf{x}^{a} ; \mathbf{x}^{b}\right]$。

Self Reconstruction Loss：将 $\mathbf{x}^{b}$ 作为目标内容的输入，由 $\mathbf{x}^{a}$ 重构出完整的句子 $\mathbf{x}$。具体来说，先计算输入文本 $\mathbf{x}$ 和 $\mathbf{c}$ 的中间表示： $\mathbf{h}_{: l}=\operatorname{enc}(\mathbf{x})=\operatorname{enc}\left(x_{: l}\right), \quad \mathbf{h}_{: l_{c}}^{(\mathbf{c})}=\operatorname{enc}(\mathbf{c})=\operatorname{enc}\left(x_{t: l}\right)$

其中，$l_c=l-t+1$ 是 $\mathbf{c}$ 的长度。基于内容 $\mathbf{c}$ 的中间表示可以通过CoCon块计算得到：

\[\mathbf{h}_{i}^{\prime}=\operatorname{CoCon}\left(\mathbf{h}_{: l_{\mathrm{r}}}^{(\mathbf{c})}, \mathbf{h}_{: i}\right), \quad \forall i \geq t-1\] \[\tilde{\mathbf{o}}_{i+1}=\operatorname{dec}\left(\left[\mathbf{h}_{: t-2} ; \mathbf{h}_{t-1: i}^{\prime}\right]\right), \quad p_{\theta, \psi}\left(\tilde{x}_{i+1} \mid \mathbf{c}, x_{: i}\right)=\operatorname{Softmax}\left(\tilde{\mathbf{o}}_{i+1}\right), \quad \forall i \geq t-1\]

通过语言模型的训练目标，我们得出了 self reconstruction loss，训练CoCon通过将 $\mathbf{x}^b$ 本身作为内容输入，来预测产生 $\mathbf{x}^b$ 自身的词：

\[\mathcal{L}_{\mathrm{self}}=-\sum_{i=t}^{l} \log p_{\theta, \psi}\left(x_{i} \mid\left(\mathbf{c}=\mathbf{x}^{b}\right),\left\{x_{1}, \ldots, x_{i-1}\right\}\right)\]

作者还在CoCon的注意力层中应用了 $\mathbf{c}$-mask，使得 $\mathbf{h}_{i}^{\prime}$ 中不存在由 $\mathbf{h}_{i+1}$ 计算得到的值。

Null Content Loss：为了鼓励 CoCon 的输出遵循提示文本 $\mathbf{x}^{a}$，而无需依赖 $\mathbf{x}^{b}$，作者提出了一个新的损失函数，它将 self reconstruction loss 中的内容输入用空字符代替：

\[\mathcal{L}_{\mathrm{null}}=-\sum_{i=t}^{l} \log p_{\theta, \psi}\left(x_{i} \mid(\mathbf{c}=\varnothing),\left\{x_{1}, \ldots, x_{i-1}\right\}\right)\]

Cycle Reconstruction Loss：在推理阶段，CoCon 的目标内容 $\mathbf{c}$ 不太可能与提示文字 $\mathbf{p}$ 共现。因此，为了鼓励 $\mathbf{c}$ 和 $\mathbf{p}$ 来自不同来源的情况下的泛化性，作者引入了一个 cycle reconstruction 训练。CoCon 的自回归生成可以写为：

\[\mathbf{y}=f_{\theta, \psi}(\mathbf{c}, \mathbf{p})\]

然后 $[\mathbf{p};\mathbf{y}]$ 可以作为一个流畅的句子，$\mathbf{y}$ 的内容由 $\mathbf{c}$ 决定。

第一步，以从 $\mathbf{x}$ 中得到的目标内容 $(\mathbf{c})$ 和从 $\mathbf{x^{\prime}}$ 中得到的提示文本 $(\mathbf{p})$ 为条件，计算CoCon的输出：

\[\mathbf{y}_{\mathbf{x}, \mathbf{x}^{\prime}}=f_{\theta, \psi}\left(\left(\mathbf{c}=\mathbf{x}^{b}\right),\left(\mathbf{p}=\mathbf{x}^{\prime a}\right)\right)\]

其中，$\mathbf{x}=\left[\mathbf{x}^{a} ; \mathbf{x}^{b}\right] $ 和 $\mathbf{x}^{\prime}=\left[\mathbf{x}^{\prime a} ; \mathbf{x}^{\prime b}\right]$。由于CoCon使用了预训练的语言模型，$\mathbf{y}_{\mathbf{x}, \mathbf{x}^{\prime}}$ 应该是一个流畅的文本序列，它跟随着提示文本 $\mathbf{x}^{\prime a}$，并试图合并 $\mathbf{x}^{\prime b}$ 的内容。

第二步，以 $\mathbf{y}_{\mathbf{x}, \mathbf{x}^{\prime}}$ 为目标内容的输入，以 $\mathbf{x}^{a}$ 为提示文本：

\[\mathbf{y}_{\text {cycle }}=f_{\theta, \psi}\left(\left(\mathbf{c}=\mathbf{y}_{\mathbf{x}, \mathbf{x}^{\prime}}\right),\left(\mathbf{p}=\mathbf{x}^{a}\right)\right)\]

由于 $\mathbf{x}=\left[\mathbf{x}^{a} ; \mathbf{x}^{b}\right]$，$\mathbf{x}^{b}$ 是提示文本 $\mathbf{x}^{a}$ 的符合逻辑的下文，$\mathbf{y}_{\mathbf{x}, \mathbf{x}^{\prime}}$ 在第一步中以 $\mathbf{x}^{b}$ 为条件。它将 $\mathbf{x}^{b}$ 假定为 $\mathbf{y}_{\text {cycle}}$ 的训练标签，于是 cycle reconstruction loss 为：

\[\mathcal{L}_{\text {cycle }}=-\sum_{i=t}^{l} \log p_{\theta, \psi}\left(\mathbf{y}_{\text {cycle }}=\mathbf{x}^{b} \mid\left(\mathbf{c}=\mathbf{y}_{\mathbf{x}, \mathbf{x}^{\prime}}\right),\left(\mathbf{p}=\mathbf{x}^{a}\right)\right)\]

Adversarial Loss：对抗训练的目标是帮助生成真实的文本。作者引入了对抗损失，通过最小化损失来鼓励输出文本的表示 $(enc(\mathbf{y}))$ 与训练样本 $(dec(\mathbf{x}))$ 相匹配：

\[\mathcal{L}_{\mathrm{adv}}=\mathbb{E}_{\mathbf{x}}\left[\log f_{\mathrm{disc}}(\operatorname{enc}(\mathbf{x}))\right]+\mathbb{E}_{\mathbf{y}}\left[\log \left(1-f_{\mathrm{disc}}(\operatorname{enc}(\mathbf{y}))\right],\right.\]

其中，$f_{disc}$ 是一个判别器网络。它用于分类表示是否是CoCon生成的文本。判别器的训练目标是最大化 $\mathcal{L}_{\mathrm{adv}}$：

\[\phi^{*}=\underset{\phi}{\arg \max } \mathcal{L}_{\mathrm{adv}}\]

Full Training：完整的学习目标是通过随机梯度下降来最小化四个损失项：

\[\theta^{*}=\arg \min \left(\lambda_{\text {self }} \mathcal{L}_{\text {self }}+\lambda_{\text {null }} \mathcal{L}_{\text {null }}+\lambda_{\text {cycle }} \mathcal{L}_{\text {cycle }}+\lambda_{\text {adv }} \mathcal{L}_{\text {adv }}\right),\]

论文笔记