简述

本文针对 GPT 等 LLM 无法生成任意长的内容的问题,提出了一种在 LLM 基础上模拟 LSTM 的递归生成方法,实现了 LLM 的“任意”长文本。

论文原文:

https://arxiv.org/pdf/2305.13304.pdf

动机

目前的 LLM 往往基于 Transformer,而 Transformer 本身固定长度的 Context 限制了 LLM 生成任意长文本的能力,这使得此类 LLM 难以适用于长文的生成。

提出的方法

架构

针对上述问题,该文从 RNN 得到启发,思考能不能通过递归的方式循环生成内容,从而达到生成“任意”长的文本的目标。具体来说其参考 LSTM 架构,整体架构如下:

架构图

如上图所示,在每个时刻 $t$ 中,输入有:

  • 长期记忆 $C_t$:这里的长期记忆包含所有生成内容的概要,从而让 LLM 生成时能不遗忘之前的信息。但是 LLM 毕竟长度有限,随着文章变长 $C_t$ 必然超长,因此其采用 Sentence Transformers 将每段记忆都嵌入,从而在生成 Prompt 的时候通过 语义检索的方式检索出最相近的几条输入,从而实现“任意”长的长期记忆。
  • 短期记忆 $h_t$:这里的短期记忆一般是由上个时刻生成的,用于描述当前时刻最新的一些状态,并且随着时刻变更会不断更新,一般 20 句内。
  • 计划 $x_t$:计划指的是上个时刻用户/模拟人类从候选计划中选择出来的计划,或者是用户编辑的计划,如小说中上一时刻选择哪一种行动剧情,计划将会对后续的进展进行影响。

输出为:

  • 输出新内容 $O_t$:即 LLM 输出的续写内容,如小说中是新生成的小说内容,并且这个内容将会被概括后添加到长期记忆中,以避免后续剧情对前文的遗忘。
  • 新的短期记忆 $h_{t+1}$:新的短期记忆是 LLM 根据当前时刻的输入单独生成出来的一个记忆,并会给出更新记忆的解释(并未在架构中表示,实现中有),可以理解成是输出一个当前最新的记录。
  • 几个候选计划 $x^i_t$:LLM 输出的一些可能的计划选项,如小说中指的是后续的剧情行动,并且也可以用户自己进行编辑。

以交互式小说为例

关键创新点

私以为,本文的核心创新有一下几点:

  1. 采用类似于 LSTM 的架构,区分长短期记忆,通过对长期记忆的检索筛选结合短期记忆来实现 LLM 生成长文的能力。
  2. 提出了交互式小说的交互方式,即该文所说的 AI As Content(AIAS)新范式,在交互上有较好的创新。

怀疑/缺陷

首先深刻怀疑该文进行实验的时候是在 “生成最长的文本是 5k 字” 的情况下进行评估,是否再生成更长的文本之后效果就会极速下降?不得而知。