「Meta版ChatGPT」背后的技术：想让基础LLM更好地处理长上下文，只需持续预训练

8,600 0 4000

在处理长上下文方面，LLaMA 一直力有不足，而通过持续预训练和其它一些方法改进，Meta 的这项研究成功让 LLM 具备了有效理解上下文的能力。

大型语言模型（LLM）所使用的数据量和计算量都是前所未见的，这也使其有望从根本上改变我们与数字世界的交互方式。随着 LLM 被不断快速部署到生产环境中并不断扩展进化，可以预见这些模型将能在更多复杂精细的用例中提供服务，比如分析具备丰富知识的密集型文档、提供更加真实和有参与感的聊天机器人体验、在编程和设计等交互式创造过程中辅助人类用户等。

为了支持这种演进发展，模型需要的一大关键能力就是：高效处理长上下文输入。

到目前为止，具有稳健长上下文功能的 LLM 主要来自专有 LLM API，如 Anthropic 和 OpenAI 提供的 LLM 服务。现有的开源长上下文模型往往评估研究不足，而是主要通过语言建模损失和合成任务来衡量其长上下文能力，这样的评估无法全面展示模型在各种真实世界场景中的有效性。

不仅如此，这些模型往往还会忽视在标准短上下文任务中保持强大性能的必要性，要么就直接不评估，要么报告出现了性能下降情况。

近日，Meta 团队提出了一种新方法，宣称可以有效地扩展基础模型的上下文能力，并且用该方法构建的长上下文 LLM 的性能表现优于所有现有的开源 LLM。

「Meta版ChatGPT」背后的技术：想让基础LLM更好地处理长上下文，只需持续预训练

论文：https://arxiv.org/abs/2309.16039

他们是通过对 LLaMA 2 检查点进行持续预训练来构建模型，这其中用到了另外 4000 亿个 token 构成的长训练序列。在训练的系列模型中，较小的 7B/13B 变体模型的训练使用了 32,768 token 长的序列，而 34B/70B 变体则使用了 16,384 token 长的序列。

评估方面，不同于之前已有模型的有限评估，Meta 的这个团队进行了更为全面的评估研究，涵盖语言建模、合成任务以及许多涉及长或短上下文任务真实世界基准任务。

在语言建模任务上，新方法训练的模型在上下文长度方面表现出了明显的幂律缩放行为。如图 1 所示，这种缩放行为不仅表明新模型能够持续受益于更多上下文，也表明上下文长度是 LLM 扩展方面的一大重要轴线。

通过对比新模型与基准 LLaMA 2 在研究基准上的表现，研究者观察到新模型在长上下文任务上有明显优势，在短上下文任务上也有适度提升，尤其是在编程、数学和知识类任务基准上。

他们还探索了一种简单且有成本效益的指令微调方法，可在没有任何人工标注数据的情况下对经过持续预训练的长模型进行微调。他们基于此方法得到的聊天模型在一系列长上下文基准任务（包括问答、摘要和多文档聚合）上的整体表现胜过 gpt-3.5-turbo-16k。

方法

持续预训练

由于注意力计算会随序列长度增大呈二次增长，因此当使用更长的序列进行训练时，计算开销也会显著增大。解决这一难题正是本研究的主要目标。

研究者假设：对短上下文模型进行持续预训练可让该模型具备上下文能力。然后他们通过实验验证了这一猜测。

在实验中，他们保持原始 LLaMA 2 的架构基本不变，仅对位置编码进行了必要的修改，以便其能将注意力覆盖更长的序列。此外，他们还选择不使用稀疏注意力，因为 LLaMA 2 70B 模型的维度为 h=8192，而只有当序列长度超过 49,152 (6h) 个 token 时，注意力矩阵计算和值聚合的成本才会成为计算瓶颈。

位置编码。通过 7B 模型的早期实验，研究者发现了 LLaMA 2 的位置编码（PE）的一大关键局限 —— 其有碍注意力模块聚合相聚较远的 token 的信息。为了解决这个问题，使模型能处理长上下文建模，研究者对 RoPE 位置编码方法进行了少量但必要的修改，即减小旋转角度（由基频 b 这个超参数控制），其作用是降低 RoPE 对远距离 token 的衰减效应。研究者通过实验展现了这种简单方法在扩展 LLaMA 上下文长度方面的有效性，并还给出了理论解释。

数据混合。基于使用修改版位置编码的模型，研究者还进一步探索了不同数据混合方法对提升长上下文能力的作用，其中涉及的方法包括调整 LLaMA 2 的预训练数据的比例和添加新的长文本数据。研究者发现：对于长文本的持续预训练而言，数据的质量往往比文本的长度更重要。

优化细节。那么他们究竟是如何实现持续预训练的呢？据介绍，他们在对 LLaMA 2 检查点模型进行持续预训练时，会在保证 LLaMA 2 中每批数据同等 token 量时不断增大序列长度。所有模型都使用总计 4000 亿个 token 训练了 10 万步。使用 Dao et al. (2022) 提出的 FlashAttention，当增大序列长度时，GPU 内存开销几乎可以忽略不计；研究者观察到，对于 70B 模型，当序列长度从 4096 增至 16384 时，速度下降了大约 17%。对于 7B/13B 模型，他们使用的学习率为 2e^−5，并使用了余弦学习率计划，预热步骤为 2000 步。对于更大的 34B/70B 模型，该团队发现设置更小的学习率（1e^-5 ）很重要，这样才能让验证损失单调递减。

指令微调

为 LLM 对齐任务收集人类演示和偏好标签是一个繁琐而昂贵的过程。对于长上下文任务，这一挑战和成本更为突出，因为这些任务通常涉及复杂的信息流和专业知识，例如处理信息密集的法律 / 科学文档 —— 即使对于熟练的标注者来说，这些标注任务也不简单。事实上，大多数现有的开源指令数据集都主要由短样本组成。

针对这一问题，Meta 的这个研究团队发现了一种简单且低成本的方法，其能利用已经构建好的大规模和多样化的短 prompt 数据集，并使其很好地适用于长上下文基准任务。

具体来说，他们取用了 LLaMA 2 Chat 使用的 RLHF 数据集，并使用 LLaMA 2 Chat 自身合成的自指示（self-instruct）长数据对其进行了增强。研究者表示，他们希望模型可以借此通过大量 RLHF 数据学习多样化的技能组合并通过自指示数据将所学知识迁移至长上下文场景。

这个数据生成过程重点关注的是问答格式的任务：先从预训练预料库的一个长文档开始，从中随机选出一块文本，然后通过 prompt 让 LLaMA 2 Chat 基于该文本块中的信息写出成对的问答。研究者收集了不同 prompt 的长形式和短形式答案。

之后还有一个自批判（self-critique）步骤，即通过 prompt 让 LLaMA 2 Chat 验证模型生成的答案。给定生成的问答对，研究者使用原始长文档（已截断以适应模型的最大上下文长度）作为上下文来构建一个训练实例。

对于短指令数据，研究者会将它们连接成 16,384 token 长的序列。对于长指令数据，他们会在右侧添加填充 token，以便模型可以单独处理每个长实例，而无需截断。

虽然标准的指令微调只在输出 token 上计算损失，但该团队发现，如果也在长输入 prompt 上计算语言建模损失，也能获得特别的好处，因为这能为下游任务带来稳定持续的提升。

主要结果

评估预训练后的模型

表 1 聚合给出了在标准的短上下文基准任务上的性能表现。

在短上下文任务上，如表 2 所示，使用新方法得到的模型在 MMLU 和 GSM8k 上优于 GPT-3.5。