大语言模型的涌现

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

大语言模型的快速发展使人们看到很多神奇的现象,比如规模法则、涌现、顿悟等等。其中涌现现象是指,某种能力在小规模模型中不存在,但当模型增长到一定规模时,突然拥有了这项能力[1]。可见,涌现现象不能通过简单地外推小规模模型的能力来预测[1],而度量和理解大语言模型的涌现对大模型进一步的发展至关重要。

历史溯源

在计算机科学领域中,很多例子都可以表明数据量对模型能力具有巨大影响。历史上,算力的提升总是能够促进算法的进步和主流范式的革新。数据量的累积也能促使模型发挥潜能,例如,深度学习模型在拥有大量数据和计算资源的情况下表现良好,但在较小规模下表现不佳,在没有太多资源的情况下,甚至会被更简单的算法超越[2]


【早期模型 transformer】

大语言模型家族分类

不同模型家族的设计目标、参数规模、训练方法等差异可能会直接影响涌现能力的表现,因此有必要了解不同模型的分类。模型的演进涉及到性能与计算成本的平衡、通用能力与专用场景的取舍、技术创新与工程落地的协同等诸多维度,而针对涌现能力是否出现,可能了解模型的基本架构和与之相对应的应用场景是首要目标。


结构类型:密集/稀疏. 密集Transformer语言模型采用全连接自注意力机制, 每个Transformer层都与所有前序层保持全连接,通常包含百亿至万亿级参数(如GPT-3的1750亿参数),参数利用率高(100%参数激活),计算复杂度为)O(n²),采用大规模无监督预训练+特定任务微调范式作为训练策略,代表模型有BERT, GPT-3, Chinchilla等,更擅长知识密集型任务。稀疏Transformer模型采用局部/分层/动态稀疏注意力,参数选择性激活(如MoE模型20-35%激活),计算复杂度为O(log n)或更低。稀疏模型通过限制注意力头的连接范围(如局部窗口或关键区域)减少计算量和参数依赖,具体注意类型包括Mixture of Block Attention(MoBA), Mixture of Experts (MoE)等。代表模型有Switch Transformer, GLaM, ST-MoE。这类模型在训练效率上有显著优势。另外,综合采用密集和稀疏方法的混合架构正在成为模型的新趋势。


应用场景:通用/领域专用. 在上下文学习能力方面有了巨大突破的GPT-3,具有5400亿参数量的 PaLM,以及DeepMind 的 Gopher,都是适合多种场景的通用大语言模型。Google 的 LaMDA对于对话场景进行了优化,适用于对话场景。DeepMind 的 Chinchilla 在训练计算利用率上进行了优化,能耗小,可以用作高效运算的基准。现今模型发展有整合的趋势,比如现在的开发者可以通过DeepSeek等模型的开源策略和较灵活的架构,基于通用模型构建行业专用模型,使具有通用能力的模型向领域优化模型演进。


大语言模型能力的涌现现象

涌现的定性定义

涌现这个概念在物理学、生物学和计算机科学等领域已经得到长期讨论。诺贝尔物理奖获得者Philip Anderson的一篇名为 “多即不同 (More is Different)“[3][2]的文章中提出:涌现是指系统中定量的变化所导致的行为上定性的变化。 Jason Wei等人[1]沿用了Anderson对于涌现定性的定义,首次在大语言模型领域提出判断模型能力是否发生涌现的定性标准:某种能力在小规模模型中不存在,但当模型增长到一定规模时(定量的变化),这项能力才突然出现(定性的变化)。也就是说,涌现是一种整体行为上的剧烈变化,不能通过研究小规模模型进行直接预测[4]


模型规模的改变主要体现在训练计算量,模型参数量和训练数据集的大小[5][6]这三个因素上。研究者通常会分析模型的能力随训练计算量或模型参数量的增加而变化的曲线,而不会绘制针对训练集大小的曲线。通常,每个模型的训练计算量是以 FLOPs (Floating Point Operations, 浮点运算数) 来衡量的[6]。模型能力关于参数量与模型能力关于 FLOPs 有形状相似的曲线,这是因为大多数密集Transformer语言模型家族的训练计算量大致与模型参数量成比例[5]。研究者通常在训练模型时使用固定大小的训练集[7][8],所以因此较难见到模型能力随训练数据集大小而变化的报告。


大语言模型能力涌现的实例

尽管少量样本提示可能是目前与大型语言模型互动最常见的方式,但几种其他的提示和微调策略能够进一步提高语言模型的能力。【增加对比图,少量样本提示和进阶提示的区别】

使用少量样本提示的任务

根据提示策略,可以将模型涌现现象分类为使用少量样本提示策略(Few-Shot Prompting Strategies)的场景和使用增强提示策略(Augmented Prompting Strategies)的场景。提示(Prompting)是一种自然语言指令,随着 GPT-3 的广泛应用而流行起来。Brown等人[7]首次运用了少量提示策略,他们在要求模型执行某任务之前,把输入和输出的示例提供给模型。下图是一个少量样本提示的示例。

【示例图】

在不同任务上,以模型规模为x轴,以模型能力为y轴绘制曲线,可以观察到模型能力随着模型规模增大的变化情况,并发现模型能力发生明显提升的部分。在在达到一定规模之前模型表现平平,之后能力提升至远高于随机水平,这就表示模型能力出现了涌现的现象。下图展示了五个语言模型家族使用少量样本提示时,在八类任务上展现的涌现能力。

BIG-Bench. BIG-Bench是一个用于语言模型评估的众包基准测试套件,包含超过200个基准测试(BIG-Bench,2022年),下图A-D展示了来自BIG-Bench的四种表现出涌现的任务。图A展示了一个算术计算基准测试,测试3位数加减法以及2位数乘法。GPT-3和LaMDA(Thoppilan等人,2022年)在训练计算量为几个数量级时准确率接近零,之后,GPT-3的训练计算量在达到2 × 10^22 FLOPs(约有130亿参数),LaMDA达到10^23 FLOPs(约为680亿参数)时,模型能力急剧跃升至远高于随机水平。类似的涌现行为也发生在相同规模的其他任务上,例如国际音标转写(图B)、从混乱字母中恢复单词(图C)以及波斯语问答(图D)。

TruthfulQA. TruthfulQA 基准测试可以衡量回答问题真实性的能力(Lin等人,2021年)【修改本节文献引用】,图2E展示了少量提示模型在TruthfulQA基准测试上的能力。这个基准测试是针对GPT-3模型对抗策划的,因此即使规模扩大到最大,GPT-3的能力也没有超过随机水平。小型Gopher模型在训练计算量扩大到最大,即5×10^23 FLOPs(2800亿参数)之前,能力也没有超过随机水平,而在达到这一规模后,能力跃升至超过随机水平20%以上 (Rae 等,2021)。

基于文本网格世界中的概念域映射 (Grounded conceptual mappings). 图F展示了基于文本网格世界中的概念域映射任务(Patel & Pavlick,2022年),这里语言模型必须学会映射一个概念域,例如将一个基于文本网格世界的基本方向映射出来。同样,只有使用最大的GPT-3模型,能力才会跃升至超过随机水平。

多任务语言理解(Multi-task language understanding). 图G展示了大规模多任务语言理解(MMLU)基准测试,该测试汇总了涵盖数学、历史、法律等多个领域的57项测试(Hendrycks等人,2021a)。对于GPT-3、Gopher和Chinchilla模型,训练FLOPs约为10^22(参数约为100亿)或更小时,模型在所有主题上的平均表现并不比随机猜测更好,而将规模扩大到3到5×10^23训练FLOPs(700亿-2800亿参数),模型能力大幅超越随机水平。这一结可能意味着对于没有检索或访问外部记忆功能的密集语言模型而言,解决涵盖大量主题的知识型问题所需的规模可能需要超过这个数值(【此处可对比更新的研究】)。

语境中的词语(WiC). 图H展示了一个语义理解基准测试:语境中的词语(WiC)基准测试(Pilehvar & Camacho-Collados,2019)。值得注意的是,即使模型规模扩大到最大(约5×10^23 FLOPs),GPT-3和Chinchilla也无法获得优于随机水平的正确率。而PaLM扩大到2.5×10^24 FLOPs(5400亿参数)时,最终出现了超越随机的能力。这些结果可能表明,WiC问题的解决还受模型本身特性或其他因素的影响,可能无法仅靠扩大规模来达到。

少量样本提示中8个涌现现象的例子,引自[1]


使用进阶提示策略的任务

推理任务. 推理任务,特别是涉及多个步骤的任务,对于语言模型和更广泛的自然语言处理(NLP)模型来说一直具有挑战性(Rae等人,2021年;Bommasani等人,2021年;Nye等人,2021年)。最近的一种称为思维链(Chain-of-Thought, CoT)提示的提示策略,能够引导模型在给出最终答案之前生成一系列中间步骤,最终帮助模型解决问题(Cobbe等人,2021年;Wei等人,2022年b;Suzgun等人,2022年)。正如下图A所示,当规模扩大到10^23训练 FLOPs(约1000亿参数)时,思维链提示超越了没有中间步骤的标准提示。当在少样本提示后附加解释来增强提示时,也观察到了类似的能力提升涌现(Lampinen等人,2022年)。

指令跟随(Instruction Following). 另一种日益增多的研究旨在使语言模型通过阅读描述任务的指令来执行新任务(无需示例)。通过在混合了各种指令式任务的数据上进行微调,语言模型已被证明能够进行适当的响应(Ouyang等人,2022年;Wei等人,2022年a;Sanh等人,2022年;Chung等人,2022年)。如图B所示,Wei等人(2022年a)发现,这种指令微调技术对于训练FLOPs为7×10²¹(80亿参数)或更小的模型有损害,只有当规模扩大到10²³训练FLOPs(约1000亿参数)时,才会提高模型能力(尽管Sanh等人(2022年)随后发现,这种指令跟随的行为也可以通过微调更小的 encoder-decoder T5 模型来诱导)。

程序执行. 考虑涉及多个步骤的计算任务,例如大数相加或执行计算机程序。Nye等人(2021年)展示了通过微调语言模型以预测中间输出:草稿本(Scratchpad),使模型能够成功执行此类多步骤计算。正如图C所示,在8位数相加任务中,使用草稿本仅对训练FLOPs约为910(4000万参数)或更大的模型有帮助。

模型校准. 模型校准能够衡量模型预测其回答正确率的能力。Kadavath等人(2022年)比较了两种衡量校准的方法:一种是真/假技术,模型首先回答问题,然后评估自身答案为正确的概率“p (True)”;另一种更标准的校准方法,是使用答案正确的概率与其他答案选项进行比较【todo 这一句具体说的什么意思】。如图D所示,真/假技术的优势仅在大约3×10²³训练FLOPs(520亿参数)的最大模型规模时才显现出来。

特殊的提示或微调中出现涌现现象的例子,引自[1]


影响下游任务能力涌现的因素及争议

上述提及的大语言模型涌现现象在判定上始终围绕两个关键特征:指标的突变和不可预测性[9]。而这并不意味着它一定是关于模型性质的度量。涌现现象的发生,可能只是研究者的选择所造成的幻觉[9]

例如,对于在高质量数据上训练的模型,涌现现象可以在较少的训练计算量或较少的模型参数的情况下出现。涌现能力也会受模型训练充分程度的影响,当今的语言模型很可能没有得到最佳训练[6],而且我们对于如何最佳地训练模型的理解也将随着时间的推移而发展,因此已有研究通常只能提供关于是否出现涌现现象的部分证据。总体而言,一种明智的做法是将涌现视为许多相关变量的函数。有研究者认为模型是否出现涌现现象,可以被看作模型参数规模、训练数据量大小、训练充分程度和具体任务类型等多种因素的未知函数[10]

大语言模型涌现的度量

复杂科学中涌现现象的定量框架

基于大语言模型结构的涌现度量

大语言模型涌现的机制解释

参考文献

  1. 1.0 1.1 1.2 1.3 1.4 Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E. H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2022). Emergent Abilities of Large Language Models (arXiv:2206.07682). arXiv. https://doi.org/10.48550/arXiv.2206.07682
  2. 2.0 2.1 Jacob Steinhardt. Future ml systems will be qualitatively different, 2022. URL https://bounded-regret. ghost.io/future-ml-systems-will-be-qualitatively-different/. Accessed May 20, 2022.
  3. P. W. Anderson,More Is Different.Science, 177(4047): 393-396, 1972. DOI:10.1126/science.177.4047.393
  4. Bernardo A. Huberman and Tad Hogg. Phase transitions in artificial intelligence systems. Artificial  Intelligence, 33(2):155–171, 1987. URL https://www.sciencedirect.com/science/article/ abs/pii/0004370287900336.
  5. 5.0 5.1 Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint  arXiv:2001.08361, 2020. URL https://arxiv.org/abs/2001.08361
  6. 6.0 6.1 6.2 Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. NeurIPS, 2022. URL https://arxiv.org/abs/2203.15556.
  7. 7.0 7.1 Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. NeurIPS, 2020. URL https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
  8. Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv preprint arXiv:2112.11446, 2021. URL https://arxiv.org/abs/ 2112.11446.
  9. 9.0 9.1 Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? (arXiv:2304.15004). arXiv. https://doi.org/10.48550/arXiv.2304.15004
  10. 张俊林, 大语言模型的涌现能力:现象与解释. 2023. 知乎. https://zhuanlan.zhihu.com/p/621438653