讨论:大语言模型的涌现
历史溯源
大语言模型家族分类
- 而针对涌现能力是否出现,可能了解模型的基本架构和与之相对应的应用场景是首要目标。
YMZ:基本架构与应用场景的分类和涌现的关系具体是什么?
大语言模型能力的涌现现象
- 这是因为大多数密集Transformer语言模型家族的训练计算量大致与模型参数量成比例
YMZ:这个表述可以放在前面大语言模型分类那个章节里了,这才是我们补充那个新章节的目的。现在前面介绍家族分类的细节太多了,应该只保留讨论涌现现象会用到的相关细节。
- 研究者通常在训练模型时使用固定大小的训练集[7][8]
YMZ:这个出现在文献的哪个段落?
- 尽管少量样本提示可能是目前与大型语言模型互动最常见的方式,但几种其他的提示和微调策略能够进一步提高语言模型的能力。【增加对比图,少量样本提示和进阶提示的区别】
YMZ:在“实例”这一节开头就讲它们的区别。另外,进阶提示和增强提示应该是同一概念吧,翻译上要统一。 FZY: 谢谢提示!已将区别的文字描述放在“实例”这一节开头,暂时不打算再绘制对比图了。因为增强含义更类似于描述技术进步,而进阶则更类似于描述人的技能提升,所以已将augmented全部翻译为“增强”。
FZY:通过这一次的梳理,我发现“使用少量样本提示的任务”和“使用增强提示策略的任务”两节好像模糊了提示策略的区别以及任务的区别。“使用少量样本提示的任务”一节都是少量样本提示,但是用了很多种不同的任务来论证和作图。而“使用增强提示策略的任务”使用了不同类型的增强提示策略,并举了相应的一些例子。写作上的不对称可能是提示策略对模型能力提升的影响还不清楚一种表现。可以参照其他文献进行梳理和论证。
- 另一种更标准的校准方法,是使用答案正确的概率与其他答案选项进行比较
FZY:这一句具体说的什么意思
YMZ:看图,似乎两者就是判断题和单选题的区别?记得按词条格式这里引用文献,这样我方便去原文看一下
- 下图是一个少量样本提示的示例。
FZY: 缺少示例图
YMZ:嗯,这张图可以稍微简单一点,不是特别重要
- 解决涵盖大量主题的知识型问题所需的规模可能需要超过这个数值
FZY: 此处可添加新研究结果进行对比
修改本节文献引用
影响下游任务能力涌现的因素及争议
- 例如,对于在高质量数据上训练的模型,涌现现象可以在较少的训练计算量或较少的模型参数的情况下出现。
YMZ:这一段我搬到这里来了,可以在这一章节里统一叙述涌现背后相关因素的分析。
大语言模型涌现的度量
- 这里语义可以看作是从按照特定意义组织的 token 集合中自然涌现
YMZ:读着不通顺
- 其中 token 是句子中具有复杂模式的微观(micro)单元
YMZ:这个对于不理解token这个概念的人来说还是不理解。token这个基本概念的解释可以先不放,后面根据需求统一给术语表
- 因此,大语言模型的语义理解能力,可以看作是从微观到宏观的一种涌现现象
YMZ:为什么它是涌现现象,根据哪个定义判断的?
- 受信息论启发,论文中将“语义”(semantics)形式化定义为从token序列中抽象出的有意义信息,并通过比较(宏观层面)token 序列相对于(微观层面)单个token的熵减来对此进行量化。
YMZ:这里的文字不如用公式来表达,而且不适合放在提纲挈领的第一段。
- 要计算 Transformer 模型中的信息涌现,需要从数学上度量微观与宏观层面的熵减。
YMZ:这个结论是为什么?还是说它是定义?
YMZ:这一段里h是单个的token吗?以及输入输出长度都是T吗?
- 研究者将序列中的 token 变量分为两类:微观变量和宏观变量。
YMZ:按照这个分法,有没有输出token是受一部分输入token影响的?这算是介观变量吗?
- 因此,宏观层面代表语义层级,微观层面代表 token 层级。
YMZ:这个“因此”的逻辑是什么,宏微观变量不是人为指定的吗?
- 基于 Erik Hoel 等人的因果涌现理论[11][12]和 Rosas 等人基于信息分解量化涌现的理论[13],研究中将其视为一个熵减过程,采用互信息对信息涌现进行建模
YMZ:所以IE的定义根源于Erik和Rosas等人的工作?那应该在前面就讲清楚。
- IE 可以简要理解为,语言模型基于先前token,以更低语义熵确定性预测下一个token的置信程度
YMZ:什么是语义熵?
YMZ:对于这个定量公式有一个困惑是,如果找到宏观的token,是要计算前后token在多大程度上独立吗(满足马尔可夫性)?
- 研究还发现,LLM生成的文本与人类文本具有出不同的IE值,因此IE可用于区分文本是来源于人类还是 LLMs 生成
YMZ:所以这里的IE是定义在输出文本上的?在给出这个结论之前,应该先说清楚IE的定义。逻辑顺序是,前文的涌现现象 to 为什么要谈论IE to IE的定义 to 基于IE指标的发现
- 当第l个Transformer模块在整个序列(宏观变量)上带来的不确定性(熵)减少量大于其在单个token(微观变量)上的减少量时,更有可能捕获集体语义
YMZ:读起来很难懂,可不可以有具体的例子?
大语言模型涌现的机制解释
YMZ:记得加文献引用和交叉引用
- 这一模型被借用来解释神经网络,特别是大语言模型(LLM)中的涌现现象。涌现现象指的是当模型规模(数据、计算资源、参数等)达到某一临界点时,模型会突然展示出之前无法预见的能力 。这种能力的跃升是非线性的,且无法通过对小规模模型的简单外推预测。
YMZ:注意和前文的联系,这里和前文内容有重复
- 在该模型中,节点(如实体、属性等)通过边(如实体与属性的配对)连接在一起。随着训练数据和参数规模的增加,节点之间逐渐形成一个“连通子图”,一旦这个子图的规模突破某个阈值,模型就会展现出新的能力 。
YMZ:这两句话中前一个“模型”指的是渗流模型,后一个应该指的是LLM,有点跳跃。建议可以先简单介绍渗流模型本身,然后另起一段讲LLM中的渗流相变。
- 双分图(Bipartite Graph)
YMZ:一般翻译为二分图,我直接在正文改了。