“因果之梯”的版本间的差异

2022年6月12日 (日) 23:03的版本

此词条由因果科学读书会词条梳理志愿者我是猫（74989）、趣木木编撰

未经专家审核，带来阅读不便，请见谅。

起源

因果关系对于人类感知和理解世界，采取行动以及理解自己起着核心作用。大约二十年前，计算机科学家 Judea Pearl 通过发现和系统地研究「因果之梯」（Ladder of Causation），在理解因果关系方面取得了突破，该框架着重说明了观察、做事和想象的独特作用。为了纪念这一具有里程碑意义的发现，人们将其命名为「Pearl 因果层次结构」（Pearl Causal Hierarchy，PCH）。

去年 7 月，来自哥伦比亚大学和斯坦福大学的四位研究者撰写了一篇关于 PCH 和因果推理的技术报告，从逻辑概率和推理图两个方面，对 PCH 进行了新颖全面的解读。

首先介绍了 PCH 是如何从规范的因果机制集合（结构因果模型，SCM）中有机出现的。然后文章转向逻辑层面。该报告的第一个结果是因果层次定理（CHT），该定理表明 PCH 的三个层级从测度论的角度上来看几乎总是分离的。粗略地讲，CHT 表明一层的数据实际上不足以确定较高层的信息。由于在大多数实际情况下，科学家无法获得潜在因果机制的精确形式（只能访问他们生成的关于某些 PCH 层的数据），这促使研究者从图的角度来研究 PCH 内部的推理

具体来说，研究者探索了一组因果推理方法，这些方法可以在给定 SCM 部分规格的情况下，将 PCH 的各层进行桥接，以进行推理。例如，当只有被动观察结果（第一层数据）可用时，你会推断将发生的情况会在环境（第二层语句）中遭到干预。研究者提出了一系列图模型，这些模型让科学家能够以认知上有意义且简约的方式来表示 SCM 的部分规格。

最后，研究者探究了被称为“do算子“（do calculus）的推理系统，展示了在必要情况下，它足以实现 PCH 各层之间的推理。研究者表示：与 PCH 所描绘的人类经验的基本层面相联系是迈向创建下一代 AI 系统的关键一步，该系统将是安全、强大、与人类兼容并符合社会利益的。

定义

因果之梯的每一层级都有一种代表性生物。大多数动物和当前的学习机器都处于第一层级，它们通过关联进行学习。像早期人类这样的工具使用者则处于第二层级，前提是他们是有计划地采取行动而非仅靠模仿行事。我们也可以通过实验来习得干预的效果，这大概也是婴儿获取大多数因果知识的方式。反事实的学习者处于阶梯的顶级，他们可以想象并不存在的世界，并推测观察到的现象的原因为何。

第三个层级上的底子上站着的是有较高智慧的人类，拥有反思的能力，能够在大脑中将真实的世界与虚构的世界进行对比。

在这三个层级上，能够提出和解决的问题是不同的：

在第一个层级上，问题都是基于相关性的，比如：“我的肺部有很多焦油沉积，我未来患肺癌的概率是多少？”

而在第二个层级上，就涉及到了对现实世界的干预，并预测干预结果，比如：“我现在已经吸烟三年了，如果我现在戒烟，我还会患肺癌吗？”

第三个层级上，就是要构建一个虚拟世界，并将虚拟世界与现在进行对比，问题的答案就是对比的结果，比如“如果过去的三年我都没有吸烟，现在我还会患肺癌吗？” Pearl在数学上证明了，这三个层级之间是有着根本的区别的。

因果关系之梯是Judea Pearl提出的一种分类法（也可以称为框架），该分类法回答了“因果推理主体可以做什么”这一问题。该问题的另一种表述是——“相较于不具备因果模型的生物，拥有因果模型的生物能推算出什么前者推算不出的东西”。这种分类法的好处在于，它绕过了关于因果论究竟为何物的漫长而徒劳的讨论，聚焦于具体的可回答的问题。

因果关系之梯包括三个层级：关联(association)、干预(intervention)和反事实（counterfactual），分别对应逐级复杂的因果问题。下图为因果关系之梯的示意图。

第一层级：关联

处于第一层级的是关联，在这个层级中我们通过观察寻找规律，这种观察是被动的，不对世界做出干涉，而是通过我们观察到的世界对问题做出回答。一只猫头鹰观察到一只老鼠在活动，便开始推测老鼠下一刻可能出现的位置，这只猫头鹰所做的就是通过观察寻找规律。计算机围棋程序在研究了包含数百万围棋棋谱的数据库后，便可以计算出哪些走法胜算较高，它所做的也是通过观察寻找规律。如果观察到某一事件改变了观察到另一事件的可能性，我们便说这一事件与另一事件相关联。

因果关系之梯的第一层级要求我们基于被动观察做出预测，且都是基于相关性的，其典型问题是：“如果我观察到……会怎样？”例如，“我的肺部有很多焦油沉积，我未来患肺癌的概率是多少？”，再比如，一家百货公司的销售经理可能会问：“购买牙膏的顾客同时购买牙线的可能性有多大？”此类问题正是统计学的安身立命之本，统计学家主要通过收集和分析数据给出答案。在这个例子中，问题可以这样解答：首先采集所有顾客购物行为的数据，然后筛选出购买牙膏的顾客，计算他们当中购买牙线的人数比例。这个比例也称作“条件概率”，用于测算（针对大数据的）“买牙膏”和“买牙线”两种行为之间的关联程度。用符号表示可以写作P（牙线|牙膏），其中P代表概率，竖线意为“假设你观察到”。

为了缩小数据的体量，确定变量之间的关联，统计学家开发了很多复杂的方法。比如“相关分析”或“回归分析”，其具体操作是将一条直线拟合到数据点集中，然后确定这条直线的斜率。有些关联可能有明显的因果解释，有些可能没有。但无论如何，统计学本身并不能告诉我们，牙膏或牙线哪个是因，哪个是果。从销售经理的角度看，这件事也许并不重要——好的预测无须好的解释，就像猫头鹰不明白老鼠为何总是从A点跑到B点，但这不改变它仍然是一个好猎手的事实。

Pearl认为，目前为止人工智能进展都还是在第一层级的，无论大家认为它有多么强大。近些年来，我们好像每天都会听闻机器学习系统的新发展和新成果——无人驾驶汽车、语言识别系统，特别是近几年来广受推崇的深度学习算法（或称深度神经网络）。深度学习的成果确实举世瞩目、令人惊叹。然而，它的成功主要告诉我们的是之前我们认为困难的问题或任务实际上并不难，而并没有解决真正的难题，这些难题仍在阻碍着类人智能机器的实现。其结果是，公众误以为“强人工智能”（像人一样思考的机器）的问世指日可待，甚至可能已经到来，而事实远非如此。纽约大学神经系统科学家盖里·马库斯在《纽约时报》上写道：人工智能领域“喷涌出大量的微发现”，这些发现也许是不错的新素材，但很遗憾，机器仍与类人认知相去甚远。加州大学洛杉矶分校计算机科学系的阿德南·达尔维奇也曾发表过一篇题为“是人类水平的智能还是动物般的能力？”的论文，并在其中表明了自己的立场。即强人工智能这一目标是制造出拥有类人智能的机器，让它们能与人类交流并指导人类的探索方向。而深度学习只是让机器具备了高超的能力，而非智能。这种差异是巨大的，原因就在于后者缺少现实模型。

与30年前一样，当前的机器学习程序（包括那些应用深度神经网络的程序）几乎仍然完全是在关联模式下运行的。它们由一系列观察结果驱动，致力于拟合出一个函数，就像统计学家试图用点集拟合出一条直线一样。深度神经网络为拟合函数的复杂性增加了更多的层次，但其拟合过程仍然由原始数据驱动。被拟合的数据越来越多，拟合的精度不断提高，但该过程始终未能从“超进化加速”中获益。例如，如果无人驾驶汽车的程序设计者想让汽车在新情况下做出不同的反应，那么他就必须明确地在程序中添加这些新反应的描述代码。机器是不会自己弄明白手里拿着一瓶威士忌的行人可能对鸣笛做出的不同反应的。处于因果之梯最底层的任何运作系统都不可避免地缺乏这种灵活性和适应性。

第二层级：干预

因果之梯第二层级的一个典型问题是：“如果我们把牙膏的价格翻倍，牙线的销售额将会怎么样？”提出及回答这类问题要求我们掌握一种脱离于数据的新知识，即干预。由图也可看出，第二层级的梯子上站着的是原始人类和婴儿，它们学会了有意图地去使用工具，对周遭环境进行干预。换句话说就是，主体对现状的主动改变。

干预比关联更高级，因为它不仅涉及被动观察，还涉及主动改变现状。例如，观察到烟雾和主动制造烟雾，二者所表明的“某处着火”这件事的可能性是完全不同的。无论数据集有多大或者神经网络有多深，只要使用的是被动收集的数据，我们就无法回答有关干预的问题。从统计学中学到的任何方法都不足以让我们明确表述类似“如果价格翻倍将会发生什么”这样简单的问题，更别说回答它们了。认识到这一点让许多科学家挫败不已。

为什么不能仅通过观察来回答牙线的问题呢？为什么不直接进入存有历史购买信息的庞大数据库，看看在牙膏价格翻倍的情况下实际发生了什么呢？原因在于，在以往的情况中，涨价可能出于完全不同的原因，例如产品供不应求，其他商店也不得不涨价等。但现在，人们并不关注行情如何，只想通过刻意干预为牙膏设定新价格，因而其带来的结果就可能与此前顾客在别处买不到便宜牙膏时的购买行为大相径庭。如果有历史行情数据，也许你可以做出更好的预测……但是问题在于，我们并不知道我们需要什么样的数据，我们不知道如何理清数据中的各种关系。这些正是因果推断科学能帮助我们回答的。

预测干预结果的一种非常直接的方法是在严格控制的条件下进行实验。像脸书这样的大数据公司深知实验的力量，它们在实践中不断地进行各种实验，比如考察页面上的商品排序不同或者给用户设置不同的付款期限（甚至不同的价格）会导致用户行为发生怎样的改变。

更为有趣并且即使在硅谷也鲜为人知的是，即便不进行实验，人们有时也能成功地预测干预的效果。例如，销售经理可以研发出一个包括市场条件在内的消费者行为模型。就算没能采集到所有因素的相关数据，他依然有可能利用充分的关键替代数据进行预测。一个足够强大的、准确的因果模型可以让我们利用第一层级（关联）的数据来回答第二层级（干预）的问题。没有因果模型，人们就不能从第一层级登上第二层级。这就是深度学习系统（只要它们只使用了第一层级的数据而没有利用因果模型）永远无法回答干预问题的原因：干预行动据其本意就是要打破机器训练的环境规则。

这些例子说明，因果关系之梯第二层级的典型问题就是：“如果我们实施……行动，将会怎样？”也即，如果我们改变环境会发生什么？我们把这样的问题记作P（牙线 |do（牙膏）），它所对应的问题是：如果对牙膏另行定价，那么在某一价位销售牙线的概率是多少？第二层级中的另一个热门问题是：“怎么做？”它与“如果我们实施……行动，将会怎样”是同类问题。例如，销售经理可能会告诉我们，仓库里现在积压着太多的牙膏。他会问：“我们怎样才能卖掉它们？”也就是，我们应该给它们定个什么价？同样，这个问题也与干预行动有关，即在我们决定是否实际实施干预行动以及怎样实施干预行动之前，我们会尝试在心理层面演示这种干预行动。这就需要我们具备一个因果模型，结合数据进行预测。

在日常生活中，我们一直都在实施干预，尽管我们通常不会使用这种一本正经的说法来称呼它。例如，当我们服用阿司匹林试图治疗头痛时，我们就是在干预一个变量（人体内阿司匹林的量），以影响另一个变量（头痛的状态）。如果我们关于阿司匹林治愈头痛的因果知识是正确的，那么我们的“结果”变量的值将会从“头痛”变为“头不痛”。

第三层级：反事实

虽然关于干预的推理是因果关系之梯中的一个重要步骤，但它仍不能回答所有我们感兴趣的问题。我们可能想问，现在我的头已经不痛了，但这是为什么？是因为我吃了阿司匹林吗？是因为我吃的食物吗？是因为我听到的好消息吗？正是这些问题将我们带到因果关系之梯的最高层，即反事实层级。因为要回答这些问题，我们必须回到过去改变历史，问自己：“假如我没有服用过阿司匹林，会发生什么？”世界上没有哪个实验可以撤销对一个已接受过治疗的人所进行的治疗，进而比较治疗与未治疗两种条件下的结果，所以我们必须引入一种全新的知识。

反事实与数据之间存在着一种特别棘手的关系，因为数据顾名思义就是事实。数据无法告诉我们在反事实或虚构的世界里会发生什么，在反事实世界里，观察到的事实被直截了当地否定了。然而，人类的思维却能可靠地、重复地进行这种寻求背后解释的推断。

人们可能会怀疑，对于“假如”（would haves）这种并不存在的世界和并未发生的事情，科学能否给出有效的陈述。科学确实能这么做，而且一直就是这么做的。举个例子，“在弹性限度内，假如加在这根弹簧上的砝码重量是原来的两倍，弹簧伸长的长度也会加倍”（胡克定律），像这样的物理定律就可以被看作反事实断言。当然，这一断言是从诸多研究者在数千个不同场合对数百根弹簧进行的实验中推导出来的，得到了大量试验性（第二层级）证据的支持。然而，一旦被奉为“定律”，物理学家就把它解释为一种函数关系，自此，这种函数关系就在假设中的砝码重量值下支配着某根特定的弹簧。所有这些不同的世界，其中砝码重量是x磅，弹簧长度是Lx 英寸，都被视为客观可知且同时有效的，哪怕它们之中只有一个是真实存在的世界。

回到牙膏的例子，针对这个例子，最高层级的问题是：“假如我们把牙膏的价格提高一倍，则之前买了牙膏的顾客仍然选择购买的概率是多少？”在这个问题中，我们所做的就是将真实的世界（在真实的世界，我们知道顾客以当前的价格购买了牙膏）和虚构的世界（在虚构的世界，牙膏价格是当前的2倍）进行对比。

因果模型可用于回答此类反事实问题，建构因果模型所带来的回报是巨大的：找出犯错的原因，我们之后就能采取正确的改进措施；找出一种疗法对某些人有效而对其他人无效的原因，我们就能据此开发出一种全新的疗法；“假如当时发生的事情与实际不同，那会怎样？”对这个问题的回答让我们得以从历史和他人的经验中获取经验教训，这是其他物种无法做到的。难怪古希腊哲学家德谟克利特（公元前460—前370）说：“宁揭一因，胜为波斯王。”

因果关系之梯第三层级的典型问题是：“假如我当时了……会怎样？”和“为什么？”两者都涉及观察到的世界与反事实世界的比较。仅靠干预实验无法回答这样的问题。如果第一层级对应的是观察到的世界，第二层级对应的是一个可被观察的美好新世界，那么第三层级对应的就是一个无法被观察的世界（因为它与我们观察到的世界截然相反）。为了弥合第三层级与前两个层级之间的差距，我们需要构建一个基础性的解释因果过程的模型，这种模型有时被称为“理论”，甚至（在构建者极其自信的情况下）可以被称为“自然法则”。简言之，人们需要掌握一种理解力，建立一种理论，据此人们就可以预测在尚未经历甚至未曾设想过的情况下会发生什么——这显然是所有科学分支的圣杯。但因果推断的意义还要更为深远：在掌握了各种法则之后，人们就可以有选择地违背它们，以创造出与现实世界相对立的世界。由此，出现了结构因果模型（SCM），通过它，我们可以回答反事实问题。

样例理解

为了更好的理解因果之梯得三层架构，我们可以通过Judea Pearl著作中所提的一个例子来理解三个层级概念。

假设要将一个犯人进行枪决，需要经过下述流程：

首先，需要法院发布处决犯人的命令
行刑队队长收到法院命令后，对士兵A和士兵B发布处决指令
士兵A或士兵B接到命令开枪

我们假设士兵A和B只听队长的命令开枪，不会擅自开枪。此外，只要任一枪手开枪，犯人都会死亡。

请考虑以下问题：

不考虑自然死亡的情况，如果犯人死了，那么这是否意味着法院已下令处决犯人？
假设我们发现士兵A射击了，它告诉了我们关于B的什么信息？
如果士兵A决定按自己的意愿射击，而不等待队长的命令，情况会怎样？犯人会不会死？
假设犯人现在已倒地身亡，从这一点我们可以得出结论：A射击了，B射击了，行刑队队长发出了指令，法院下了判决。但是，假如A决定不开枪，犯人是否还活着？

上述问题中，1和2为关联层级的问题（一个事实告诉我们有关另一事实的什么信息），我们可以通过观察到的情况“犯人已死”、“士兵A射击”做出推理回答问题，得到法院下令和士兵B也射击了的回答。

3为干预层级的问题，我们需要对现实世界做出调整（现实：士兵A只听队长命令，调整：士兵A按照自己的意愿射击），从而根据可以被观察到的世界回答问题。

4为反事实层级的问题。在现实世界中，A已经开枪了，但我们需要了解另一个与现实相矛盾的世界（A没有开枪，其它情况不变）中犯人的情况。对于该问题，我们无法根据观察到的世界回答，也无法对现在的世界进行干涉从而回答该问题。但是，我们可以通过构建因果模型从而推理出问题的回答。