第19行: |
第19行: |
| 因果之梯的每一层级都有一种代表性生物。大多数动物和当前的学习机器都处于第一层级,它们通过关联进行学习。像早期人类这样的工具使用者则处于第二层级,前提是他们是有计划地采取行动而非仅靠模仿行事。我们也可以通过实验来习得干预的效果,这大概也是婴儿获取大多数因果知识的方式。反事实的学习者处于阶梯的顶级,他们可以想象并不存在的世界,并推测观察到的现象的原因为何。 | | 因果之梯的每一层级都有一种代表性生物。大多数动物和当前的学习机器都处于第一层级,它们通过关联进行学习。像早期人类这样的工具使用者则处于第二层级,前提是他们是有计划地采取行动而非仅靠模仿行事。我们也可以通过实验来习得干预的效果,这大概也是婴儿获取大多数因果知识的方式。反事实的学习者处于阶梯的顶级,他们可以想象并不存在的世界,并推测观察到的现象的原因为何。 |
| | | |
− | === 因果之梯第一层级 ===
| |
− | 处于第一层级的是关联,在这个层级中我们通过观察寻找规律。一只猫头鹰观察到一只老鼠在活动,便开始推测老鼠下一刻可能出现的位置,这只猫头鹰所做的就是通过观察寻找规律。计算机围棋程序在研究了包含数百万围棋棋谱的数据库后,便可以计算出哪些走法胜算较高,它所做的也是通过观察寻找规律。如果观察到某一事件改变了观察到另一事件的可能性,我们便说这一事件与另一事件相关联。基于被动观察来做出预测,Pearl认为,目前为止我们的机器学习进展都还是在这一层级的,无论大家认为它有多么强大。
| |
| | | |
− | 因果关系之梯的第一层级要求我们基于被动观察做出预测,且都是基于相关性的,其典型问题是:“如果我观察到……会怎样?”例如,“我的肺部有很多焦油沉积,我未来患肺癌的概率是多少?”,再比如,一家百货公司的销售经理可能会问:“购买牙膏的顾客同时购买牙线的可能性有多大?”此类问题正是统计学的安身立命之本,统计学家主要通过收集和分析数据给出答案。在这个例子中,问题可以这样解答:首先采集所有顾客购物行为的数据,然后筛选出购买牙膏的顾客,计算他们当中购买牙线的人数比例。这个比例也称作“条件概率”,用于测算(针对大数据的)“买牙膏”和“买牙线”两种行为之间的关联程度。用符号表示可以写作P(牙线|牙膏),其中P代表概率,竖线意为“假设你观察到”。
| + | 第三个层级上的底子上站着的是有较高智慧的人类,拥有反思的能力,能够在大脑中将真实的世界与虚构的世界进行对比。 |
− | | |
− | 为了缩小数据的体量,确定变量之间的关联,统计学家开发了很多复杂的方法。比如“相关分析”或“回归分析”,其具体操作是将一条直线拟合到数据点集中,然后确定这条直线的斜率。有些关联可能有明显的因果解释,有些可能没有。但无论如何,统计学本身并不能告诉我们,牙膏或牙线哪个是因,哪个是果。从销售经理的角度看,这件事也许并不重要——好的预测无须好的解释,就像猫头鹰不明白老鼠为何总是从A点跑到B点,但这不
| |
− | | |
− | 改变它仍然是一个好猎手的事实。
| |
− | | |
− | | |
− | 第一层级的梯子上站着的是猫头鹰和机器人,能够做的就是
| |
− | | |
− | 第二层级的梯子上站着的是原始人类和婴儿,它们学会了有意图地去使用工具,对周遭环境进行干预。
| |
− | | |
− | 第三个层级上的底子上站着的是有较高智慧的人类,拥有反思的能力,能够在大脑中将真实的世界与虚构的世界进行对比。 | |
| | | |
| 在这三个层级上,能够提出和解决的问题是不同的: | | 在这三个层级上,能够提出和解决的问题是不同的: |
第48行: |
第35行: |
| | | |
| == 第一层级:关联 == | | == 第一层级:关联 == |
− | 在该层级中,主体通过观察寻找规律。这种观察是被动的,不对世界做出干涉,而是通过我们观察到的世界对问题做出回答。关联的例子有:
| + | 处于第一层级的是关联,在这个层级中我们通过观察寻找规律,这种观察是被动的,不对世界做出干涉,而是通过我们观察到的世界对问题做出回答。一只猫头鹰观察到一只老鼠在活动,便开始推测老鼠下一刻可能出现的位置,这只猫头鹰所做的就是通过观察寻找规律。计算机围棋程序在研究了包含数百万围棋棋谱的数据库后,便可以计算出哪些走法胜算较高,它所做的也是通过观察寻找规律。如果观察到某一事件改变了观察到另一事件的可能性,我们便说这一事件与另一事件相关联。 |
| | | |
− | * 猫头鹰通过观察老鼠的活动判断老鼠下一刻可能出现的位置
| + | 因果关系之梯的第一层级要求我们基于被动观察做出预测,且都是基于相关性的,其典型问题是:“如果我观察到……会怎样?”例如,“我的肺部有很多焦油沉积,我未来患肺癌的概率是多少?”,再比如,一家百货公司的销售经理可能会问:“购买牙膏的顾客同时购买牙线的可能性有多大?”此类问题正是统计学的安身立命之本,统计学家主要通过收集和分析数据给出答案。在这个例子中,问题可以这样解答:首先采集所有顾客购物行为的数据,然后筛选出购买牙膏的顾客,计算他们当中购买牙线的人数比例。这个比例也称作“条件概率”,用于测算(针对大数据的)“买牙膏”和“买牙线”两种行为之间的关联程度。用符号表示可以写作P(牙线|牙膏),其中P代表概率,竖线意为“假设你观察到”。 |
− | * 计算机围棋程序通过对数百万棋谱的研究发现胜率高的走法
| |
| | | |
− | 典型问题:
| + | 为了缩小数据的体量,确定变量之间的关联,统计学家开发了很多复杂的方法。比如“相关分析”或“回归分析”,其具体操作是将一条直线拟合到数据点集中,然后确定这条直线的斜率。有些关联可能有明显的因果解释,有些可能没有。但无论如何,统计学本身并不能告诉我们,牙膏或牙线哪个是因,哪个是果。从销售经理的角度看,这件事也许并不重要——好的预测无须好的解释,就像猫头鹰不明白老鼠为何总是从A点跑到B点,但这不改变它仍然是一个好猎手的事实。 |
| | | |
− | 在关联层级,我们会问的典型问题是“如果我观察到......会怎样?”。
| + | Pearl认为,目前为止人工智能进展都还是在第一层级的,无论大家认为它有多么强大。近些年来,我们好像每天都会听闻机器学习系统的新发展和新成果——无人驾驶汽车、语言识别系统,特别是近几年来广受推崇的深度学习算法(或称深度神经网络)。深度学习的成果确实举世瞩目、令人惊叹。然而,它的成功主要告诉我们的是之前我们认为困难的问题或任务实际上并不难,而并没有解决真正的难题,这些难题仍在阻碍着类人智能机器的实现。其结果是,公众误以为“强人工智能”(像人一样思考的机器)的问世指日可待,甚至可能已经到来,而事实远非如此。纽约大学神经系统科学家盖里·马库斯在《纽约时报》上写道:人工智能领域“喷涌出大量的微发现”,这些发现也许是不错的新素材,但很遗憾,机器仍与类人认知相去甚远。加州大学洛杉矶分校计算机科学系的阿德南·达尔维奇也曾发表过一篇题为“是人类水平的智能还是动物般的能力?”的论文,并在其中表明了自己的立场。即强人工智能这一目标是制造出拥有类人智能的机器,让它们能与人类交流并指导人类的探索方向。而深度学习只是让机器具备了高超的能力,而非智能。这种差异是巨大的,原因就在于后者缺少现实模型。 |
| | | |
− | 例如,超市经理会问“购买牙膏的顾客同时购买牙线的可能性有多大?”。
| + | 与30年前一样,当前的机器学习程序(包括那些应用深度神经网络的程序)几乎仍然完全是在关联模式下运行的。它们由一系列观察结果驱动,致力于拟合出一个函数,就像统计学家试图用点集拟合出一条直线一样。深度神经网络为拟合函数的复杂性增加了更多的层次,但其拟合过程仍然由原始数据驱动。被拟合的数据越来越多,拟合的精度不断提高,但该过程始终未能从“超进化加速”中获益。例如,如果无人驾驶汽车的程序设计者想让汽车在新情况下做出不同的反应,那么他就必须明确地在程序中添加这些新反应的描述代码。机器是不会自己弄明白手里拿着一瓶威士忌的行人可能对鸣笛做出的不同反应的。处于因果之梯最底层的任何运作系统都不可避免地缺乏这种灵活性和适应性。 |
| | | |
− | 回答方法:
| + | == 第二层级:干预 == |
| + | 因果之梯第二层级的一个典型问题是:“如果我们把牙膏的价格翻倍,牙线的销售额将会怎么样?”提出及回答这类问题要求我们掌握一种脱离于数据的新知识,即干预。由图也可看出,第二层级的梯子上站着的是原始人类和婴儿,它们学会了有意图地去使用工具,对周遭环境进行干预。换句话说就是,主体对现状的主动改变。 |
| | | |
− | 统计学可以用于回答这类问题,我们可以利用收集到的历史数据计算P(牙线|牙膏)这一条件概率测算购买牙线和牙膏的关联程度。但是,统计学无法告诉我们事物之间的因果关系。
| + | 干预比关联更高级,因为它不仅涉及被动观察,还涉及主动改变现状。例如,观察到烟雾和主动制造烟雾,二者所表明的“某处着火”这件事的可能性是完全不同的。无论数据集有多大或者神经网络有多深,只要使用的是被动收集的数据,我们就无法回答有关干预的问题。从统计学中学到的任何方法都不足以让我们明确表述类似“如果价格翻倍将会发生什么”这样简单的问题,更别说回答它们了。认识到这一点让许多科学家挫败不已。 |
| | | |
− | == 第二层级:干预 ==
| + | 为什么不能仅通过观察来回答牙线的问题呢?为什么不直接进入存有历史购买信息的庞大数据库,看看在牙膏价格翻倍的情况下实际发生了什么呢?原因在于,在以往的情况中,涨价可能出于完全不同的原因,例如产品供不应求,其他商店也不得不涨价等。但现在,人们并不关注行情如何,只想通过刻意干预为牙膏设定新价格,因而其带来的结果就可能与此前顾客在别处买不到便宜牙膏时的购买行为大相径庭。如果有历史行情数据,也许你可以做出更好的预测……但是问题在于,我们并不知道我们需要什么样的数据,我们不知道如何理清数据中的各种关系。这些正是因果推断科学能帮助我们回答的。 |
− | 干预涉及到主体对现状的主动改变,根据可以被观察到的世界回答问题。
| |
| | | |
− | 典型问题:
| + | 预测干预结果的一种非常直接的方法是在严格控制的条件下进行实验。像脸书这样的大数据公司深知实验的力量,它们在实践中不断地进行各种实验,比如考察页面上的商品排序不同或者给用户设置不同的付款期限(甚至不同的价格)会导致用户行为发生怎样的改变。 |
| | | |
− | * “如果我们实施......行动,将会怎样?” 例如:“如果我们把牙膏的价格翻倍,牙线的销售额将会怎样?”
| + | 更为有趣并且即使在硅谷也鲜为人知的是,即便不进行实验,人们有时也能成功地预测干预的效果。例如,销售经理可以研发出一个包括市场条件在内的消费者行为模型。就算没能采集到所有因素的相关数据,他依然有可能利用充分的关键替代数据进行预测。一个足够强大的、准确的因果模型可以让我们利用第一层级(关联)的数据来回答第二层级(干预)的问题。没有因果模型,人们就不能从第一层级登上第二层级。这就是深度学习系统(只要它们只使用了第一层级的数据而没有利用因果模型)永远无法回答干预问题的原因:干预行动据其本意就是要打破机器训练的环境规则。 |
− | * “怎么做?” 例如:“我们应当如何定价以卖掉仓库里积压的牙膏?”
| |
| | | |
− | 回答方法:
| + | 这些例子说明,因果关系之梯第二层级的典型问题就是:“如果我们实施……行动,将会怎样?”也即,如果我们改变环境会发生什么?我们把这样的问题记作P(牙线 |do(牙膏)),它所对应的问题是:如果对牙膏另行定价,那么在某一价位销售牙线的概率是多少?第二层级中的另一个热门问题是:“怎么做?”它与“如果我们实施……行动,将会怎样”是同类问题。例如,销售经理可能会告诉我们,仓库里现在积压着太多的牙膏。他会问:“我们怎样才能卖掉它们?”也就是,我们应该给它们定个什么价?同样,这个问题也与干预行动有关,即在我们决定是否实际实施干预行动以及怎样实施干预行动之前,我们会尝试在心理层面演示这种干预行动。这就需要我们具备一个因果模型,结合数据进行预测。 |
| | | |
− | * 进行严格控制条件下的实验,例如网站通过AB test判断用户对页面颜色的偏好
| + | 在日常生活中,我们一直都在实施干预,尽管我们通常不会使用这种一本正经的说法来称呼它。例如,当我们服用阿司匹林试图治疗头痛时,我们就是在干预一个变量(人体内阿司匹林的量),以影响另一个变量(头痛的状态)。如果我们关于阿司匹林治愈头痛的因果知识是正确的,那么我们的“结果”变量的值将会从“头痛”变为“头不痛”。 |
− | * 建立因果模型(DAG),结合数据进行预测
| |
| | | |
| == 第三层级:反事实 == | | == 第三层级:反事实 == |
− | 数据顾名思义就是事实,数据无法告诉我们在反事实或虚构的世界里会发生什么。在反事实世界里,观察到的事实被直截了当地否定了。然而,人类的思维却能可靠地、重复地进行这种寻求背后解释的推断。...... 这种能力彻底地区分了人类智能与动物智能,以及人类与模型盲版本的人工智能和机器学习。
| + | 虽然关于干预的推理是因果关系之梯中的一个重要步骤,但它仍不能回答所有我们感兴趣的问题。我们可能想问,现在我的头已经不痛了,但这是为什么?是因为我吃了阿司匹林吗?是因为我吃的食物吗?是因为我听到的好消息吗?正是这些问题将我们带到因果关系之梯的最高层,即反事实层级。因为要回答这些问题,我们必须回到过去改变历史,问自己:“假如我没有服用过阿司匹林,会发生什么?”世界上没有哪个实验可以撤销对一个已接受过治疗的人所进行的治疗,进而比较治疗与未治疗两种条件下的结果,所以我们必须引入一种全新的知识。 |
− | | |
− | 我们通过一个情景来理解反事实:
| |
− | | |
− | 假设乔在服用了药物D一个月后死亡,那么我们要关注的问题就是这种药物是否导致了他的死亡。为了回答这个问题,我们需要想象这样一种情况:假如乔在即将服药时改变了主意,他现在会活着吗?
| |
− | | |
− | 在反事实层级,我们需要回答与一个无法被观察的世界相关的问题。
| |
| | | |
− | 典型问题:
| + | 反事实与数据之间存在着一种特别棘手的关系,因为数据顾名思义就是事实。数据无法告诉我们在反事实或虚构的世界里会发生什么,在反事实世界里,观察到的事实被直截了当地否定了。然而,人类的思维却能可靠地、重复地进行这种寻求背后解释的推断。 |
| | | |
− | * “假如我当时做了......会怎样?” 例如:“假如我们把牙膏的价格提高一倍,则之前买了牙膏的顾客仍然选择购买的概率是多少?”
| + | 人们可能会怀疑,对于“假如”(would haves)这种并不存在的世界和并未发生的事情,科学能否给出有效的陈述。科学确实能这么做,而且一直就是这么做的。举个例子,“在弹性限度内,假如加在这根弹簧上的砝码重量是原来的两倍,弹簧伸长的长度也会加倍”(胡克定律),像这样的物理定律就可以被看作反事实断言。当然,这一断言是从诸多研究者在数千个不同场合对数百根弹簧进行的实验中推导出来的,得到了大量试验性(第二层级)证据的支持。然而,一旦被奉为“定律”,物理学家就把它解释为一种函数关系,自此,这种函数关系就在假设中的砝码重量值下支配着某根特定的弹簧。所有这些不同的世界,其中砝码重量是x磅 ,弹簧长度是Lx 英寸 ,都被视为客观可知且同时有效的,哪怕它们之中只有一个是真实存在的世界。 |
− | * “为什么?”
| |
| | | |
− | 回答方法:
| + | 回到牙膏的例子,针对这个例子,最高层级的问题是:“假如我们把牙膏的价格提高一倍,则之前买了牙膏的顾客仍然选择购买的概率是多少?”在这个问题中,我们所做的就是将真实的世界(在真实的世界,我们知道顾客以当前的价格购买了牙膏)和虚构的世界(在虚构的世界,牙膏价格是当前的2倍)进行对比。 |
| | | |
− | 第二层级中的干预实验无法回答反事实问题,因为我们无法对过去的事实进行改变。
| + | 因果模型可用于回答此类反事实问题,建构因果模型所带来的回报是巨大的:找出犯错的原因,我们之后就能采取正确的改进措施;找出一种疗法对某些人有效而对其他人无效的原因,我们就能据此开发出一种全新的疗法;“假如当时发生的事情与实际不同,那会怎样?”对这个问题的回答让我们得以从历史和他人的经验中获取经验教训,这是其他物种无法做到的。难怪古希腊哲学家德谟克利特(公元前460—前370)说:“宁揭一因,胜为波斯王。” |
| | | |
− | 通过结构因果模型(SCM),我们可以回答反事实问题。
| + | 因果关系之梯第三层级的典型问题是:“假如我当时了……会怎样?”和“为什么?”两者都涉及观察到的世界与反事实世界的比较。仅靠干预实验无法回答这样的问题。如果第一层级对应的是观察到的世界,第二层级对应的是一个可被观察的美好新世界,那么第三层级对应的就是一个无法被观察的世界(因为它与我们观察到的世界截然相反)。为了弥合第三层级与前两个层级之间的差距,我们需要构建一个基础性的解释因果过程的模型,这种模型有时被称为“理论”,甚至(在构建者极其自信的情况下)可以被称为“自然法则”。简言之,人们需要掌握一种理解力,建立一种理论,据此人们就可以预测在尚未经历甚至未曾设想过的情况下会发生什么——这显然是所有科学分支的圣杯。但因果推断的意义还要更为深远:在掌握了各种法则之后,人们就可以有选择地违背它们,以创造出与现实世界相对立的世界。由此,出现了结构因果模型(SCM),通过它,我们可以回答反事实问题。 |
| | | |
| == 样例理解 == | | == 样例理解 == |