第8行: |
第8行: |
| | | |
| | | |
− | 在科学哲学中,'''<font color="#ff8000"> 因果模型 Causal Model</font>'''(或'''<font color="#ff8000"> 结构因果模型 Structural Causal Model</font>''')是描述系统因果机制的概念模型。因果模型可以通过提供清晰的规则来决定需要考虑/控制哪些自变量,从而改进研究设计。 | + | 在科学哲学中,'''<font color="#ff8000"> 因果模型 Causal Model</font>'''或'''<font color="#ff8000"> 结构因果模型 Structural Causal Model</font>''',是描述系统因果机制的概念模型。因果模型可以通过提供清晰的规则来决定需要考虑/控制哪些自变量,从而改进研究设计。 |
| | | |
| | | |
第14行: |
第14行: |
| | | |
| | | |
− | | + | 因果模型可以帮助解决'''<font color="#ff8000"> 外部有效性 External Validity</font>'''问题(一项研究的结果是否适用于未研究的总体)。在某些情况下,因果模型可以允许多项研究的数据合并起来回答任何单个数据集都无法回答的问题。 |
− | 因果模型可以帮助解决'''<font color="#ff8000"> 外部有效性 External Validity</font>'''问题(一项研究的结果是否适用于未研究的总体)。在某些情况下,因果模型可以允许多项研究的数据合并起来回答任何单个数据集都无法回答的问题。 | |
| | | |
| | | |
第24行: |
第23行: |
| | | |
| | | |
− | == 定义 Definition == | + | == 定义 == |
| | | |
| <blockquote>因果模型是表示单个系统或群体内因果关系的数学模型。它有助于从统计数据中推断因果关系,可以教会我们关于因果关系的认识论,并展现因果关系和概率之间的关系。它还被应用于哲学家感兴趣的主题,例如反事实逻辑、决策理论和实际因果关系分析。<ref>{{Citation|last=Hitchcock|first=Christopher|title=Causal Models|date=2018|url=https://plato.stanford.edu/archives/fall2018/entries/causal-models/|encyclopedia=The Stanford Encyclopedia of Philosophy|editor-last=Zalta|editor-first=Edward N.|edition=Fall 2018|publisher=Metaphysics Research Lab, Stanford University|access-date=2018-09-08}}</ref></blockquote> | | <blockquote>因果模型是表示单个系统或群体内因果关系的数学模型。它有助于从统计数据中推断因果关系,可以教会我们关于因果关系的认识论,并展现因果关系和概率之间的关系。它还被应用于哲学家感兴趣的主题,例如反事实逻辑、决策理论和实际因果关系分析。<ref>{{Citation|last=Hitchcock|first=Christopher|title=Causal Models|date=2018|url=https://plato.stanford.edu/archives/fall2018/entries/causal-models/|encyclopedia=The Stanford Encyclopedia of Philosophy|editor-last=Zalta|editor-first=Edward N.|edition=Fall 2018|publisher=Metaphysics Research Lab, Stanford University|access-date=2018-09-08}}</ref></blockquote> |
第30行: |
第29行: |
| Judea Pearl将因果模型定义为一个有序的三元组<math>\langle U, V, E\rangle</math>,其中<math> U </math>是一组外生变量,其值由模型外部的因素决定;<math>V </math>是一组内生变量,其值由模型内部的因素决定;<math>E </math>是一组结构方程,把每个内生变量的值表示为<math> U</math> 和<math> V </math>中其他变量值的函数。<ref name=":0" /> | | Judea Pearl将因果模型定义为一个有序的三元组<math>\langle U, V, E\rangle</math>,其中<math> U </math>是一组外生变量,其值由模型外部的因素决定;<math>V </math>是一组内生变量,其值由模型内部的因素决定;<math>E </math>是一组结构方程,把每个内生变量的值表示为<math> U</math> 和<math> V </math>中其他变量值的函数。<ref name=":0" /> |
| | | |
− | == 历史 History == | + | == 历史 = |
| | | |
| 亚里士多德定义了因果关系的分类法,包括质料因、形式因、动力因、目的因。休谟更偏爱反事实,他拒绝了亚里士多德的分类法。有段时间,他否认物体本身具有使得一个物体成为原因而另一个物体成为结果的“力量”。<ref name=":1"> [https://book.douban.com/subject/33438811/ Pearl, Judea; Mackenzie, Dana (2018-05-15). The Book of Why: The New Science of Cause and Effect. Basic Books. ISBN 9780465097616.]</ref>后来,他接受了“如果第一物体还没存在,第二个根本不存在”的观点(“but-for”因果关系)。<ref name=":1" /> | | 亚里士多德定义了因果关系的分类法,包括质料因、形式因、动力因、目的因。休谟更偏爱反事实,他拒绝了亚里士多德的分类法。有段时间,他否认物体本身具有使得一个物体成为原因而另一个物体成为结果的“力量”。<ref name=":1"> [https://book.douban.com/subject/33438811/ Pearl, Judea; Mackenzie, Dana (2018-05-15). The Book of Why: The New Science of Cause and Effect. Basic Books. ISBN 9780465097616.]</ref>后来,他接受了“如果第一物体还没存在,第二个根本不存在”的观点(“but-for”因果关系)。<ref name=":1" /> |
第62行: |
第61行: |
| | | |
| | | |
− | 1973年,Lewis提倡用but-for因果关系(反事实)代替相关性。他提到了人类具有想象某个原因是否发生和结果仅在原因后发生的不同可选世界的能力。<ref name=":1" />1974年Rubin引入了“潜在结果”(potential outcome)的概念,作为询问因果问题的语言。<ref name=":1" /> | + | 1973年,Lewis提倡用but-for因果关系(反事实)代替相关性。他提到了人类具有想象某个原因是否发生和结果仅在原因后发生的不同可选世界的能力。<ref name=":1" />1974年Rubin引入了“潜在结果 potential outcome”的概念,作为询问因果问题的语言。<ref name=":1" /> |
| | | |
| | | |
第73行: |
第72行: |
| 哥伦比亚大学设有因果人工智能实验室,该实验室正试图将因果建模理论与人工神经网络联系起来。<ref>{{Cite web|url=https://www.technologyreview.com/s/615189/what-ai-still-cant-do/|title=What AI still can't do|last=Bergstein|first=Brian|website=MIT Technology Review|language=en-US|access-date=2020-02-20}}</ref> | | 哥伦比亚大学设有因果人工智能实验室,该实验室正试图将因果建模理论与人工神经网络联系起来。<ref>{{Cite web|url=https://www.technologyreview.com/s/615189/what-ai-still-cant-do/|title=What AI still can't do|last=Bergstein|first=Brian|website=MIT Technology Review|language=en-US|access-date=2020-02-20}}</ref> |
| | | |
− | == 因果关系之梯 Ladder of Causation ==
| |
| | | |
− | Judea Pearl的因果元模型涉及三个层次的抽象,他称之为因果之梯。最低层的“关联”(看到/观察)需要感知输入数据中的规律性或模式,用相关性表示。中间层的“干预”(做)可以预测有意识行动的后果,用因果关系表示。最高层的“反事实”(想象)涉及构建部分世界的理论,该理论解释为什么特定行为会产生特定后果,以及在没有此行为的情况下会发生什么。<ref name=":1" />
| + | == 因果关系之梯== |
| | | |
− | === 关联 Association === | + | Judea Pearl的因果元模型涉及三个层次的抽象,他称之为因果之梯。最低层的“关联”(看到/观察)需要感知输入数据中的规律性或模式,用相关性表示。中间层的“干预 ”(do)可以预测有意识行动的后果,用因果关系表示。最高层的“反事实”(想象)涉及构建部分世界的理论,该理论解释为什么特定行为会产生特定后果,以及在没有此行为的情况下会发生什么。<ref name=":1" /> |
| + | |
| + | |
| + | === 关联 === |
| | | |
| 如果观察一个对象改变了观察另一个对象的可能性,则这个对象与另一个对象相关联。例子:购买牙膏的购物者也更有可能购买牙线。数学上用 | | 如果观察一个对象改变了观察另一个对象的可能性,则这个对象与另一个对象相关联。例子:购买牙膏的购物者也更有可能购买牙线。数学上用 |
第83行: |
第84行: |
| 表示已知一个人购买牙膏时的其购买牙线的可能性。关联也可以通过计算两个事件的相关性来衡量。关联并不意味着因果。一个事件可能导致另一个事件,反过来也可能,或者两个事件都可能由某个第三事件引起(牙医对口腔健康的宣传使得购物者同时购买牙线和牙膏)。<ref name=":1" /> | | 表示已知一个人购买牙膏时的其购买牙线的可能性。关联也可以通过计算两个事件的相关性来衡量。关联并不意味着因果。一个事件可能导致另一个事件,反过来也可能,或者两个事件都可能由某个第三事件引起(牙医对口腔健康的宣传使得购物者同时购买牙线和牙膏)。<ref name=":1" /> |
| | | |
− | === 干预 Intervention === | + | |
| + | === 干预 === |
| | | |
| 该层涉及事件之间的特定因果关系。因果是通过实验性地执行影响事件的一些动作来评估。例如:如果我们将牙膏的价格提高一倍,那么人们购买牙线的概率将是多少?因果无法通过检验历史信息来确定,因为可能存在其他因素同时影响这两个变量,比如存在牙膏价格变化的其他原因,而且这种原因会影响牙线的价格(例如两种商品的关税增加)。数学上用 | | 该层涉及事件之间的特定因果关系。因果是通过实验性地执行影响事件的一些动作来评估。例如:如果我们将牙膏的价格提高一倍,那么人们购买牙线的概率将是多少?因果无法通过检验历史信息来确定,因为可能存在其他因素同时影响这两个变量,比如存在牙膏价格变化的其他原因,而且这种原因会影响牙线的价格(例如两种商品的关税增加)。数学上用 |
| + | |
| :<math>P (牙线价格 | do(牙膏价格)) </math> | | :<math>P (牙线价格 | do(牙膏价格)) </math> |
| + | |
| 表示这种概率。其中do是一个算子,表示对谁做实验性干预(如价格翻倍)。<ref name=":1" />这个算子指示了要在创造所需效果的世界中进行最小的变化,即在现实模型上进行尽可能小的改变的“小手术”。<ref>{{cite journal |last1=Pearl |first1=Judea |title=Causal and Counterfactual Inference |date=29 Oct 2019 |url=https://ftp.cs.ucla.edu/pub/stat_ser/r485.pdf |access-date=14 December 2020}}</ref> | | 表示这种概率。其中do是一个算子,表示对谁做实验性干预(如价格翻倍)。<ref name=":1" />这个算子指示了要在创造所需效果的世界中进行最小的变化,即在现实模型上进行尽可能小的改变的“小手术”。<ref>{{cite journal |last1=Pearl |first1=Judea |title=Causal and Counterfactual Inference |date=29 Oct 2019 |url=https://ftp.cs.ucla.edu/pub/stat_ser/r485.pdf |access-date=14 December 2020}}</ref> |
| | | |
− | === 反事实 Counterfactuals === | + | |
| + | === 反事实 === |
| | | |
| 最高层的反事实涉及对过去事件的其他可能版本的考虑,或者考虑同一实验个体中在不同情况下会发生的情况。例如,如果当初那家商店的牙线价格翻了一番,那么当时那些购买牙膏的购物者仍然会购买牙线的可能性是多少? | | 最高层的反事实涉及对过去事件的其他可能版本的考虑,或者考虑同一实验个体中在不同情况下会发生的情况。例如,如果当初那家商店的牙线价格翻了一番,那么当时那些购买牙膏的购物者仍然会购买牙线的可能性是多少? |
第97行: |
第102行: |
| 反事实可以表明存在因果关系。回答反事实的模型允许进行精确的干预,这些干预的后果可被预测。在极端情况下,这样的模型被人们认为是物理定律(如惯性:若不将力施加到静止物体上物体将不会移动)。<ref name=":1" /> | | 反事实可以表明存在因果关系。回答反事实的模型允许进行精确的干预,这些干预的后果可被预测。在极端情况下,这样的模型被人们认为是物理定律(如惯性:若不将力施加到静止物体上物体将不会移动)。<ref name=":1" /> |
| | | |
− | == 因果 Causality ==
| |
| | | |
− | === 因果和相关 Causality vs Correlation === | + | == 因果 == |
| + | === 因果和相关 === |
| | | |
| 统计学涉及分析多个变量之间的关系。传统上,这些关系被描述为相关性,即没有任何隐含因果关系的关联。因果模型试图通过添加因果关系的概念来扩展此框架,在因果关系中,一个变量的变化导致其他变量的变化。<ref name=":0" /> | | 统计学涉及分析多个变量之间的关系。传统上,这些关系被描述为相关性,即没有任何隐含因果关系的关联。因果模型试图通过添加因果关系的概念来扩展此框架,在因果关系中,一个变量的变化导致其他变量的变化。<ref name=":0" /> |
| + | |
| | | |
| 20世纪因果的定义完全依赖于概率或关联。如果一个事件<math> X </math>增加了另一个事件<math> Y </math>的可能性,则认为它会导致另一个事件。在数学上,这表示为: | | 20世纪因果的定义完全依赖于概率或关联。如果一个事件<math> X </math>增加了另一个事件<math> Y </math>的可能性,则认为它会导致另一个事件。在数学上,这表示为: |
| :<math>P (Y | X) > P(Y)</math> | | :<math>P (Y | X) > P(Y)</math> |
| 这样的定义是不充分的,因为可能有其他关系(例如,<math> X </math>和<math> Y </math>的共同原因)可以满足该条件。因果与因果之梯的第二层有关。关联处于第一层,仅向第二层提供证据。<ref name=":1" /> | | 这样的定义是不充分的,因为可能有其他关系(例如,<math> X </math>和<math> Y </math>的共同原因)可以满足该条件。因果与因果之梯的第二层有关。关联处于第一层,仅向第二层提供证据。<ref name=":1" /> |
| + | |
| | | |
| 之后的定义试图通过以背景因素为条件来解决这种歧义。数学上表示为: | | 之后的定义试图通过以背景因素为条件来解决这种歧义。数学上表示为: |
| + | |
| | | |
| :<math>P (Y | X, K = k) > P(Y| K = k)</math> | | :<math>P (Y | X, K = k) > P(Y| K = k)</math> |
| + | |
| | | |
| 其中<math> K </math>是背景变量的集合,<math> k </math>表示特定语境中背景变量的值。但是,只要概率是唯一准则,那么所需的背景变量集是难以确定的。<ref name=":1" /> | | 其中<math> K </math>是背景变量的集合,<math> k </math>表示特定语境中背景变量的值。但是,只要概率是唯一准则,那么所需的背景变量集是难以确定的。<ref name=":1" /> |
| + | |
| | | |
| 定义因果的其他尝试包括'''<font color="#ff8000"> 格兰杰因果 Granger Causality </font>''',这是一种统计假设检验,在经济学中,可以通过衡量用一个时间序列的过去值预测另一个时间序列的未来值的能力,来评估序列间的因果。<ref name=":1" /> | | 定义因果的其他尝试包括'''<font color="#ff8000"> 格兰杰因果 Granger Causality </font>''',这是一种统计假设检验,在经济学中,可以通过衡量用一个时间序列的过去值预测另一个时间序列的未来值的能力,来评估序列间的因果。<ref name=":1" /> |
| | | |
− | === 类型 Types === | + | |
| + | === 类型=== |
| | | |
| 原因可以是必要的、充分的、部分的以及它们的组合。<ref>{{Cite book|url={{google books |plainurl=y |id=skIZAQAAIAAJ|page=25}} |title=Discrete Mathematics with Applications|last=Epp|first=Susanna S.|date=2004|publisher=Thomson-Brooks/Cole|isbn=9780534359454|language=en|pages= 25–26}}</ref> | | 原因可以是必要的、充分的、部分的以及它们的组合。<ref>{{Cite book|url={{google books |plainurl=y |id=skIZAQAAIAAJ|page=25}} |title=Discrete Mathematics with Applications|last=Epp|first=Susanna S.|date=2004|publisher=Thomson-Brooks/Cole|isbn=9780534359454|language=en|pages= 25–26}}</ref> |
| | | |
− | ==== 必要因 Necessary Causes ==== | + | |
| + | ==== 必要因 ==== |
| 对于<math> y </math>的必要因<math> x </math>,<math>y </math>的存在意味着<math> x </math>在此前发生了。但是<math> x </math>的存在不意味着y会发生。必要因也被称为“若非(but-for)”因,即<math>y</math>不会发生若非<math> x </math>发生。<ref name=":1" /> | | 对于<math> y </math>的必要因<math> x </math>,<math>y </math>的存在意味着<math> x </math>在此前发生了。但是<math> x </math>的存在不意味着y会发生。必要因也被称为“若非(but-for)”因,即<math>y</math>不会发生若非<math> x </math>发生。<ref name=":1" /> |
| | | |
− | ==== 充分因 Sufficient Causes ==== | + | |
| + | ==== 充分因 ==== |
| 对于<math>y</math>的充分因<math>x</math>,<math>x</math>的存在意味着<math>y</math>接下来会发生。然而另一个原因<math>z</math>也可能独立地造成<math>y</math>的发生。即<math>y</math>的发生不要求<math>x</math>的发生。 <ref name="CR" >[http://www.istarassessment.org/srdims/causal-reasoning-2/ "Causal Reasoning"]. www.istarassessment.org. Retrieved 2 March 2016.</ref> | | 对于<math>y</math>的充分因<math>x</math>,<math>x</math>的存在意味着<math>y</math>接下来会发生。然而另一个原因<math>z</math>也可能独立地造成<math>y</math>的发生。即<math>y</math>的发生不要求<math>x</math>的发生。 <ref name="CR" >[http://www.istarassessment.org/srdims/causal-reasoning-2/ "Causal Reasoning"]. www.istarassessment.org. Retrieved 2 March 2016.</ref> |
| | | |
− | ==== 部分因 Contributory Causes ==== | + | |
| + | ==== 部分因==== |
| 对于<math>y</math>的部分因<math>x</math>,<math>x</math>的存在会增加<math>y</math>的似然。如果似然是100%,那么<math>x</math>就是充分的。部分因也是必要的。<ref name="Riegelman">{{Cite journal|last1=Riegelman|first1=R.|year=1979|title=Contributory cause: Unnecessary and insufficient|journal=Postgraduate Medicine|volume=66|issue=2|pages=177–179|doi=10.1080/00325481.1979.11715231|pmid=450828}}</ref> | | 对于<math>y</math>的部分因<math>x</math>,<math>x</math>的存在会增加<math>y</math>的似然。如果似然是100%,那么<math>x</math>就是充分的。部分因也是必要的。<ref name="Riegelman">{{Cite journal|last1=Riegelman|first1=R.|year=1979|title=Contributory cause: Unnecessary and insufficient|journal=Postgraduate Medicine|volume=66|issue=2|pages=177–179|doi=10.1080/00325481.1979.11715231|pmid=450828}}</ref> |
| | | |
− | === 模型 Model ===
| |
| | | |
− | ==== 因果图 Causal Diagram ==== | + | === 模型 === |
| + | ==== 因果图==== |
| | | |
| 因果图是一个有向图,它显示了因果模型中变量间的因果关系。因果图包括一组变量(或节点),每个节点通过箭头连接到一个或多个对其具有因果效应的其他节点。箭头描绘了因果的方向,例如,将变量<math> A </math>和变量<math>B</math> 以指向 <math>B</math> 的箭头相连表示A的变化以某种概率导致<math>B</math>的变化。一条路径是两个节点间沿着因果箭头的图的遍历。<ref name=":1" /> | | 因果图是一个有向图,它显示了因果模型中变量间的因果关系。因果图包括一组变量(或节点),每个节点通过箭头连接到一个或多个对其具有因果效应的其他节点。箭头描绘了因果的方向,例如,将变量<math> A </math>和变量<math>B</math> 以指向 <math>B</math> 的箭头相连表示A的变化以某种概率导致<math>B</math>的变化。一条路径是两个节点间沿着因果箭头的图的遍历。<ref name=":1" /> |
| + | |
| | | |
| 因果图包括'''<font color="#ff8000"> 因果环图 Causal Loop Diagrams </font>''','''<font color="#ff8000"> 有向无环图 Directed Acyclic Graphs </font>'''和'''<font color="#ff8000"> 鱼骨图 Ishikawa diagrams</font>'''。<ref name=":1" /> | | 因果图包括'''<font color="#ff8000"> 因果环图 Causal Loop Diagrams </font>''','''<font color="#ff8000"> 有向无环图 Directed Acyclic Graphs </font>'''和'''<font color="#ff8000"> 鱼骨图 Ishikawa diagrams</font>'''。<ref name=":1" /> |
| + | |
| | | |
| 因果图和它们的定量概率无关,对这些概率的更改不需要修改因果图。<ref name=":1" /> | | 因果图和它们的定量概率无关,对这些概率的更改不需要修改因果图。<ref name=":1" /> |
| | | |
− | ==== 模型元素 Model elements ==== | + | |
| + | ==== 模型元素 ==== |
| 因果模型具有形式结构,其元素具有特定的属性。<ref name=":1" /> | | 因果模型具有形式结构,其元素具有特定的属性。<ref name=":1" /> |
| | | |
− | ===== 连接方式 Junction Patterns ===== | + | |
| + | ===== 连接方式 ===== |
| 三个节点的连接类型有三种,分别是线型的链,分支型的叉和合并型的对撞。<ref name=":1" /> | | 三个节点的连接类型有三种,分别是线型的链,分支型的叉和合并型的对撞。<ref name=":1" /> |
| | | |
− | ====== 链 Chain ====== | + | |
| + | ====== 链 ====== |
| 链(结构)是直线连接,箭头从原因指向结果。在这个模型中,<math>B</math>是中介变量,因为它调节了<math> A</math> 对<math> C</math> 的影响。<ref name=":1" /> | | 链(结构)是直线连接,箭头从原因指向结果。在这个模型中,<math>B</math>是中介变量,因为它调节了<math> A</math> 对<math> C</math> 的影响。<ref name=":1" /> |
| :<math> A \rightarrow B \rightarrow C</math> | | :<math> A \rightarrow B \rightarrow C</math> |
− | ====== 叉 Fork ====== | + | |
| + | |
| + | ====== 叉====== |
| 在叉(结构)中,一个原因有多种结果,这两种结果有一个共同的原因。 <math>A </math>和<math> C</math> 之间存在非因果的虚假相关性,可以通过把<math> B</math> 作为条件(选取<math>B</math>的特定值)来消除虚假相关性。<ref name=":1" /> | | 在叉(结构)中,一个原因有多种结果,这两种结果有一个共同的原因。 <math>A </math>和<math> C</math> 之间存在非因果的虚假相关性,可以通过把<math> B</math> 作为条件(选取<math>B</math>的特定值)来消除虚假相关性。<ref name=":1" /> |
| + | |
| :<math> A \leftarrow B \rightarrow C</math> | | :<math> A \leftarrow B \rightarrow C</math> |
− | “把B作为条件”是指“给定B”(即B取某个值)。
| + | |
− | 某些情况下叉(结构)是混杂因子:
| + | “把B作为条件”是指“给定B”(即B取某个值)。某些情况下叉(结构)是混杂因子: |
| + | |
| :<math> A \leftarrow B \rightarrow C \rightarrow A</math> | | :<math> A \leftarrow B \rightarrow C \rightarrow A</math> |
| 在这样的模型中,<math> B </math>是<math> A </math>和<math> C </math>的共同原因( <math>C</math> 也是<math> A </math>的原因),这使<math>B</math>成为'''<font color="#ff8000"> 混杂因子 Confounder </font>'''。<ref name=":1" /> | | 在这样的模型中,<math> B </math>是<math> A </math>和<math> C </math>的共同原因( <math>C</math> 也是<math> A </math>的原因),这使<math>B</math>成为'''<font color="#ff8000"> 混杂因子 Confounder </font>'''。<ref name=":1" /> |
| | | |
− | ====== 对撞 Collider ====== | + | |
| + | ====== 对撞 ====== |
| 在对撞(结构)中,多种原因会影响一种结果。以 <math>B</math> 为条件( <math>B</math> 取特定值)通常会揭示 <math>A</math> 与<math> C</math> 之间的非因果的负相关。这种负相关被称为对撞偏差和“辩解”效应,即 <math>B</math> 解释了<math> A</math> 与 <math>C</math> 之间的相关性。<ref name=":1" /> <math>A</math> 和<math> C</math> 两者都是影响 <math>B</math> 的必要因时,该相关性是正的。<ref name=":1" /> | | 在对撞(结构)中,多种原因会影响一种结果。以 <math>B</math> 为条件( <math>B</math> 取特定值)通常会揭示 <math>A</math> 与<math> C</math> 之间的非因果的负相关。这种负相关被称为对撞偏差和“辩解”效应,即 <math>B</math> 解释了<math> A</math> 与 <math>C</math> 之间的相关性。<ref name=":1" /> <math>A</math> 和<math> C</math> 两者都是影响 <math>B</math> 的必要因时,该相关性是正的。<ref name=":1" /> |
| :<math> A \rightarrow B \leftarrow C</math> | | :<math> A \rightarrow B \leftarrow C</math> |
| | | |
− | ==== 节点类型 Node Types ==== | + | |
− | ===== 中介变量 Mediator ===== | + | ==== 节点类型 ==== |
| + | ===== 中介变量 ===== |
| 中介变量节点修改了其他原因对结果的影响(这与原因简单地影响结果不同)。<ref name=":1" />例如,在上面的链结构中,<math>B</math>是中介变量,因为它修改了 <math>C</math> 的间接原因<math> A</math> 对结果变量 <math>C</math> 的影响。 | | 中介变量节点修改了其他原因对结果的影响(这与原因简单地影响结果不同)。<ref name=":1" />例如,在上面的链结构中,<math>B</math>是中介变量,因为它修改了 <math>C</math> 的间接原因<math> A</math> 对结果变量 <math>C</math> 的影响。 |
| | | |
− | ===== 混杂因子 Confounder ===== | + | |
| + | ===== 混杂因子 ===== |
| 混杂因子节点影响多个结果,从而在它们之间产生正相关。<ref name=":1" /> | | 混杂因子节点影响多个结果,从而在它们之间产生正相关。<ref name=":1" /> |
| | | |
− | ===== 工具变量 Instrumental Variable ===== | + | |
| + | ===== 工具变量 ===== |
| 满足如下条件的是工具变量:<ref name=":1" /> | | 满足如下条件的是工具变量:<ref name=":1" /> |
− | (1)有通往结果变量的路径
| |
| | | |
− | (2)没有通往其他原因变量(解释变量)的路径
| |
| | | |
− | (3)对结果没有直接影响
| + | #有通往结果变量的路径 |
| + | #没有通往其他原因变量(解释变量)的路径 |
| + | #对结果没有直接影响 |
| + | |
| + | |
| + | 回归系数可以用作工具变量对结果的因果影响的估计,只要该影响不被混杂即可。通过这种方式,工具变量允许对因果因子进行量化,而无需有关混杂因子的数据。<ref name=":1" />例如,给定模型: |
| | | |
− | 回归系数可以用作工具变量对结果的因果影响的估计,只要该影响不被混杂即可。通过这种方式,工具变量允许对因果因子进行量化,而无需有关混杂因子的数据。<ref name=":1" />
| |
− | 例如,给定模型:
| |
| :<math> Z \rightarrow X \rightarrow Y \leftarrow U \rightarrow X</math> | | :<math> Z \rightarrow X \rightarrow Y \leftarrow U \rightarrow X</math> |
| <math>Z</math>是一种工具变量,因为它有一条通往结果<math>Y</math>的路径,并且不受<math>U</math>的混杂。 | | <math>Z</math>是一种工具变量,因为它有一条通往结果<math>Y</math>的路径,并且不受<math>U</math>的混杂。 |
| + | |
| | | |
| 在上面的例子中,如果Z和X是二进制值,那么Z=0,X=1不出现的假设称为单调性。 | | 在上面的例子中,如果Z和X是二进制值,那么Z=0,X=1不出现的假设称为单调性。 |
| + | |
| | | |
| 对该技术的改进包括通过调节其他变量来创建工具变量,以阻断工具变量和混杂因子之间的路径,并组合多个变量以形成单个工具变量。<ref name=":1" /> | | 对该技术的改进包括通过调节其他变量来创建工具变量,以阻断工具变量和混杂因子之间的路径,并组合多个变量以形成单个工具变量。<ref name=":1" /> |
| | | |
− | ===== 孟德尔随机化 Mendelian randomization ===== | + | |
| + | ===== 孟德尔随机化 ===== |
| | | |
| 定义:孟德尔随机化使用已知功能的基因,来观察研究中可改变的部分对疾病的因果关系。<ref name="Katan1986">{{cite journal|author=Katan MB|date=March 1986|title=Apolipoprotein E isoforms, serum cholesterol, and cancer|journal=Lancet|volume=1|issue=8479|pages=507–8|doi=10.1016/s0140-6736(86)92972-7}}</ref><ref>{{Cite book|url=https://www.ncbi.nlm.nih.gov/books/NBK62433/|title=Mendelian Randomization: Genetic Variants as Instruments for Strengthening Causal Inference in Observational Studies|last1=Smith|first1=George Davey|last2=Ebrahim|first2=Shah|date=2008|publisher=National Academies Press }}</ref> | | 定义:孟德尔随机化使用已知功能的基因,来观察研究中可改变的部分对疾病的因果关系。<ref name="Katan1986">{{cite journal|author=Katan MB|date=March 1986|title=Apolipoprotein E isoforms, serum cholesterol, and cancer|journal=Lancet|volume=1|issue=8479|pages=507–8|doi=10.1016/s0140-6736(86)92972-7}}</ref><ref>{{Cite book|url=https://www.ncbi.nlm.nih.gov/books/NBK62433/|title=Mendelian Randomization: Genetic Variants as Instruments for Strengthening Causal Inference in Observational Studies|last1=Smith|first1=George Davey|last2=Ebrahim|first2=Shah|date=2008|publisher=National Academies Press }}</ref> |
| + | |
| | | |
| 由于基因在人群中随机变化,基因的存在通常可以视为工具变量。这意味着在许多情况下,可以使用观察性研究中的回归来量化因果关系。<ref name=":1" /> | | 由于基因在人群中随机变化,基因的存在通常可以视为工具变量。这意味着在许多情况下,可以使用观察性研究中的回归来量化因果关系。<ref name=":1" /> |
| | | |
− | == 关联 Associations == | + | |
− | === 独立性条件 Independence Conditions === | + | == 关联 == |
| + | === 独立性条件 === |
| | | |
| 独立性条件是用于确定两个变量是否彼此独立的规则。如果一个变量的值不直接影响另一个变量的值,则两个变量是独立的。多个因果模型可以共享独立条件。例如,模型 | | 独立性条件是用于确定两个变量是否彼此独立的规则。如果一个变量的值不直接影响另一个变量的值,则两个变量是独立的。多个因果模型可以共享独立条件。例如,模型 |
第196行: |
第229行: |
| 和 | | 和 |
| :<math> A \leftarrow B \rightarrow C</math> | | :<math> A \leftarrow B \rightarrow C</math> |
| + | 具有相同的独立条件,因为<math> B </math>作为条件时<math> A </math>和<math> C </math>独立。但是,这两个模型的含义不同,还可能与数据不符(也就是说,如果观测数据显示在<math> B </math>作为条件后显示了<math> A </math>和<math> C </math>之间的关联,那么这两个模型都是不正确的)。相反,数据无法显示这两个模型中的哪个是正确的,因为它们具有相同的独立性条件。 |
| | | |
− | 具有相同的独立条件,因为<math> B </math>作为条件时<math> A </math>和<math> C </math>独立。但是,这两个模型的含义不同,还可能与数据不符(也就是说,如果观测数据显示在<math> B </math>作为条件后显示了<math> A </math>和<math> C </math>之间的关联,那么这两个模型都是不正确的)。相反,数据无法显示这两个模型中的哪个是正确的,因为它们具有相同的独立性条件。
| |
| | | |
| 将变量作为条件是进行假设实验的一种机制。将变量作为条件即在条件变量的给定值下分析其他变量的值。在第一个示例中,<math> B </math>作为条件意味着给定<math> B</math> 的取值的观察,此时不应显示出<math> A </math>和<math> C</math> 之间的依赖关系。如果存在这种依赖关系,则该模型是不正确的。非因果模型无法进行这种区分的,因为它们不会做出因果断言。<ref name=":1" /> | | 将变量作为条件是进行假设实验的一种机制。将变量作为条件即在条件变量的给定值下分析其他变量的值。在第一个示例中,<math> B </math>作为条件意味着给定<math> B</math> 的取值的观察,此时不应显示出<math> A </math>和<math> C</math> 之间的依赖关系。如果存在这种依赖关系,则该模型是不正确的。非因果模型无法进行这种区分的,因为它们不会做出因果断言。<ref name=":1" /> |
| | | |
− | === 混杂/去混杂 Confounder/Deconfounder === | + | |
| + | === 混杂/去混杂 === |
| | | |
| 设计相关性研究的基本要素是确定对所研究变量的潜在混杂影响。控制这些变量是为了消除这些影响。但是,这些混杂变量无法被先验地正确确定。因此,一项研究可能会控制不相关的变量,甚至(间接地)控制了所研究的变量。<ref name=":1" /> | | 设计相关性研究的基本要素是确定对所研究变量的潜在混杂影响。控制这些变量是为了消除这些影响。但是,这些混杂变量无法被先验地正确确定。因此,一项研究可能会控制不相关的变量,甚至(间接地)控制了所研究的变量。<ref name=":1" /> |
| + | |
| | | |
| 因果模型为识别恰当的混杂变量提供了一种鲁棒的技术。形式上,如果“ <math>Y</math> 通过不经过<math> X</math> 的路径与 <math>Z</math> 关联”,则<math> Z</math> 是混杂因素。这些混杂变量通常可以使用其他研究所收集的数据来确定。数学上,如果 | | 因果模型为识别恰当的混杂变量提供了一种鲁棒的技术。形式上,如果“ <math>Y</math> 通过不经过<math> X</math> 的路径与 <math>Z</math> 关联”,则<math> Z</math> 是混杂因素。这些混杂变量通常可以使用其他研究所收集的数据来确定。数学上,如果 |
| :<math> P(Y|X) \neq P(Y|do(X))</math> | | :<math> P(Y|X) \neq P(Y|do(X))</math> |
| 那么X是Y的混杂因子。<ref name=":1" /> | | 那么X是Y的混杂因子。<ref name=":1" /> |
| + | |
| | | |
| 在此之前,混杂因子的不正确的定义包括:<ref name=":1" /> | | 在此之前,混杂因子的不正确的定义包括:<ref name=":1" /> |
| | | |
− | (1)“与<math>X</math>和<math>Y</math>都相关的任何变量。”
| + | #“与<math>X</math>和<math>Y</math>都相关的任何变量。” |
| + | #<math>Y</math>和未观测变量<math>Z</math>有关联 |
| + | #不相容性:“原始相对风险和潜在混杂因素调整后产生的相对风险”之间的差异 |
| + | #流行病学:在大范围总体中与 <math>X</math> 相关的变量,而在未接触<math> X</math> 的人群中与<math> Y </math>相关的变量。 |
| | | |
− | (2)<math>Y</math>和未观测变量<math>Z</math>有关联
| |
− |
| |
− | (3)不相容性:“原始相对风险和潜在混杂因素调整后产生的相对风险”之间的差异
| |
− |
| |
− | (4)流行病学:在大范围总体中与 <math>X</math> 相关的变量,而在未接触<math> X</math> 的人群中与<math> Y </math>相关的变量。
| |
| | | |
| 在如下模型中,上述定义是有缺陷的: | | 在如下模型中,上述定义是有缺陷的: |
第223行: |
第257行: |
| :<math> X \rightarrow Z \rightarrow Y</math> | | :<math> X \rightarrow Z \rightarrow Y</math> |
| <math>Z </math>符合定义,但 <math>Z</math> 是中介变量,而不是混杂因子,并且是控制结果的一个例子。 | | <math>Z </math>符合定义,但 <math>Z</math> 是中介变量,而不是混杂因子,并且是控制结果的一个例子。 |
| + | |
| | | |
| 在模型中 | | 在模型中 |
第228行: |
第263行: |
| 传统上,<math> B</math> 被认为是混杂因子,因为它与<math> X </math>和<math> Y</math> 关联,但 <math>B</math> 既不在因果路径上,也不是因果路径上任何节点的后代。控制 <math>B</math> 将使<math> B</math> 成为混杂因子。这被称为M偏差。<ref name=":1" /> | | 传统上,<math> B</math> 被认为是混杂因子,因为它与<math> X </math>和<math> Y</math> 关联,但 <math>B</math> 既不在因果路径上,也不是因果路径上任何节点的后代。控制 <math>B</math> 将使<math> B</math> 成为混杂因子。这被称为M偏差。<ref name=":1" /> |
| | | |
− | === 后门调整 Backdoor Adjustment === | + | |
| + | === 后门调整 === |
| 为了分析因果模型中<math>X</math>对<math>Y</math>的因果效应,我们需要针对所有混杂变量进行调整(去混杂)。<ref name=":1" />为了确定混杂变量的集合,我们需要 | | 为了分析因果模型中<math>X</math>对<math>Y</math>的因果效应,我们需要针对所有混杂变量进行调整(去混杂)。<ref name=":1" />为了确定混杂变量的集合,我们需要 |
| | | |
− | (1)通过该集合阻塞<math>X</math>和<math>Y</math>之间的每个非因果路径
| + | #通过该集合阻塞<math>X</math>和<math>Y</math>之间的每个非因果路径 |
| + | #不破坏任何原有的因果路径 |
| + | #不创建任何虚假路径 |
| | | |
− | (2)不破坏任何原有的因果路径
| |
| | | |
− | (3)不创建任何虚假路径
| + | 定义:从<math>X</math>到<math>Y</math>的后门路径是指,从从<math> X</math> 到<math> Y</math> 的任何以指向<math> X</math> 的箭头为开始的路径。<ref name=":1" /> |
| | | |
− | 定义:从<math>X</math>到<math>Y</math>的后门路径是指,从从<math> X</math> 到<math> Y</math> 的任何以指向<math> X</math> 的箭头为开始的路径。<ref name=":1" />
| |
| | | |
| 定义:给定模型中的一对有序变量<math>(X,Y)</math>,如果 | | 定义:给定模型中的一对有序变量<math>(X,Y)</math>,如果 |
| | | |
− | (1)混杂变量集<math>Z</math>中没有<math>X</math>的后代,
| + | #混杂变量集<math>Z</math>中没有<math>X</math>的后代, |
| | | |
− | (2)<math>X</math>和<math>Y</math>之间的所有后门路径都被<math>Z</math>中的混杂变量阻断,
| + | #<math>X</math>和<math>Y</math>之间的所有后门路径都被<math>Z</math>中的混杂变量阻断, |
| | | |
| 则称混杂变量集<math>Z</math>满足后门准则。 | | 则称混杂变量集<math>Z</math>满足后门准则。 |
| + | |
| | | |
| 如果<math>(X,Y)</math>满足后门准则,则在控制混杂变量集<math> Z</math> 时<math> X</math> 和<math> Y</math> 是无混杂的。除了混杂变量外,没有必要控制其他任何变量。<ref name=":1" />后门准则是找到混杂变量<math> Z </math>的集合的充分条件,但不是分析<math> X </math>对<math> Y </math>的因果效应必要条件。 | | 如果<math>(X,Y)</math>满足后门准则,则在控制混杂变量集<math> Z</math> 时<math> X</math> 和<math> Y</math> 是无混杂的。除了混杂变量外,没有必要控制其他任何变量。<ref name=":1" />后门准则是找到混杂变量<math> Z </math>的集合的充分条件,但不是分析<math> X </math>对<math> Y </math>的因果效应必要条件。 |
第253行: |
第290行: |
| 当因果模型是现实的合理表示并且满足后门准则时,则对于线性关系可以将'''<font color="#ff8000"> 偏回归系数 Partial Regression Coefficients </font>'''作为'''<font color="#ff8000"> (因果)路径系数 (Causal) Path Coefficients </font>'''。<ref name=":1"/> <ref>[http://bayes.cs.ucla.edu/BOOK-2K/ch3-3.pdf chapter 3-3 Controlling Confounding Bias]</ref> | | 当因果模型是现实的合理表示并且满足后门准则时,则对于线性关系可以将'''<font color="#ff8000"> 偏回归系数 Partial Regression Coefficients </font>'''作为'''<font color="#ff8000"> (因果)路径系数 (Causal) Path Coefficients </font>'''。<ref name=":1"/> <ref>[http://bayes.cs.ucla.edu/BOOK-2K/ch3-3.pdf chapter 3-3 Controlling Confounding Bias]</ref> |
| :<math> P(Y|do(X))=\sum_z{P(Y|X,Z=z)P(Z=z)}</math> | | :<math> P(Y|do(X))=\sum_z{P(Y|X,Z=z)P(Z=z)}</math> |
| + | |
| | | |
| === 前门调整 Frontdoor Adjustment === | | === 前门调整 Frontdoor Adjustment === |
| | | |
| 如果阻塞路径的所有元素都不可观测,则后门路径不可计算,但是如果所有从<math> X </math>到<math> Y </math>的路径都有元素<math> z</math> ,并且<math> z</math> 到<math> Y </math>没有开放的路径,那么我们可以使用<math> z </math>的集合<math> Z </math>来测量<math> P(Y|do(X))</math>。实际上<math> Z </math>作为<math> X </math>的代理时有一些条件。 | | 如果阻塞路径的所有元素都不可观测,则后门路径不可计算,但是如果所有从<math> X </math>到<math> Y </math>的路径都有元素<math> z</math> ,并且<math> z</math> 到<math> Y </math>没有开放的路径,那么我们可以使用<math> z </math>的集合<math> Z </math>来测量<math> P(Y|do(X))</math>。实际上<math> Z </math>作为<math> X </math>的代理时有一些条件。 |
| + | |
| | | |
| 定义<ref>{{Cite book|title=Causal Inference in Statistics: A Primer|ISBN=978-1-119-18684-7|last1=Pearl|first1=Judea|last2=Glymour|first2=Madelyn|first3=Nicholas P|last3=Jewell}}</ref>:前门路径是这样的直接因果路径<ref name=":1" /> | | 定义<ref>{{Cite book|title=Causal Inference in Statistics: A Primer|ISBN=978-1-119-18684-7|last1=Pearl|first1=Judea|last2=Glymour|first2=Madelyn|first3=Nicholas P|last3=Jewell}}</ref>:前门路径是这样的直接因果路径<ref name=":1" /> |
| | | |
− | (1)<math>Z</math>阻断了所有<math>X</math>到<math>Y</math>的有向路径
| |
| | | |
− | (2)<math>X</math>到<math>Y</math>没有后门路径
| + | #<math>Z</math>阻断了所有<math>X</math>到<math>Y</math>的有向路径 |
| + | #<math>X</math>到<math>Y</math>没有后门路径 |
| + | #所有<math>Z</math>到<math>Y</math>的后门路径都被<math>X</math>阻断 |
| | | |
− | (3)所有<math>Z</math>到<math>Y</math>的后门路径都被<math>X</math>阻断
| |
| | | |
| 以下式子通过将前门路径上的变量集<math>Z</math>作条件,将含有do的表达式转化成不含do的表达式:<ref name=":1" /> | | 以下式子通过将前门路径上的变量集<math>Z</math>作条件,将含有do的表达式转化成不含do的表达式:<ref name=":1" /> |
| :<math> P(Y|do(X))=\sum_z{[P(Z=z|X)\sum_x{P(Y|X=x,Z=z)P(X=x)}]}</math> | | :<math> P(Y|do(X))=\sum_z{[P(Z=z|X)\sum_x{P(Y|X=x,Z=z)P(X=x)}]}</math> |
| + | |
| | | |
| 假定上述概率涉及到的观察数据可用,则无需进行实验即可计算出最终概率,而不管是否存在其他混杂路径且无需进行后门调整。<ref name=":1" /> | | 假定上述概率涉及到的观察数据可用,则无需进行实验即可计算出最终概率,而不管是否存在其他混杂路径且无需进行后门调整。<ref name=":1" /> |
| | | |
− | == 干预 Interventions ==
| |
| | | |
− | === 查询 Queries === | + | == 干预 == |
| + | |
| + | === 查询 === |
| | | |
| 查询是根据特定模型提出的问题。通常通过进行干预实验来回答这些问题。“干预”会设定模型中一个变量的值并观察结果。从数学上讲,此类查询采用以下形式(例子):<ref name=":1" /> | | 查询是根据特定模型提出的问题。通常通过进行干预实验来回答这些问题。“干预”会设定模型中一个变量的值并观察结果。从数学上讲,此类查询采用以下形式(例子):<ref name=":1" /> |
| + | |
| :<math> P(牙线价格|do(牙膏价格))</math> | | :<math> P(牙线价格|do(牙膏价格))</math> |
| | | |
| 其中do算子表示该实验明确修改牙膏的价格。图模型上看,这可以阻止任何可能影响该变量的因果变量。这消除了所有指向实验变量(牙膏价格)的因果箭头。<ref name=":1" /> | | 其中do算子表示该实验明确修改牙膏的价格。图模型上看,这可以阻止任何可能影响该变量的因果变量。这消除了所有指向实验变量(牙膏价格)的因果箭头。<ref name=":1" /> |
| + | |
| | | |
| do算子也可以应用于多个变量(使它们取值固定)进行更复杂的查询。 | | do算子也可以应用于多个变量(使它们取值固定)进行更复杂的查询。 |
| | | |
− | === Do演算 Do-calculus === | + | |
| + | === Do演算=== |
| Do演算是一组可用于将一个表达式转换为另一个表达式的一系列操作,其总体目标是将包含do算子的表达式转换为不包含do算子的表达式。不含do算子的表达式可以仅从观察数据中估计出来,而无需进行实验干预;而实验干预可能是代价大,耗时长甚至是不道德的(例如,要求受试者吸烟)。<ref name=":1" />Do演算的规则集是完备的,可用于推导出该系统中的每个真命题。有一种算法可以确定对于给定模型,是否可以在多项式时间内求解。<ref name=":1" /> | | Do演算是一组可用于将一个表达式转换为另一个表达式的一系列操作,其总体目标是将包含do算子的表达式转换为不包含do算子的表达式。不含do算子的表达式可以仅从观察数据中估计出来,而无需进行实验干预;而实验干预可能是代价大,耗时长甚至是不道德的(例如,要求受试者吸烟)。<ref name=":1" />Do演算的规则集是完备的,可用于推导出该系统中的每个真命题。有一种算法可以确定对于给定模型,是否可以在多项式时间内求解。<ref name=":1" /> |
| | | |
− | ====do演算规则集 Do-Calculus Rules==== | + | |
| + | ====do演算规则集==== |
| 该运算包括了三条涉及do算子的条件概率变换规则。其中规则1和3都是显然的,但规则2有些微妙。下面给出表达do演算规则集的三种版本。 | | 该运算包括了三条涉及do算子的条件概率变换规则。其中规则1和3都是显然的,但规则2有些微妙。下面给出表达do演算规则集的三种版本。 |
| =====版本1===== | | =====版本1===== |
第293行: |
第338行: |
| :<math> P(Y|do(X),Z,W)=P(Y|do(X),Z)</math> | | :<math> P(Y|do(X),Z,W)=P(Y|do(X),Z)</math> |
| 在删除所有指向<math>X</math>的箭头的图中,<math>Z</math>阻塞了所有从<math>W</math>到<math>Y</math>的路径。<ref name=":1" /> | | 在删除所有指向<math>X</math>的箭头的图中,<math>Z</math>阻塞了所有从<math>W</math>到<math>Y</math>的路径。<ref name=":1" /> |
| + | |
| | | |
| 规则2用来互换干预和观测:<ref name=":1" /> | | 规则2用来互换干预和观测:<ref name=":1" /> |
| :<math> P(Y|do(X),Z)=P(Y|X,Z)</math> | | :<math> P(Y|do(X),Z)=P(Y|X,Z)</math> |
| 在原图中<math>Z</math>满足后门准则。<ref name=":1" /> | | 在原图中<math>Z</math>满足后门准则。<ref name=":1" /> |
| + | |
| | | |
| 规则3用来增删干预:<ref name=":1" /> | | 规则3用来增删干预:<ref name=":1" /> |
| :<math> P(Y|do(X))=P(Y)</math> | | :<math> P(Y|do(X))=P(Y)</math> |
| 在原图中<math>X</math>和<math>Y</math>间没有因果路径。<ref name=":1" /> | | 在原图中<math>X</math>和<math>Y</math>间没有因果路径。<ref name=":1" /> |
| + | |
| | | |
| =====版本2===== | | =====版本2===== |
第307行: |
第355行: |
| 规则1用于增删观测:在 <math> G_{\overline{X}} </math> 中,当给定<math>X</math>和<math>W</math>,有<math>Y</math>和<math>Z</math>条件独立时,则 | | 规则1用于增删观测:在 <math> G_{\overline{X}} </math> 中,当给定<math>X</math>和<math>W</math>,有<math>Y</math>和<math>Z</math>条件独立时,则 |
| :<math> P(Y|do(X),Z,W)=P(Y|do(X),Z)</math> | | :<math> P(Y|do(X),Z,W)=P(Y|do(X),Z)</math> |
| + | |
| | | |
| 规则2用于互换干预和观察:在 <math> G_{\overline{X}\underline{Z}} </math> 中,当给定<math>X</math>和<math>W</math>,有<math>Y</math>和<math>Z</math>条件独立时,则 | | 规则2用于互换干预和观察:在 <math> G_{\overline{X}\underline{Z}} </math> 中,当给定<math>X</math>和<math>W</math>,有<math>Y</math>和<math>Z</math>条件独立时,则 |
| :<math> P(Y|do(X),do(Z),W)=P(Y|do(X),Z,W)</math> | | :<math> P(Y|do(X),do(Z),W)=P(Y|do(X),Z,W)</math> |
| + | |
| | | |
| 规则3用于增删干预:在 <math> G_{\overline{X}\underline{Z(W)}} </math> 中,当给定<math>X</math>和<math>W</math>,有<math>Y</math>和<math>Z</math>条件独立时,则 | | 规则3用于增删干预:在 <math> G_{\overline{X}\underline{Z(W)}} </math> 中,当给定<math>X</math>和<math>W</math>,有<math>Y</math>和<math>Z</math>条件独立时,则 |
| :<math> P(Y|do(X),do(Z),W)=P(Y|do(X),W)</math> | | :<math> P(Y|do(X),do(Z),W)=P(Y|do(X),W)</math> |
| + | |
| | | |
| 其中 <math> Z(W) </math> 表示 <math> Z - An(W)_{ G_{ \overline{X} } } </math> , <math> An(W)_{G} </math> 表示<math>W</math>在图<math>G</math>中的祖先集(<math>W</math>及其祖先节点构成的点集), <math> G_{\overline{X}} </math> 表示删除<math>G</math>中所有指向<math>X</math>节点的边后得到的子图, <math> G_{\overline{X}\underline{Z}} </math> 表示删除<math>G</math>中所有指向<math>X</math>节点的边和从<math>Z</math>指向其他节点的边后得到的子图。 | | 其中 <math> Z(W) </math> 表示 <math> Z - An(W)_{ G_{ \overline{X} } } </math> , <math> An(W)_{G} </math> 表示<math>W</math>在图<math>G</math>中的祖先集(<math>W</math>及其祖先节点构成的点集), <math> G_{\overline{X}} </math> 表示删除<math>G</math>中所有指向<math>X</math>节点的边后得到的子图, <math> G_{\overline{X}\underline{Z}} </math> 表示删除<math>G</math>中所有指向<math>X</math>节点的边和从<math>Z</math>指向其他节点的边后得到的子图。 |
| + | |
| | | |
| =====版本3===== | | =====版本3===== |
| 该版本是Daphne Koller和Nir Friedman的《概率图模型:原理与技术》中的表达方式。 | | 该版本是Daphne Koller和Nir Friedman的《概率图模型:原理与技术》中的表达方式。 |
| + | |
| | | |
| 规则1用于增删观测:在 <math> G_{\overline{Z}}^{+} </math> 中,当给定<math>Z</math>和<math>X</math>,有<math>W</math>和<math>Y</math>'''<font color="#ff8000"> 有向分离 d-seperated </font>'''时,则 | | 规则1用于增删观测:在 <math> G_{\overline{Z}}^{+} </math> 中,当给定<math>Z</math>和<math>X</math>,有<math>W</math>和<math>Y</math>'''<font color="#ff8000"> 有向分离 d-seperated </font>'''时,则 |
| :<math> P(Y|do(Z),X,W)=P(Y|do(Z),X) </math> | | :<math> P(Y|do(Z),X,W)=P(Y|do(Z),X) </math> |
| + | |
| | | |
| 规则2用于互换干预和观察:在 <math> G_{\overline{Z}}^{+} </math> 中,当给定<math>X</math>、<math>Z</math>、<math>W</math>,有<math>Y</math>和 <math> \hat{X} </math> 有向分离时,则 | | 规则2用于互换干预和观察:在 <math> G_{\overline{Z}}^{+} </math> 中,当给定<math>X</math>、<math>Z</math>、<math>W</math>,有<math>Y</math>和 <math> \hat{X} </math> 有向分离时,则 |
| :<math> P(Y|do(Z),do(X),W)=P(Y|do(Z),X,W)</math> | | :<math> P(Y|do(Z),do(X),W)=P(Y|do(Z),X,W)</math> |
| + | |
| | | |
| 规则3用于增删干预:在 <math> G_{\overline{Z}}^{+} </math> 中,当给定<math>Z</math>和<math>W</math>,有<math>Y</math>和 <math> \hat{X} </math> 有向分离时,则 | | 规则3用于增删干预:在 <math> G_{\overline{Z}}^{+} </math> 中,当给定<math>Z</math>和<math>W</math>,有<math>Y</math>和 <math> \hat{X} </math> 有向分离时,则 |
| :<math> P(Y|do(Z),do(X),W)=P(Y|do(Z),W)</math> | | :<math> P(Y|do(Z),do(X),W)=P(Y|do(Z),W)</math> |
| + | |
| | | |
| 其中 <math> G_{\overline{Z}}^{+} </math> 表示删除<math>G</math>中所有指向<math>Z</math>节点的边,添加独立决策变量<math> \hat{Z} </math>唯一指向<math>Z</math>,从而得到的G子图的拓展图。 | | 其中 <math> G_{\overline{Z}}^{+} </math> 表示删除<math>G</math>中所有指向<math>Z</math>节点的边,添加独立决策变量<math> \hat{Z} </math>唯一指向<math>Z</math>,从而得到的G子图的拓展图。 |
| | | |
− | =====扩展 Entensions ===== | + | |
| + | =====扩展===== |
| 这些规则并不意味着任何查询都能移除do算子。有些情况下,将一个不能进行的操作换成另一个可以进行的操作也是有意义的。例如: | | 这些规则并不意味着任何查询都能移除do算子。有些情况下,将一个不能进行的操作换成另一个可以进行的操作也是有意义的。例如: |
| :<math> P(心脏病|do(血胆固醇))=P(心脏病|do(饮食))</math> | | :<math> P(心脏病|do(血胆固醇))=P(心脏病|do(饮食))</math> |
| | | |
− | ==反事实 Counterfactuals == | + | |
| + | ==反事实 == |
| | | |
| 反事实考虑那些无法从数据中得到的概率,如一个不吸烟的人在过去重度吸烟的话,他现在会不会得癌症。 | | 反事实考虑那些无法从数据中得到的概率,如一个不吸烟的人在过去重度吸烟的话,他现在会不会得癌症。 |
| + | |
| | | |
| ===潜在结果 Potential Outcome === | | ===潜在结果 Potential Outcome === |
| | | |
| 定义:Y的潜在结果是“如果<math>X</math>被赋值为<math>x</math>,对于个体<math>u</math>来说<math>Y</math>会怎么样”。数学上可以表达为<ref name=":1" /> | | 定义:Y的潜在结果是“如果<math>X</math>被赋值为<math>x</math>,对于个体<math>u</math>来说<math>Y</math>会怎么样”。数学上可以表达为<ref name=":1" /> |
| + | |
| | | |
| :<math> Y_X=Y_x(u)</math> | | :<math> Y_X=Y_x(u)</math> |
| + | |
| | | |
| 潜在结果是在个体<math>u</math>的层次定义的。<ref name=":1" />'' | | 潜在结果是在个体<math>u</math>的层次定义的。<ref name=":1" />'' |
| + | |
| | | |
| 传统的潜在结果是数据驱动的,而非模型驱动的,这限制了它辨析因果关系的能力。它将因果问题当作数据缺失问题,甚至在标准场景下都会给出错误的回答。<ref name=":1" /> | | 传统的潜在结果是数据驱动的,而非模型驱动的,这限制了它辨析因果关系的能力。它将因果问题当作数据缺失问题,甚至在标准场景下都会给出错误的回答。<ref name=":1" /> |
| | | |
− | ===因果推断 Causal inference === | + | |
| + | ===因果推断 === |
| | | |
| 在因果模型的语境中,潜在结果是被从因果角度解释的,而非从统计角度解释。 | | 在因果模型的语境中,潜在结果是被从因果角度解释的,而非从统计角度解释。 |
| + | |
| | | |
| 因果推断的第一定律意味着潜在结果 | | 因果推断的第一定律意味着潜在结果 |
| | | |
| :<math> Y_x(u)</math> | | :<math> Y_x(u)</math> |
| + | |
| | | |
| 可以被这样计算:将因果模型<math>M</math>中指向<math>X</math>的箭头删除,计算特定的<math>x</math>的结果。形式上,<ref name=":1" /> | | 可以被这样计算:将因果模型<math>M</math>中指向<math>X</math>的箭头删除,计算特定的<math>x</math>的结果。形式上,<ref name=":1" /> |
| + | |
| | | |
| :<math> Y_x(u)=Y_{M_x}(u)</math> | | :<math> Y_x(u)=Y_{M_x}(u)</math> |
− | <!--
| + | |
| + | |
| === 计算反事实 Conducting a counterfactual === | | === 计算反事实 Conducting a counterfactual === |
| 用一个因果模型计算反事实包括三步。这种方法不管模型是线性还是非线性都有效。当因果关系确定时,可以计算出一个点估计。在其他情况下(如仅能计算概率时),可以计算出一个概率区间,如原本不吸烟的人如果吸烟会增加10-20%的癌症概率。 | | 用一个因果模型计算反事实包括三步。这种方法不管模型是线性还是非线性都有效。当因果关系确定时,可以计算出一个点估计。在其他情况下(如仅能计算概率时),可以计算出一个概率区间,如原本不吸烟的人如果吸烟会增加10-20%的癌症概率。 |