因果发现

简介

因果发现，即从纯观测数据中发现并获取因果关系，在近几十年来作为基础的数据分析方法在各个学科发挥着重要的作用^[1]。

几乎所有的科学都是关于识别因果关系和支配它们的法律或规律性的。它们的规律。自十七世纪现代科学开始以来，有两种方法来发现因果关系：（1）操纵和改变系统中的某一些的特征，以观察其他特征是否发生变化；（2）观察系统特征的变化，而不进行操作。这两种方法都在十七世纪大放异彩，当时它们是互相交织在一起，就像今天一样。伊万杰里斯塔-托里切利操纵了站在一个装有水银的管子里的角度和形状，而管子中水银的高度没有变化。帕斯卡尔让人把托里切利设计的压力计抬到山上，以证明水银的高度确实随海拔高度而变化。伽利略曾从观测时间序列中确定了（定性的）木卫二卫星的轨道。开普勒从行星观测中得出了他的三大定律。牛顿则通过对太阳系的观察和一个单一的实验得出的引力定律奠定了现代物理学的基础。现代分子生物学是一个实验课题，但生物学的基础，在达尔文的《物种起源》中，只有一个实验，即种子的漂移。

发现因果关系的传统方法是使用干预措施或随机实验，这在很多情况下过于昂贵，过于耗时，甚至不可能。因此，通过分析纯粹的观察性数据来揭示因果信息，即所谓的因果发现，已经引起了人们的关注（Spirtes et al, 2000^[2]）。过去几十年在过去的几十年中，我们看到了一系列跨学科的算法的进步识别因果关系和效应大小的算法取得了一系列跨学科的进展。数据或混合实验和观察数据中识别因果关系和效应大小的算法取得了一系列跨学科的进展。这些发展有望使人们更好地利用适当的 "大数据"。它们已经被应用于基因组学、生态学、流行病学、空间物理学、临床医学、神经科学和许多其他领域，通常对其预测进行实验或准实验验证。在传统的因果关系研究中,当因果关系完全或部分已知时，用于识别因果效应或推断干预措施效果的算法，解决的是另一类问题。

基于约束的因果发现方法

基于约束的因果发现方法主要基于独立性和条件独立性检测判断变量之间的统计关系，并在一定的假设下先获得无向因果图。之后利用V-structure和一系列方向传播规则对因果图中的无向边进行方向传播。其经典方法包括PC^[3]算法，能够处理隐变量（混淆变量）的FCI^[4]算法，以及能够处理异构数据的CD-NOD^[5]算法。

基于评分的因果发现方法

基于评分的方法通过对候选模型（即候选因果图）进行评分的方式，来选取评分最高的因果图作为结果。经典方法包括GES^[6]以及一系列通过改变评分函数来适应不同任务的扩展方法，例如基于通用评分函数的因果发现方法^[7]。此外，对于实际情况中Faithfulness假设不满足的情景，Exact Search^[8]可提供可靠的马尔科夫等价类。

基于约束性函数因果模型的因果发现方法

基于约束性函数因果模型的因果方法通过假设结果和原因之间的函数关系类别，从而判断其间的方向。经典方法包括线性非高斯无环模型^[9]，加性噪声模型^[10]和后非线性模型^[11]。近期通过对混合函数进行限制从而得到非线性独立成分分析的可识别性的理论^[12]也为通用的非线性的因果发现提供了新的方法。

因果隐表征学习

因果隐表征学习专注于隐变量与观测变量间的关系以及隐变量间的关系，经典工作包括GIN^[13]以及层级化隐变量学习^[14]。

因果发现工具：causal-learn

Causal-learn^[15]是Tetrad^[16] java代码的一个Python翻译和扩展。它提供了最新的因果发现方法的实现，以及简单而直观的API。

编者推荐

集智学园课程推荐

因果科学与 Causal AI 系列读书会

图灵奖得主朱迪亚·珀尔教授认为，当下正在进行一场改变数据科学的新革命 ”因果革命“。它以科学为中心，涉及从数据到政策、可解释性、机制的泛化，再到一些社会科学中的归因和公平性问题，甚至哲学中的创造性和自由意志。本季读书会以Elements of Causal Inference一书为线索，主要展现因果科学在机器学习各个方向上的影响，包括强化学习、迁移学习、表示学习等等，并分享在工业界的部分应用成果。本季读书会梳理了因果科学的核心内容，理解它如何改变数据科学，助力 AI 系统超越曲线拟合和获得回答因果问题的能力。

因果科学与Causal AI读书会第二季

因果推断与机器学习领域的结合已经吸引了越来越多来自学界业界的关注。第一季读书会主要关注了因果科学在机器学习方向上的前沿应用，为深入探讨、普及推广因果科学议题，第二季读书会着力于实操性、基础性，带领大家精读因果科学方向两本非常受广泛认可的入门教材：Causal inference in statistics: A primer和Elements of causal inference: foundations and learning algorithms。读书会以直播讨论为主，结合习题交流、夜谈、编程实践、前沿讲座等多类型内容，主要面向有机器学习背景、希望深入学习因果科学基础知识和重要模型方法、寻求解决相关研究问题的研究人员。

因果科学读书会第三季：因果+X

“因果”并不是一个新概念，而是一个已经在多个学科中使用了数十年的分析技术。通过前两季的分享，我们主要梳理了因果科学在计算机领域的前沿进展。如要融会贯通，我们需要回顾数十年来在社会学、经济学、医学、生物学等多个领域中，都是使用了什么样的因果模型、以什么样的范式、解决了什么样的问题。我们还要尝试进行对比和创新，看能否以现在的眼光，用其他的模型，为这些研究提供新的解决思路。

“因果+X”就是要让因果真正地应用于我们的科学研究中，不管你是来自计算机、数理统计领域，还是社会学、经济学、管理学领域，还是医学、生物学领域，我们希望共同探究出因果研究的范式，真正解决因果的多学科应用问题，乃至解决工业界的问题。

文章推荐

推荐系统中的因果学习：基础、估计、预测和挑战

丁鹏：多角度回顾因果推断的模型方法

一作解读DeepMind最新论文：连接图神经网络与结构因果模型丨周五直播

福利 | 因果推断会是下一个AI热潮吗？Judea Pearl《因果论》重磅上市！

因果科学入门读什么书？Y. Bengio博士候选人的研读路径推荐

前沿综述：因果推断与因果性学习研究进展

因果表征学习最新综述：连接因果科学和机器学习的桥梁

历时3个月，全球32位讲者，共同讲述因果科学与Causal AI的全景框架！

崔鹏：稳定学习——挖掘因果推理和机器学习的共同基础

因果科学：连接统计学、机器学习与自动推理的新兴交叉领域

因果观念新革命？万字长文，解读复杂系统背后的暗因果

周晓华：因果推断的数学基础和在医学中的应用

参考文献

↑ Glymour, Clark, Kun Zhang, and Peter Spirtes. "Review of causal discovery methods based on graphical models." Frontiers in genetics 10 (2019): 524.
↑ Spirtes, Peter, et al. Causation, prediction, and search. MIT press, 2000.
↑ Spirtes, P., Glymour, C. N., Scheines, R., & Heckerman, D. (2000). Causation, prediction, and search. MIT press.
↑ Spirtes, P., Meek, C., & Richardson, T. (1995, August). Causal inference in the presence of latent variables and selection bias. In Proceedings of the Eleventh conference on Uncertainty in artificial intelligence (pp. 499-506).
↑ Huang, B., Zhang, K., Zhang, J., Ramsey, J. D., Sanchez-Romero, R., Glymour, C., & Schölkopf, B. (2020). Causal Discovery from Heterogeneous/Nonstationary Data. J. Mach. Learn. Res., 21(89), 1-53.
↑ Chickering, D. M. (2002). Optimal structure identification with greedy search. Journal of machine learning research, 3(Nov), 507-554.
↑ Huang, B., Zhang, K., Lin, Y., Schölkopf, B., & Glymour, C. (2018, July). Generalized score functions for causal discovery. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1551-1560).
↑ Ng, Ignavier, Yujia Zheng, Jiji Zhang, and Kun Zhang. "Reliable Causal Discovery with Improved Exact Search and Weaker Assumptions." Advances in Neural Information Processing Systems 34 (2021): 20308-20320.
↑ Shimizu, S., Hoyer, P. O., Hyvärinen, A., Kerminen, A., & Jordan, M. (2006). A linear non-Gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7(10).
↑ Hoyer, P. O., Janzing, D., Mooij, J. M., Peters, J., & Schölkopf, B. (2008, December). Nonlinear causal discovery with additive noise models. In NIPS (Vol. 21, pp. 689-696).
↑ Zhang, K., & Hyvärinen, A. (2009, June). On the Identifiability of the Post-Nonlinear Causal Model. In 25th Conference on Uncertainty in Artificial Intelligence (UAI 2009) (pp. 647-655). AUAI Press.
↑ Zheng, Yujia, Ignavier Ng, and Kun Zhang. "On the Identifiability of Nonlinear ICA: Sparsity and Beyond." arXiv preprint arXiv:2206.07751 (2022).
↑ Xie, Cai, Huang, Glymour, Hao, Zhang, "Generalized Independent Noise Condition for Estimating Linear Non-Gaussian Latent Variable Causal Graphs," NeurIPS 2020
↑ Feng Xie, Biwei Huang, Zhengming Chen, Yangbo He, Zhi Geng, Kun Zhang, "Estimation of Linear Non-Gaussian Latent Hierarchical Structure," accepted to International Conference on Machine Learning (ICML) 2022
↑ https://causal-learn.readthedocs.io/en/latest/
↑ https://github.com/cmu-phil/tetrad

[1] Glymour, Clark, Kun Zhang, and Peter Spirtes. "Review of causal discovery methods based on graphical models." Frontiers in genetics 10 (2019): 524.

[2] Spirtes, Peter, et al. Causation, prediction, and search. MIT press, 2000.

[3] Spirtes, P., Glymour, C. N., Scheines, R., & Heckerman, D. (2000). Causation, prediction, and search. MIT press.

[4] Spirtes, P., Meek, C., & Richardson, T. (1995, August). Causal inference in the presence of latent variables and selection bias. In Proceedings of the Eleventh conference on Uncertainty in artificial intelligence (pp. 499-506).

[5] Huang, B., Zhang, K., Zhang, J., Ramsey, J. D., Sanchez-Romero, R., Glymour, C., & Schölkopf, B. (2020). Causal Discovery from Heterogeneous/Nonstationary Data. J. Mach. Learn. Res., 21(89), 1-53.

[6] Chickering, D. M. (2002). Optimal structure identification with greedy search. Journal of machine learning research, 3(Nov), 507-554.

[7] Huang, B., Zhang, K., Lin, Y., Schölkopf, B., & Glymour, C. (2018, July). Generalized score functions for causal discovery. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1551-1560).

[8] Ng, Ignavier, Yujia Zheng, Jiji Zhang, and Kun Zhang. "Reliable Causal Discovery with Improved Exact Search and Weaker Assumptions." Advances in Neural Information Processing Systems 34 (2021): 20308-20320.

[9] Shimizu, S., Hoyer, P. O., Hyvärinen, A., Kerminen, A., & Jordan, M. (2006). A linear non-Gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7(10).

[10] Hoyer, P. O., Janzing, D., Mooij, J. M., Peters, J., & Schölkopf, B. (2008, December). Nonlinear causal discovery with additive noise models. In NIPS (Vol. 21, pp. 689-696).

[11] Zhang, K., & Hyvärinen, A. (2009, June). On the Identifiability of the Post-Nonlinear Causal Model. In 25th Conference on Uncertainty in Artificial Intelligence (UAI 2009) (pp. 647-655). AUAI Press.

[12] Zheng, Yujia, Ignavier Ng, and Kun Zhang. "On the Identifiability of Nonlinear ICA: Sparsity and Beyond." arXiv preprint arXiv:2206.07751 (2022).

[13] Xie, Cai, Huang, Glymour, Hao, Zhang, "Generalized Independent Noise Condition for Estimating Linear Non-Gaussian Latent Variable Causal Graphs," NeurIPS 2020

[14] Feng Xie, Biwei Huang, Zhengming Chen, Yangbo He, Zhi Geng, Kun Zhang, "Estimation of Linear Non-Gaussian Latent Hierarchical Structure," accepted to International Conference on Machine Learning (ICML) 2022

[15] ttps://causal-learn.readthedocs.io/en/latest/

[16] ttps://github.com/cmu-phil/tetrad

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]