“概率图模型”的版本间的差异

2021年3月5日 (五) 22:22的版本

图模型 Graphical Model，亦称概率图模型 Probabilistic Graphical Model（PGM）或结构化概率模型 structured probabilistic model，是一种用图表示随机变量之间条件依赖关系的概率模型。它们通常用于概率论、统计学，尤其是贝叶斯统计学和机器学习。

这是一个图模型的例子。每个箭头表示一个依赖关系。在这个例子中: D 依赖于 A、 B 和 C; C 依赖于 B 和 D; 而 A 和 B 相互独立。

常用的概率图模型大致分为两类：贝叶斯网络（Bayesian network, BN）和马尔可夫网络（Markovnetwork, MN）或者称为马尔可夫随机场。概率图理论共分为三个部分，分别为概率图模型表示理论，概率图模型推理理论和概率图模型学习理论。^[1]

其中：

图模型的表示representation是指：如何用图模型来将概率分布进行表示；图模型的推断inference是指：在已知图模型的情况下，如何计算某一未知节点的概率；图模型的学习learning是指：对图的结构和参数的学习。

图模型的表示

一般来说，概率图模型中图的表示方法常常作为对多维空间上的分布进行编码的基础，主要由参数和结构两个部分组成。

常用的概率图模型大致分为两类：贝叶斯网络（Bayesian network, BN）和马尔可夫网络（Markov network, MN）或者称为马尔可夫随机场（Markov Random Field, MRF）。这两种模型的主要思想都是利用条件独立性假设来对联合概率分布进行因式分解，从而达到降维的目的。 ^[2]概率图模型的好处是提供了一种简单的可视化概率模型的方法，有利于设计和开发新模型，并且简化数学表示，提高推理运算能力。

贝叶斯网络一般是指有向图模型，使用有向无环图来表示变量之间的关系；

马尔可夫随机场一般是指在无向图模型，使用无向图来表示变量之间的关系。

贝叶斯网络

如果模型的网络结构是有向无环图，则模型表示所有随机变量的联合概率的因式分解。更确切地说，如果事件是[math]\displaystyle{ X_1,\ldots,X_n }[/math]，那么联合概率满足：

[math]\displaystyle{ P[X_1,\ldots,X_n]=\prod_{i=1}^nP[X_i|\text{pa}(X_i)] }[/math]

其中 [math]\displaystyle{ \text{pa}(X_i) }[/math] 是节点 [math]\displaystyle{ X_i }[/math] 的父节点集（节点的边际指向 [math]\displaystyle{ X_i }[/math] )。换句话说，联合分布因子可以表示为条件分布的乘积。例如，上图中的图模型（实际上不是有向无环图，而是原始图）是由随机变量[math]\displaystyle{ A, B, C, D }[/math] 组成，联合概率密度因子为

[math]\displaystyle{ P[A,B,C,D] = P[A]\cdot P[B]\cdot P[C,D|A,B] }[/math]

任何两个节点都是和其父节点的值是条件独立的。一般来说，如果 d-分离准则在图中成立，那么任意两组节点和给定第三个节点集都是条件独立的。在贝叶斯网络中，局部独立性和全局独立性是等价的。

这种类型的图形模型被称为有向图模型、贝氏网路或信念网络。经典的机器学习模型：隐马尔可夫模型、神经网络和更新的模型如可变阶马尔可夫模型都可以看作是贝叶斯网络的特殊情况。

马尔可夫随机场

如果模型的网络结构是无向图，则模型表示所有团的联合概率的因式分解。更确切地说，如果[math]\displaystyle{ \phi_k }[/math]是第[math]\displaystyle{ k }[/math]个团的因子，那么联合概率满足：

[math]\displaystyle{ P(X=x) = \frac{1}{Z} \prod_{k} f_k (x_{ \{ k \}}) }[/math]

其中[math]\displaystyle{ x=x_{\{1\}}x_{\{2\}}x_{\{3\}}\cdots }[/math]是向量，[math]\displaystyle{ x_{ \{ k \}} = x_{\{k,1\}}x_{\{k,2\}}\cdots x_{\{k,|c_k|\}} }[/math]是随机变量[math]\displaystyle{ x }[/math]在第k个团的状态（[math]\displaystyle{ |c_k| }[/math]是在第k个团中包含的节点数。），乘积包括了图中的所有团。注意马尔可夫性质在团内的节点存在，在团之间是不存在依赖关系的。这里，[math]\displaystyle{ Z }[/math]是配分函数，有

[math]\displaystyle{ Z = \sum_{x \isin \mathcal{X}} \prod_{k} f_k(x_{ \{ k \} }) }[/math].

实际上，马尔可夫网联络经常表示为对数线性模型。通过引入特征函数[math]\displaystyle{ \phi_k }[/math]，得到

[math]\displaystyle{ f_k=\exp \left(w_k^{\top} \phi_k (x_{ \{ k \}}) \right) }[/math]

和

[math]\displaystyle{ P(X=x) = \frac{1}{Z} \exp \left( \sum_{k} w_k^{\top} \phi_k (x_{ \{ k \}}) \right) }[/math]

以及划分函数

[math]\displaystyle{ Z = \sum_{x \isin \mathcal{X}} \exp \left(\sum_{k} w_k^{\top}\phi_k(x_{ \{ k \} })\right) }[/math]。

其中，[math]\displaystyle{ w_k }[/math]是权重，[math]\displaystyle{ \phi_k }[/math]是势函数，映射团[math]\displaystyle{ k }[/math]到实数。这些函数有时亦称为吉布斯势；术语势源于物理，通常从字面上理解为在临近位置产生的势能。

其他类别

朴素贝叶斯分类器 Naive Bayes classifier,其中我们会使用一颗单结点树
依赖网络 Dependency network中环的出现
树增广朴素贝叶斯分类器 Tree-augmented classifier 或简称为TAN模型
因子图 factor graph是连接变量和因子的无向二分图。每个因子代表与其连接的变量有关的函数。这对于理解和实现信念传播算法很有帮助。
在节点树 clique tree 算法中，通常会使用派系中一棵派系树或者是节点树。
链式图 chain graph 是既可以有向也可以无向的边，但是没有任何有向环（即，如果我们从任意一个顶点开始并依据任何箭头的方向沿该图形移动，则只要我们沿着箭头走了一步我们将无法返回到该顶点）。有向无环图和无向图都是链式图的特例，因此可以提供一种统一和泛化贝叶斯网络和马尔可夫网络的方法。^[3]

An ancestral graph is a further extension, having directed, bidirected and undirected edges.^[4]

Random field techniques

- A Markov random field, also known as a Markov network, is a model over an undirected graph. A graphical model with many repeated subunits can be represented with plate notation.

- A conditional random field is a discriminative model specified over an undirected graph.

A restricted Boltzmann machine is a bipartite generative model specified over an undirected graph.

应用

该模型的框架为发现和分析复杂分布中的结构、简洁地描述结构和提取非结构化信息提供了算法，使模型得到有效的构建和利用。图形模型的应用包括因果推理、信息抽取、语音识别、l计算机视觉、低密度奇偶校验码的解码、基因调控网络的建模、基因发现和疾病诊断，以及蛋白质结构的图形模型。

另见

参考文献

↑ 刘建伟，黎海恩，罗雄麟.概率图模型学习技术研究进展[J].自动化学报 , 2014 , 40 (6) :1025-1044
↑ Koller, D.; Friedman, N. (2009). Probabilistic Graphical Models. Massachusetts: MIT Press. pp. 1208. ISBN 978-0-262-01319-2. http://pgm.stanford.edu/.
↑ Frydenberg, Morten (1990). "The Chain Graph Markov Property". Scandinavian Journal of Statistics. 17 (4): 333–353. JSTOR 4616181. MR 1096723.
↑ Richardson, Thomas; Spirtes, Peter (2002). "Ancestral graph Markov models". Annals of Statistics. 30 (4): 962–1030. CiteSeerX 10.1.1.33.4906. doi:10.1214/aos/1031689015. MR 1926166. Zbl 1033.60008.

进一步阅读

书籍

Barber, David (2012). Bayesian Reasoning and Machine Learning. Cambridge University Press. ISBN 978-0-521-51814-7.
Bishop, Christopher M. (2006). "Chapter 8. Graphical Models". Pattern Recognition and Machine Learning. Springer. pp. 359–422. ISBN 978-0-387-31073-2. MR 2247587. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/05/Bishop-PRML-sample.pdf.
Cowell, Robert G.; Dawid, A. Philip; Lauritzen, Steffen L. author4=Spiegelhalter, David J. (1999). Probabilistic networks and expert systems. Berlin: Springer. ISBN 978-0-387-98767-5. MR 1697175. 一本更先进和面向统计的书。
Jensen, Finn (1996). An introduction to Bayesian networks. Berlin: Springer. ISBN 978-0-387-91502-9.
Pearl, Judea (1988). Probabilistic Reasoning in Intelligent Systems (2nd revised ed.). San Mateo, CA: Morgan Kaufmann. ISBN 978-1-55860-479-7. MR 0965765. 一种计算推理方法，图和概率之间的关系被正式引入。

论文

Edoardo M. Airoldi (2007). "Getting Started in Probabilistic Graphical Models". PLoS Computational Biology. 3 (12): e252. doi:10.1371/journal.pcbi.0030252. PMC 2134967. PMID 18069887.
Jordan, M. I. (2004). "Graphical Models". Statistical Science. 19: 140–155. doi:10.1214/088342304000000026.
Ghahramani, Zoubin (May 2015). "Probabilistic machine learning and artificial intelligence". Nature (in English). 521 (7553): 452–459. doi:10.1038/nature14541. PMID 26017444.

其他

Heckerman's Bayes Net Learning Tutorial

A Brief Introduction to Graphical Models and Bayesian Networks

Sargur Srihari's lecture slides on probabilistic graphical models

其他链接

本中文词条由HaoZHAN翻译，Yuling审校，薄荷欢迎在讨论页面留言。

本词条内容源自公开资料，遵守 CC3.0协议。

[1] 刘建伟，黎海恩，罗雄麟.概率图模型学习技术研究进展[J].自动化学报 , 2014 , 40 (6) :1025-1044

[koller09-2] Koller, D.; Friedman, N. (2009). Probabilistic Graphical Models. Massachusetts: MIT Press. pp. 1208. ISBN 978-0-262-01319-2. http://pgm.stanford.edu/.

[3] Frydenberg, Morten (1990). "The Chain Graph Markov Property". Scandinavian Journal of Statistics. 17 (4): 333–353. JSTOR 4616181. MR 1096723.

[4] Richardson, Thomas; Spirtes, Peter (2002). "Ancestral graph Markov models". Annals of Statistics. 30 (4): 962–1030. CiteSeerX 10.1.1.33.4906. doi:10.1214/aos/1031689015. MR 1926166. Zbl 1033.60008.

[1]

[2]

[3]

[4]

@@ 第51行： / 第51行： @@
 ===马尔可夫随机场===
-形式上，一个马尔可夫网络包括：
+如果模型的网络结构是无向图，则模型表示所有团的联合概率的因式分解。更确切地说，如果<math> \phi_k</math>是第<math> k</math>个团的因子，那么联合概率满足：
-* 一个无向图''G'' = (''V'',''E'')，每个[[顶点 (图论)]]''v'' ∈''V''表示一个在集合<math>X</math>的[[随机变量]]，每条边{''u'',''v''} ∈ ''E''表示随机变量''u''和''v''之间的一种依赖关系。
-* 一个函数集合<math>f_k</math>（也称为''因子''或者''团因子''有时也称为''特征''），每一个<math>f_k</math>的定义域是图''G''的团或子团''k''.  每一个<math>f_k</math>是从可能的特定联合的指派（到元素''k''）到[[非负]][[实数]]的映射。
+<math> P(X=x) = \frac{1}{Z} \prod_{k} f_k (x_{ \{ k \}}) </math>
-联合分布用马尔可夫随机场可以表示为：
-:<math> P(X=x) = \frac{1}{Z} \prod_{k} f_k (x_{ \{ k \}}) </math>
 其中<math>x=x_{\{1\}}x_{\{2\}}x_{\{3\}}\cdots</math>是向量，<math>x_{ \{ k \}} = x_{\{k,1\}}x_{\{k,2\}}\cdots x_{\{k,|c_k|\}}</math>是随机变量<math>x</math>在第''k''个团的状态（<math>|c_k|</math>是在第''k''个团中包含的节点数。），乘积包括了图中的所有团。注意马尔可夫性质在团内的节点存在，在团之间是不存在依赖关系的。这里，<math>Z</math>是[[配分函数]]，有