更改

有效信息 (查看源代码)

2024年6月10日 (一) 11:43的版本

添加2,129字节、 2024年6月10日 (星期一)

→‎广义的JS散度

第1,127行：第1,127行：

关于[[马尔科夫链的近似动力学可逆性]]的进一步讨论和说明，请参考词条：[[近似动力学可逆性]]，以及论文：<ref name=zhang_reversibility/>

−

==广义的JS散度==

+

==EI与JS散度==

+

根据{{EquationNote|2}}的表达式，我们知道，EI实际上是一种广义的[[JS散度]]，即[[Jensen-Shannon divergence]]。

+

所谓的[[JS散度]]是一种度量两个定义在同一个支撑集上的概率分布之间差异的指标。设两个定义在支撑集[math]\mathcal{X}[/math]上的概率分布[math]P[/math]和[math]Q[/math]，它们之间的JS散度定义为：

+

<math>

+

JSD(P||Q)\equiv \frac{1}{2}D_{KL}(P||M)+\frac{1}{2}D_{KL}(Q||M)

+

</math>

+

其中，[math]M=\frac{P+Q}{2}=\frac{1}{2}\sum_{x\in\mathcal{X}}\left[P(x)+Q(x)\right][/math]为P和Q的平均分布，[math]D_{KL}[/math]为[[KL散度]]。

+

与[[KL散度]]相比，[[JS散度]]是一种对称的度量，即[math]JSD(P||Q)=JSD(Q||P)[/math]，而KL散度是非对称的。

+

可以看出，该式与{{EquationNote|2}}式的相似之处。不难验证，当P和Q都是2维向量，且构成了一个马尔科夫转移矩阵K的时候，K的EI就是P、Q的JS散度。

+

进一步，在文献<ref name=GJS_divergence>{{cite journal|author=Jianhua Lin|title=Divergence Measures Based on the Shannon Entropy|journal=IEEE TRANSACTIONS ON INFORMATION THEORY|volume=37|issue=1|page=145-151|year=1991}}</ref>中，作者提出了[[广义的JS散度]]为：

+

<math>

+

JSD_{\pi}(P_1,P_2,\cdots,P_n)\equiv H(\sum{i=1}^n\pi_iP_i)-\sum_{i=1}^n\pi_i H(P_i)

+

</math>

+

其中，[math]P_i,i\in[1,m][/math]为一组概率分布向量，m为它们的维度，而[math]\pi=(\pi_1,\pi_2,\cdots,\pi_n[/math]为一组权重，并满足：[math]\pi\in[0,1][/math]和[math]\sum_{i=1}^n\pi_i=1[/math]。

+

通过与公式{{EquationNote|tow_terms}}比较，不难发现，当[math]\pi_i=\frac{1}{n}[/math]，则[math]JSD_{\pi}[/math]就退化为EI了。

+

在文献<ref name=GJSD>{{cite conference|author1=Erik Englesson|author2=Hossein Azizpour|title=Generalized Jensen-Shannon Divergence Loss for Learning with Noisy Labels|conference=35th Conference on Neural Information Processing Systems (NeurIPS 2021)|year=2021}}</ref>中，作者们讨论了广义JS散度在分类多样性度量方面的应用。因此，EI也可以理解为是对行向量多样化程度的一种度量。

+

==Jensen差距==

=参考文献=

Jake

786

个编辑