更改

添加2,129字节 、 2024年6月10日 (星期一)
第1,127行: 第1,127行:  
关于[[马尔科夫链的近似动力学可逆性]]的进一步讨论和说明,请参考词条:[[近似动力学可逆性]],以及论文:<ref name=zhang_reversibility/>
 
关于[[马尔科夫链的近似动力学可逆性]]的进一步讨论和说明,请参考词条:[[近似动力学可逆性]],以及论文:<ref name=zhang_reversibility/>
   −
==广义的JS散度==
+
==EI与JS散度==
 +
根据{{EquationNote|2}}的表达式,我们知道,EI实际上是一种广义的[[JS散度]],即[[Jensen-Shannon divergence]]。
 +
 
 +
所谓的[[JS散度]]是一种度量两个定义在同一个支撑集上的概率分布之间差异的指标。设两个定义在支撑集[math]\mathcal{X}[/math]上的概率分布[math]P[/math]和[math]Q[/math],它们之间的JS散度定义为:
 +
 
 +
<math>
 +
JSD(P||Q)\equiv \frac{1}{2}D_{KL}(P||M)+\frac{1}{2}D_{KL}(Q||M)
 +
</math>
 +
 
 +
其中,[math]M=\frac{P+Q}{2}=\frac{1}{2}\sum_{x\in\mathcal{X}}\left[P(x)+Q(x)\right][/math]为P和Q的平均分布,[math]D_{KL}[/math]为[[KL散度]]。
 +
 
 +
与[[KL散度]]相比,[[JS散度]]是一种对称的度量,即[math]JSD(P||Q)=JSD(Q||P)[/math],而KL散度是非对称的。
 +
 
 +
可以看出,该式与{{EquationNote|2}}式的相似之处。不难验证,当P和Q都是2维向量,且构成了一个马尔科夫转移矩阵K的时候,K的EI就是P、Q的JS散度。
 +
 
 +
进一步,在文献<ref name=GJS_divergence>{{cite journal|author=Jianhua Lin|title=Divergence Measures Based on the Shannon Entropy|journal=IEEE TRANSACTIONS ON INFORMATION THEORY|volume=37|issue=1|page=145-151|year=1991}}</ref>中,作者提出了[[广义的JS散度]]为:
 +
 
 +
<math>
 +
JSD_{\pi}(P_1,P_2,\cdots,P_n)\equiv H(\sum{i=1}^n\pi_iP_i)-\sum_{i=1}^n\pi_i H(P_i)
 +
</math>
 +
 
 +
其中,[math]P_i,i\in[1,m][/math]为一组概率分布向量,m为它们的维度,而[math]\pi=(\pi_1,\pi_2,\cdots,\pi_n[/math]为一组权重,并满足:[math]\pi\in[0,1][/math]和[math]\sum_{i=1}^n\pi_i=1[/math]。
 +
 
 +
通过与公式{{EquationNote|tow_terms}}比较,不难发现,当[math]\pi_i=\frac{1}{n}[/math],则[math]JSD_{\pi}[/math]就退化为EI了。
 +
 
 +
在文献<ref name=GJSD>{{cite conference|author1=Erik Englesson|author2=Hossein Azizpour|title=Generalized Jensen-Shannon Divergence Loss for Learning with Noisy Labels|conference=35th Conference on Neural Information Processing Systems (NeurIPS 2021)|year=2021}}</ref>中,作者们讨论了广义JS散度在分类多样性度量方面的应用。因此,EI也可以理解为是对行向量多样化程度的一种度量。
 +
 
 
==Jensen差距==
 
==Jensen差距==
    
=参考文献=
 
=参考文献=
 
<references/>
 
<references/>
786

个编辑