更改

删除362字节 、 2021年10月27日 (三) 20:56
无编辑摘要
第4行: 第4行:  
}}
 
}}
   −
'''微分熵 Differential entropy'''(也被称为'''连续熵 continuous entropy''')是信息论中的一个概念,其来源于香农尝试将他的香农熵的概念扩展到连续的概率分布。香农熵是衡量一个随机变量的平均惊异程度的指标。可惜的是,香农只是假设它是离散熵的正确连续模拟而并没有推导出公式,但事实上它并不是离散熵的正确连续模拟。<ref>{{cite journal |author=Jaynes, E.T. |authorlink=Edwin Thompson Jaynes |title=Information Theory And Statistical Mechanics |journal=Brandeis University Summer Institute Lectures in Theoretical Physics |volume=3 |issue=sect. 4b |year=1963 |url=http://bayes.wustl.edu/etj/articles/brandeis.pdf |format=PDF}}</ref>离散熵的实际连续版本是离散点的极限密度 limiting density of discrete points(LDDP)。微分熵(此处描述)在文献中很常见,但它是 LDDP 的一个极限情况,并且失去了与离散熵的基本联系。
+
'''微分熵 Differential entropy'''(也被称为'''连续熵 continuous entropy''')是信息论中的一个概念,其来源于香农尝试将他的香农熵的概念扩展到连续的概率分布。香农熵是衡量一个随机变量的平均惊异程度的指标。可惜的是,香农只是假设它是离散熵的正确连续模拟而并没有推导出公式,但事实上它并不是离散熵的正确连续模拟。<ref>{{cite journal |author=Jaynes, E.T. |title=Information Theory And Statistical Mechanics |journal=Brandeis University Summer Institute Lectures in Theoretical Physics |volume=3 |issue=sect. 4b |year=1963 |url=http://bayes.wustl.edu/etj/articles/brandeis.pdf |format=PDF}}</ref>离散熵的实际连续版本是离散点的极限密度 limiting density of discrete points(LDDP)。微分熵(此处描述)在文献中很常见,但它是 LDDP 的一个极限情况,并且失去了与离散熵的基本联系。
       
==定义==
 
==定义==
  −
Let <math>X</math> be a random variable with a [[probability density function]] <math>f</math> whose [[support (mathematics)|support]] is a set <math>\mathcal X</math>. The ''differential entropy'' <math>h(X)</math> or <math>h(f)</math> is defined as
      
设随机变量<math>X</math>,其概率密度函数<math>f</math>的的定义域是<math>\mathcal X</math>的集合。该微分熵 <math>h(X)</math> 或者<math>h(f)</math>定义为
 
设随机变量<math>X</math>,其概率密度函数<math>f</math>的的定义域是<math>\mathcal X</math>的集合。该微分熵 <math>h(X)</math> 或者<math>h(f)</math>定义为
第17行: 第15行:       −
对于没有显式密度函数表达式,但有显式分位数函数表达式的概率分布,<math>Q(p)</math>,则<math>h(Q)</math>可以用导数<math>Q(p)</math>来定义,即分位数密度函数<math>Q'(p)</math><ref>{{Citation |last1=Vasicek  |first1=Oldrich |year=1976 |title=A Test for Normality Based on Sample Entropy |journal=[[Journal of the Royal Statistical Society, Series B]] |volume=38 |issue=1 |jstor=2984828 |postscript=. }}</ref>
+
对于没有显式密度函数表达式,但有显式分位数函数表达式的概率分布,<math>Q(p)</math>,则<math>h(Q)</math>可以用导数<math>Q(p)</math>来定义,即分位数密度函数<math>Q'(p)</math><ref>{{Citation |last1=Vasicek  |first1=Oldrich |year=1976 |title=A Test for Normality Based on Sample Entropy |journal=Journal of the Royal Statistical Society, Series B |volume=38 |issue=1 |jstor=2984828 |postscript=. }}</ref>
    
:<math>h(Q) = \int_0^1 \log Q'(p)\,dp</math>.
 
:<math>h(Q) = \int_0^1 \log Q'(p)\,dp</math>.
      −
与离散模型一样,微分熵的单位取决于对数的底数,通常是2(单位:比特;请参阅对数单位,了解不同基数的对数。)相关概念,如[[联合熵]]、[[条件微分熵]]和[[相对熵]],以类似的方式定义。与离散模型不同,微分熵的偏移量取决于测量单位。<ref name="gibbs">{{cite book |last=Gibbs |first=Josiah Willard |authorlink=Josiah Willard Gibbs |title=[[Elementary Principles in Statistical Mechanics|Elementary Principles in Statistical Mechanics, developed with especial reference to the rational foundation of thermodynamics]] |year=1902 |publisher=Charles Scribner's Sons |location=New York}}</ref>例如,以毫米为单位的量的微分熵将比以米为单位测量的相同量的微分熵大 log(1000);无量纲量的log(1000)微分熵将大于相同量除以1000。
+
与离散模型一样,微分熵的单位取决于对数的底数,通常是2(单位:比特;请参阅对数单位,了解不同基数的对数。)相关概念,如[[联合熵]]、[[条件微分熵]]和[[相对熵]],以类似的方式定义。与离散模型不同,微分熵的偏移量取决于测量单位。<ref name="gibbs">{{cite book |last=Gibbs |first=Josiah Willard |title=[[Elementary Principles in Statistical Mechanics|Elementary Principles in Statistical Mechanics, developed with especial reference to the rational foundation of thermodynamics]] |year=1902 |publisher=Charles Scribner's Sons |location=New York}}</ref>例如,以毫米为单位的量的微分熵将比以米为单位测量的相同量的微分熵大 log(1000);无量纲量的log(1000)微分熵将大于相同量除以1000。
      第65行: 第63行:  
::<math>h(\mathbf{Y}) \leq h(\mathbf{X}) + \int f(x) \log \left\vert \frac{\partial m}{\partial x} \right\vert dx</math>
 
::<math>h(\mathbf{Y}) \leq h(\mathbf{X}) + \int f(x) \log \left\vert \frac{\partial m}{\partial x} \right\vert dx</math>
   −
:其中<math>\left\vert \frac{\partial m}{\partial x} \right\vert</math>是变换的[[Jacobian矩阵和行列式| Jacobian]]<math>m</math>。<ref>{{cite web |title=proof of upper bound on differential entropy of f(X) |work=[[Stack Exchange]] |date=April 16, 2016 |url=https://math.stackexchange.com/q/1745670 }}</ref>如果变换是双射,则上述不等式变为等式。此外,当<math>m</math>是刚性旋转、平移或其组合时,雅可比行列式总是1,并且<math>h(Y)=h(X)</math>。
+
:其中<math>\left\vert \frac{\partial m}{\partial x} \right\vert</math>是变换的[[Jacobian矩阵和行列式| Jacobian]]<math>m</math>。<ref>{{cite web |title=proof of upper bound on differential entropy of f(X) |work=Stack Exchange |date=April 16, 2016 |url=https://math.stackexchange.com/q/1745670 }}</ref>如果变换是双射,则上述不等式变为等式。此外,当<math>m</math>是刚性旋转、平移或其组合时,雅可比行列式总是1,并且<math>h(Y)=h(X)</math>。
   −
* 如果一个随机向量X具有均值零和协方差矩阵<math>K</math>, <math>h(\mathbf{X}) \leq \frac{1}{2} \log(\det{2 \pi e K}) = \frac{1}{2} \log[(2\pi e)^n \det{K}]</math>相等当且仅当<math>X</math>为多元正态分布/联合正态性/联合高斯(见下文[[#正态分布中的最大化])。<ref name="cover_thomas" />
+
* 如果一个随机向量X具有均值零和协方差矩阵<math>K</math>, <math>h(\mathbf{X}) \leq \frac{1}{2} \log(\det{2 \pi e K}) = \frac{1}{2} \log[(2\pi e)^n \det{K}]</math>相等当且仅当<math>X</math>为多元正态分布/联合正态性/联合高斯(见下文#正态分布中的最大化)。<ref name="cover_thomas" />
    
然而,微分熵没有其他理想的特性:
 
然而,微分熵没有其他理想的特性:
第114行: 第112行:     
:<math>L=\int_{-\infty}^\infty g(x)\ln(g(x))\,dx-\lambda_0\left(1-\int_{-\infty}^\infty g(x)\,dx\right)-\lambda\left(\sigma^2-\int_{-\infty}^\infty g(x)(x-\mu)^2\,dx\right)</math>
 
:<math>L=\int_{-\infty}^\infty g(x)\ln(g(x))\,dx-\lambda_0\left(1-\int_{-\infty}^\infty g(x)\,dx\right)-\lambda\left(\sigma^2-\int_{-\infty}^\infty g(x)(x-\mu)^2\,dx\right)</math>
 +
    
其中''g(x)''是平均μ的函数。当''g(x)''的熵为最大值时,由归一化条件<math>\ left(1=\int{-\infty}^\infty g(x)\,dx\ right)</math>和固定方差<math>\left(\sigma^2=\int_{-\infty}^\infty g(x)(x-\mu)^2\,dx\right)</math>组成的约束方程均满足,然后,关于''g(x)''的微小变化δ''g''(''x'')将产生关于''L''的变化δ''L'',其等于零:
 
其中''g(x)''是平均μ的函数。当''g(x)''的熵为最大值时,由归一化条件<math>\ left(1=\int{-\infty}^\infty g(x)\,dx\ right)</math>和固定方差<math>\left(\sigma^2=\int_{-\infty}^\infty g(x)(x-\mu)^2\,dx\right)</math>组成的约束方程均满足,然后,关于''g(x)''的微小变化δ''g''(''x'')将产生关于''L''的变化δ''L'',其等于零:
第128行: 第127行:     
:<math>g(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}</math>
 
:<math>g(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}</math>
 +
    
==例子:指数分布==
 
==例子:指数分布==
第133行: 第133行:     
:<math>f(x) = \lambda e^{-\lambda x} \mbox{ for } x \geq 0.</math>
 
:<math>f(x) = \lambda e^{-\lambda x} \mbox{ for } x \geq 0.</math>
 +
    
它的微分熵是
 
它的微分熵是
第226行: 第227行:     
==变体==
 
==变体==
如上所述,微分熵不具有离散熵的所有性质。例如,微分熵可以是负的;在连续坐标变换下也不是不变的。Edwin Thompson Jaynes事实上证明了上面的表达式不是有限概率的表达式的正确限制。<ref>{{cite journal |author=Jaynes, E.T. |author-link=Edwin Thompson Jaynes |title=Information Theory And Statistical Mechanics |journal=Brandeis University Summer Institute Lectures in Theoretical Physics |volume=3 |issue=sect. 4b |year=1963 |url=http://bayes.wustl.edu/etj/articles/brandeis.pdf }}</ref>
+
如上所述,微分熵不具有离散熵的所有性质。例如,微分熵可以是负的;在连续坐标变换下也不是不变的。Edwin Thompson Jaynes事实上证明了上面的表达式不是有限概率的表达式的正确限制。<ref>{{cite journal |author=Jaynes, E.T. |title=Information Theory And Statistical Mechanics |journal=Brandeis University Summer Institute Lectures in Theoretical Physics |volume=3 |issue=sect. 4b |year=1963 |url=http://bayes.wustl.edu/etj/articles/brandeis.pdf }}</ref>
     
7,129

个编辑