直观地说,如果熵H (Y)被看作是对一个随机变量的不确定性的度量,那么<math>H(Y|X)</math>是对 <math>X</math>没有对<math>Y</math>进行说明的度量。这是“<math>X</math>已知后<math>Y</math>剩余的不确定性量” ,因此,第二个等式的右边可以被解读为“数学 y / 数学中的不确定性量,减去数学 y / 数学中的不确定性量,在数学 x / 数学已知后仍然存在的不确定性量” ,这相当于“数学 y / 数学中的不确定性量,通过知道数学 x / 数学而去除”。这证实了互信息的直观含义,即知道任何一个变量提供的关于另一个变量的信息量(即不确定性的减少)。
+
如果熵H (Y)被看作是对一个随机变量的不确定性的度量,那么<math>H(Y|X)</math>是对 <math>X</math>没有对<math>Y</math>进行说明的度量。这是“<math>X</math>已知后<math>Y</math>剩余的不确定性量” ,因此,第二个等式的右边可以被解读为“数学 y / 数学中的不确定性量,减去数学 y / 数学中的不确定性量,在数学 x / 数学已知后仍然存在的不确定性量” ,这相当于“数学 y / 数学中的不确定性量,通过知道数学 x / 数学而去除”。这证实了互信息的直观含义,即知道任何一个变量提供的关于另一个变量的信息量(即不确定性的减少)。
注意,在离散情况下 math Eta (x | x)0 / math,因此 math Eta (x) operatorname { i }(x; x) / math。因此 math operatorname { i }(x; x) ge operatorname { i }(x; y) / math,我们可以公式化这样一个基本原则,即一个变量包含的关于它自身的信息至少与任何其他变量所能提供的信息一样多。