更改

添加354字节 、 2024年5月24日 (星期五)
第8行: 第8行:  
然而,传统的EI主要被用于具有离散状态的[[马尔科夫链]]上。为了能过扩充到一般的实数域,P. Chvykov和E. Hoel于2020年合作提出了[[因果几何]]理论,将EI的定义扩充到了具备连续状态变量的函数映射上,并通过结合[[信息几何]]理论,探讨了EI的一种微扰形式,并与[[Fisher信息]]指标进行了比较,提出了[[因果几何]]的概念。然而,这一连续变量的EI计算方法需要假设方程中的正态分布随机变量的方差是无限小的,这显然是一种特殊情况。
 
然而,传统的EI主要被用于具有离散状态的[[马尔科夫链]]上。为了能过扩充到一般的实数域,P. Chvykov和E. Hoel于2020年合作提出了[[因果几何]]理论,将EI的定义扩充到了具备连续状态变量的函数映射上,并通过结合[[信息几何]]理论,探讨了EI的一种微扰形式,并与[[Fisher信息]]指标进行了比较,提出了[[因果几何]]的概念。然而,这一连续变量的EI计算方法需要假设方程中的正态分布随机变量的方差是无限小的,这显然是一种特殊情况。
   −
到了2022年,为了解决一般[[前馈神经网络]]的EI计算问题,[[刘凯威]]与[[张江]]又将[[因果几何]]中的连续变量的EI计算方法的方差限制去掉,探讨了EI的更一般形式。然而,这种扩充仍然存在着一个缺陷,由于实数域上变量的均匀分布严格讲是定义在无穷大空间上的,为了避免遭遇无穷大,EI的计算中就会带着一个参数[math]L[/math],表示均匀分布的区间范围。为了避免这个缺陷,也为了在不同[[粗粒化]]程度上比较EI,作者们便提出了[[维度平均EI]]的概念,并发现由[[维度平均EI]]定义的[[因果涌现度量]]是一个仅与[[神经网络]]的[[雅可比矩阵]]的行列式对数值期望与两个比较维度的[[随机变量方差]]有关的量,而与其它参量,如[math]L[/math]无关,而且,[[维度平均EI]]也可以看作是一种[[归一化的EI]],即Eff。
+
到了2022年,为了解决一般[[前馈神经网络]]的EI计算问题,[[张江]]与[[刘凯威]]又将[[因果几何]]中的连续变量的EI计算方法的方差限制去掉,探讨了EI的更一般形式。然而,这种扩充仍然存在着一个缺陷,由于实数域上变量的均匀分布严格讲是定义在无穷大空间上的,为了避免遭遇无穷大,EI的计算中就会带着一个参数[math]L[/math],表示均匀分布的区间范围。为了避免这个缺陷,也为了在不同[[粗粒化]]程度上比较EI,作者们便提出了[[维度平均EI]]的概念,并发现由[[维度平均EI]]定义的[[因果涌现度量]]是一个仅与[[神经网络]]的[[雅可比矩阵]]的行列式对数值期望与两个比较维度的[[随机变量方差]]有关的量,而与其它参量,如[math]L[/math]无关,而且,[[维度平均EI]]也可以看作是一种[[归一化的EI]],即Eff。
    
本质上讲,EI仅仅与一个[[马尔科夫动力系统]]的[[动力学]]——也就是有关[[马尔科夫状态转移矩阵]]有关,而与状态变量的分布无关,然而,这一点在之前的文章中并没有被指出或刻意强调。在2024年的[[袁冰]]等人的综述文章,作者们进一步强调了这一点,并给出了EI仅依赖于[[马尔科夫状态转移矩阵]]的显式形式。[[张江]]等人在最新的讨论[[动力学可逆性]]与[[因果涌现]]的最新文章中,又指出EI实际上是对底层[[马尔科夫状态转移矩阵]]的[[可逆性]]的一种刻画,于是尝试直接刻画这种[[马尔科夫链的动力学可逆性]]以替代EI。
 
本质上讲,EI仅仅与一个[[马尔科夫动力系统]]的[[动力学]]——也就是有关[[马尔科夫状态转移矩阵]]有关,而与状态变量的分布无关,然而,这一点在之前的文章中并没有被指出或刻意强调。在2024年的[[袁冰]]等人的综述文章,作者们进一步强调了这一点,并给出了EI仅依赖于[[马尔科夫状态转移矩阵]]的显式形式。[[张江]]等人在最新的讨论[[动力学可逆性]]与[[因果涌现]]的最新文章中,又指出EI实际上是对底层[[马尔科夫状态转移矩阵]]的[[可逆性]]的一种刻画,于是尝试直接刻画这种[[马尔科夫链的动力学可逆性]]以替代EI。
    
=Do形式及解释=
 
=Do形式及解释=
相比于传统信息论,EI最大的特色在于引入[[最大熵分布]],度量在输入变量被设定为[[最大熵分布]]后,输入变量与受到影响的输出变量之间的关联程度。这实际上是对输入变量做了一个[[干预]]操作。[[Judea Pearl]]在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
+
对于任意的马尔科夫链[math]\chi[/math],它的状态状态空间为[math]\mathcal{S}[/math],转移概率矩阵定义为[math]M[/math],它在t时刻的状态变量为[math]X_t[/math], t+1时刻的状态变量为[math]X_{t+1}[/math],则EI定义为:
 +
 
 +
 
 +
与传统[[信息论 Information theory]]中的[[互信息]]度量不同,有效信息希望刻画出马尔科夫动力学的因果特性,而这一特性与数据度量在输入变量被设定为[[最大熵分布]]后,输入变量与受到影响的输出变量之间的关联程度。这实际上是对输入变量做了一个[[干预]]操作。[[Judea Pearl]]在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
    
Erik Hoel意识到了这一点,在他提出的因果涌现框架中使用了EI作为一个量化指标。其中他强调EI是一种因果度量,量化的是[[因果效应]]的强弱。在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。在EI的计算中,[[do算子]]则是把数据和动力学分开,消除了所有从数据中带来的因果箭头,从而变成对动力学本身性质的度量。而之所以要把输入变量干预为[[最大熵分布]],其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
 
Erik Hoel意识到了这一点,在他提出的因果涌现框架中使用了EI作为一个量化指标。其中他强调EI是一种因果度量,量化的是[[因果效应]]的强弱。在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。在EI的计算中,[[do算子]]则是把数据和动力学分开,消除了所有从数据中带来的因果箭头,从而变成对动力学本身性质的度量。而之所以要把输入变量干预为[[最大熵分布]],其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
332

个编辑