更改

跳到导航 跳到搜索
添加328字节 、 2024年10月6日 (星期日)
第456行: 第456行:  
===在人工神经网络上的应用===
 
===在人工神经网络上的应用===
   −
Marrow等人在文章<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>中尝试将[[有效信息]]引入[[神经网络]],来量化和跟踪训练过程中神经网络[[因果结构]]的变化,其中[[有效信息]]用于评估节点和边对每层下游目标的因果的影响程度,这里每层神经网络的有效信息EI定义为:<math>I(L_1;L_2|do(L_1=H^{max}))</math>,这里的<math>L_1</math>和<math>L_2</math>分别表示连接神经网络的输入和输出层,这里将输入层整体do成均匀分布,然后计算因和果之间的互信息。[[有效信息]]可以被分解为灵敏性和简并性,这里的灵敏性定义为:<math>\sum_{(i \in L_1,j \in L_2)}I(t_i;t_j|do(i=H^{max}))</math><math>t_i</math>和<math>t_j</math>分别表示输入和输出层中的神经元状态,这里区别于有效信息的定义,这里是对输入层中的每一个神经元分别进行do干预,然后将每两个神经元计算出来的互信息进行累加作为灵敏性的定义,简并性通过有效信息与灵敏性的差得到,定义为:<math>I(L_1;L_2|do(L_1=H^{max}))-\sum_{(i \in L_1,j \in L_2)}I(t_i;t_j|do(i=H^{max}))</math>。通过观察模型训练过程中的有效信息,包括[[灵敏性]]和[[简并性]]的变化,就可以知道模型的泛化能力,从而帮助学者更好的理解和解释神经网络的工作原理。
+
Marrow等人在文章<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>中尝试将[[有效信息]]引入[[神经网络]],来量化和跟踪训练过程中神经网络[[因果结构]]的变化,其中[[有效信息]]用于评估节点和边对每层下游目标的因果的影响程度,这里每层神经网络的有效信息EI定义为:
 +
 
 +
<math>
 +
I(L_1;L_2|do(L_1=H^{max}))
 +
</math>
 +
 
 +
,这里的<math>L_1</math>和<math>L_2</math>分别表示连接神经网络的输入和输出层,这里将输入层整体do成均匀分布,然后计算因和果之间的互信息。[[有效信息]]可以被分解为灵敏性和简并性,这里的灵敏性定义为:
 +
 
 +
<math>
 +
\sum_{(i \in L_1,j \in L_2)}I(t_i;t_j|do(i=H^{max}))
 +
</math>
 +
 
 +
,这里i,j分别代表输入层和输出层的任意神经元组合,<math>t_i</math>和<math>t_j</math>分别表示输入和输出层中的神经元在神经网络机制不变的条件下,干预i为最大熵分布后的状态组合。也就是说,如果干预输入神经元i为均匀分布,则输出神经元也会发生改变,那么这一数值即度量二者之间的互信息。
 +
 
 +
这里应该区别于有效信息的定义,这里是对输入层中的每一个神经元分别进行do干预,然后将每两个神经元计算出来的互信息进行累加作为灵敏性的定义,简并性通过有效信息与灵敏性的差得到,定义为:
 +
 
 +
<math>
 +
I(L_1;L_2|do(L_1=H^{max}))-\sum_{(i \in L_1,j \in L_2)}I(t_i;t_j|do(i=H^{max}))
 +
</math>
 +
 
 +
通过观察模型训练过程中的有效信息,包括[[灵敏性]]和[[简并性]]的变化,就可以知道模型的泛化能力,从而帮助学者更好的理解和解释神经网络的工作原理。
    
===在脑神经系统上的应用===
 
===在脑神经系统上的应用===
727

个编辑

导航菜单