“Sloppy Model”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
第12行: 第12行:
 
许多参数个数超过5的模型都是sloppy的,由于很难通过实验数据找到sloppy模型参数,sloppy的模型通常被称为“欠约束”或“高度病态”。要找到stiff(“僵硬”)方向通常采用如下方法:假设模型的参数空间为''θ,''计算成本函数,即理论与实验值的差的平方和,                       
 
许多参数个数超过5的模型都是sloppy的,由于很难通过实验数据找到sloppy模型参数,sloppy的模型通常被称为“欠约束”或“高度病态”。要找到stiff(“僵硬”)方向通常采用如下方法:假设模型的参数空间为''θ,''计算成本函数,即理论与实验值的差的平方和,                       
  
[math]\$C(\theta)=\sum_i(y(\theta,t_i)-y_i)^2$[/math]
+
[math]\displaystyle{\frac{d^2 \theta}{d t^2} + \sin(\theta) = 0}[/math]
  
 
为了表示及说明方便,取参数空间的一个二维平面截面来观察等值线,可得到形如下图香蕉形状的的成本函数等值线图。这个图的水平方向与垂直方向是按照sloppy(“欠定 ”)方向与stiff(“僵硬”)方向布置的。沿着sloppy(“欠定”)方向,成本函数变化小,而沿着stiff(“僵硬”)方向,成本函数变化大。
 
为了表示及说明方便,取参数空间的一个二维平面截面来观察等值线,可得到形如下图香蕉形状的的成本函数等值线图。这个图的水平方向与垂直方向是按照sloppy(“欠定 ”)方向与stiff(“僵硬”)方向布置的。沿着sloppy(“欠定”)方向,成本函数变化小,而沿着stiff(“僵硬”)方向,成本函数变化大。

2024年3月5日 (二) 10:33的版本

Sloppiness与Sloppy理论

sloppiness是多参数系统的中常见的一种特性。具有这种特性的模型的参数往往有很多个,但是模型的行为仅取决于少数几个参数或参数的线性组合,其它参数或参数 的线性组合对模型的影响微乎其微。sloppiness特性在系统生物学、物理学和数学系统中无处不在。


几年前,在研究细胞内外信号传递过程中蛋白质相互作用机制时,几名物理和生物领域的科学家建立了一个有48个参数的模型,模型中参数之间难以独立分离,且参数变化范围都超过50倍。在面对一个参数不确定性如此之大的复杂模型时,一位生物学家却指出:根据研究经验,模型的实验结果甚至不用电脑就可以估算出来。因为系统的行为与大多数参数不确定性之间的关系并不紧密。

大量的生物模型都存在类似的现象,例如生物钟的模型。该模型有36个参数,参数空间中符合模型行为特征的参数点构成了一个线性空间,把参数空间向某一平面投影,如图所示。在图上可以看出有实验点分布的方向是sloppy(“欠定”)的(即沿着这个方向变化参数,模型的行为不会发生明显改变),而垂直实验点分布方向是stiff(“僵硬”)的(即在这个方向上改变模型参数,模型的行为会发生显著变化),而在垂直于这个平面的参数空间中,大部分方向都是sloppy(“欠定”)的。

有一点必须注意,在大多数sloppy模型中,改变任何一个参数值往往都会对模型的行为产生很大影响。在这个例子中,无论沿水平方向改变参数还是沿垂直方向改变参数,模型的行为都会发生明显改变,而只有沿特定sloppy(“欠定”)方向改变参数时,模型的行为才不会发生明显改变。sloppniess仅表示sloppy(“欠定”)参数方向组成的空间维度相比于stiff(“僵硬”)参数方向组成的空间维度要高得多。

许多参数个数超过5的模型都是sloppy的,由于很难通过实验数据找到sloppy模型参数,sloppy的模型通常被称为“欠约束”或“高度病态”。要找到stiff(“僵硬”)方向通常采用如下方法:假设模型的参数空间为θ,计算成本函数,即理论与实验值的差的平方和,

[math]\displaystyle{\frac{d^2 \theta}{d t^2} + \sin(\theta) = 0}[/math]

为了表示及说明方便,取参数空间的一个二维平面截面来观察等值线,可得到形如下图香蕉形状的的成本函数等值线图。这个图的水平方向与垂直方向是按照sloppy(“欠定 ”)方向与stiff(“僵硬”)方向布置的。沿着sloppy(“欠定”)方向,成本函数变化小,而沿着stiff(“僵硬”)方向,成本函数变化大。

模型与实际值符合最好的参数值会使成本函数取到极值,从这个参数值局部来看,成本函数的等值线呈现为椭球形,取成本函数的黑塞矩阵$$H_{\alpha\beta} =\partial^2C/\partial\theta_\alpha\partial\theta_\beta$$。计算矩阵的特征值以及对应的特征向量,较大的特征值对应的特征向量方向即是stiff(“僵硬”)的。因此,特征值的平方(为了避免特征值是负的时,绝对值大但本身值很小的情况出现)即可以反应参数变化方向是stiff(“僵硬”)的还是sloppy(“欠定”)的。

Sloppiness在生物学领域最为普遍,但在其它领域也并不缺席。从昆虫飞行模型,到原子间势,再到加速器设计,许多目前常用的模型都是sloppy的。例如,量子蒙特卡洛是求解原子和小分子的能量和量子行为的最精确的工具;然而,赛勒斯·乌姆里加(Cyrus Umrigar)在这种方法基础上建立的非常精确的变分波函数却是极度sloppy(b列)。

即便参数值与真实值相差很大,有sloppy特性的模型也可以做出精确的预测。在数学中有一个经典的拟合难题:用指数衰变和去拟合放射性模型(c列和d列)得到的衰变常数与真实衰变常数截然不同,但短期内模型预测值与真实值却相差不大 。最后,用多项式系数模型$$\sum_i a_it^i$$拟合数据是sloppy的(h列)。但用正交多项式基$$\sum_ib_iH_i$$($$H_i$$是一组正交多项式基)去拟合时得到的模型却往往是非sloppy的,这是因为从$$t^i$$到$$H_i$$的变换是高度非正交的。

Sloppy模型有着多种形式,每个模型的sloppniess的原因并不完全相同,部分系统的sloppiness的原因可以从数学上进行分析。但是不同系统的sloppiniess具体原因仍然极具复杂性。

Sloppy 理论与物理学

事实上,科学能够向前发展与sloppy模型的普适性相连,任何一个系统都是由大量参数决定的,而人们能够发现系统的规律是因为系统的规律由少数stiff(“僵硬”)参数决定,而与大量的sloppy(“欠定”)参数无关。以声音传播的现象为例,声音传播与分子的大小、分子的速度等众多参数相关,但是要准确预测声音传播的速度只需要知道宏观的密度与压缩比。同样,高能物理学家不需要求解弦理论来预测希格斯玻色子或描述夸克的行为。

事实上,理论物理学就像一棵树(下图)。高能物理学家研究树的枝条,寻找更接近树干的更统一的理论。在凝聚态物理学中则向外构建,寻找“涌现的”树枝和树叶——描述声音、半导体和超流体的有效理论。但两者有许多相似之处:扩散方程描述了在静止空气中香水如何从皮肤扩散到鼻子。这个方程通常写成连续极限的形式,使用的方法类似于描述凝聚态物理学中许多其他现象——声音、磁铁和超导体——的方法。而磁性的伊辛模型分形过程,通常使用类似于高能物理学中使用的重整化群进行分析。物理学家有一套系统的方法判断哪些参数是stiff(“僵硬”)的,哪些参数是sloppy(“欠定”)的,但是在其它领域中并没有相应的方法,使用sloppy理论的概念可以更准确有效地分析系统。

Sloppy理论对实验的启示及应用

大量的模型都是sloppy的,都可以用大量不同的参数去拟合相同的实验数据。在很多情形下,哪怕系统的参数还未知,也有可能作出准确预测。一方面,这可以认为是好事,因为可以给许多似是而非的模型提出质疑。但另一方面,却给如何证明一个模型是正确的提出了挑战。

解决这个问题的方法就是仔细测量所有数据,如果所有数据都被精确测量,而且模型与实验仍然符合,那么模型就是正确的,但是实际上,这样做很耗时耗力。大部分情形下,模型本身可以是错误的,但因为能作出准确的预测,也可以放心使用。

但这并不是说可以忽略一些参数,哪怕忽略一个stiff(“僵硬”)方向有投影的参数,模型的行为也会完全不可控。这也给实验造成了困扰,有时忽略了一半以上的参数模型的行为不会有太大改变,但即使忽略了在stiff(“僵硬”)方向有投影的一个参数,要准确预测模型的行为也会变得完全不可能。

还是以上述48参数的模型为例,研究其在另一种工作模式下的行为:特定细胞在特定生长激素 (EGF作用下)的活性 Erk 与时间的关系。如果 Erk 在 10 分钟后下降,细胞就会增殖;如果它保持下去,细胞就会分化(像神经元一样生长分支)。药物LY,红色X)会关闭两种蛋白质(图中左侧灰色的两个蛋白)。实验想确定给细胞提供更多的LY会发生什么。下面使用四种类型的预测。
  1. 经验:一名生物学家认为图中左侧的回路在十分钟后会阻止Erk流失。因此,在添加药物LY后,他预测Erk将保持活跃。
  2. Sloppy(“欠定”)的做法:拟合了现有的实验数据(文献中的14个实验,在各种干预后进行各种测量)。模型是sloppy(“欠定”)的,48个参数的误差很大。结果预测结果如下图所示。Erk 在后期不保持活跃;生物学家猜错了。(这就是为什么他希望开发这个模型;他的直觉受到了所有反馈循环的挑战。然而,值得注意的是,考虑到参数不确定性的最小值为50倍,到最大值约为100万,预测的误差却非常小。
  3. 精准实验:把所有实验参数的值误差控制在25%以下,实验花费的精力很大,但是实验结果与第二种“懒惰”的做法结果相差不大。
  4. 少测量一个参数:在图上反应的是蓝色带的位置,可以看出,虽然参数的误差很小,但实验结果的取值范围很大,很难作出准确的预测。
在另外研究一个表皮生长因子受体 (EGFR)在受到外界信号再刺激时的行为的实验中,也同样应用了sloppy的理论,。实验涉及到的参数包括活性 Cool-1、活性 Cdc42 和 Cbl。实验想要判断Cbl与活性 Cool-1、活性 Cdc42 的关系。该系统有两种机制,两种机制之间互相影响。这给实验带来了极大困难。虽然可以给这个系统建立一个与以往实验数据相符的计算模型,但是仍然无法准确预测系统的行为。为了解决这个问题,生物学家应用了成本函数。先是计算了整体偏差$$C(\theta)=\sum_{\alpha=1}^D\sum_{i=1}^ {m_\alpha}\left(\frac{y_\alpha(t_{\alpha i},\theta)-d_{\alpha i}}{\sigma_{\alpha i}}\right)^2$$

其中$$D$$是要测量的参数个数,而$$m_\alpha$$是每个参数的取样点

然后计算费舍尔信息矩阵

$$M=E[\partial^2C/\partial\theta^2]=\sum_{\alpha=1}^D\sum_{i=1}^{m_\alpha}\frac{1}{\sigma_{\alpha i}}\frac{\partial y_\alpha(t_{\alpha_i},\theta)^t}{\partial\theta}|_{\hat\theta}\frac{1}{\sigma_{\alpha i}}\frac{\partial y_\alpha(t_{\alpha_i},\theta)}{\partial\theta}|_{\hat\theta}=J^tJ$$

定义成本函数为要预测的参数的方差

$$Var((\hat y_\beta(t))=\frac{\partial y_\alpha(t_{\alpha_i},\theta)^t}{\partial\theta}|_{\hat\theta}M^{-1}\frac{\partial y_\alpha(t_{\alpha_i},\theta)}{\partial\theta}|_{\hat\theta}$$

对这个成本函数相对于$$\alpha$$和$$t_{\alpha i}$$取极值,就可以知道测量哪个参数以及在哪个取样点附近测量参数可以让实验的误差最小。应用这个方法,生物学家发现参数活性 Cdc42 更加stiff,增加了活性 Cdc42 的测量点数后极大地减少了实验误差。

这两个实验表明,在实验中可以减少测量参数的个数,并且通过选取测量的参数使实验更加有效。但是在许多情况下仍有很多问题。这里的模型是准确的,误差估计也很准确。这是建立大量已有实验的基础上,但对于未知的领域,规律往往并不清楚,虽然系统极有可能是sloppy的,但是正是因为有那些stiff(“僵硬”)的参数方向,仍然需要繁琐得测量所有参数。


以上内容翻译自参考资料:

Sloopy Model: https://www.lassp.cornell.edu/sethna/Sloppy/,感兴趣的朋友可以前往了解详情。