“幂律分布”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
第442行: 第442行:
 
[[文件:长尾.png|缩略图|长尾分布|居中]]
 
[[文件:长尾.png|缩略图|长尾分布|居中]]
  
其通式可写成<math>y = cx^{-r}</math>,其中x,y是正的随机变量,c,r一般为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。
+
其通式可写成<math>y = cx^{-r}</math>,其中''x'',''y''是正的随机变量,''c''、''r''一般为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。
对上式两边取对数,可知lny与lnx满足线性关系,即在双对数坐标(log-log plot)下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否具有幂律关系的依据。
+
对上式两边取对数,可知<math>lny</math>与<math>lnx</math>满足线性关系,即在双对数坐标(log-log plot)下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否具有幂律关系的依据。
  
判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式。下图显示的是上图在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分(对应于上图“长尾”分布的尾部),则近乎为一直线,其斜率的负数就是幂指数。
+
判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法可得<math>lny</math>对<math>lnx</math>的经验回归直线方程,从而得到''y''与''x''之间的幂律关系式。下图显示的是上图在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分(对应于上图“长尾”分布的尾部),则近乎为一直线,其斜率的负数就是幂指数。
  
 
[[文件:幂律-双对数坐标.png|缩略图|双对数坐标下的幂律关系|居中]]
 
[[文件:幂律-双对数坐标.png|缩略图|双对数坐标下的幂律关系|居中]]

2020年7月8日 (三) 17:53的版本


一个幂律图示例,展示了人气排名的规律。右侧是数量庞大但人气微弱的“长尾”,左侧则是少数“主宰”。 (又称80–20法则)。

在统计学中,幂律是两个量之间的函数关系,其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关:表现为一个量是另一个量的幂次方。例如,正方形面积与边长的关系,如果长度加倍,那么面积扩大四倍。[1]

实例

各种各样的物理、生物和人造现象的分布在大致遵循着幂律,涉及范围极其广泛,包括月球表面月坑的大小,太阳耀斑的强度[2] ,各物种的觅食模式[3],神经元集群活动模式的规模[4],大多数语言的用词频率,各姓氏的频率,生物支系的物种丰富度[5],停电的影响范围,每个罪犯的刑事罪名指控,火山喷发[6],人类对刺激的敏感度[7][8] ,等等[9]

不过很少有经验分布符合完整的幂律分布,更确切地说,他们通常是遵循幂律尾部的规律。在许多复杂介质中,声衰减 Acoustic attenuation遵循宽频带内的频率幂律;揭示生物变量之间关系的异速标度律 Allometric_scaling是自然界中已知的最著名的幂律函数之一。

性质

标度不变性 Scale invariance

幂律的一个属性是它们的标度不变性。给定一个关系[math]\displaystyle{ f(x) = ax^{-k} }[/math] ,将参数 [math]\displaystyle{ x }[/math]标度一个常量 [math]\displaystyle{ c }[/math] 只会导致函数本身的比例标度,公式表达为:[math]\displaystyle{ f(c x) = a(c x)^{-k} = c^{-k} f(x) \propto f(x) }[/math],此处,[math]\displaystyle{ \propto }[/math] 表示成正比(正比例)。也就是说将参数标度常量[math]\displaystyle{ c }[/math],那么对应原始幂律关系乘以常量[math]\displaystyle{ {c}^{-k} }[/math] 。因此,所有具有特定标度指数的幂律都等效于常量因子(的标度),因为每个幂律函数都只是其他情况的缩放而已。

如果我们取用两者([math]\displaystyle{ f(x) }[/math][math]\displaystyle{ x }[/math])的对数,会得到一个线性关系,呈现在双对数图上就是一条直线,这通常被看作幂律的标志。对于实际数据,这种线性是幂律关系数据的必要条件,但并不是充分条件。实际上,有许多方法可以生成模拟此指数行为的有限数量的数据, 但在它们的渐近极限中, 不是真正的幂律 (例如, 如果某些数据的生成过程遵循对数正态分布)。因此, 准确地拟合和验证幂律模型是统计研究的一个活跃领域。

缺失完备定义的均值 Lack of well-defined average value

仅当[math]\displaystyle{ k \gt 2 }[/math][math]\displaystyle{ x^{-k} }[/math][math]\displaystyle{ x \in [1,\infty) }[/math]具有完备定义的均值 ; 当[math]\displaystyle{ k \gt 3 }[/math] 时,[math]\displaystyle{ x^{-k} }[/math] 具有有限的方差;

自然界中,大多数幂率分布的指数使得其具有完备定义的均值(K>2嘛),但是方差不是有限的,这意味着它们有可能成为“黑天鹅”行为[10]呈现了这个想法: 假设你和你的朋友一起在一个房间里估算平均月收入,然后世界上最富有的人进入房间,他每月收入约10亿美元,那么房间里的平均收入会怎么样?

我们又将收入分布服从幂律现象称为帕累托分布(例如,美国人的资产净值服从指数为2的幂律分布)。一方面,这使得应用基于方差和标准差的传统统计(例如回归分析)失效。另一方面,这或许可通过采取有效的干预手段解决一些问题[11],例如,可以应用到管理汽车尾气排放,这个问题服从幂律分布(极少数汽车导致大多数污染),那么理论上从道路上消除那些极少数汽车就足以减少总排放量。[12]

然而,幂律分布的中位数确实存在: 对幂律[math]\displaystyle{ x^{-k} }[/math] ,与指数k > 1,它取 21/(k – 1)xmin,其中xmin时幂律所适用的最小值。[13]

普适性 Universality

幂律与特定标度指数的等价性在产生幂律关系的动力学过程中有更深层次的渊源。 例如,在物理学中,热力系统中的相变与某些量呈现幂律分布有关,它们的指数被称为系统的临界指数 critical exponents。具有相同的临界指数的不同系统——即它们在接近临界状态 criticality时显示相同的标度行为——可以通过重整化理论来证明,他们的基本动力学相同。例如,水和 CO2 在沸点上的行为在相同的普适类中,因为它们具有相同的临界指数。 事实上,几乎所有的物质相变都是由一小套普适类描述的。对于各种自组织的临界系统 self-organized critical,人们也进行了类似的观察,虽然不是很全面,但在这些系统中,系统的临界点是吸引子。在形式上,这种动力学的共享性被称为普适性 universality,而我们通常认为具有精确相同的临界指数的系统属于同一种普适类 universality 5class

幂律函数 Power-law functions

科学家对幂率关系感兴趣,部分是因为某些简单机制生成幂率关系所展示出的简洁性。[14]一些数据幂律关系的演示可以指向特定的机制,这些机制不仅是自然现象的基础,还可以表明与其他看似不相关的系统之间的深层联系; 参见上文的普适性 。物理世界中幂律关系的无处不在, 部分是由于维度限制[15];而在复杂系统中,幂律通常被认为是层级或特定随机过程的特征。几个显著例子是帕累托的收入分配定律分形的结构自相似性,以及生物系统中的标度定律。研究幂律关系的起源,并致力于现实世界中对它的观察和验证,是物理学、计算机科学、语言学、地球物理、神经科学、社会学、经济学等许多领域研究的一个热门话题。

不过,最近对幂律的兴趣主要来自于对概率分布的研究:似乎有大量的分布遵循幂律的形式,至少它们右尾是符合的。这些大型事件的行为将这些数量与大偏差理论 theory of large deviations的研究联系起来(也称为极值理论 extreme value theory),它考虑了诸如股市崩盘和大型自然灾害等极其罕见的事件的发生频率。在统计分布的研究中更倾向于称之为“幂律”。

在实际情况中,近似为幂律分布的情况[math]\displaystyle{ o(x^k) }[/math]通常包括一个偏差项,它可以表示观察到的值[math]\displaystyle{ \varepsilon }[/math]的不确定性(可能是测量或抽样误差),或者提供一种简单的方法使观察偏离幂律函数(可能是因为随机):[math]\displaystyle{ y = ax^k + \varepsilon.\! }[/math]

从数学角度来说,一个严格的幂律函数不可能是概率分布,但一个被截断的幂律函数的分布是可能的:[math]\displaystyle{ p(x) = C x^{-\alpha} }[/math] ,对于[math]\displaystyle{ x \gt x_\text{min} }[/math] ,指数[math]\displaystyle{ \alpha }[/math] (希腊字母alpha],注意不要与之前使用的标度系数[math]\displaystyle{ a }[/math]混淆)大于1(否则尾部具有无限区域),最小值[math]\displaystyle{ x \gt x_\text{min} }[/math]是必须存在的。否则,当x接近0时, 分布具有无限面积,常量因子C是一个标度因子,以确保总面积为 1,这是概率分布的基本要求。更常见的是使用渐近幂律——只在极限情况下成立。指数通常在 [math]\displaystyle{ 2 \lt \alpha \lt 3 }[/math]之间,不过这并不绝对[9]。详细信息请参阅幂律概率分布 power-law probability distributions


示例

从物理学(例如沙堆雪崩),生物学(例如物种灭绝和体重)以及社会科学(例如城市规模和收入[16])中,已经确定了超过一百种幂律分布。其中包括:

其他形式

分段幂律 Broken power law

初始质量函数的一些模型遵循分段幂律; Kroupa(2001)红色。

分段幂律是一个分段函数,由两个或多个的幂律函数组成,再加上一个阈值。例如,有两个幂律[26]


指数截断的幂律分布 Power law with exponential cutoff

具有指数截止的幂律就是幂律乘以一个指数函数[27]

[math]\displaystyle{ f(x) \propto x^{\alpha}e^{\beta x}. }[/math]


曲线幂律 Curved power law

[28]

[math]\displaystyle{ f(x)\propto }[/math][math]\displaystyle{ {x^{\alpha+\beta x}} }[/math]

幂律概率分布 Power-law probability distributions

广义上,幂律概率分布是一个密度函数(或离散情况下的概率质量函数)具有以下形式的分布: 对于较大的[math]\displaystyle{ x }[/math][29]

[math]\displaystyle{ P(X\gt x) \sim L(x) x^{-(\alpha+1)} }[/math]

其中[math]\displaystyle{ \alpha \gt 0 }[/math][math]\displaystyle{ L(x) }[/math]是一个慢变函数 Slowly varying function,对于任何正因子[math]\displaystyle{ r }[/math] ,它都满足[math]\displaystyle{ \lim_{x\rightarrow\infty} L(r\,x) / L(x) = 1 }[/math][math]\displaystyle{ L(x) }[/math]的这个属性来自于[math]\displaystyle{ p(x) }[/math] 渐进的标度不变性。因此,[math]\displaystyle{ L(x) }[/math]仅控制左尾的形状和有限范围。如果[math]\displaystyle{ L(x) }[/math]是常量因子函数,并且我们有一个幂律适用于所有的 [math]\displaystyle{ x }[/math]值,在许多情况下,可以很容易地依据幂律假设出一个下限。结合这两种情况,当 [math]\displaystyle{ x }[/math]是一个连续变量,幂律有以下形式:

[math]\displaystyle{ p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha}, }[/math]

其中,[math]\displaystyle{ frac{\alpha-1}{x_\min} }[/math]标准化常量因子

下面我们来讨论这个分布的性质。 首先,它的矩可表示为:

[math]\displaystyle{ \langle x^{m} \rangle = \int_{x_\min}^\infty x^{m} p(x) \,\mathrm{d}x = \frac{\alpha-1}{\alpha-1-m}x_\min^m }[/math]

[math]\displaystyle{ m \lt \alpha -1 }[/math],定义是完备的; 当[math]\displaystyle{ m \geq \alpha - 1 }[/math],发散: 当[math]\displaystyle{ \alpha\leq 2 }[/math],均值与高阶矩都是无穷大; 当[math]\displaystyle{ 2\lt \alpha\lt 3 }[/math],均值存在,但方差和高阶矩都是无穷大。 如果从这种分布中抽取有限样本,意味着中心矩估计永远不会收敛——并且随着数据的增多,他们还有增大的趋势。这种幂律概率分布又被称为帕累托型分布,具有帕累托尾部特征的分布,或是具有规则变化的分布。

一种不满足上面的一般形式的修改,即指数截止幂律分布。

[math]\displaystyle{ p(x) \propto L(x) x^{-\alpha} \mathrm{e}^{-\lambda x}. }[/math]

在这种分布中,指数衰减项[math]\displaystyle{ \mathrm{e}^{-\lambda x} }[/math]最终会在较大的[math]\displaystyle{ x }[/math]处超过正常的幂律分布。这种分布无法成比例缩放,因此并不是幂律;不过,它会在截止前的有限区域内近似地缩放。(注意,一般的幂律分布是这种分布的简单形式,即 [math]\displaystyle{ \lambda=0 }[/math]的指数截止幂律分布。)这种分布是渐近幂律分布的常见替代方法,因为它考虑了有限大小的影响。

Tweedie分布是一族统计模型,其特征是基于可加 additive与可再生 reproductive卷积以及标度变换 scale transformation的闭包 closure。因此,这些模型都表达了方差和均值之间的幂律关系。这些模型作为数学收敛的焦点,类似于正态分布在中心极限定理中所扮演的角色。这种收敛效应解释了为什么在自然过程中, 方差-平均幂律表现得如此广泛, 就像泰勒在生态学中的定律和在物理学中的涨落标度[30]。还可以证明,使用扩展箱 expanding bins方法时,这种方差 - 均值幂律分布 variance-to-mean power law意味着存在1 / f噪声,而1/ f噪声可能是由于Tweedie收敛效应 Tweedie convergence effect而产生的[31]


图形检验法 Graphical methods for identification

在双对数图上呈现直线是必要的,但对于幂律,没有足够的证据证明直线的斜率就对应于幂律指数。

虽然人们已经提出了更成熟更稳健的方法,但通过随机样本检验幂律概率分布的最常用的图形方法还是帕累托双分位图 Pareto quantile-quantile plot(或帕累托Q-Q图),平均剩余寿命图 mean residual life plot[32][33]和双对数图 Pareto quantile-quantile plots(log-log图)。另一种更强大的图形检验法是利用残余分位函数束[34] 。(注意,幂律分布也称为帕累托分布。)这里假设从概率分布中获得随机样本,并且我们想知道分布的尾部是否遵循幂律(换句话说,我们想知道分布是否有“帕累托尾”)。此处随机样本也被称为“数据”。

帕累托Q-Q图是这样绘制的:它将取对数后(样本)数据的分位数与取均值为1的指数分布对应的分位数(或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该怀疑其服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数[math]\displaystyle{ \alpha }[/math](也称为帕累托指数)接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。[34]

另一种检验幂律概率分布的方法是平均剩余寿命图,它包含以下步骤:首先对数据取对数,然后将高于第 i 阶统计量的数据平均值与第 i 阶统计量进行比较绘制,从i = 1, ..., n,其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形; 而这些图形通常被称为 Hill horror plots 。[35]

双对数图是使用随机样本以图形方式检验尾部分布的另一种方式。使用这个方法需谨慎,因为双对数图中呈现直线对幂律概率分布是必要不充分条件,许多非幂律分布在双对数图上也显示为直线[36][27] 。这个方法是将特定数在该分布中的概率估计量的对数 | 对比这个数的对数 | 进行绘图。通常,此估计量是该数据在数据集中出现的次数的比例。如果图中的点在x较大时倾向于“收敛”为直线,则可得出结论,该分布具有“幂律尾”(power-law tail)。目前这些类型的绘图的应用示例 已经发表[37]。但这种方法的局限是,需要大量的数据才能使结果可靠。此外,它仅适用于离散(或分组)数据。

不过,目前已经提出了使用随机样本检验幂律概率分布的另一种图形方法。该方法包括绘制对数变换样本的束,是最早提出使用随机样本探索矩的存在和矩生成函数的工具,基于残差分位函数 RQF(也称为残差百分位函数)[38][39][40][41][42][43][44].The European Physical Journal.58.(167--173)</ref> ,它提供了许多众所周知的概率分布的尾部行为的完整表征,包括幂律分布与其他类型的重尾,甚至非重尾分布的分布。这种方法绘制的图形没有上面提到的平均剩余寿命图、双对数图和帕累托 Q-Q图的缺点,它们对异常值很敏感,能够直观地检验具有小[math]\displaystyle{ \alpha }[/math]值的幂律,并且不适用于分析大量数据。此外,其他分布类型的尾部也可以用这个方法观察检验。

绘制幂律分布 Plotting power-law distributions

一般来说,幂律分布是在双对数坐标轴上绘制的,强调右尾部分。最简便直观的方法是通过累积分布函数 cumulative distribution function,缩写为 cdf说明:[math]\displaystyle{ P({x})=\Pr(x\gt X) }[/math]

[math]\displaystyle{ P(x)=\Pr(x\gt X)=C\int_x^{+\infty}p(X)dX=\frac{\alpha-1}{x_{min}^{-\alpha+1}}\int_{x}^{\infty}X^{-\alpha}dX=\left(\frac{x}{x_{min}}\right)^{-\alpha+1} }[/math]

注意,cdf也是幂律函数,只是它的标度指数较小。从数据处理角度,cdf的等价形式是rank-frequency 分布,即先按升序排列[math]\displaystyle{ n }[/math]的观察值,再将它们与矢量[math]\displaystyle{ \left[1,\frac{n-1}{n},\frac{n-2}{n},\dots,\frac{1}{n}\right] }[/math]对应.

尽管便于记录数据,抑或是便于拟合平滑概率密度(质量)函数,但这些方法在数据表示中引入了隐式偏差,因此应该避免[45][27]。另一方面,所述的cdf法对处理这些隐式偏差更稳健(但并非没有偏误)并且保留了在双对数图形上的线性特征。虽然在同时用线性最小二乘法拟合幂律时,使用cdf绘制优于概率密度函数 pdf,但其不可避免地在数学上有不准确性。因此,在估计幂律分布的指数时,建议使用最大似然估计。

从经验数据估计指数

有许多方法可以估算幂律尾部的标度指数值,但并非所有方法都能产生无偏且一致的结果。一些最可靠的技术通常基于最大似然估计。替代方法通常基于双对数概率,双对数累积分布函数或对数分组数据进行线性回归,但是,应该避免这些方法,因为它们都可能导致对标度系数的具有显著偏误的估计。

极大似然估计 Maximum likelihood

对取自独立同分布的实函数的数据,我们拟合幂律分布的形式:

[math]\displaystyle{ p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha} }[/math]

要求[math]\displaystyle{ x\geq x_\min }[/math],其中系数[math]\displaystyle{ Z=\frac{\alpha-1}{x_\min} }[/math] 是标准化常量. 给定[math]\displaystyle{ x_\min }[/math],则对数似然函数变为:

[math]\displaystyle{ \mathcal{L}(\alpha)=\log \prod _{i=1}^n \frac{\alpha-1}{x_\min} \left(\frac{x_i}{x_\min}\right)^{-\alpha} }[/math]

这种可能性的最大值是通过对参数[math]\displaystyle{ \alpha }[/math]进行微分来找到的 ,从而使微分等于零,再重新排列,就得到了估计量方程:

[math]\displaystyle{ \hat{\alpha} = 1 + n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_\min} \right]^{-1} }[/math]

其中 对 [math]\displaystyle{ n }[/math] 个数据,[math]\displaystyle{ \{x_i\} }[/math] 满足[math]\displaystyle{ x_{i}\geq x_\min }[/math].[2][46].这个估计展示了一个小范围样本偏差的秩 [math]\displaystyle{ O(n^{-1}) }[/math],当 n > 100时它会比较小。 此外, 这个估计的标准误是 [math]\displaystyle{ \sigma = \frac{\hat{\alpha}-1}{\sqrt{n}} + O(n^{-1}) }[/math]。这个估计量相当于从数量金融学和极端价值理论中获得的需要的 Hill 估计量。 对于一组n值的整数数据点[math]\displaystyle{ \{x_i\} }[/math],对每一个[math]\displaystyle{ x_i\geq x_\min }[/math],都有最大似然指数是先验方程的解:

[math]\displaystyle{ \frac{\zeta'(\hat\alpha,x_\min)}{\zeta(\hat{\alpha},x_\min)} = -\frac{1}{n} \sum_{i=1}^n \ln \frac{x_i}{x_\min} }[/math]

其中 [math]\displaystyle{ \zeta(\alpha,x_{\mathrm{min}}) }[/math]不完整的黎曼ζ函数。这个估计的不确定性和连续方程的公式是一样的。 然而,这两个方程是不等价的,连续的方程形式不应该应用于离散的数据,反之亦然。

另外,这两种估计都需要选择 [math]\displaystyle{ x_\min }[/math].对于非平凡函数 [math]\displaystyle{ L(x) }[/math] , 选择太小的[math]\displaystyle{ x_\min }[/math][math]\displaystyle{ \hat\alpha }[/math]会产生显著的偏误 ,选择过大又会增加[math]\displaystyle{ \hat\alpha }[/math]的不确定性,并且降低模型的统计功效. 所以通常情况下,[math]\displaystyle{ x_\min }[/math]的最佳选择很大程度上取决于左尾的特定形式,以[math]\displaystyle{ L(x) }[/math]为代表。

关于这些方法,以及能够使用它们的条件,可以进一步发现,《Power-law Distributions in Empirical Data》全面而详细地提供了可用的代码(Matlab、Python、R和C++)来评估和测试幂律分布的过程。

详细代码如下:

# coding: utf-8

# # 用numpy生成0,1之间的幂律分布
# 
# ### 概率密度函数为
# f(x) = a*x^(a-1)
# 

# In[241]:


a = 0.4
# 采样数量
samples = 10000
s = np.random.power(a, samples)


# In[242]:


# 绘图展示结果
import matplotlib.pyplot as plt
count, bins, ignored = plt.hist(s, bins=50)
x = np.linspace(0, 1, 100)
y = a*x**(a-1.)
normed_y = samples*np.diff(bins)[0]*y
plt.plot(x, normed_y)
plt.show()


# # 使用原生方法生成0,1之间的幂律分布

# In[250]:


import math
# 分布函数的反函数
def rev(x,a):
    return math.exp(math.log(x) / a)


# In[251]:


# 生成分布
s1 = []
for i in range(samples):
    s1.append(rev(np.random.uniform(0,1),a))


# In[252]:


# 绘图
count, bins, ignored = plt.hist(s1, bins=50)
x = np.linspace(0, 1, 100)
y = a*x**(a-1.)
normed_y = samples*np.diff(bins)[0]*y
plt.plot(x, normed_y)
plt.show()


# # 线性拟合生成结果

# In[254]:


# 统计不同区间的数据数量
divide_num = 100
ys = np.zeros(divide_num)
xs = np.linspace(0,1,divide_num)
for i in range(len(s)):
    ys[int(s[i] * 100)] += 1


# In[255]:


# 使用sklearn包中的回归工具
from sklearn import linear_model
# 回归
x_log = np.log(xs)
y_log = np.log(ys)
#线性拟合数据准备
X_para=[]
Y_para=[]
for x ,y in zip(x_log[1:],y_log[1:]):
    X_para.append([float(x)])
    Y_para.append(float(y))
# 使用sklearn的线性拟合函数进行拟合
regr = linear_model.LinearRegression()
regr.fit(X_para, Y_para)


# In[256]:


# 
plt.title("fit the log data")
plt.scatter(x_log,y_log,color = "black")
plt.plot(X_para, regr.predict(X_para), color='blue',linewidth=3)
plt.show()


# # ks检验

# In[155]:


from scipy.stats import kstest

Kolmogorov–Smirnov估计

另一种计算幂律指数的方法,它不使用独立同分布数据,使用的是Kolmogorov-Smirnov统计量的最小值, [math]\displaystyle{ D }[/math],在数据的累积分布函数和幂律之间:

[math]\displaystyle{ \hat{\alpha} = \underset{\alpha}{\operatorname{arg\,min}} \, D_\alpha }[/math]

且:

[math]\displaystyle{ D_\alpha = \max_x | P_\mathrm{emp}(x) - P_\alpha(x) | }[/math]

其中[math]\displaystyle{ P_\mathrm{emp}(x) }[/math][math]\displaystyle{ P_\alpha(x) }[/math]分别表示数据的cdfs和指数[math]\displaystyle{ \alpha }[/math]的幂律概率分布。由于这种方法不以独立同分布数据为前提,所以它提供了一种替代方法来确定数据集的幂律指数,在这种情况下,时间相关性不能被忽略。[47]

两点拟合法 Two-point fitting method

两点拟合法可用于无标度分布情况下幂律指数的估计——它比极大似然估计更收敛[48]。研究断裂孔径的概率分布是这种方法的应用之一。某些情况下概率分布并不使用积累分布函数 cumulative distribution function表述,而是根据满足X> x条件的X的积累频率 cumulative frequency ,其中X是每单位(或区域单位、秒等)的要素数目,x是一个可变实数。例如,[48]将N个元件的样品的裂缝孔X的累积分布定义为“每米的裂缝数目大于x的裂缝的数目”。使用累积频率有其优势,例如,它允许人们把从不同标度的不同长度的样本线(例如分别从露头 outcrop和从显微镜)收集的相同的图表数据放在一起。

R 函数

通过R函数估计指数,并绘制双对数数据拟合线:

    pwrdist <- function(u,...) {
        # u is vector of event counts, e.g. how many
        # crimes was a given perpetrator charged for by the police
        fx <- table(u)
        i <- as.numeric(names(fx))
        y <- rep(0,max(i))
        y[i] <- fx
        m0 <- glm(y~log(1:max(i)),family=quasipoisson())
        print(summary(m0))
        sub <-   
paste("s=",round(m0$coef[2],2),"lambda=",sum(u),"/",length(u))
        plot(i,fx,log="xy",xlab="x",sub=sub,ylab="counts",...)
        grid()
        lines(1:max(i),(fitted(m0)),type="b")
        return(m0)
    }

验证幂律

尽管幂律关系因许多理论原因而具有吸引力,但证明数据确实遵循幂律关系需要的不仅仅是简单地将特定模型拟合到数据中[21]。这对于理解产生分布的机制很重要:表面上类似的分布可能由于显着不同的原因而出现,并且不同的模型产生不同的预测,例如外推法。


例如,对数正态分布常被误认为幂律分布[49]:从对数正态分布绘制的数据集对于大值(对应于对数正态的上尾接近幂律)将近似为线性,但对于较小的值,对数正态将显着下降(向下弯曲),对应于对数正态的较低尾部较小(很少有小值,而不是幂律中的许多小值)。


例如,Gibrat关于比例增长过程的定律产生对数正态分布,尽管它们的双对数 图在有限范围内看起来是线性的。对此的解释是,虽然对数正态密度函数的对数在log(x)中是二次的,但在双对数图中产生“弓形”形状,如果二次项相对于线性项较小则结果可以看起来几乎是线性的,并且对数正态行为仅在二次项占优势时才可见,这可能需要更多的数据。因此,向下略微“弯曲”的双对数图可以反映对数正态分布——而不是幂律。


一般而言,许多替代函数形式在某种程度上似乎遵循幂律形式[50]。 Stumpf[51]提出在双对数域中绘制经验累积分布函数 ,并认为候选幂律至少应涵盖两个数量级。此外,研究人员通常不得不面对决定现实概率分布是否遵循幂律的问题。作为解决这个问题的方法,Diaz [34] 提出了一种基于随机样本的图形方法,允许在不同类型的尾部行为之间进行视觉辨别。该方法使用残余分位数函数的束,也称为百分位剩余寿命函数,其表征许多不同类型的分布尾部,包括重尾和非重尾。然而,Stumpf声称需要统计和理论背景,以支持驱动数据生成过程的基础机制中的幂律。


验证幂律关系的一种方法是对特定的生成机制对数据进行许多正交的预测。简单地将幂律关系与特定类型的数据相匹配并不被认为是一种合理的方法。因此,在现代科学的许多领域中,对幂律的验证仍然是一个非常活跃的研究领域。

"幂律"相关概念的区分

在常见的资料表达中,关于”幂律“的描述有很多相关的、但是又不尽相同的概念,为了很好的区分这些内容、也可以更好地理解什么为”幂律“,在这里做一个小结。

首先需要明确的是这些概念本身的含义:

  • 幂律:

幂律来自上世纪20年代对于英语单词频率的分析,真正常用的单词量很少,很多单词不常被使用,语言学家发现单词使用的频率和它的使用优先度是一个常数次幂的反比关系。精确地说,简单来说,幂律就是两个通俗的定律,一个是”长尾“理论,只有少数大的门户网站是很多人关注的,但是还有一个长长的尾巴,就是小网站,小公司。长尾理论就是对幂律通俗化的解释。另外一个通俗解释就是马太效应,穷者越穷富者越富。

  • 幂律分布:
 自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义。借助于有效的物理和数学工具以及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的理解。当样本数据较多时,变量x的概率密度函数:f(x)~x(-α-1)

假设变量x服从参数为α的幂律分布,则其概率密度函数可以表示为:

[math]\displaystyle{ f(x) = cx^{-α-1} }[/math] ,x→∞

其互补累积分布函数(complementary cumulative distribution)为:

[math]\displaystyle{ P(X≥x) = cx^{-α} }[/math] ,x→∞

  • 幂函数:
 幂函数是基本初等函数之一。

一般地,[math]\displaystyle{ y = x^{α} }[/math](α为有理数)的函数,即以底数为自变量,幂为因变量,指数为常数的函数称为幂函数。例如函数[math]\displaystyle{ y = x^{0} }[/math][math]\displaystyle{ y = x^{1} }[/math][math]\displaystyle{ y = x^{2} }[/math][math]\displaystyle{ y = x^{-1} }[/math](注:[math]\displaystyle{ y = x^{-1} }[/math]=1/x、[math]\displaystyle{ y = x^{0} }[/math]时x≠0)等都是幂函数。

  • 指数函数:
 指数函数也是重要的基本初等函数之一。

一般地,函数y=ax(a为常数且以a>0,a≠1)叫做指数函数,函数的定义域是R。 注意,在指数函数的定义表达式中,在ax前的系数必须是数1,自变量x必须在指数的位置上,且不能是x的其他表达式,否则,就不是指数函数。

  • 指数分布:

指数分布一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。其概率密度函数如下: f(x)=

其中λ > 0是分布的一个参数,常被称为率参数(Rate parameter),即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X呈指数分布,则可以写作:X ~ E(λ)。

  • 幂律关系:
 一般来说,对变量X、Y,若满足某种幂律分布模型,则称变量X和Y之间存在某种幂律关系。

明确了这些概念之后,我们对其中几种表达和含义比较相似的概念进行辨析:

区别幂函数、指数函数、幂律分布?

幂函数:[math]\displaystyle{ y = x^{α} }[/math](α为有理数)

指数函数:[math]\displaystyle{ y = a^{x} }[/math](a为常数且以a>0,a≠1)

幂律分布:是一种概率分布,概率密度函数为[math]\displaystyle{ f(x) = cx^{-α-1} }[/math](x→∞),幂律分布也有很多其他的形式,例如“长尾”分布也是幂律分布的一种,而后续的Zipf定律、Pareto定律等是对长尾分布的更加深入研究。

区别幂函数和幂律、幂律分布、指数分布?

例如Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;而幂律分布还有其他的很多表现形式,像名次——规模分布、规模——概率分布,这四种形式在数学上是等价的,该幂律分布的示意图如下图所示:

长尾分布

其通式可写成[math]\displaystyle{ y = cx^{-r} }[/math],其中xy是正的随机变量,cr一般为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。 对上式两边取对数,可知[math]\displaystyle{ lny }[/math][math]\displaystyle{ lnx }[/math]满足线性关系,即在双对数坐标(log-log plot)下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否具有幂律关系的依据。

判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法可得[math]\displaystyle{ lny }[/math][math]\displaystyle{ lnx }[/math]的经验回归直线方程,从而得到yx之间的幂律关系式。下图显示的是上图在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分(对应于上图“长尾”分布的尾部),则近乎为一直线,其斜率的负数就是幂指数。

双对数坐标下的幂律关系

而我们常见的指数分布,其图形表面上看与幂律分布很相似,实际两者有极大不同———指数分布的收敛速度远快过幂律分布。

参见

相关链接

参考文献

  1. Bar-Yam, Yaneer (2015) "Concepts: Power Law".New England Complex Systems Institute. Retrieved 18 August.
  2. 2.0 2.1 Newman, M. E. J. (2005). "Power laws, Pareto distributions and Zipf's law". Contemporary Physics. 46 (5): 323–351. arXiv:cond-mat/0412004 Freely accessible. Bibcode:2005ConPh..46..323N. doi:10.1080/00107510500052444
  3. Humphries, NE, Queiroz, N, Dyer, JR, Pade, NG, Musyl, MK, Schaefer, KM, Fuller, DW, Brunnschweiler, JM, Doyle, TK, Houghton, JD, Hays, GC, Jones, CS, Noble, LR, Wearmouth, VJ, Southall, EJ, Sims, DW (2010) "Environmental context explains Lévy and Brownian movement patterns of marine predators" (PDF).Nature, Bibcode:2010Natur.465.1066H. doi:10.1038/nature09116. PMID 20531470..465.(1066--1069)
  4. 4.0 4.1 Klaus, A, Yu, S, Plenz, D (2011) Zochowski M (ed, "Statistical Analyses Support Power Law Distributions Found in Neuronal Avalanches".PLoS ONE, Bibcode:2011PLoSO...619779K. doi:10.1371/journal.pone.0019779. PMC 3102672. PMID 21720544..6.(e19779)
  5. Albert, J. S., H. J. Bart, & R. E. Reis (2011) Historical Biogeography of Neotropical Freshwater Fishes.University of California Press.
  6. Cannavò, Giuseppe (2016) "On a Possible Unified Scaling Law for Volcanic Eruption Durations".Scientific Reports, 622289C. doi:10.1038/srep22289. ISSN 2045-2322. PMC 4772095. PMID 26926425..6.(22289, 2016NatSR)
  7. Stevens, S. S. (1957). On the psychophysical law. Psychological Review, 64, 153-181
  8. Staddon, J. E. R. (1978). Theory of behavioral power functions. Psychological Review, 85, 305-320.
  9. 9.0 9.1 Clauset, A.; Shalizi, C. R.; Newman, M. E. J. (2009). "Power-Law Distributions in Empirical Data". SIAM Review. 51 (4): 661–703. arXiv:0706.1062 Freely accessible. Bibcode:2009SIAMR..51..661C. doi:10.1137/070710111
  10. Newman, M. E. J., Peter (2006) "Power laws, Pareto distributions and Zipf's law".Cities.30, 46, 10, 03.(323--351)
  11. 9na CEPAL Charlas Sobre Sistemas Complejos Sociales (CCSSCS): Leyes de potencias, https://www.youtube.com/watch?v=4uDSEs86xCI
  12. Malcolm Gladwell (2006), Million-Dollar Murray; "Archived copy". Archived from the original on 2015-03-18. Retrieved 2015-06-14.
  13. Newman, Mark EJ. "Power laws, Pareto distributions and Zipf's law." Contemporary physics 46.5 (2005): 323-351.
  14. Sornette, Didier (2006). Critical Phenomena in Natural Sciences: Chaos, Fractals, Self-organization and Disorder: Concepts and Tools. Springer Series in Synergetics (2nd ed.). Heidelberg: Springer. ISBN 978-3-540-30882-9.
  15. Simon, H. A. (1955). "On a Class of Skew Distribution Functions". Biometrika. 42 (3/4): 425–440. doi:10.2307/2333389. JSTOR 2333389.
  16. Andriani, P., McKelvey, B. (2007) "Beyond Gaussian averages: redirecting international business and management research toward extreme events and power laws".Journal of International Business Studies.38, 10, 8400324.(1212--1230)
  17. Machado, L, WB (1993) "Structural characteristics and radial properties of tropical cloud clusters".Monthly Weather Review.121.12:(3234--3260)
  18. Corral, A, Osso, A, Llebot, JE (2010). "Scaling of tropical cyclone dissipation". Nature Physics. 6: 693–696. arXiv:0910.0054 Freely accessible. Bibcode:2010NatPh...6..693C. doi:10.1038/nphys1725
  19. Ralph D. Lorenz (2009) "Power Law of Dust Devil Diameters on Earth and Mars".Icarus.203.(683--684)
  20. Reed W.J.; Hughes B.D. From gene families and genera to incomes and internet file sizes: Why power laws are so common in nature. Phys Rev E 2002, 66, 067103; http://www.math.uvic.ca/faculty/reed/PhysRevPowerLawTwoCol.pdf
  21. 21.0 21.1 Hilbert, Martin (2013). "Scale-free power-laws as interaction between progress and diffusion". Complexity. 19: 56–65. Bibcode:2014Cmplx..19d..56H. doi:10.1002/cplx.21485.
  22. Bolmatov, D., Brazhkin, V. V., Trachenko, K. (2013) "Thermodynamic behaviour of supercritical matter".Nature Communications.4.(2331)
  23. Etro, F., Stepanova, E. (2018) "Power-laws in art". Physica A: Statistical Mechanics and its Applications.
  24. Lewis Fry. Richardson (1961) The Statistics of Deadly Quarrels.Journal of the American Statistical Association.56.294:
  25. Albert, J. S., H. J. Bart, & R. E. Reis (2011) Historical Biogeography of Neotropical Freshwater Fishes.University of California Press.
  26. Jóhannesson, Einar H. (2006) "Afterglow Light Curves and Broken Power Laws: A Statistical Study".The Astrophysical Journal, Retrieved.640, 07.(L5)
  27. 27.0 27.1 27.2 Aaron Clauset, Cosma Rohilla Shalizi, M E J Newman (2009) POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA.SIAM Review.51.(661--703)
  28. "Curved-power law". Retrieved 2013-07-07.
  29. N. H. Bingham, C. M. Goldie, and J. L. Teugels, Regular variation. Cambridge University Press, 1989
  30. >Kendal, WS, B (2011) "Taylor's power law and fluctuation scaling explained by a central-limit-like convergence".Phys. Rev. E.83.
  31. Kendal, WS, BR (2011) "Tweedie convergence: a mathematical basis for Taylor's power law, 1/f noise and multifractality".Phys. Rev. E.84.
  32. Beirlant, J., Teugels, J. L., Vynckier, P. (1996a) Practical Analysis of Extreme Values, Leuven: Leuven University Press
  33. Coles, S. (2001) An introduction to statistical modeling of extreme values. Springer-Verlag, London.
  34. 34.0 34.1 34.2 Diaz, F. J. (1999) "Identifying Tail Behavior by Means of Residual Quantile Functions".Journal of Computational and Graphical Statistics.8.(493--509)
  35. Resnick, S. I. (1997) "Heavy Tail Modeling and Teletraffic Data".The Annals of Statistics.25.(1805--1869)
  36. Three-Toed Sloth (2018) So You Think You Have a Power Law — Well Isn't That Special?.
  37. Jeong, H, Albert; Oltvai, B., Barabasi, Z.N., A.-L. (2000) "The large-scale organization of metabolic networks".Nature.407.(651--654)
  38. Arnold, B. C., Brockett, P. L. (1983) "When does the βth percentile residual life function determine the distribution?".Operations Research.31.(391--396)
  39. Joe, H., Proschan, F. (1984) "Percentile residual life functions".Operations Research.32.(668--678)
  40. Joe, H., Part, A (1985) "Characterizations of life distributions from percentile residual lifetimes".37.(165--172)
  41. Csorgo, S., Viharos, L. (1992) "Confidence bands for percentile residual lifetimes".Journal of Statistical Planning and Inference.30.(327--337)
  42. Schmittlein, D. C., Morrison, D. G. (1981) "The median residual lifetime: A characterization theorem and an application".Operations Research.29.(392--399)
  43. Morrison, D. G., Schmittlein, D. C. (1980) "Jobs, strikes, and wars: Probability models for duration".Organizational Behavior and Human Performance.25.(224--251)
  44. Gerchak, Y (1984) "Decreasing failure rates and related issues in the social sciences".Operations Research.32.(537--546)
  45. Bauke, H.. (2007) "Parameter estimation for power-law distributions by maximum likelihood methods".The European Physical Journal.58.(167--173)
  46. Hall, P. (1982). "On Some Simple Estimates of an Exponent of Regular Variation". Journal of the Royal Statistical Society, Series B. 44 (1): 37–42. JSTOR 2984706
  47. Hall, P. (1982) "On Some Simple Estimates of an Exponent of Regular Variation".Journal of the Royal Statistical Society.44.(37--42)
  48. 48.0 48.1 Guerriero, V. (2012) "Power Law Distribution: Method of Multi-scale Inferential Statistics".Journal of Modern Mathematics Frontier (JMMF).1.(21--28)
  49. Mitzenmacher, M. (2004). "A Brief History of Generative Models for Power Law and Lognormal Distributions" (PDF). Internet Mathematics. 1 (2): 226–251. doi:10.1080/15427951.2004.10129088.
  50. Laherrère, J.; Sornette, D. (1998). "Stretched exponential distributions in nature and economy: "fat tails" with characteristic scales". The European Physical Journal B. 2 (4): 525–539. arXiv:cond-mat/9801293 Freely accessible. Bibcode:1998EPJB....2..525L. doi:10.1007/s100510050276
  51. Stumpf, M.P.H. (2012). "Critical Truths about Power Laws". Science. 335: 665–666. Bibcode:2012Sci...335..665S. doi:10.1126/science.1216142.

进一步阅读

  • Bak, Per (1997) How nature works, Oxford University Press, isbn0-19-850164-1
  • Sornette, Didier (2006). Critical Phenomena in Natural Sciences: Chaos, Fractals, Self-organization and Disorder: Concepts and Tools. Springer Series in Synergetics (2nd ed.). Heidelberg: Springer, ISBN 978-3-540-30882-9.
  • Mark Buchanan (2000) Ubiquity, Weidenfeld & Nicolson, ISBN 0-297-64376-2
  • Alexander Saichev, Yannick Malevergne and Didier Sornette (2009) Theory of Zipf's law and beyond, Lecture Notes in Economics and Mathematical Systems, Volume 632, Springer (November 2009), ISBN 978-3-642-02945-5

相关wiki


编者推荐

高尔顿钉板实验装置

解读幂律分布与无标度网络 | 长文综述

该文介绍了幂律分布的形式、特点以及无标度网络的形式和特点,特别是无标度网络在于抵御攻击和传染病传播上的特异性,并且列举了一些经典的幂律分布随机变量生成机制,最后简介了对数线性回归和极大似然对于幂律指数的估计方式以及KS检验在幂律分布检验上的应用。



人类行为时空特性的统计力学(一)——认识幂律分布

该文转述自周涛的《人类行为时空特性的统计力学》,主要介绍了与幂律分布相关的背景、概念,以及可能的应用价值。



幂律分布的参数估计方法及R实现

该文介绍了幂律分布在连续和离散两种情况下参数[math]\displaystyle{ \alpha }[/math]和Xmin的估计方法、分析步骤,和如何通过R语言实现。



【Python舆情分析】 二.时间间隔分布研究及幂律分布图绘制

本文主要是作者学习舆情分析、情感分析、人类行为动力学分析的在线笔记,主要包括幂律特性、时间间隔分布、利用Python绘制基于时间间隔分布的幂律特性图。



相关课程

复杂系统中的幂律分布

该课程结合实际数据和丰富的学术文献,从发展历史、使用场景、相关研究等方面向大家展示幂律分布。 该课程是复杂系统入门必修课,帮助大家搭建体系完整的幂律分布学习框架!




解读幂律分布与无标度网络

该课程讲解了幂律分布的概念与原理以及分布在自然界的各种有趣幂律分布。




本中文词条由靠倒立解气参与编译,高飞张江总审校,薄荷编辑,欢迎在讨论页面留言。

本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。