第388行: |
第388行: |
| | | |
| 验证幂律关系的一种方法是对特定的生成机制对数据进行许多正交的预测。简单地将幂律关系与特定类型的数据相匹配并不被认为是一种合理的方法。因此,在现代科学的许多领域中,对幂律的验证仍然是一个非常活跃的研究领域。 | | 验证幂律关系的一种方法是对特定的生成机制对数据进行许多正交的预测。简单地将幂律关系与特定类型的数据相匹配并不被认为是一种合理的方法。因此,在现代科学的许多领域中,对幂律的验证仍然是一个非常活跃的研究领域。 |
| + | |
| + | =="幂律"相关概念的区分== |
| + | |
| + | 在常见的资料表达中,关于”幂律“的描述有很多相关的、但是又不尽相同的概念,为了很好的区分这些内容、也可以更好地理解什么为”幂律“,在这里做一个小结。 |
| + | |
| + | 首先需要明确的是这些概念本身的含义: |
| + | *幂律:幂律来自上世纪20年代对于英语单词频率的分析,真正常用的单词量很少,很多单词不常被使用,语言学家发现单词使用的频率和它的使用优先度是一个常数次幂的反比关系。精确地说,简单来说,幂律就是两个通俗的定律,一个是”长尾“理论,只有少数大的门户网站是很多人关注的,但是还有一个长长的尾巴,就是小网站,小公司。长尾理论就是对幂律通俗化的解释。另外一个通俗解释就是马太效应,穷者越穷富者越富。 |
| + | |
| + | *幂律分布:自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义。借助于有效的物理和数学工具以及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的理解。当样本数据较多时,变量x的概率密度函数:f(x)~x<sup>(-α-1)</sup>。 |
| + | 假设变量x服从参数为α的幂律分布,则其概率密度函数可以表示为: |
| + | f(x)=cx<sup>(-α-1)</sup>,x→∞ |
| + | 其互补累积分布函数(complementary cumulative distribution)为: |
| + | P(X≥x)=cx<sup>(-α)</sup>,x→∞ |
| + | |
| + | *幂函数:幂函数是基本初等函数之一。 |
| + | 一般地,y=x<sup>α</sup>(α为有理数)的函数,即以底数为自变量,幂为因变量,指数为常数的函数称为幂函数。例如函数y=x<sup>0</sup> 、y=x<sup>1</sup>、y=x<sup>2</sup>、y=x<sup>-1</sup>(注:y=x<sup>-1</sup>=1/x、y=x<sup>0</sup>时x≠0)等都是幂函数。 |
| + | |
| + | *指数函数:指数函数也是重要的基本初等函数之一。 |
| + | 一般地,函数y=a<sup>x</sup>(a为常数且以a>0,a≠1)叫做指数函数,函数的定义域是R。 |
| + | 注意,在指数函数的定义表达式中,在a<sup>x</sup>前的系数必须是数1,自变量x必须在指数的位置上,且不能是x的其他表达式,否则,就不是指数函数。 |
| + | |
| + | *指数分布:指数分布一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。其概率密度函数如下: |
| + | f(x)= |
| + | 其中λ > 0是分布的一个参数,常被称为率参数(Rate parameter),即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X呈指数分布,则可以写作:X ~ E(λ)。 |
| + | |
| + | *幂律关系:一般来说,对变量X、Y,若满足某种幂律分布模型,则称变量X和Y之间存在某种幂律关系。 |
| + | |
| + | 明确了这些概念之后,我们对其中几种表达和含义比较相似的概念进行辨析: |
| + | |
| + | ===区别幂函数、指数函数、幂律分布?=== |
| + | |
| + | 幂函数:y=x<sup>α</sup>(α为有理数) |
| + | |
| + | 指数函数:y=a<sup>x</sup>(a为常数且以a>0,a≠1) |
| + | |
| + | 幂律分布:是一种概率分布,概率密度函数为f(x)=cx<sup>(-α-1)</sup>(x→∞),幂律分布也有很多其他的形式,例如“长尾”分布也是幂律分布的一种,而后续的Zipf定律、Pareto定律等是对长尾分布的更加深入研究。 |
| + | |
| + | ===区别幂函数和幂律、幂律分布、指数分布?=== |
| + | |
| + | 例如Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;而幂律分布还有其他的很多表现形式,像名次——规模分布、规模——概率分布,这四种形式在数学上是等价的,该幂律分布的示意图如下图所示: |
| + | |
| + | [[文件:长尾.png|缩略图|长尾分布]] |
| + | |
| + | 其通式可写成y=c*x^(-r),其中x,y是正的随机变量,c,r一般为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。 |
| + | 对上式两边取对数,可知lny与lnx满足线性关系,即在双对数坐标(log-log plot)下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否具有幂律关系的依据。 |
| + | |
| + | 判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式。下图显示的是上图在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分(对应于上图“长尾”分布的尾部),则近乎为一直线,其斜率的负数就是幂指数。 |
| + | |
| + | [[文件:幂律-双对数坐标.png|缩略图|双对数坐标下的幂律关系]] |
| + | |
| + | 而我们常见的指数分布,其图形表面上看与幂律分布很相似,实际两者有极大不同———指数分布的收敛速度远快过幂律分布。 |
| | | |
| ==参见== | | ==参见== |