泊松分布

在概率论和统计学中,泊松分布 Poisson distribution是以法国数学家西莫恩·德尼·泊松 Siméon Denis Poisson命名的,是一个离散的概率分布,它表示在一个固定的时间段或空间中,一定数量的事件发生的概率,这些事件以一个已知的常数平均速率发生,并且独立于与上一个事件的间隔发生时间。还可以用来表示其他有特定间隔的事件数量,如距离、面积或体积。


例如,记录每天收到邮件数量的个人可能会注意到,他们平均每天收到4封信。如果收到任何邮件都并不影响未来邮件的到达时间,也就是说,如果不同来源的邮件彼此独立地到达,那么一个合理的假设是,每天收到的邮件数量服从一个泊松分布。其他可能遵循一个泊松分布的例子包括:呼叫中心每小时接到的电话数量和每秒从放射源的衰变数。


定义

概率分布函数

泊松分布模型用来模拟一个事件在一段时间或空间内发生的次数。


一个离散的随机变量X被称为具有参数λ > 0的泊松分布,如果对于k = 0, 1, 2, ...,X的概率分布函数是:

[math]\displaystyle{ \!f(k; \lambda)= \Pr(X = k)= \frac{\lambda^k e^{-\lambda}}{k!}, }[/math]


  • k是出现次数(k是出现次数(k=0,1,2...)
  • e是欧拉数(e = 2.71828...)
  • !是阶乘函数。


正实数λ等于X的期望值和方差相关证明,请参阅:[1]

[math]\displaystyle{ \lambda=\operatorname{E}(X)=\operatorname{Var}(X). }[/math]


泊松分布可以应用于包括大量罕见可能事件的系统。在正确的条件下,在一个固定的时间间隔内发生的这类事件的数量是一个具有泊松分布的随机数。


举例

泊松分布模型可以用来模拟事件,比如

  • 一年内撞击地球的直径大于1米的陨石数量
  • 晚上10点到11点到达急诊室的病人人数
  • 在特定时间间隔内撞击探测器的激光光子数


假设与有效条件

以下假设成立时,泊松分布模型适用:

  • 事件在一个时间间隔内发生且k可以取值0,1,2,...;
  • 一个事件的发生不影响第二个事件发生的概率,也就是时间发生相互独立;
  • 事件发生的平均速率与任何事件无关。为简单起见,通常假定其为常数,但实际上可能随时间而变化;
  • 两个事件不可能在完全相同的时刻发生,即在每一小段的时间内正好有一个事件发生或不发生。


如果这些条件成立,那么它是一个泊松随机变量,其分布是一个泊松分布。


每次试验的成功概率除以总试验次数,随着试验的数量趋于无穷大,泊松分布也是二项式分布的极限。(可参考相关分布)


泊松分布的事件概率

一个事件可以在一个间隔内发生0,1,2,... 次。区间内的平均事件数被指定为[math]\displaystyle{ \lambda }[/math](lambda)。[math]\displaystyle{ \lambda }[/math]事件速率 Event rate,也称为 速率参数 Rate parameter。以下方程给出了在一个区间内观测事件的概率k

[math]\displaystyle{ P(k \text{ events in interval}) = \frac{\lambda^k e^{-\lambda}}{k!} }[/math]


  • [math]\displaystyle{ \lambda }[/math] 是每个间隔的平均事件数
  • e 数值为 2.71828... (欧拉数)自然对数的底
  • k取值 0, 1, 2, ...
  • k! = k × (k − 1) × (k − 2) × ... × 2 × 1 为k的阶乘。


这个方程就是概率质量函数 (PMF)的泊松分布。


如果不用事件的平均数字[math]\displaystyle{ \lambda }[/math] ,而是给出事件发生的时间率[math]\displaystyle{ r }[/math],那么这个方程就是适用的。然后是[math]\displaystyle{ \lambda = r t }[/math] (以1/time 为单位的[math]\displaystyle{ r }[/math]) ,以及

[math]\displaystyle{ P(k \text{ events in interval } t) = \frac{(r t)^k e^{-r t}}{k!} }[/math]


泊松分布概率的示例

在某一条河流上,洪水平均每100年发生泛滥一次。计算在100年间洪水泛滥次数k = 0, 1, 2, 3, 4, 5,或6次的概率,假设(其分布)适用泊松模型。


因为平均事件率是每100年发一次洪水,λ = 1

[math]\displaystyle{ P(k \text{ overflow floods in 100 years}) = \frac{\lambda^k e^{-\lambda}}{k!} = \frac{1^k e^{-1}}{k!} }[/math]
[math]\displaystyle{ P(k = 0 \text{ overflow floods in 100 years}) = \frac{1^0 e^{-1}}{0!} = \frac{e^{-1}}{1} \approx 0.368 }[/math]
[math]\displaystyle{ P(k = 1 \text{ overflow flood in 100 years}) = \frac{1^1 e^{-1}}{1!} = \frac{e^{-1}}{1} \approx 0.368 }[/math]
[math]\displaystyle{ P(k = 2 \text{ overflow floods in 100 years}) = \frac{1^2 e^{-1}}{2!} = \frac{e^{-1}}{2} \approx 0.184 }[/math]


下表给出了100年内0到6次洪水泛滥的概率。

k P(k 100年内k泛滥成灾)
0 0.368
1 0.368
2 0.184
3 0.061
4 0.015
5 0.003
6 0.0005

乌加特和他的同事们在一篇报道中提到,世界杯足球赛的平均进球数约为2.5个,这也适用泊松模型。

因为平均每场比赛有2.5个进球,λ = 2.5。

[math]\displaystyle{ P(k \text{ goals in a match}) = \frac{2.5^k e^{-2.5}}{k!} }[/math]
[math]\displaystyle{ P(k = 0 \text{ goals in a match}) = \frac{2.5^0 e^{-2.5}}{0!} = \frac{e^{-2.5}}{1} \approx 0.082 }[/math]
[math]\displaystyle{ P(k = 1 \text{ goal in a match}) = \frac{2.5^1 e^{-2.5}}{1!} = \frac{2.5 e^{-2.5}}{1} \approx 0.205 }[/math]
[math]\displaystyle{ P(k = 2 \text{ goals in a match}) = \frac{2.5^2 e^{-2.5}}{2!} = \frac{6.25 e^{-2.5}}{2} \approx 0.257 }[/math]


下表给出了一场比赛中0到7个进球的概率。

k P(k世界杯足球赛进球)
0 0.082
1 0.205
2 0.257
3 0.213
4 0.133
5 0.067
6 0.028
7 0.010


事件唯一发生:λ = 1 与 k = 0的特殊情形

假设天文学家估计,大型陨石(超过一定大小)平均每100年撞击地球一次(λ = 1 每100年撞击一次) ,而且陨石撞击的次数紧随泊松分布之后。在接下来的100年里,被陨石击中k = 0的概率是多少?

[math]\displaystyle{ P(k = \text{0 meteorites hit in next 100 years}) = \frac{1^0 e^{-1}}{0!} = \frac{1}{e} \approx 0.37 }[/math]


根据这些假设,未来100年内没有大陨石撞击地球的概率大约为0.37。剩下的1 − 0.37 = 0.63是未来100年内被1,2,3或更多大型陨石撞击的概率。


在上面的一个例子中,洪水每100年发生泛滥一次(λ= 1)。根据同样的计算,100年内不会有洪水泛滥的概率大约是0.37。


一般来说,如果一个事件平均每个时间间隔发生一次(λ= 1) ,并且事件遵循泊松分布,那么P(下一个间隔中正好有一个事件) = 0.37,如洪水泛滥的表所示。


违反泊松假设的例子

每分钟抵达学生会的学生人数可能不会遵循一个泊松分布,因为这个比率不是恒定的(上课时间的低比率,课间时的高比率) ,而且每个学生的到达也不是独立的(学生往往是成群结队来的)。


一次大的强震会增加发生类似震级余震的可能性,那么一个国家每年发生5级地震的次数可能不会服从泊松分布。


至少有一个事件确定发生的情况不是 Poission 分布式的,但也许可以使用零截断泊松分布进行建模。


如果零事件的区间数高于泊松模型预测的区间数分布,则可以使用零膨胀模型来建模。


性能

描述统计学

  • 一个泊松分布随机变量的期望值和方差均等于λ
  • 当差量指数是1.,相关系数为[math]\displaystyle{ \textstyle \lambda^{-1/2} }[/math]
  • 均值的绝对平均差为
[math]\displaystyle{ \operatorname{E}[|X-\lambda|]= \frac{2 \lambda^{\lfloor\lambda\rfloor + 1} e^{-\lambda}}{\lfloor\lambda\rfloor!}. }[/math]
  • 一个具有非整值λ 的泊松分布随机变量的统计值等于[math]\displaystyle{ \scriptstyle\lfloor \lambda \rfloor }[/math], 小于λ的最大整数。它也写作floor(λ). λ为正整数时,取值为λ 以及 λ − 1。
  • 所有泊松分布的积均等于期望值 λ。泊松分布的n阶指数积为λn
  • 期望值与泊松过程有时分解为“强度”与“面积”的乘积(或更一般地表示为强度函数随时间或空间的积分,有时描述为暴露 exposure。)


中值

分布的中位数([math]\displaystyle{ \nu }[/math])的界限为已知,且清晰:

[math]\displaystyle{ \lambda - \ln 2 \le \nu \lt \lambda + \frac{1}{3}. }[/math]


高阶矩

泊松分布原点的高阶矩mk是同余多项式,λ中:

[math]\displaystyle{ m_k = \sum_{i=0}^k \lambda^i \left\{\begin{matrix} k \\ i \end{matrix}\right\}, }[/math]


其中{括号}表示第二类 Stirling 数。多项式的系数具有组合意义。事实上,当泊松分布的期望值是1时,那么 Dobinski 的公式说第n个时刻等于一组大小为n的分区的数目。


对于非中心时刻,我们定义了[math]\displaystyle{ B=k/\lambda }[/math],

[math]\displaystyle{ E[X^k]^{1/k} \le C\cdot \begin{cases} k/B & \text{if}\quad B \lt e \\ k/\log B & \text{if}\quad B\ge e \end{cases} }[/math]


其中,[math]\displaystyle{ C }[/math]是某个大于0的绝对常数。


泊松分布随机变量和

如果对于[math]\displaystyle{ i=1,\dotsc,n }[/math][math]\displaystyle{ X_i \sim \operatorname{Pois}(\lambda_i) }[/math]是独立的,那么 [math]\displaystyle{ \sum_{i=1}^n X_i \sim \operatorname{Pois}\left(\sum_{i=1}^n \lambda_i\right) }[/math]。一个逆定理是雷科夫定理,它说如果两个独立的随机变量之和是泊松分布的,那么这两个独立的随机变量之和也是泊松分布的。


其他特性

  • 泊松分布是无限可除 概率分布,。
  • [math]\displaystyle{ \operatorname{Pois}(\lambda_0) }[/math] from [math]\displaystyle{ \operatorname{Pois}(\lambda) }[/math] 的直接相对熵(K-L散度)Kullback–Leibler divergence由以下给出:
[math]\displaystyle{ \operatorname{D}_{\text{KL}}(\lambda\mid\lambda_0) = \lambda_0 - \lambda + \lambda \log \frac{\lambda}{\lambda_0}. }[/math]


  • 泊松随机变量尾概率的界[math]\displaystyle{ X \sim \operatorname{Pois}(\lambda) }[/math] 可以用切诺夫界 Chernoff bound参数派生
[math]\displaystyle{ P(X \geq x) \leq \frac{(e \lambda)^x e^{-\lambda}}{x^x}, \text{ for } x \gt \lambda }[/math],


[math]\displaystyle{ P(X \leq x) \leq \frac{(e \lambda)^x e^{-\lambda} }{x^x}, \text{ for } x \lt \lambda. }[/math]


  • 长尾概率可被收紧(至少两倍)如下:
[math]\displaystyle{ P(X \geq x) \leq \frac{e^{-\operatorname{D}_{\text{KL}}(x\mid\lambda)}}{\max{(2, \sqrt{4\pi\operatorname{D}_{\text{KL}}(x\mid\lambda)}})}, \text{ for } x \gt \lambda, }[/math]


其中[math]\displaystyle{ \operatorname{D}_{\text{KL}}(x\mid\lambda) }[/math]是指向的 Kullback-Leibler 分歧,如上所述。


  • 关于泊松随机变量分布函数的不等式 [math]\displaystyle{ X \sim \operatorname{Pois}(\lambda) }[/math]与 标准正态分布函数[math]\displaystyle{ \Phi(x) }[/math] 如下:
[math]\displaystyle{ \Phi\left(\operatorname{sign}(k-\lambda)\sqrt{2\operatorname{D}_{\text{KL}}(k\mid\lambda)}\right) \lt P(X \leq k) \lt \Phi\left(\operatorname{sign}(k-\lambda+1)\sqrt{2\operatorname{D}_{\text{KL}}(k+1\mid\lambda)}\right), \text{ for } k \gt 0, }[/math]


其中 [math]\displaystyle{ \operatorname{D}_{\text{KL}}(k\mid\lambda) }[/math]仍然是有向的 Kullback-Leibler 分歧。


泊松族群

[math]\displaystyle{ X \sim \operatorname{Pois}(\lambda) }[/math][math]\displaystyle{ Y \sim \operatorname{Pois}(\mu) }[/math]是独立的随机变量,并且带有 [math]\displaystyle{ \lambda \lt \mu }[/math],那么我们就有了

[math]\displaystyle{ \frac{e^{-(\sqrt{\mu} -\sqrt{\lambda})^2 }}{(\lambda + \mu)^2} - \frac{e^{-(\lambda + \mu)}}{2\sqrt{\lambda \mu}} - \frac{e^{-(\lambda + \mu)}}{4\lambda \mu} \leq P(X - Y \geq 0) \leq e^{- (\sqrt{\mu} -\sqrt{\lambda})^2} }[/math]


利用标准的切诺夫界证明了上界的存在性。


下限可以通过下面的例子来证明: [math]\displaystyle{ P(X-Y\geq0\mid X+Y=i) }[/math][math]\displaystyle{ Z \geq \frac{i}{2} }[/math] ,其中[math]\displaystyle{ Z \sim \operatorname{Bin}\left(i, \frac{\lambda}{\lambda+\mu}\right) }[/math],下面由[math]\displaystyle{ \frac{1}{(i+1)^2} e^{\left(-iD\left(0.5 \| \frac{\lambda}{\lambda+\mu}\right)\right)} }[/math]限定,其中[math]\displaystyle{ D }[/math]是相对熵。进一步注意到[math]\displaystyle{ X+Y \sim \operatorname{Pois}(\lambda+\mu) }[/math],并计算无条件概率的下限得到结果。更多的细节可以在Kamath等人的附录中找到。


相关分布

通常

  • 如果[math]\displaystyle{ X_1 \sim \mathrm{Pois}(\lambda_1)\, }[/math][math]\displaystyle{ X_2 \sim \mathrm{Pois}(\lambda_2)\, }[/math]独立, 则差值[math]\displaystyle{ Y = X_1 - X_2 }[/math] 遵循Skellam分布
  • 如果[math]\displaystyle{ X_1 \sim \mathrm{Pois}(\lambda_1)\, }[/math][math]\displaystyle{ X_2 \sim \mathrm{Pois}(\lambda_2)\, }[/math]是独立的,那么分布[math]\displaystyle{ X_1 }[/math]有条件的 [math]\displaystyle{ Y = X_1 + X_2 }[/math]是二项分布。
具体来说,如果[math]\displaystyle{ X_1+X_2=k }[/math] ,那么[math]\displaystyle{ \!X_1\sim \mathrm{Binom}(k, \lambda_1/(\lambda_1+\lambda_2)) }[/math]


更一般地说,如果X1, X2,..., Xn 是独立的随机变量,参数λ1, λ2,..., λn然后
给定 [math]\displaystyle{ \sum_{j=1}^n X_j=k, }[/math] [math]\displaystyle{ X_i \sim \mathrm{Binom}\left(k, \frac{\lambda_i}{\sum_{j=1}^n\lambda_j}\right) }[/math]. 事实上, [math]\displaystyle{ \{X_i\} \sim \mathrm{Multinom}\left(k, \left\{\frac{\lambda_i}{\sum_{j=1}^n\lambda_j}\right\}\right) }[/math]


  • 如果 [math]\displaystyle{ X \sim \mathrm{Pois}(\lambda)\, }[/math], 和分布[math]\displaystyle{ Y }[/math]是,以X = k为条件,是二项式分布,[math]\displaystyle{ Y \mid (X = k) \sim \mathrm{Binom}(k, p) }[/math],则 Y 的分布服从泊松分布。事实上,如果[math]\displaystyle{ \{Y_i\} }[/math], 以 X = k 为条件, 服从多项式分布,[math]\displaystyle{ \{Y_i\} \mid (X = k) \sim \mathrm{Multinom}\left(k, p_i\right) }[/math],那么每个 [math]\displaystyle{ Y_i }[/math] 遵循独立的泊松分布[math]\displaystyle{ Y_i \sim \mathrm{Pois}(\lambda \cdot p_i), \rho(Y_i, Y_j) = 0 }[/math]


  • 泊松分布可以作为二项式分布的一个极限情况推导出来,因为试验次数趋于无穷,而预期的成功次数保持不变——参见下面的罕见事件定律。因此,如果n足够大且p足够小,则它可以用作二项式分布的近似值。有一条经验法则表明,如果n至少为 20 且p小于或等于 0.05,则泊松分布是二项式分布的良好近似,如果n ≥ 100 且np ≤ 10 ,则是极好的近似。
[math]\displaystyle{ F_\mathrm{Binomial}(k;n, p) \approx F_\mathrm{Poisson}(k;\lambda=np)\, }[/math]


  • 这一泊松分布是离散复合泊松分布(或断续泊松分布)在只有一个参数情况下的特殊情形 。离散复合泊松分布可由一元多项式分布的极限分布导出。同时它也是复合泊松分布的一个特例。


  • 对于足够大的值λ,(如 λ>1000),具有均值 λ 的正态分布与变量 λ (标准差 [math]\displaystyle{ \sqrt{\lambda} }[/math]),是泊松分布的完美近似。如果 λ 大于10,则正态分布在适当的校正下可近似模拟,例如如果P(X ≤ x),x 为非负整数,则将其改为P(X ≤ x + 0.5)。
[math]\displaystyle{ F_\mathrm{Poisson}(x;\lambda) \approx F_\mathrm{normal}(x;\mu=\lambda,\sigma^2=\lambda)\, }[/math]


  • Variance-stabilizing转换: 如果[math]\displaystyle{ X \sim \mathrm{Pois}(\lambda)\, }[/math], 则
[math]\displaystyle{ Y = 2 \sqrt{X} \approx \mathcal{N}(2\sqrt{\lambda};1) }[/math],


[math]\displaystyle{ Y = \sqrt{X} \approx \mathcal{N}(\sqrt{\lambda};1/4) }[/math].


在这种转换下,收敛到正态的速度(如[math]\displaystyle{ \lambda }[/math]增加)远远快于未转换的变量。还有一些稍微复杂一些的稳定方差的变换,其中之一就是安斯科姆变换。有关转换的更多一般用途,请参见数据转换(统计信息)。如果对于每个t > 0,时间间隔[0, t]中的到达次数服从均值为λt的泊松分布,则到达间隔时间 序列是具有均值 1/λ的独立同分布指数随机变量。


  • 泊松分布和卡方分布的累积分布函数有以下关系:
[math]\displaystyle{ F_\text{Poisson}(k;\lambda) = 1-F_{\chi^2}(2\lambda;2(k+1)) \quad\quad \text{ integer } k, }[/math]

[math]\displaystyle{ \Pr(X=k)=F_{\chi^2}(2\lambda;2(k+1)) -F_{\chi^2}(2\lambda;2k) . }[/math]


泊松近似

假设[math]\displaystyle{ X_1\sim\operatorname{Pois}(\lambda_1), X_2\sim\operatorname{Pois}(\lambda_2), \dots, X_n\sim\operatorname{Pois}(\lambda_n) }[/math]其中 [math]\displaystyle{ \lambda_1 + \lambda_2 + \dots + \lambda_n=1 }[/math],那么[2] [math]\displaystyle{ (X_1, X_2, \dots, X_n) }[/math]是统一分布的。


[math]\displaystyle{ (X_1, X_2, \dots, X_n) \sim \operatorname{Mult}(N, \lambda_1, \lambda_2, \dots, \lambda_n) }[/math] conditioned on [math]\displaystyle{ N = X_1 + X_2 + \dots X_n }[/math].


这意味着,对于任何非负函数[math]\displaystyle{ f(x_1,x_2,\dots,x_n) }[/math] ,


如果 [math]\displaystyle{ (Y_1, Y_2, \dots, Y_n)\sim\operatorname{Mult}(m, \mathbf{p}) }[/math] 是多项式分布,则

[math]\displaystyle{ \operatorname{E}[f(Y_1, Y_2, \dots, Y_n)] \le e\sqrt{m}\operatorname{E}[f(X_1, X_2, \dots, X_n)] }[/math]


其中 [math]\displaystyle{ (X_1, X_2, \dots, X_n)\sim\operatorname{Pois}(\mathbf{p}) }[/math]


如果进一步假定[math]\displaystyle{ f }[/math]是单调递增或递减的,则可以去掉[math]\displaystyle{ e\sqrt{m} }[/math] 的因子。


二元泊松分布

这种分布已经扩展到二元情况。这个分布的母函数是

[math]\displaystyle{ g( u, v ) = \exp[ ( \theta_1 - \theta_{12} )( u - 1 ) + ( \theta_2 - \theta_{12} )(v - 1) + \theta_{12} ( uv - 1 ) ] }[/math]

[math]\displaystyle{ \theta_1, \theta_2 \gt \theta_{ 12 } \gt 0 \, }[/math]


边缘分布为Poisson(θ1)和Poisson(θ2),相关系数仅限于一定范围

[math]\displaystyle{ 0 \le \rho \le \min\left\{ \frac{ \theta_1 }{ \theta_2 }, \frac{ \theta_2 }{ \theta_1 } \right\} }[/math]


一个简单的方法来产生一个二变量的泊松分布[math]\displaystyle{ X_1,X_2 }[/math]: 取3个独立的 Poisson 分布 [math]\displaystyle{ Y_1,Y_2,Y_3 }[/math] ,用[math]\displaystyle{ \lambda_1,\lambda_2,\lambda_3 }[/math]然后设置 [math]\displaystyle{ X_1 = Y_1 + Y_3,X_2 = Y_2 + Y_3 }[/math]。二元概率密度函数变量的泊松分布变量是


[math]\displaystyle{ \begin{align} & \Pr(X_1=k_1,X_2=k_2) \\ = {} & \exp\left(-\lambda_1-\lambda_2-\lambda_3\right) \frac{\lambda_1^{k_1}}{k_1!} \frac{\lambda_2^{k_2}}{k_2!} \sum_{k=0}^{\min(k_1,k_2)} \binom{k_1}{k} \binom{k_2}{k} k! \left( \frac{\lambda_3}{\lambda_1\lambda_2}\right)^k \end{align} }[/math]


自由泊松分布

带有跳跃大小[math]\displaystyle{ \alpha }[/math]和速率[math]\displaystyle{ \lambda }[/math]的自由泊松分布[3]作为重复自由卷积的极限在自由概率论中出现

[math]\displaystyle{ \left( \left(1-\frac{\lambda}{N}\right)\delta_0 + \frac{\lambda}{N}\delta_\alpha\right)^{\boxplus N} }[/math]

as N → ∞.


换句话说,让[math]\displaystyle{ X_N }[/math]是随机变量,因此[math]\displaystyle{ X_N }[/math]具有值[math]\displaystyle{ \alpha }[/math]具有概率[math]\displaystyle{ \frac{\lambda}{N} }[/math],值0具有剩余的概率。同时假设集合[math]\displaystyle{ X_1,X_2,\ldots }[/math]是自由独立的。然后将极限值设为[math]\displaystyle{ N\to\infty }[/math]以确定[math]\displaystyle{ X_1+\cdots +X_N }[/math]的规律是由带参数[math]\displaystyle{ \lambda,\alpha }[/math]的自由泊松定律给出的。


这个定义类似于从(经典)泊松过程获得经典泊松分布的一种方法。


与自由泊松定律相关的测度由以下给出[4]


[math]\displaystyle{ \mu=\begin{cases} (1-\lambda) \delta_0 + \lambda \nu,& \text{if } 0\leq \lambda \leq 1 \\ \nu, & \text{if }\lambda \gt 1, \end{cases} }[/math]


其中

[math]\displaystyle{ \nu = \frac{1}{2\pi\alpha t}\sqrt{4\lambda \alpha^2 - ( t - \alpha (1+\lambda))^2} \, dt }[/math]


并且支持[math]\displaystyle{ [\alpha (1-\sqrt{\lambda})^2,\alpha (1+\sqrt{\lambda})^2] }[/math]


这个定律也出现在随机矩阵理论中,称为马尔琴科-帕斯图定律 Marchenko–Pastur law。它的自由累积量等于[math]\displaystyle{ \kappa_n=\lambda\alpha^n }[/math]


这一定律的一些变换

我们给出了自由泊松定律的一些重要变换的值。在 a. Nica 和 r. Speicher 合著的《自由概率组合学讲座 Lectures on the Combinatorics of Free Probability》一书中[5]


以下给出自由泊松定律的R-变换

[math]\displaystyle{ R(z)=\frac{\lambda \alpha}{1-\alpha z}. }[/math]


柯西变换 Cauchy transform(即 Stieltjes变换的负变换)由以下给出

[math]\displaystyle{ G(z) = \frac{ z + \alpha - \lambda \alpha - \sqrt{ (z-\alpha (1+\lambda))^2 - 4 \lambda \alpha^2}}{2\alpha z} }[/math]

以下给出了S变换的一般形式

[math]\displaystyle{ S(z) = \frac{1}{z+\lambda} }[/math]

在这种情况下。


统计学推论

参数估计

给定一个n个测量值的样本 [math]\displaystyle{ k_i \in \{0,1,...\} }[/math] ,对于 i = 1,... ,n,我们希望估计取样的泊松总体参数的值。最大似然估计是[6]

[math]\displaystyle{ \widehat{\lambda}_\mathrm{MLE}=\frac{1}{n}\sum_{i=1}^n k_i. \! }[/math]


因为每个观测值都有期望值λ,所以样本的意义也是如此。因此,最大似然估计是λ的无偏估计。它也是一个有效的估计器,因为它的方差达到了Cramér-Rao 下界(CRLB)。因此它是最小方差无偏的。也可以证明和(因此样本平均值是和的单射)是λ一个完整充分的统计量。


为了证明充分性,我们可以用 因子分解定理 Factorization theorem。考虑将联合泊松分布的概率质量函数分成两部分: 一部分仅依赖于样本 [math]\displaystyle{ \mathbf{x} }[/math](称为[math]\displaystyle{ h(\mathbf{x}) }[/math]) ,另一部分依赖于参数[math]\displaystyle{ \lambda }[/math]和样本[math]\displaystyle{ \mathbf{x} }[/math]只通过函数 [math]\displaystyle{ T(\mathbf{x}) }[/math]。那么[math]\displaystyle{ T(\mathbf{x}) }[/math]就是[math]\displaystyle{ \lambda }[/math]的一个充分的统计量。

[math]\displaystyle{ P(\mathbf{x})=\prod_{i=1}^n\frac{\lambda^{x_i} e^{-\lambda}}{x_i!}=\frac{1}{\prod_{i=1}^n x_i!} \times \lambda^{\sum_{i=1}^n x_i}e^{-n\lambda} }[/math]


第一个术语,[math]\displaystyle{ h(\mathbf{x}) }[/math] ,仅依赖于[math]\displaystyle{ \mathbf{x} }[/math] 。第二个术语,[math]\displaystyle{ g(T(\mathbf{x})|\lambda) }[/math],仅通过[math]\displaystyle{ T(\mathbf{x})=\sum_{i=1}^nx_i }[/math]取决于样本。因此,[math]\displaystyle{ T(\mathbf{x}) }[/math]就足够了。


为了找到泊松族群概率密度函数最大的参数λ ,我们可以使用似然函数的对数:

[math]\displaystyle{ \begin{align} \ell(\lambda) & = \ln \prod_{i=1}^n f(k_i \mid \lambda) \\ & = \sum_{i=1}^n \ln\!\left(\frac{e^{-\lambda}\lambda^{k_i}}{k_i!}\right) \\ & = -n\lambda + \left(\sum_{i=1}^n k_i\right) \ln(\lambda) - \sum_{i=1}^n \ln(k_i!). \end{align} }[/math]


我们取导数[math]\displaystyle{ \ell }[/math]关于λ并将其与零进行比较

[math]\displaystyle{ \frac{\mathrm{d}}{\mathrm{d}\lambda} \ell(\lambda) = 0 \iff -n + \left(\sum_{i=1}^n k_i\right) \frac{1}{\lambda} = 0. \! }[/math]


解出 λ得到驻点。

[math]\displaystyle{ \lambda = \frac{\sum_{i=1}^n k_i}{n} }[/math]


所以λ是ki值的平均值。获得L在驻点处的二阶导数的符号将决定λ是何种极值。

[math]\displaystyle{ \frac{\partial^2 \ell}{\partial \lambda^2} = -\lambda^{-2}\sum_{i=1}^n k_i }[/math]


在驻点对二阶导数进行评估得出:

[math]\displaystyle{ \frac{\partial^2 \ell}{\partial \lambda^2} = - \frac{n^2}{\sum_{i=1}^n k_i} }[/math]


它是n乘以ki平均值的倒数。当平均数为正时,这个表达式是负的。如果这一点得到了满足,那么驻点最大化了概率密度函数。


为了完整性起见,一个分布族被认为是完整的,当且仅当[math]\displaystyle{ E(g(T)) = 0 }[/math]意味着[math]\displaystyle{ P_\lambda(g(T) = 0) = 1 }[/math]对于所有[math]\displaystyle{ \lambda }[/math]。如果个体[math]\displaystyle{ X_i\lt /math是 \lt math\gt \mathrm{Po}(\lambda) }[/math] ,那么[math]\displaystyle{ T(\mathbf{x})=\sum_{i=1}^nX_i\sim \mathrm{Po}(n\lambda) }[/math]。了解了我们要调查的分布情况后,很容易看出统计数据是完整的。

[math]\displaystyle{ E(g(T))=\sum_{t=0}^\infty g(t)\frac{(n\lambda)^te^{-n\lambda}}{t!}=0 }[/math]


要保证这个等式成立,[math]\displaystyle{ g(t) }[/math]必须为0。这源于这样一个事实: 对于所有[math]\displaystyle{ t }[/math]的和和以及[math]\displaystyle{ \lambda }[/math]的所有可能值,其他项都不会为0。因此,[math]\displaystyle{ E(g(T)) = 0 }[/math]意味着[math]\displaystyle{ P_\lambda(g(T) = 0) = 1 }[/math],统计已被证明是完整的。


置信区间

置信区间的平均泊松分布可以用泊松分布和卡方分布的累积分布函数之间的关系来表示。卡方分布本身与伽玛分布密切相关,这导致了另一种表达方式。给定一个来自平均泊松分布的观测值k,一个带有置信水平1 – α和置信区间μ

[math]\displaystyle{ \tfrac 12\chi^{2}(\alpha/2; 2k) \le \mu \le \tfrac 12 \chi^{2}(1-\alpha/2; 2k+2), }[/math]


或者等价,

[math]\displaystyle{ F^{-1}(\alpha/2; k,1) \le \mu \le F^{-1}(1-\alpha/2; k+1,1), }[/math]


其中[math]\displaystyle{ \chi^{2}(p;n) }[/math]n个自由度的分位函数(对应于较低的尾部区域p),[math]\displaystyle{ F^{-1}(p;n,1) }[/math]是形状参数n和尺度参数1的卡方分布的分位函数。这个时间间隔是“精确的” ,因为它的覆盖概率从来没有小于名义值 1 – α


当伽玛分布的分位数不可用时,对这个精确区间提出了精确的近似(基于 Wilson-Hilferty 变换) :

[math]\displaystyle{ k \left( 1 - \frac{1}{9k} - \frac{z_{\alpha/2}}{3\sqrt{k}}\right)^3 \le \mu \le (k+1) \left( 1 - \frac{1}{9(k+1)} + \frac{z_{\alpha/2}}{3\sqrt{k+1}}\right)^3, }[/math]


其中[math]\displaystyle{ z_{\alpha/2} }[/math]表示标准的正常偏差和上尾区域α / 2


为了在与上述相同的上下文中应用这些公式(给定一个n个测量值ki每个取自一个泊松分布的平均值λ) ,我们将设置

[math]\displaystyle{ k=\sum_{i=1}^n k_i ,\! }[/math]


计算 μ = 的区间,然后推导出λ


贝叶斯推理

贝叶斯推理 Bayesian inference中,泊松分布的速率参数的 共轭先验 Conjugate prior是伽玛分布。让

[math]\displaystyle{ \lambda \sim \mathrm{Gamma}(\alpha, \beta) \! }[/math]


表示λ根据以形状参数α和反比例尺参数β表示的伽马密度g分布:

[math]\displaystyle{ g(\lambda \mid \alpha,\beta) = \frac{\beta^{\alpha}}{\Gamma(\alpha)} \; \lambda^{\alpha-1} \; e^{-\beta\,\lambda} \qquad \text{ for } \lambda\gt 0 \,\!. }[/math]


然后,给定相同的样本n测量值ki和之前的 Gamma(α, β),后验概率是

[math]\displaystyle{ \lambda \sim \mathrm{Gamma}\left(\alpha + \sum_{i=1}^n k_i, \beta + n\right). \! }[/math]


后验平均值E[λ]接近极限中的最大似然估计[math]\displaystyle{ \widehat{\lambda}_\mathrm{MLE} }[/math],它紧跟在伽玛分布平均值的一般表达式之后。


单一额外观察的后验预测分布是负二项分布,有时称为泊松分布。


多重泊松均值的同步估计

假设[math]\displaystyle{ X_1, X_2, \dots, X_p }[/math]是一组来自一组[math]\displaystyle{ p }[/math]泊松分布的独立随机变量,每个分布都有一个参数 [math]\displaystyle{ \lambda_i }[/math], [math]\displaystyle{ i=1,\dots,p }[/math], 我们想估计这些参数。然后,clevensen 和 Zidek 证明,在归一化的平方误差损失[math]\displaystyle{ L(\lambda,{\hat \lambda})=\sum_{i=1}^p \lambda_i^{-1} ({\hat \lambda}_i-\lambda_i)^2 }[/math]下,当 [math]\displaystyle{ p\gt 1 }[/math],那么,类似于 Stein 的例子中的正态方法,MLE[math]\displaystyle{ {\hat \lambda}_i = X_i }[/math] 是不允许的。


在这种情况下,对于任意[math]\displaystyle{ 0 \lt c \leq 2(p-1) }[/math][math]\displaystyle{ b \geq (p-2+p^{-1}) }[/math],给出了极大极小估计族


[math]\displaystyle{ {\hat \lambda}_i = \left(1 - \frac{c}{b + \sum_{i=1}^p X_i}\right) X_i, \qquad i=1,\dots,p. }[/math]


发生与应用

  • 电信示例:一个系统中的来电数。
  • 天文学例子:到达望远镜的光子。
  • 化学示例:一种活性聚合物的摩尔质量分布。
  • 生物示例:每单位DNA链上的突变数。
  • 管理示例:到达柜台或呼叫中心的客户。
  • 金融和保险示例:在一定时期内发生的损失或索赔的数量。
  • 地震地震学实例:大地震地震危险性的渐近泊松模型。
  • 放射性示例:在放射性样本中给定时间间隔内的衰变次数。
  • 光学示例:单个激光脉冲中发射的光子数。这是大多数量子密钥分发协议的主要漏洞,被称为光子数分裂(PNS)。


泊松分布过程与泊松过程有关。它适用于各种离散性质的现象(也就是说,那些可能发生0,1,2,3,... 在给定时间内或在给定区域) ,只要现象发生的概率在时间或空间上是常数。可以被模仿为泊松分布的活动包括:

  • 各兵团每年死于马踢的士兵人数。
  • 酿造吉尼斯啤酒时使用的酵母细胞数量。
  • 一分钟内到达呼叫中心的电话数。
  • 互联网堵塞。
  • 两支参赛队伍在运动中的进球数。
  • 特定年龄组每年的死亡人数。
  • 股票价格在给定时间间隔内的波动次数。
  • 在泊松过程#齐次|均匀性假设下,每分钟访问web服务器的次数。
  • 在一定量的辐射之后,在给定的DNA段中突变的数目。
  • 在给定的时间内被感染的细胞(生物学)|细胞的比例。
  • 一定量液体中细菌的数量。
  • 在给定的光照和时间间隔,到达像素电路的光子。
  • 二战期间伦敦对V-1飞弹的目标调查


1976年,加拉格尔 Gallagher指出,只要Hardy-Littlewo素数r-元组猜想的一个版本为正确,短时间间隔内质数的计数即服从泊松分布。


稀有事件定律

 
泊松分布(黑线)与[二项分布(红圈) ,n = 20(蓝圈), n = 1000(绿圈)的比较。所有分布的平均值都是5。水平轴显示事件的数量k。随着n变得越来越大,泊松分布变成了一个越来越好的平均二项分布。

事件的发生率与事件发生在某个小的子间隔(时间、空间或其他)的概率有关。在泊松分布的例子中,我们假设存在一个足够小的子区间,其中一个事件发生两次的概率是“可以忽略的”。有了这个假设,我们就可以从二项式中推导出泊松分布,只需要给出整个时间间隔内预期的事件总数的信息。设这个总数是[math]\displaystyle{ \lambda }[/math]。将整个区间分为[math]\displaystyle{ n }[/math] 子区间 [math]\displaystyle{ I_1,\dots,I_n }[/math]大小相等,这样[math]\displaystyle{ n }[/math] > [math]\displaystyle{ \lambda }[/math](因为我们只对区间的很小一部分感兴趣,所以这个假设是有意义的)。这意味着每个[math]\displaystyle{ i }[/math]中期望的事件数等于[math]\displaystyle{ \lambda }[/math] 。现在,我们假设一个事件在整个时间间隔内的发生可以被看作是伯努利试验,其中,[math]\displaystyle{ i^{th} }[/math]试验对应于观察一个事件是否在子时间间隔内发生。在[math]\displaystyle{ n }[/math]这样的试验中预期的总事件数是[math]\displaystyle{ \lambda }[/math],这是整个间隔中预期的总事件数。因此,对于区间的每一个细分,我们都近似地将事件的发生作为形式[math]\displaystyle{ \textrm{B}(n,\lambda/n) }[/math]的伯努利过程。正如我们之前指出的,我们只想考虑非常小的子区间。因此,我们将极限取为[math]\displaystyle{ n }[/math]到无穷大。


在这种情况下,二项分布收敛于泊松极限定理所称的泊松分布。


在上面的几个例子中---- 例如,一个给定序列的DNA突变的数量---- 被计算的事件实际上是离散试验的结果,也就是说,更准确地说,是用二项分布模型来模拟的

[math]\displaystyle{ X \sim \textrm{B}(n,p). \, }[/math]


在这种情况下,n是非常大的,p是非常小的(所以期望np是中等大小)。然后,分布可以近似于不那么麻烦的泊松分布

[math]\displaystyle{ X \sim \textrm{Pois}(np). \, }[/math]


这种近似有时被称为稀有事件定律,因为n个伯努利事件中的每一个很少发生。这个名称可能有误导性,因为如果参数np不小,那么 Poisson 过程中成功事件的总计数就不会很少。例如,一个小时内打给忙碌总机的电话数量跟随着一个泊松分布,这些事件在接线员看来是频繁的,但是从普通人的角度来看,这些事件很少发生,因为他们不太可能在那个小时内打电话给总机。


规律 law一词有时被用作概率分布的同义词,规律的收敛意味着分布的收敛。因此,泊松分布有时被称为“小数定律” ,因为它是一个事件发生次数的概率分布,这个事件很少发生,但却有很多机会发生。小数定律是拉迪斯劳斯·博特基威茨 Ladislaus Bortkiewicz的一本关于泊松分布的书,出版于1898年。


泊松点过程

泊松分布是位于某个有限区域的泊松过程的点数。更具体地说,如果D是某个区域空间,例如欧几里德空间Rd,对于这个区域 | D| ,区域的面积、体积或者更一般地说,区域的勒贝格测度是有限的,如果表示D中的点数,那么


[math]\displaystyle{ P(N(D)=k)=\frac{(\lambda|D|)^k e^{-\lambda|D|}}{k!} . }[/math]


泊松回归与负二项回归

泊松回归与负二项回归分析是有用的,其中依赖(响应)变量是计数(0,1,2,...)的在一个区间内事件发生的数量。


科学上的其他应用

在泊松过程中,观察到的事件数目在其平均值λ上下波动,波动标准[math]\displaystyle{ \sigma_k =\sqrt{\lambda} }[/math]差为。这些波动被称为泊松噪声或(特别是在电子学中)散粒噪声。


在计算独立的离散事件时,平均数和标准差的相关性是有科学价值的。通过监测波动是如何随着平均信号而变化的,我们可以估计单一事件的贡献,即使这个贡献太小而不能直接检测到。例如,电子的电荷e可以通过将电流的大小与散粒噪声相关联来估计。如果N个电子在给定时间t平均通过一个点,那么平均电流为[math]\displaystyle{ I=eN/t }[/math]; 因为当前的波动应该是[math]\displaystyle{ \sigma_I=e\sqrt{N}/t }[/math](即 Poisson 过程的标准差) ,所以电荷[math]\displaystyle{ e }[/math]可以通过数学比率[math]\displaystyle{ t\sigma_I^2/I }[/math]来估计。


一个日常的例子是放大照片时出现的颗粒状;颗粒状是由于减少的银粒数量的泊松波动,而不是单个颗粒本身。通过将颗粒度与放大程度相关联,我们可以估算出单个颗粒的贡献(否则颗粒太小,无法单独看到)。泊松噪声的许多其他分子应用已经发展起来,例如,估计细胞膜上受体分子的数量密度。

[math]\displaystyle{ \Pr(N_t=k) = f(k;\lambda t) = \frac{(\lambda t)^k e^{-\lambda t}}{k!}. }[/math]


因果集合论 Causal Set theory中,时空的离散元素在集合中遵循一个泊松分布。


计算方法

泊松分布为专用软件库提出了两个不同的任务: 计算分布[math]\displaystyle{ P(k;\lambda) }[/math],并根据分布绘制随机数。


计算泊松分布

计算[math]\displaystyle{ P(k;\lambda) }[/math]对于给定的[math]\displaystyle{ k }[/math][math]\displaystyle{ \lambda }[/math]是一项琐碎的任务,可以通过使用[math]\displaystyle{ P(k;\lambda) }[/math]的标准定义来完成,包括指数函数、幂函数和阶乘函数。然而,传统上对泊松分布的定义包含了两个容易在计算机上溢出的术语: λk!和 k。分数λkk!也可能产生舍入误差,与e−λ相比,舍入误差非常大,因此给出错误的结果。因此,对于数值稳定性来说,泊松概率质量函数应该被评估为

[math]\displaystyle{ \!f(k; \lambda)= \exp \left[ k\ln \lambda - \lambda - \ln \Gamma (k+1) \right], }[/math]


这在数学上是等价的,但在数值上是稳定的。函数的自然对数可以使用 c 标准库(C99版本)中的lgamma函数或 R,MATLAB 或 SciPy 中的 gammaln函数,或 Fortran 2008及更高版本中的log_gamma函数来获得。


一些计算语言提供了 内置函数来计算泊松分布

  • R语言:function dpois(x, lambda)
  • Microsoft Excel:function POISSON( x, mean, cumulative),带有一个标志来指定累积分布;
  • Mathematica:单变量泊松分布为PoissonDistribution[ λ ],[7] ,二元泊松分布为MultivariatePoissonDistribution[θ_12,{ θ_1 - θ_12,θ_2 - θ_12}][8]


从泊松分布中抽取随机量

更简单的任务是用给定的[math]\displaystyle{ \lambda }[/math]从泊松分布中提取随机整数。


提供解决方案的有:

  • R语言: 函数rpois(n, lambda);


生成泊松分布随机变量

给出了一个产生随机泊松分布数(伪随机数抽样)的简单算法:

算法:泊松随机数 Knuth
  初始化:
    设 L ← e−λ, k ← 0 且 p ← 1.
  执行:
    k ← k + 1.
    在[0,1]中生成均匀随机数 u 并且设 p ← p × u。
  同时 p > L.
  返回 k − 1.


返回值k的复杂度是线性的,平均为λ。还有许多其他的算法可以改进这一点。一些是在 Ahrens & Dieter,见下面。


对于λ较大的值,L = e−λ的值可能非常小,以至于很难表示。这可以通过改变算法来解决,该算法使用附加参数 STEP,使得e−STEP不会下溢:


算法:泊松随机数 Junhao(基于 Knuth) :
  初始化:
    设Let λLeft ← λ, k ← 0 且 p ← 1.
  执行:
    k ← k + 1.
    在(0,1)中生成均匀随机数 u 并且设p ← p × u
    而 p < 1 and λLeft > 0:
    如果 λLeft > STEP:
      p ← p × eSTEP
      λLeft ← λLeft − STEP
    或者:
      p ← p × eλLeft
      λLeft ← 0 同时 p > 1。
  返回 k − 1.


STEP 的选择取决于溢出阈值。对于双精度浮点格式,阈值接近e700,因此500应该是一个安全的 STEP。


其他λ的大数值的求解包括抑制取样和使用高斯近似 Gaussian approximation


逆变换采样对于λ小数值的样本是简单有效的,并且每个样本只需要一个均匀一致的随机数u。依次检查累积概率,直到其超过u


算法:基于顺序检索反演的泊松发生器算法 Algorithm Poisson generator:
  初始化:
    设 x ← 0, p ← e−λ, s ← p.
    在[0,1]中生成均匀随机数 u,同时 u > s
  执行:
    x ← x + 1.
    p ← p × λ / x.
    s ← s + p.
  返回 x


历史

这种分布最早由西蒙·丹尼斯·泊松 Siméon Denis Poisson(1781-1840)提出,并与他的概率论一起发表在他的著作Recherches sur la probabilité des jugements en matière criminelle et en matière Civile (1837) 中。这项工作通过关注某些随机变量N,其中包括在给定时间间隔内发生的离散事件(有时称为“事件”或“到达事件”)的数量来推断某一国家的错误定罪数量。这个结果早在1711年就已由亚伯拉罕·德·莫弗 Abraham de Moivre给出了。这使它成为斯蒂格勒定律 Stigler's law的一个例子,也使一些作者提出,泊松分布应该以de Moivre的名字命名。


1860年,Simon Newcomb 将泊松分布与天文台一个空间单位中发现的恒星数量进行了比较。


这种分布的进一步实际应用是在1898年,当时拉迪斯劳斯·博特基威茨被赋予任务调查普鲁士军队中被马踢意外杀死的士兵人数; 这个实验将泊松分布引入可靠性技术领域。


参考文献

  1. Proof wiki: expectation and Proof wiki: variance
  2. "1.7.7 – Relationship between the Multinomial and Poisson | STAT 504".
  3. Free Random Variables by D. Voiculescu, K. Dykema, A. Nica, CRM Monograph Series, American Mathematical Society, Providence RI, 1992
  4. James A. Mingo, Roland Speicher: Free Probability and Random Matrices. Fields Institute Monographs, Vol. 35, Springer, New York, 2017.
  5. Lectures on the Combinatorics of Free Probability by A. Nica and R. Speicher, pp. 203–204, Cambridge Univ. Press 2006
  6. Paszek, Ewa. "Maximum Likelihood Estimation – Examples".
  7. "Wolfram Language: PoissonDistribution reference page". wolfram.com. Retrieved 2016-04-08.
  8. "Wolfram Language: MultivariatePoissonDistribution reference page". wolfram.com. Retrieved 2016-04-08.


引用

资源

编者推荐

集智课程

复杂系统中的幂律分布

2018年国家统计局公布的数据显示,全国居民人均可支配收入在2017年是2.6万元,如果收入满足正态分布的话,收入超过6万的人会很少。但实际上,早在2016年,就已经有20%的居民可支配收入超过了5.9万!实际上,人们的收入服从幂律分布,而不是正态分布。这意味着用平均去代表整体的水平,是有严重偏差的。


除此之外,有很多实际问题都与幂律分布相关。比如,为什么在收入、财富统计中,我们不能用均值代表总体;为什么古老的计算机病毒不能被根除;为什么你的好友比你更受欢迎;为什么大规模股灾隔三差五就会出现;为什么保险行业比我们想象的更加脆弱;为什么阿里巴巴可达千亿市值、亚马逊可达万亿市值等,这些问题都可以用幂律分布的相关知识进行解释。


本课程结合实际数据和丰富的学术文献,从各方面向大家展示幂律分布——复杂系统入门必修课,其特征和意义,以及如何应用,为大家打造了体系完整的幂律分布学习框架!




本中文词条由水流心不竞翻译,fairywang审校,薄荷编辑,如有问题,欢迎在讨论页面留言。


本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。