更改

添加3,350字节 、 2021年2月7日 (日) 19:05
第45行: 第45行:       −
其中<math>B(t)<math>是布朗 Brownian桥。K的累积分布函数为
+
其中<math>B(t)</math>是布朗 Brownian桥。K的累积分布函数为
      −
:<math>\operatorname{Pr}(K\leq x)=1-2\sum_{k=1}^\infty (-1)^{k-1} e^{-2k^2 x^2}=\frac{\sqrt{2\pi}}{x}\sum_{k=1}^\infty e^{-(2k-1)^2\pi^2/(8x^2)}<math>,
+
:<math>\operatorname{Pr}(K\leq x)=1-2\sum_{k=1}^\infty (-1)^{k-1} e^{-2k^2 x^2}=\frac{\sqrt{2\pi}}{x}\sum_{k=1}^\infty e^{-(2k-1)^2\pi^2/(8x^2)}</math>,
      −
 
+
也可以用'''雅可比θ函数 Jacobi theta function'''<math>\vartheta_{01}(z=0;\tau=2ix^2/\pi)</math>表示。在零假设下,Andrey Kolmogorov定义并规范了Kolmogorov–Smirnov检验统计量的形式及其渐近分布,<ref name=AK>{{Cite journal |author=Kolmogorov A |year=1933 |title=Sulla determinazione empirica di una legge di distribuzione |journal=G. Ist. Ital. Attuari |volume=4 |pages=83–91}}</ref>Nikolai Smirnov则规范了分布表。<ref>{{Cite journal |author=Smirnov N |year=1948 |title=Table for estimating the goodness of fit of empirical distributions |journal=[[Annals of Mathematical Statistics]] |volume=19 |issue=2 |pages=279–281 |doi=10.1214/aoms/1177730256|doi-access=free }}</ref>这里可以运用有限样本中检验统计量分布的递归关系。<ref name=AK/>
which can also be expressed by the Jacobi theta function \vartheta_{01}(z=0;\tau=2ix^2/\pi). Both the form of the Kolmogorov–Smirnov test statistic and its asymptotic distribution under the null hypothesis were published by Andrey Kolmogorov, while a table of the distribution was published by Nikolai Smirnov. Recurrence relations for the distribution of the test statistic in finite samples are available.
  −
 
  −
也可以用'''雅可比θ函数 Jacobi theta function'''{\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}表示.在零假设下,Andrey Kolmogorov定义并规范了Kolmogorov–Smirnov检验统计量的形式及其渐近分布,Nikolai Smirnov则规范了分布表。这里可以运用有限样本中检验统计量分布的递归关系。
         
当样本来自假设分布''F''(''x'')的零假设下,
 
当样本来自假设分布''F''(''x'')的零假设下,
   −
  −
\operatorname{Pr}(K\leq K_\alpha)=1-\alpha.\,
      
:<math>\sqrt{n}D_n\xrightarrow{n\to\infty}\sup_t |B(F(t))|</math>
 
:<math>\sqrt{n}D_n\xrightarrow{n\to\infty}\sup_t |B(F(t))|</math>
      −
在其分布中,<math>B(t)<math>指的是'''布朗桥 Brownian bridge'''。
+
在其分布中,<math>B(t)</math>指的是'''布朗桥 Brownian bridge'''。
      −
如果''F''是连续的,则在原假设 <math>\sqrt{n}D_n</math>下收敛到不依赖于F的Kolmogorov分布。该结果也称为'''Kolmogorov定理'''。当<math>n</math> 为有限时,此极限的精确度近似为<math>K</math>的确切累积分布函数,效果并不十分令人满意:即使<math>n=1000</math>,相应的最大误差约为<math>0.9\%</math>。在<math>n=100</math>时,此误差增加到<math>2.6\%</math>,在<math>n=10</math>时增加到完全不可接受的<math>7\%</math>。但是,如果简单地将<math>x</math>替换为
+
如果''F''是连续的,则在原假设 <math>\sqrt{n}D_n</math>下收敛到不依赖于''F''的Kolmogorov分布。该结果也称为'''Kolmogorov定理'''。当<math>n</math> 为有限时,此极限的精确度近似为<math>K</math>的确切累积分布函数,效果并不十分令人满意:即使<math>n=1000</math>,相应的最大误差约为<math>0.9\%</math>。在<math>n=100</math>时,此误差增加到<math>2.6\%</math>,在<math>n=10</math>时增加到完全不可接受的<math>7\%</math>。但是,如果简单地将<math>x</math>替换为
      第74行: 第69行:       −
在Jacobi theta函数的参数e中,将这些误差分别减小到<math>0.003\%</math>, <math>0.027\%</math>和<math>0.27\%</math>;该精度足以满足现阶段所有实际应用,。
+
在Jacobi theta函数的参数e中,将这些误差分别减小到<math>0.003\%</math>, <math>0.027\%</math>和<math>0.27\%</math>;该精度足以满足现阶段所有实际应用。<ref>{{Cite journal |vauthors=Vrbik, Jan |year=2018 |title=Small-Sample Corrections to Kolmogorov–Smirnov Test Statistic |journal=Pioneer Journal of Theoretical and Applied Statistics |volume=15 |issue=1–2 |pages=15–23}}</ref>
       +
拟合优度检验或Kolmogorov–Smirnov检验可通过使用Kolmogorov分布的临界值来构建。当<math>n \to\infty</math>时,该检验是渐近有效的。如果条件为:
   −
The ''goodness-of-fit'' test or the Kolmogorov–Smirnov test can be constructed by using the critical values of the Kolmogorov distribution. This test is asymptotically valid when <math>n \to\infty</math>. It rejects the null hypothesis at level <math>\alpha</math> if
     −
拟合优度检验或Kolmogorov–Smirnov检验可通过使用Kolmogorov分布的临界值来构建。当{\displaystyle n\to \infty }时,该检验是渐近有效的。如果条件为<math>n \to\infty</math>,它会拒绝<math>\alpha</math>等级上的零假设。
+
:<math>\sqrt{n}D_n>K_\alpha,\,</math>
      −
''K''<sub>''α''</sub>为:
+
它会拒绝<math>\alpha</math>等级上的零假设。即''K''<sub>''α''</sub>为:
 +
 
 +
 
 +
:<math>\operatorname{Pr}(K\leq K_\alpha)=1-\alpha.\,</math>
      第91行: 第89行:  
用于计算任意<math>n</math>和<math>x</math>的累积分布函数<math>\operatorname{Pr}(D_n \leq x)</math>或其补数的快速准确的算法可以从以下获取:
 
用于计算任意<math>n</math>和<math>x</math>的累积分布函数<math>\operatorname{Pr}(D_n \leq x)</math>或其补数的快速准确的算法可以从以下获取:
   −
* 统计软件期刊2011年Journal of Statistical Software刊登的Simard R, L'Ecuyer P的文章《计算双向Kolmogorov–Smirnov分布》以及统计与概率通信期刊2017年刊登的Moscovich A, Nadler B 的文章《快速计算泊松过程的边界穿越概率》。关于连续零分布的C和Java代码实现可以在文章《计算双向Kolmogorov–Smirnov分布》中找到。
+
* 统计软件期刊2011年Journal of Statistical Software刊登的Simard R, L'Ecuyer P的文章《计算双向Kolmogorov–Smirnov分布》<ref name=SL2011>{{Cite journal |vauthors=Simard R, L'Ecuyer P |year=2011 |title=Computing the Two-Sided Kolmogorov–Smirnov Distribution |journal=Journal of Statistical Software |volume=39 |issue=11 |pages=1–18 |doi=10.18637/jss.v039.i11 |doi-access=free }}</ref>以及统计与概率通信期刊2017年刊登的Moscovich A, Nadler B 的文章《快速计算泊松过程的边界穿越概率》。<ref>{{Cite journal |vauthors=Moscovich A, Nadler B |year=2017 |title=Fast calculation of boundary crossing probabilities for Poisson processes |journal=Statistics and Probability Letters |volume=123 |pages=177–182 |doi=10.1016/j.spl.2016.11.027|arxiv=1503.04363 }}</ref>关于连续零分布的C和Java代码实现可以在文章《计算双向Kolmogorov–Smirnov分布》中找到。<ref name=SL2011/>
* 统计软件期刊2019年Journal of Statistical Software刊登的Dimitrova DS, Kaishev VK, Tan S的文章《当潜在累积分布函数是完全离散,混合或连续时,计算Kolmogorov–Smirnov分布》和Dimitrova, Dimitrina; Kaishev, Vladimir; Tan, Senren.的文章《KSgeneral:计算(离散)连续零分布的K-S检验的P值》。R工程KSgeneral软件包中实现的纯离散,混合或连续零分布,可以进行统计计算,对于给定的样本,它还可以计算KS检验统计量及其p值。或者,可以从文章《当潜在累积分布函数是完全离散,混合或连续时,计算Kolmogorov–Smirnov分布》中获得替代的C++实现。
+
 
 +
* 统计软件期刊2019年Journal of Statistical Software刊登的Dimitrova DS, Kaishev VK, Tan S的文章《当潜在累积分布函数是完全离散,混合或连续时,计算Kolmogorov–Smirnov分布》<ref name=DKT2019>{{Cite journal |vauthors=Dimitrova DS, Kaishev VK, Tan S |year=2019 |title=Computing the Kolmogorov–Smirnov Distribution when the Underlying cdf is Purely Discrete, Mixed or Continuous |journal=Journal of Statistical Software |volume=forthcoming |url=http://openaccess.city.ac.uk/18541/ }}</ref>和Dimitrova, Dimitrina; Kaishev, Vladimir; Tan, Senren.的文章《KSgeneral:计算(离散)连续零分布的K-S检验的P值》。<ref name=KSgeneral>{{Cite web|url=https://cran.r-project.org/web/packages/KSgeneral/index.html|title=KSgeneral: Computing P-Values of the K-S Test for (Dis)Continuous Null Distribution|last1=Dimitrova|first1=Dimitrina | last2=Kaishev| first2=Vladimir | last3=Tan|first3=Senren|website=cran.r-project.org/web/packages/KSgeneral/index.html}}</ref>R工程KSgeneral软件包中实现的纯离散,混合或连续零分布,可以进行统计计算,对于给定的样本,它还可以计算KS检验统计量及其p值。或者,可以从文章《当潜在累积分布函数是完全离散,混合或连续时,计算Kolmogorov–Smirnov分布》中获得替代的C++实现。<ref name=DKT2019/>
      第98行: 第97行:  
=== 用估计的参数进行测试 ===
 
=== 用估计的参数进行测试 ===
   −
如果以数据''X''<sub>''i''</sub>来确定''F''(''x'')的形式或参数,则以这种方式确定的临界值是无效的。在这种情况下,可能需要蒙特卡洛 Monte Carlo或其他方法,不过数据表格已经做了多个情况下的准备。业界目前已经发布了对测试统计量的必要修正细节以及正态分布和指数分布临界值的具体信息,以后的出版物还包括耿贝尔 Gumbel分布。另外莉莉福斯 Lilliefors检验代表正态分布的一种特殊情况。另外为了克服Kolmogorov检验数据可能不符合来自正态分布假设的情况,可以进行对数变换。
+
如果以数据''X''<sub>''i''</sub>来确定''F''(''x'')的形式或参数,则以这种方式确定的临界值是无效的。在这种情况下,可能需要蒙特卡洛 Monte Carlo或其他方法,不过数据表格已经做了多个情况下的准备。业界目前已经发布了对测试统计量的必要修正细节以及正态分布和指数分布临界值的具体信息,<ref name="Pearson & Hartley">{{cite book |title= Biometrika Tables for Statisticians |editor=Pearson, E. S. |editor2=Hartley, H. O. |year=1972 |volume=2 |publisher=Cambridge University Press |isbn=978-0-521-06937-3 |pages=117–123, Tables 54, 55}}</ref>以后的出版物还包括耿贝尔 Gumbel分布。<ref name="Shorak & Wellner">{{cite book |title=Empirical Processes with Applications to Statistics |first1=Galen R. |last1=Shorack |first2=Jon A. |last2=Wellner |year=1986 |isbn=978-0471867258 |publisher=Wiley |page=239}}</ref>另外莉莉福斯 Lilliefors检验代表正态分布的一种特殊情况。另外为了克服Kolmogorov检验数据可能不符合来自正态分布假设的情况,可以进行对数变换。
      −
想要使用估计参数值,自然而然会出现应该使用哪种估计方法的问题。通常情况下,采用的是最大似然法,但对于如正态分布,最大似然法在sigma上具有较大的偏差。而使用矩量拟合或KS最小化来替代则对临界值有很大影响,并且对检验功效也有一定影响。如果我们需要通过KS测试来确定df = 2的Student-T数据是否正常,那么基于H<sub>0</sub的最大似然率估计(数据是正常的,因此使用标度的标准偏差)会得出更大的KS距离,从而不符合最小KS的拟合。在这种情况下,我们应该拒绝H<sub>0</sub,在最大似然法中通常是这样,因为对于T-2数据而言,样本标准偏差可能非常大,但是如果将KS最小化,我们可能会得到太低的KS而无法拒绝H<sub>0</sub。在Student-T情况下,用KS估计而不是最大似然法来进行改进的KS检验会使其效果稍差一些。但是在其他情况下,经过改良的KS检测会得到更好的检验功效。
+
想要使用估计参数值,自然而然会出现应该使用哪种估计方法的问题。通常情况下,采用的是最大似然法,但对于如正态分布,最大似然法在sigma上具有较大的偏差。而使用矩量拟合或KS最小化来替代则对临界值有很大影响,并且对检验功效也有一定影响。如果我们需要通过KS测试来确定df = 2的Student-T数据是否正常,那么基于H<sub>0</sub的最大似然率估计(数据是正常的,因此使用标度的标准偏差)会得出更大的KS距离,从而不符合最小KS的拟合。在这种情况下,我们应该拒绝H<sub>0</sub,在最大似然法中通常是这样,因为对于T-2数据而言,样本标准偏差可能非常大,但是如果将KS最小化,我们可能会得到太低的KS而无法拒绝H<sub>0</sub>。在Student-T情况下,用KS估计而不是最大似然法来进行改进的KS检验会使其效果稍差一些。但是在其他情况下,经过改良的KS检测会得到更好的检验功效。
      第112行: 第111行:       −
从<math>F(x)</math>的右连续性,可以得出<math>F(F^{-1}(t)) \geq t</math>和<math>F^{-1}(F(x)) \leq x </math>,因此<math>D_{n}</math>的分布取决于零分布<math>F(x)</math>,即在连续情况下不再无分布。目前已经开发出一种快速,准确的方法,以C ++和R语言的KSgeneral软件包来实现,当<math>F(x)</math>是纯离散或混合时,可以计算出Dn的精确且渐近分布。函数<code>disc_ks_test()</code>,<code>mixed_ks_test()</code>和<code>cont_ks_test()</code>还可以针对纯离散,混合或连续的零分布和任意样本大小,计算出KS检测统计量和p值。另外作为R语言的dgof软件包的一部分,还可以计算出KS检测及其用于离散零分布和小样本量的p值。关于主要统计软件包,其中SAS PROC NPAR1WAY和Stata ksmirnov是假设<math>F(x)</math>是连续的,因此执行KS检验时,如果零分布实际上不是连续的,则该检验更为保守。详情请见:
+
从<math>F(x)</math>的右连续性,可以得出<math>F(F^{-1}(t)) \geq t</math>和<math>F^{-1}(F(x)) \leq x </math>,因此<math>D_{n}</math>的分布取决于零分布<math>F(x)</math>,即在连续情况下不再无分布。目前已经开发出一种快速,准确的方法,以C ++和R语言的KSgeneral软件包来实现,当<math>F(x)</math>是纯离散或混合时,可以计算出Dn的精确且渐近分布。函数<code>disc_ks_test()</code>,<code>mixed_ks_test()</code>和<code>cont_ks_test()</code>还可以针对纯离散,混合或连续的零分布和任意样本大小,计算出KS检测统计量和p值。<ref name=arnold-emerson>{{Cite journal |first1=Taylor B. |last1=Arnold |first2=John W. |last2=Emerson |year=2011 |title=Nonparametric Goodness-of-Fit Tests for Discrete Null Distributions |journal=The R Journal |volume=3 |issue=2 |pages=34\[Dash]39 |url=http://journal.r-project.org/archive/2011-2/RJournal_2011-2_Arnold+Emerson.pdf |doi=10.32614/rj-2011-016}}</ref>另外作为R语言的dgof软件包的一部分,还可以计算出KS检测及其用于离散零分布和小样本量的p值。关于主要统计软件包,其中SAS PROC NPAR1WAY<ref>{{cite web|url=https://support.sas.com/documentation/cdl/en/statug/68162/HTML/default/viewer.htm#statug_npar1way_toc.htm|title=SAS/STAT(R) 14.1 User's Guide|website=support.sas.com|access-date=14 April 2018}}</ref>和Stata ksmirnov <ref>{{cite web|url=https://www.stata.com/manuals15/rksmirnov.pdf|title=ksmirnov — Kolmogorov–Smirnov equality-of-distributions test|website=stata.com|access-date=14 April 2018}}</ref>是假设<math>F(x)</math>是连续的,因此执行KS检验时,如果零分布实际上不是连续的,则该检验更为保守。详情请见:
1. 《关于离散案例中的Kolmogorov统计量的注释 Note on the Kolmogorov Statistic in the Discrete Case》
+
#《关于离散案例中的Kolmogorov统计量的注释 Note on the Kolmogorov Statistic in the Discrete Case》<ref name=Noether63>{{Cite journal |vauthors=Noether GE |year=1963|title=Note on the Kolmogorov Statistic in the Discrete Case |journal=Metrika |volume=7 |issue=1 |pages=115–116|doi=10.1007/bf02613966}}</ref>
2. 《皮尔逊卡方检验和Kolmogorov拟合优度检验在有效性方面的比较 A Comparison of the Pearson Chi-Square and Kolmogorov Goodness-of-Fit Tests with Respect to Validity》
+
#《皮尔逊卡方检验和Kolmogorov拟合优度检验在有效性方面的比较 A Comparison of the Pearson Chi-Square and Kolmogorov Goodness-of-Fit Tests with Respect to Validity》<ref name=Slakter65>{{Cite journal |vauthors=Slakter MJ |year=1965|title=A Comparison of the Pearson Chi-Square and Kolmogorov Goodness-of-Fit Tests with Respect to Validity |journal=Journal of the American Statistical Association |volume=60 |issue=311 |pages=854–858 |doi=10.2307/2283251|jstor=2283251}}</ref>
3. 《Kolmogorov–Smirnov的有限概率性质和离散数据的相似统计量 Bounded Probability Properties of Kolmogorov–Smirnov and Similar Statistics for Discrete Data》
+
#《Kolmogorov–Smirnov的有限概率性质和离散数据的相似统计量 Bounded Probability Properties of Kolmogorov–Smirnov and Similar Statistics for Discrete Data》<ref name=Walsh63>{{Cite journal |vauthors=Walsh JE  |year=1963 |title=Bounded Probability Properties of Kolmogorov–Smirnov and Similar Statistics for Discrete Data |journal=Annals of the Institute of Statistical Mathematics |volume=15 |issue=1 |pages=153–158|doi=10.1007/bf02865912}}</ref>
 
      
== Two-sample Kolmogorov–Smirnov test 双样本Kolmogorov–Smirnov检验 ==
 
== Two-sample Kolmogorov–Smirnov test 双样本Kolmogorov–Smirnov检验 ==
7,129

个编辑