第4行: |
第4行: |
| }} | | }} |
| | | |
− | '''齐普夫定律 Zipf's law'''是用数理统计公式表述的经验法则,由哈佛大学语言学家乔治·金斯利·齐夫 George Kingsley Zipf 于1949年发表,他揭示了在物理和社会科学中,各类型的数据研究所呈现出的图形,近似于[[齐普夫分布]]状态 Zipf distribution。而[[齐普夫分布]]是一类相关的离散幂律概率分布。 | + | '''齐普夫定律 Zipf's law'''是用数理统计公式表述的经验法则,由哈佛大学语言学家乔治·金斯利·齐夫 George Kingsley Zipf 于1949年发表,他揭示了在物理和社会科学中,各类型的数据研究所呈现出的图形,近似于[[齐普夫分布 Zipf distribution]]状态 。而齐普夫分布是一类相关的离散幂律概率分布。 |
| {| class="wikitable" style="width:70%;margin:0 auto" | | {| class="wikitable" style="width:70%;margin:0 auto" |
| |- | | |- |
第35行: |
第35行: |
| 例如:在布朗英文语料库中,单词''' the''' 是最常出现的单词,占所有单词的近7%。根据齐普夫定律,排在第二位的 of 在单词中所占的比例略高于3.5%(共出现36,411次),其次为单词and(出现28,852次),仅前135个词汇就占了Brown语料库的一半。<ref name="asasa">Fagan, Ramazan, David E. A [https://pattern.swarma.org/paper?id=a5099ae4-6f3a-11ea-ae37-0242ac1a0005 "An introduction to textual econometrics", "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."].Handbook of Empirical Economics and Finance.139.(133--153)</ref> | | 例如:在布朗英文语料库中,单词''' the''' 是最常出现的单词,占所有单词的近7%。根据齐普夫定律,排在第二位的 of 在单词中所占的比例略高于3.5%(共出现36,411次),其次为单词and(出现28,852次),仅前135个词汇就占了Brown语料库的一半。<ref name="asasa">Fagan, Ramazan, David E. A [https://pattern.swarma.org/paper?id=a5099ae4-6f3a-11ea-ae37-0242ac1a0005 "An introduction to textual econometrics", "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."].Handbook of Empirical Economics and Finance.139.(133--153)</ref> |
| | | |
− | 该定律以美国语言学家齐普夫命名,他致力于推广和阐释该定律,尽管他并没有声称自己是创始人。<ref>David M. W. Powers (1998) [https://pattern.swarma.org/paper?id=a96784a2-6f35-11ea-ab80-0242ac1a0005 Applications and Explanations of Zipf’s Law].</ref> 法国速记员让-巴蒂斯特 · 埃斯特鲁可能在齐普夫之前就注意到了这种规律。<ref>[https://nlp.stanford.edu/fsnlp/] Christopher D. Manning, Hinrich Schütze ''Foundations of Statistical Natural Language Processing'', MIT Press (1999), p. 24</ref>1913年,德国物理学家费利克斯·奥尔巴赫也注意到了这一点。<ref name="Auerbach1913">Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76</ref> | + | |
| + | 该定律以美国语言学家齐普夫命名,他致力于推广和阐释该定律,尽管他并没有声称自己是创始人。<ref>David M. W. Powers (1998) [https://pattern.swarma.org/paper?id=a96784a2-6f35-11ea-ab80-0242ac1a0005 Applications and Explanations of Zipf’s Law].</ref> 法国速记员让-巴蒂斯特·埃斯特鲁可能在齐普夫之前就注意到了这种规律。<ref>[https://nlp.stanford.edu/fsnlp/] Christopher D. Manning, Hinrich Schütze ''Foundations of Statistical Natural Language Processing'', MIT Press (1999), p. 24</ref>1913年,德国物理学家费利克斯·奥尔巴赫也注意到了这一点。<ref name="Auerbach1913">Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76</ref> |
| | | |
| == 描述 == | | == 描述 == |
| | | |
| 齐普夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。[[齐普夫定律]]很容易用点阵图观察,坐标分别为排名和频率的自然对数。比如,'''the'''用上述表述可以描述为<math>x = log(1), y = log</math>的点。如果所有的点接近一条直线,那么它就遵循齐普夫定律。<ref name="">David M. W. Powers (1998) [https://pattern.swarma.org/paper?id=a96784a2-6f35-11ea-ab80-0242ac1a0005 Applications and Explanations of Zipf’s Law].</ref> | | 齐普夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。[[齐普夫定律]]很容易用点阵图观察,坐标分别为排名和频率的自然对数。比如,'''the'''用上述表述可以描述为<math>x = log(1), y = log</math>的点。如果所有的点接近一条直线,那么它就遵循齐普夫定律。<ref name="">David M. W. Powers (1998) [https://pattern.swarma.org/paper?id=a96784a2-6f35-11ea-ab80-0242ac1a0005 Applications and Explanations of Zipf’s Law].</ref> |
| + | |
| | | |
| 而在1913年,费利克斯 · 奥尔巴赫首次注意到城市人口排名中的分布情况 根据实际经验,一组数据可以通过 [[Kolmogorov-Smirnov 检验]]来测试齐普夫定律是否适用于假设的幂律分布,然后将幂律分布的对数似然比与指数分布或对数正态分布进行比较。对城市进行齐普夫定律检验时,发现指数 <math>s = 1.07</math>的拟合较好,达到预想规模。<ref name="Clausetetal2009">Clauset, A., Shalizi, C. R., & Newman, M. E. J. (2009). Power-Law Distributions in Empirical Data. SIAM Review, 51(4), 661–703. doi:10.1137/070710111</ref> | | 而在1913年,费利克斯 · 奥尔巴赫首次注意到城市人口排名中的分布情况 根据实际经验,一组数据可以通过 [[Kolmogorov-Smirnov 检验]]来测试齐普夫定律是否适用于假设的幂律分布,然后将幂律分布的对数似然比与指数分布或对数正态分布进行比较。对城市进行齐普夫定律检验时,发现指数 <math>s = 1.07</math>的拟合较好,达到预想规模。<ref name="Clausetetal2009">Clauset, A., Shalizi, C. R., & Newman, M. E. J. (2009). Power-Law Distributions in Empirical Data. SIAM Review, 51(4), 661–703. doi:10.1137/070710111</ref> |
| + | |
| | | |
| == 遵循该定律的现象== | | == 遵循该定律的现象== |
第51行: |
第54行: |
| *地震震级 | | *地震震级 |
| *固体破碎时的碎片大小 | | *固体破碎时的碎片大小 |
| + | |
| | | |
| == 理论回顾 == | | == 理论回顾 == |
第92行: |
第96行: |
| 类似地,偏好依附(直观的看到“富人越来越富”或“成功孕育成功”)产生了[[ Yule-Simon 分布]],这已被证明比齐普夫定律更适合语言中的词频与排名`人口与城市排名研究。</ref><ref name="qwqsa">Vitanov, Nikolay, K., Ausloos, Chunhua (2015) [https://pattern.swarma.org/paper?id=d87132d0-6f3e-11ea-93cb-0242ac1a0005 "Test of two hypotheses explaining the size of populations in a system of cities"].Journal of Applied Statistics.42, 1506, 10, 1047744.(2686--2693)</ref> | | 类似地,偏好依附(直观的看到“富人越来越富”或“成功孕育成功”)产生了[[ Yule-Simon 分布]],这已被证明比齐普夫定律更适合语言中的词频与排名`人口与城市排名研究。</ref><ref name="qwqsa">Vitanov, Nikolay, K., Ausloos, Chunhua (2015) [https://pattern.swarma.org/paper?id=d87132d0-6f3e-11ea-93cb-0242ac1a0005 "Test of two hypotheses explaining the size of populations in a system of cities"].Journal of Applied Statistics.42, 1506, 10, 1047744.(2686--2693)</ref> |
| 它最初是由 Yule 用来阐明种群与等级的关系,并由 Simon 用来阐释城市的关系。 | | 它最初是由 Yule 用来阐明种群与等级的关系,并由 Simon 用来阐释城市的关系。 |
| + | |
| | | |
| == 相关定律 == | | == 相关定律 == |
| | | |
− | 一般地,齐普夫定律指的是“等级数据”的频率分布,其中排名第<math> n</math> 的条目的相对频率由 [[Zeta 分布]]来表达为<math>1 / (nsζ(s))</math> ,其中参数 <math>s1</math>指的是这个概率分布群的部分。事实上,由于概率分布有时被称为“定律” ,齐普夫定律有时就是“ Zeta分布”的同义词。 这种分布有时被称为[[Zipf分布]]。 | + | 一般地,齐普夫定律指的是“等级数据”的频率分布,其中排名第<math> n</math> 的条目的相对频率由 [[Zeta 分布]]来表达为<math>1 / (nsζ(s))</math> ,其中参数 <math>s1</math>指的是这个概率分布群的部分。事实上,由于概率分布有时被称为“定律” ,齐普夫定律有时就是“ Zeta分布”的同义词。 这种分布有时被称为'''Zipf分布'''。 |
| | | |
− | 对齐普夫定律的一个推广是 [[Zipf-Mandelbrot 定律]],由[[本华·曼德博]]提出,其频率为
| |
− | :<math>fkNqs=\frac{[\text{constant}]}{(k+q)^s}.\,</math>
| |
| | | |
− | [[齐普夫分布]]可以通过变量的变化从[[帕累托分布]]中得到。<ref>{{cite book|title=Univariate Discrete Distributions|edition=second|year=1992|author1=N. L. Johnson |author2=S. Kotz |author3=A. W. Kemp |last-author-amp=yes |publisher=John Wiley & Sons, Inc.|location=New York|isbn=978-0-471-54897-3|ref=harv}}, p. 466.</ref> 有时也被称为离散[[帕累托分布]] ,因为它类似于连续[[帕累托分布]],就像离散型均匀分布类似于连续型均匀分布一样。 | + | 对齐普夫定律的一个推广是 [[Zipf-Mandelbrot 定律]],由[[本华·曼德博]]提出,其频率为: |
| + | |
| + | |
| + | :<math>fkNqs=\frac{[\text{constant}]}{(k+q)^s}.\,</math> |
| + | |
| + | |
| + | 齐普夫分布可以通过变量的变化从[[帕累托分布]]中得到。<ref>{{cite book|title=Univariate Discrete Distributions|edition=second|year=1992|author1=N. L. Johnson |author2=S. Kotz |author3=A. W. Kemp |last-author-amp=yes |publisher=John Wiley & Sons, Inc.|location=New York|isbn=978-0-471-54897-3|ref=harv}}, p. 466.</ref> 有时也被称为离散帕累托分布,因为它类似于连续帕累托分布,就像离散型均匀分布类似于连续型均匀分布一样。 |
| | | |
| [[本福德定律]]是 齐普夫定律的一种特殊的有界情形,这两个定律之间的联系,<ref name="Galien">{{cite web |url=http://home.zonnet.nl/galien8/factor/factor.html |title=Factorial randomness: the Laws of Benford and Zipf with respect to the first digit distribution of the factor sequence from the natural numbers |author=Johan Gerard van der Galien |date=2003-11-08 |accessdate=8 July 2016 |archiveurl=https://web.archive.org/web/20070305150334/http://home.zonnet.nl/galien8/factor/factor.html |archivedate=2007-03-05}}</ref> <ref>Ali Eftekhari (2006) Fractal geometry of texts. ''Journal of Quantitative Linguistic'' 13(2-3): 177–193.</ref>就在于它们都起源于统计物理和临界现象的尺度不变函数关系(尺度不变特征)。在[[本福德定律]]中,概率的比率是不固定的。<ref name="Galien"/> <ref>L. Pietronero, E. Tosatti, V. Tosatti, A. Vespignani (2001) Explaining the uneven distribution of numbers in nature: The laws of Benford and Zipf. ''Physica A'' 293: 297–304.</ref> 满足齐普夫定律的前位数 <math>s = 1</math>同样也满足本福特定律。 | | [[本福德定律]]是 齐普夫定律的一种特殊的有界情形,这两个定律之间的联系,<ref name="Galien">{{cite web |url=http://home.zonnet.nl/galien8/factor/factor.html |title=Factorial randomness: the Laws of Benford and Zipf with respect to the first digit distribution of the factor sequence from the natural numbers |author=Johan Gerard van der Galien |date=2003-11-08 |accessdate=8 July 2016 |archiveurl=https://web.archive.org/web/20070305150334/http://home.zonnet.nl/galien8/factor/factor.html |archivedate=2007-03-05}}</ref> <ref>Ali Eftekhari (2006) Fractal geometry of texts. ''Journal of Quantitative Linguistic'' 13(2-3): 177–193.</ref>就在于它们都起源于统计物理和临界现象的尺度不变函数关系(尺度不变特征)。在[[本福德定律]]中,概率的比率是不固定的。<ref name="Galien"/> <ref>L. Pietronero, E. Tosatti, V. Tosatti, A. Vespignani (2001) Explaining the uneven distribution of numbers in nature: The laws of Benford and Zipf. ''Physica A'' 293: 297–304.</ref> 满足齐普夫定律的前位数 <math>s = 1</math>同样也满足本福特定律。 |
第147行: |
第156行: |
| | | |
| == 应用 == | | == 应用 == |
− | 在信息论中,概率的符号(事件,信号)<math>p</math> 包含<math>\log_2(1/p)</math> 比特的信息。因此,自然数的齐夫定律:<math>\Pr(x) \approx 1/x</math>等价于数字 <math>x</math> 包含 <math>\log_2(x)</math>信息点。从概率符号中添加信息 <math>p</math> 转化为已经存储在自然数中的信息 <math>x</math>, 我们需要 <math>x'</math> 这样比如 <math>\log_2(x') \approx \log_2(x) + \log_2(1/p)</math>, 或者相等于 <math>x' \approx x/p</math>.例如,在标准二进制系统中 <math>x' = 2x + s</math>, 对于其是最优的 <math>\Pr(s=0) = \Pr(s=1) = 1/2</math> 可能分布. 使用 <math>x' \approx x/p</math> 一般概率分布的规则是[[非对称数字系统]]系列[[熵编码]]方法的基础,[[数据压缩]]系列的状态分布也受齐普夫定律支配。 | + | 在信息论中,概率的符号(事件,信号)<math>p</math> 包含<math>\log_2(1/p)</math> 比特的信息。因此,自然数的齐普夫定律:<math>\Pr(x) \approx 1/x</math>等价于数字 <math>x</math> 包含 <math>\log_2(x)</math>信息点。从概率符号中添加信息 <math>p</math> 转化为已经存储在自然数中的信息 <math>x</math>, 我们需要 <math>x'</math> 这样比如 <math>\log_2(x') \approx \log_2(x) + \log_2(1/p)</math>, 或者相等于 <math>x' \approx x/p</math>.例如,在标准二进制系统中 <math>x' = 2x + s</math>, 对于其是最优的 <math>\Pr(s=0) = \Pr(s=1) = 1/2</math> 可能分布. 使用 <math>x' \approx x/p</math> 一般概率分布的规则是非对称数字系统系列[[熵编码]]方法的基础,[[数据压缩]]系列的状态分布也受齐普夫定律支配。 |
| + | |
| | | |
| 齐普夫定律也被用于从可比较的语料库中提取文本的平行片段.<ref name="qwsqasaz">Mohammadi, Mehdi (2016) [https://pattern.swarma.org/paper?id=0309850a-6f40-11ea-ad2c-0242ac1a0005 "Parallel Document Identification using Zipf's Law" (PDF), Archived (PDF) from the original on].Proceedings of the Ninth Workshop on Building and Using Comparable Corpora. LREC 2016.03.(21--25)</ref> | | 齐普夫定律也被用于从可比较的语料库中提取文本的平行片段.<ref name="qwsqasaz">Mohammadi, Mehdi (2016) [https://pattern.swarma.org/paper?id=0309850a-6f40-11ea-ad2c-0242ac1a0005 "Parallel Document Identification using Zipf's Law" (PDF), Archived (PDF) from the original on].Proceedings of the Ninth Workshop on Building and Using Comparable Corpora. LREC 2016.03.(21--25)</ref> |
| <ref name="qw">Gabaix, Xavier (August 1999). [http://pages.stern.nyu.edu/~xgabaix/papers/zipf.pdf "Zipf's Law for Cities: An Explanation"] (PDF). Quarterly Journal of Economics. 114 (3): 739–67. CiteSeerX 10.1.1.180.4097. doi:10.1162/003355399556133. ISSN 0033-5533</ref> | | <ref name="qw">Gabaix, Xavier (August 1999). [http://pages.stern.nyu.edu/~xgabaix/papers/zipf.pdf "Zipf's Law for Cities: An Explanation"] (PDF). Quarterly Journal of Economics. 114 (3): 739–67. CiteSeerX 10.1.1.180.4097. doi:10.1162/003355399556133. ISSN 0033-5533</ref> |
| + | |
| | | |
| == 其他参阅 == | | == 其他参阅 == |