添加17,900字节
、 2020年3月30日 (一) 21:02
{{#seo:
|keywords=齐普夫定律,语言学,统计,文献计量,
|description=计量语言学,齐普夫,规律
}}
'''齐普夫定律 Zipf's law'''是用数理统计公式表述的经验法则,由哈佛大学语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表,他揭示了在物理和社会科学中,各类型的数据研究所呈现出的图形,近似于'''齐普夫分布状态 Zipf distribution'''。而齐普夫分布是一类相关的离散幂律概率分布。
{| class="wikitable"
|-
| parameters || <math>s \geq 0\,</math> ([[real number|real]])<br /><math>N \in \{1,2,3\ldots\}</math> ([[integer]])
|-
| support || <math>k \in \{1,2,\ldots,N\}</math>
|-
| pdf || <math>\frac{1/k^s}{H_{N,s}}</math> where ''H<sub>N,s</sub>'' is the ''N''th generalized [[harmonic number]]
|-
| cdf || <math>\frac{H_{k,s}}{H_{N,s}}</math>
|-
| mean || <math>\frac{H_{N,s-1}}{H_{N,s}}</math>
|-
| median ||
|-
| mode || <math>1\,</math>
|-
| variance || <math>\frac{H_{N,s-2}}{H_{N,s}}-\frac{H^2_{N,s-1}}{H^2_{N,s}}</math>
|-
| mgf || <math>\frac{1}{H_{N,s}}\sum\limits_{n=1}^N \frac{e^{nt}}{n^s}</math>
|-
| char || <math>\frac{1}{H_{N,s}}\sum\limits_{n=1}^N \frac{e^{int}}{n^s}</math>
|-
| entropy || <math>\frac{s}{H_{N,s}}\sum\limits_{k=1}^N\frac{\ln(k)}{k^s}
+\ln(H_{N,s})</math>
|}
== 概览 ==
齐普夫定律最初是根据计量语言学来制定的,一般表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。则最频繁出现的单词的频率大约是第二个最频繁单词的两倍,是第三个最频繁单词的三倍,依此类推。这个定律被作为任何与幂定律概率分布有关的事物的参考。
例如:在布朗英文语料库中,单词''' the''' 是最常出现的单词,占所有单词的近7%(在1亿多个样本中出现69,971次)。根据'''齐普夫定律 Zipf's law''',排在第二位的 of 在单词中所占的比例略高于3.5%(共出现36,411次),其次为单词and(出现28,852次),仅前135个词汇就占了Brown语料库的一半。<ref name="asasa">Fagan, Ramazan, David E. A (2010) [https://pattern.swarma.org/paper?id=a5099ae4-6f3a-11ea-ae37-0242ac1a0005 "An introduction to textual econometrics", "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."].Handbook of Empirical Economics and Finance.139.(133--153)</ref>
该定律以美国语言学家齐普夫命名,他致力于推广和阐释该定律,尽管他并没有声称自己是创始人。<ref name="">David M. W. Powers (1998) [https://pattern.swarma.org/paper?id=a96784a2-6f35-11ea-ab80-0242ac1a0005 Applications and Explanations of Zipf’s Law].</ref> 法国速记员让-巴蒂斯特 · 埃斯特鲁(1868-1950)可能在齐普夫之前就注意到了这种规律。<ref>[https://nlp.stanford.edu/fsnlp/] Christopher D. Manning, Hinrich Schütze ''Foundations of Statistical Natural Language Processing'', MIT Press (1999), {{isbn|978-0-262-13360-9}}, p. 24</ref>1913年,德国物理学家费利克斯 · 奥尔巴赫(Felix Auerbach,1856-1933)也注意到了这一点。<ref name="Auerbach1913">Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76</ref>
== 描述 ==
齐普夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,'''the'''用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐普夫定律。<ref name="">David M. W. Powers (1998) [https://pattern.swarma.org/paper?id=a96784a2-6f35-11ea-ab80-0242ac1a0005 Applications and Explanations of Zipf’s Law].</ref>
而在1913年,费利克斯 · 奥尔巴赫首次注意到城市人口排名中的分布情况 根据实际经验,一组数据可以通过 Kolmogorov-Smirnov set 测试来检验齐普夫定律定律是否适用于假设的幂律分布,然后将幂律分布的对数似然比与指数分布或对数正态分布进行比较。对城市进行齐普夫定律检验时,发现指数 s = 1.07的拟合较好,达到预想规模。<ref name="Clausetetal2009">Clauset, A., Shalizi, C. R., & Newman, M. E. J. (2009). Power-Law Distributions in Empirical Data. SIAM Review, 51(4), 661–703. doi:10.1137/070710111</ref>
== 遵循该定律的现象==
*单词的出现频率:不仅适用于语料全体,也适用于单独的一篇文章
*网页访问频率
*城镇人口与城镇等级的关系
*收入前3%的人的收入
*地震震级
*固体破碎时的碎片大小
== 理论回顾 ==
齐普夫定律可以通过在对数图上绘制数据(轴分别为等级顺序对数和频率对数)来观察得到。
例如,单词'''the'''(依据上方法)将表现在 x log (1) ,y log (69971)中。 也可以根据频率或者倒数频率或者单词间隔来绘制倒数排序。 如果图呈线性,那么数据符合齐普夫定律。
正式表达如下:
n为所考察元素的数量 N be the number of elements
k为他们所代表的等级 k be their rank
s是表示分布的指数值be the value of the exponent characterizing the distribution.
然后齐普夫定律预测,在 n 元素总体中,等级 k,f (k; s,n)元素的标准化频率是:
<math>fksN=\frac{1/k^s}{\sum\limits_{n=1}^N (1/n^s)}</math>
如果给定频率的元素个数是幂律分布的随机变量,则齐普夫定律成立。<math>p(f) = \alpha f^{-1-1/s}.</math> <ref name="a">Adamic, Lada A. (2000) [https://pattern.swarma.org/paper?id=e2805c54-6f36-11ea-a07b-0242ac1a0005 "Zipf, Power-laws, and Pareto - a ranking tutorial"].(2007)</ref>
有人说齐普夫定律的这种表述更适合于统计上的检验,并以这种方式在30,000多篇英文文本中进行了分析。 拟合优度测试的结果是,只有大约15% 的文本在统计学上符合齐普夫定律的表达。 而齐普夫定律定义的细微变化可以使这个百分比增加到接近50% 。<ref name="aaa">Moreno-Sánchez, I, Font-Clos, F, A (2016) [https://pattern.swarma.org/paper?id=dd812014-6f39-11ea-8164-0242ac1a0005 "Large-Scale Analysis of Zipf's Law in English Texts"].PLOS One, arXiv:1509.04486. doi:10.1371/journal.pone.0147073. PMC 4723055. PMID 26800025..11.</ref>
在英语单词出现频率的例子中,n 为英语单词的数量,如果我们使用典型的齐普夫定律进行测验,指数 s 为1。 F (k; s,n)将是第 k 个最常见单词出现时间的分数。公式表达如下:<math>fksN=\frac{1}{k^sH_{Ns}}</math>
齐普夫定律最简单的例子如“1 / f 函数” ,给定一组齐普夫分布频率,按照出现频率排序,出现频率的第二位数值是第一位频率数值的一半,第三位频率数值是第一位频率数值的1 / 3,第N位频率数值是第一位频率数值的1 / n。 但数值有可能不精确,因为统计条目必须出现整数次数; 同一个单词不能出现2.5次。 然而在相当广的范围内,很多自然现象都遵循齐普夫定律。
在人类语言中,词频有一个很明显的重尾分布,因此可以用一个 s 接近1的齐普夫分布来合理地建模。只要指数 s 大于1,这样的定律就有可能适用于无穷多个单词,
== 统计学解释 ==
尽管齐普夫定律适用于所有语言,即使是像世界语(插入相关连接说明)这样的非自然语言,<ref name="sasasa">ZIPF'S LAW (PDF (2006) [https://pattern.swarma.org/paper?id=d9f0e49c-6f3a-11ea-926a-0242ac1a0005 INVESTIGATING ESPERANTO'S STATISTICAL PROPORTIONS RELATIVE TO OTHER LANGUAGES USING NEURAL NETWORKS, ), Archived (PDF) from the original on 5 March 2016].Bill Manaris; Luca Pellicoro; George Pothering; Harland Hodges (13 February, Artificial Intelligence and Applications.(102--108)</ref> 但其原理仍然没有得到很好的理解。 <ref>[[Léon Brillouin]], ''La science et la théorie de l'information'', 1959, réédité en 1988, traduction anglaise rééditée en 2004</ref>然而,对随机产生的文本进行统计分析可以在某些方面解释这一现象。 Wentian Li表示,在一份文档中,每个字符都是从所有字母(加上一个空格字符)的均匀分布中随机选取的,不同长度的“单词”遵循齐普夫定律的宏观趋势(可能性越大的单词越短,出现概率越大)。<ref name="sasas">Li, Wentian (1992) [https://pattern.swarma.org/paper?id=20504be4-6f3b-11ea-b744-0242ac1a0005 "Random Texts Exhibit Zipf's-Law-Like Word Frequency Distribution"].IEEE Transactions on Information Theory, CiteSeerX 10.1.1.164.8422. doi:10.1109/18.38.(1842--1845)</ref> 维托尔德 · 贝列维奇在《语言分布的统计规律》中给出了一个数学推导。 他取了一大类表现良好的统计分布(不仅仅是正态分布) ,并用把他们排列名次。 然后他把每个表达式展开成一个泰勒级数。 在每一种情况下,贝列维奇都得到了显著的成果,即级数的一阶截断导出了齐普夫定律。 此外,对泰勒级数的二阶截断导出了曼德布洛特定律。<ref>[[Peter G. Neumann|Neumann, Peter G.]] [http://www.csl.sri.com/users/neumann/#12a "Statistical metalinguistics and Zipf/Pareto/Mandelbrot"], ''SRI International Computer Science Laboratory'', accessed and [https://web.archive.org/web/20110605012951/http://www.csl.sri.com/users/neumann/ archived] 29 May 2011.</ref>
最小努力原则是另一种来解释齐普夫定律的途径: 齐普夫本人提出,使用特定语言的说话者和接收者都不想仅仅为了理解而付出超额努力,从而导致努力的程度大致平等分配的过程产生了我们所观察到的齐普夫分布。<ref name="sasq">Sole, Ramon Ferrer i Cancho (2003) [https://pattern.swarma.org/paper?id=7d736f4c-6f3e-11ea-a55c-0242ac1a0005 "Least effort and the origins of scaling in human language"].Proceedings of the National Academy of Sciences of the United States of America, PMC 298679. PMID 12540826. Archived from the original on 2011-12-01..100, 10.(788--791)</ref> <ref name="sassasasaa">Lin, Bian, Chunhua (2014) [https://pattern.swarma.org/paper?id=9ef918ba-6f3e-11ea-9c6f-0242ac1a0005 "Scaling laws in human speech, decreasing emergence of new words and a generalized model"].arXiv:1412.4846 [cs.CL].
类似地,偏好依附(直观的看到“富人越来越富”或“成功孕育成功”)产生了 Yule-Simon 分布,这已被证明比齐普夫定律更适合语言中的词频与排名`人口与城市排名研究。</ref><ref name="qwqsa">Vitanov, Nikolay, K., Ausloos, Chunhua (2015) [https://pattern.swarma.org/paper?id=d87132d0-6f3e-11ea-93cb-0242ac1a0005 "Test of two hypotheses explaining the size of populations in a system of cities"].Journal of Applied Statistics.42, 1506, 10, 1047744.(2686--2693)</ref>
and population versus city rank它最初是由 Yule 用来阐明种群与等级的关系,并由 Simon 用来阐释城市的关系。
== 相关定律 ==
一般地,齐普夫定律指的是“等级数据”的频率分布,其中排名第 n 的条目的相对频率由 Zeta 分布来表达为1 / (nsζ(s)) ,其中参数 s1指的是这个概率分布群的部分。 事实上,由于概率分布有时被称为“定律” ,齐普夫定律有时就是“ Zeta分布”的同义词。 这种分布有时被称为Zipf分布。
对 Zipf 定律的一个推广是 Zipf-Mandelbrot 定律,由[[本华·曼德博]]提出,其频率为
:<math>fkNqs=\frac{[\text{constant}]}{(k+q)^s}.\,</math>
Zipfian分布可以通过变量的变化从帕累托分布中得到。<ref>{{cite book|title=Univariate Discrete Distributions|edition=second|year=1992|author1=N. L. Johnson |author2=S. Kotz |author3=A. W. Kemp |last-author-amp=yes |publisher=John Wiley & Sons, Inc.|location=New York|isbn=978-0-471-54897-3|ref=harv}}, p. 466.</ref> 有时也被称为离散帕累托分布[18] ,因为它类似于连续帕累托分布,就像离散型均匀分布类似于连续型均匀分布一样。
本福德定律是 Zipf 定律的一种特殊的有界情形,这两个定律之间的联系,<ref name="Galien">{{cite web |url=http://home.zonnet.nl/galien8/factor/factor.html |title=Factorial randomness: the Laws of Benford and Zipf with respect to the first digit distribution of the factor sequence from the natural numbers |author=Johan Gerard van der Galien |date=2003-11-08 |accessdate=8 July 2016 |archiveurl=https://web.archive.org/web/20070305150334/http://home.zonnet.nl/galien8/factor/factor.html |archivedate=2007-03-05}}</ref> Like fractal dimension, it is possible to calculate Zipf dimension, which is a useful parameter in the analysis of texts.<ref>Ali Eftekhari (2006) Fractal geometry of texts. ''Journal of Quantitative Linguistic'' 13(2-3): 177–193.</ref>就在于它们都起源于统计物理和临界现象的尺度不变函数关系(尺度不变特征)。在本福德定律中,概率的比率是不固定的。<ref name="Galien"/> with the connection between these two laws being explained by their both originating from scale invariant functional relations from statistical physics and critical phenomena.<ref>L. Pietronero, E. Tosatti, V. Tosatti, A. Vespignani (2001) Explaining the uneven distribution of numbers in nature: The laws of Benford and Zipf. ''Physica A'' 293: 297–304.</ref> 满足齐普夫定律的前位数 s = 1同样也满足本福特定律。
{| class="wikitable" style="text-align: center;"
|-
!<math>n</math>
!Benford's law: <math>P(n) = </math><br/><math>\log_{10}(n+1)-\log_{10}(n)</math>
!<math>\frac{\log(P(n)/P(n-1))}{\log(n/(n-1))}</math>
|-
| 1
| 0.30103000
|
|-
| 2
| 0.17609126
| −0.7735840
|-
| 3
| 0.12493874
| −0.8463832
|-
| 4
| 0.09691001
| −0.8830605
|-
| 5
| 0.07918125
| −0.9054412
|-
| 6
| 0.06694679
| −0.9205788
|-
| 7
| 0.05799195
| −0.9315169
|-
| 8
| 0.05115252
| −0.9397966
|-
| 9
| 0.04575749
| −0.9462848
|}
== 应用 ==
在[[信息论]]中, 可能情况得是按照[[bit]]来计量信息<math>p</math> contains <math>\log_2(1/p)</math> . 因此, 齐普夫定律的自然数表达为: <math>\Pr(x) \approx 1/x</math> 与其相等 <math>x</math> containing <math>\log_2(x)</math> 一[[bit]]的信息. 从概率符号中添加信息 <math>p</math> 转化为已经存储在自然数中的信息 <math>x</math>, 我们需要 <math>x'</math> 这样比如 <math>\log_2(x') \approx \log_2(x) + \log_2(1/p)</math>, 或者相等于 <math>x' \approx x/p</math>.例如,在标准二进制系统中 <math>x' = 2x + s</math>, 对于其是最优的 <math>\Pr(s=0) = \Pr(s=1) = 1/2</math> 可能分布. 使用 <math>x' \approx x/p</math> 一般概率分布的规则是[[非对称数字系统]]系列[[熵编码]]方法的基础,[[数据压缩]]系列的状态分布也受[[齐普夫定律]]支配。
[[齐普夫定律]]也被用于从可比较的语料库中提取文本的平行片段.<ref name="qwsqasaz">Mohammadi, Mehdi (2016) [https://pattern.swarma.org/paper?id=0309850a-6f40-11ea-ad2c-0242ac1a0005 "Parallel Document Identification using Zipf's Law" (PDF), Archived (PDF) from the original on].Proceedings of the Ninth Workshop on Building and Using Comparable Corpora. LREC 2016.03.(21--25)</ref>
<ref name="qw">Gabaix, Xavier (August 1999). [http://pages.stern.nyu.edu/~xgabaix/papers/zipf.pdf "Zipf's Law for Cities: An Explanation"] (PDF). Quarterly Journal of Economics. 114 (3): 739–67. CiteSeerX 10.1.1.180.4097. doi:10.1162/003355399556133. ISSN 0033-5533</ref>
== 其他参阅 ==
* [[Brevity law]]
* [[Heaps' law]]
* [[Menzerath's law]]
* [[Bradford's law]]
* [[Benford's law]]
* [[Demographic gravitation]]
* [[Frequency list]]
* [[Gibrat's law]]
* [[Hapax legomenon]]
* [[Lorenz curve]]
* [[Lotka's law]]
* [[Pareto distribution]]
* [[Pareto principle]], a.k.a. the "80–20 rule"
* [[Principle of least effort]]
* [[Price's law]]
* [[Rank-size distribution]]
* [[King effect]]
* [[Stigler's law of eponymy]]
* [[1% rule (Internet culture)]]
{{div col|colwidth=20em}}
* [[Brevity law]]
* [[Heaps' law]]
* [[Menzerath's law]]
* [[Bradford's law]]
* [[Benford's law]]
* [[Demographic gravitation]]
* [[Frequency list]]
* [[Gibrat's law]]
* [[Hapax legomenon]]
* [[Lorenz curve]]
* [[Lotka's law]]
* [[Pareto distribution]]
* [[Pareto principle]], a.k.a. the "80–20 rule"
* [[Principle of least effort]]
* [[Price's law]]
* [[Rank-size distribution]]
* [[King effect]]
* [[Stigler's law of eponymy]]
* [[1% rule (Internet culture)]]
{{Div col end}}
==参考文献==
<references/>
==编者推荐==
*编者在高中的时候看到了一篇知乎回答,chenqin关于zipf定律在城市中的运用[[https://www.zhihu.com/question/22948694/answer/23720350 城市人口分布有何规律?]]
*同时可参考[[https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFD2012&filename=SZWH201205010&v=MTc4OTNvOUVaSVI4ZVgxTHV4WVM3RGgxVDNxVHJXTTFGckNVUjdxZlpPZHZGeTdnVXJ2S05qZmNackc0SDlQTXE= 国外城市规模分布研究进展及理论前瞻——基于齐普夫定律的分析]] 此篇论文
*编者所在专业把此定律归为文献计量学三大定律之一 可以参[[https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2000&filename=QBLL200005026&v=MTY5NDdTN0RoMVQzcVRyV00xRnJDVVI3cWZaT2R2Rnk3Z1VMdktOQy9IWXJHNEh0SE1xbzlIWW9SOGVYMUx1eFk= 信息计量学(五) 第五讲 文献信息词频分布规律——齐普夫定律]]论文
'''''本中文词条由[[用户:厚朴|厚朴]]用户参与编译, 刘佩佩 用户审校,欢迎在讨论页面留言'''''。
'''本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。'''