更改

齐普夫定律 (查看源代码)

2020年5月22日 (五) 13:52的版本

删除1字节、 2020年5月22日 (五) 13:52

→‎理论回顾

第57行：第57行：

例如，单词'''the'''(依据上方法)将表现在 <math>x=log (1) ，y=log </math>(69971)中。也可以根据频率或者倒数频率或者单词间隔来绘制倒数排序。如果图呈线性，那么数据符合[[齐普夫定律]]。

−

~~正式表达如下：~~

+

令：

−

n为所考察元素的数量 N be the number of elements

+

:n为所考察元素的数量 N be the number of elements

−

k为他们所代表的等级 k be their rank

+

:k为他们所代表的等级 k be their rank

−

s是表示分布的指数值be the value of the exponent characterizing the distribution.

+

:s是表示分布的指数值be the value of the exponent characterizing the distribution.

然后齐普夫定律预测，在<math> n </math>元素总体中，等级<math> k，f (k; s，n)</math>元素的标准化频率是:

−

<math>fksN=\frac{1/k^s}{\sum\limits_{n=1}^N (1/n^s)}</math>

+

:<math>fksN=\frac{1/k^s}{\sum\limits_{n=1}^N (1/n^s)}</math>

+

如果给定频率的元素个数是幂律分布的随机变量，则齐普夫定律成立。<math>p(f) = \alpha f^{-1-1/s}.</math> <ref name="a">Adamic, Lada A. (2000) [https://pattern.swarma.org/paper?id=e2805c54-6f36-11ea-a07b-0242ac1a0005 "Zipf, Power-laws, and Pareto - a ranking tutorial"].(2007)</ref>

+

有人说齐普夫定律的这种表述更适合于统计上的检验，并以这种方式在30,000多篇英文文本中进行了分析。拟合优度测试的结果是，只有大约15% 的文本在统计学上符合[[齐普夫定律]]的表达。而齐普夫定律定义的细微变化可以使这个百分比增加到接近50% 。<ref name="aaa">Moreno-Sánchez, I, Font-Clos, F, A (2016) [https://pattern.swarma.org/paper?id=dd812014-6f39-11ea-8164-0242ac1a0005 "Large-Scale Analysis of Zipf's Law in English Texts"].PLOS One, arXiv:1509.04486. doi:10.1371/journal.pone.0147073. PMC 4723055. PMID 26800025..11.</ref>

第70行：第75行：

在英语单词出现频率的例子中，<math>n </math>为英语单词的数量，如果我们使用典型的齐普夫定律进行测验，指数 <math>s</math> 为1。 <math>F (k; s，n)</math>将是第<math> k </math>个最常见单词出现时间的分数。公式表达如下：<math>fksN=\frac{1}{k^sH_{Ns}}</math>

+

齐普夫定律最简单的例子如“<math>1 / f</math> 函数” ，给定一组[[齐普夫分布]]频率，按照出现频率排序，出现频率的第二位数值是第一位频率数值的一半，第三位频率数值是第一位频率数值的<math>1 / 3</math>，第<math>N</math>位频率数值是第一位频率数值的<math>1 / n</math>。但数值有可能不精确，因为统计条目必须出现整数次数; 同一个单词不能出现2.5次。然而在相当广的范围内，很多自然现象都遵循齐普夫定律。

+

在人类语言中，词频有一个很明显的重尾分布，因此可以用一个 <math>s </math>接近1的齐普夫分布来合理地建模。只要指数 <math>s</math> 大于1，这样的定律就有可能适用于无穷多个单词，

+

<br>

== 统计学解释 ==

薄荷

7,129

个编辑

更改

齐普夫定律 (查看源代码)

2020年5月22日 (五) 13:52的版本

导航菜单

搜索