第57行: |
第57行: |
| 例如,单词'''the'''(依据上方法)将表现在 <math>x=log (1) ,y=log </math>(69971)中。 也可以根据频率或者倒数频率或者单词间隔来绘制倒数排序。如果图呈线性,那么数据符合[[齐普夫定律]]。 | | 例如,单词'''the'''(依据上方法)将表现在 <math>x=log (1) ,y=log </math>(69971)中。 也可以根据频率或者倒数频率或者单词间隔来绘制倒数排序。如果图呈线性,那么数据符合[[齐普夫定律]]。 |
| | | |
− | 正式表达如下:
| + | 令: |
− | n为所考察元素的数量 N be the number of elements
| + | :n为所考察元素的数量 N be the number of elements |
− | k为他们所代表的等级 k be their rank
| + | :k为他们所代表的等级 k be their rank |
− | s是表示分布的指数值be the value of the exponent characterizing the distribution.
| + | :s是表示分布的指数值be the value of the exponent characterizing the distribution. |
| | | |
| 然后齐普夫定律预测,在<math> n </math>元素总体中,等级<math> k,f (k; s,n)</math>元素的标准化频率是: | | 然后齐普夫定律预测,在<math> n </math>元素总体中,等级<math> k,f (k; s,n)</math>元素的标准化频率是: |
− | <math>fksN=\frac{1/k^s}{\sum\limits_{n=1}^N (1/n^s)}</math> | + | |
| + | |
| + | :<math>fksN=\frac{1/k^s}{\sum\limits_{n=1}^N (1/n^s)}</math> |
| + | |
| + | |
| 如果给定频率的元素个数是幂律分布的随机变量,则齐普夫定律成立。<math>p(f) = \alpha f^{-1-1/s}.</math> <ref name="a">Adamic, Lada A. (2000) [https://pattern.swarma.org/paper?id=e2805c54-6f36-11ea-a07b-0242ac1a0005 "Zipf, Power-laws, and Pareto - a ranking tutorial"].(2007)</ref> | | 如果给定频率的元素个数是幂律分布的随机变量,则齐普夫定律成立。<math>p(f) = \alpha f^{-1-1/s}.</math> <ref name="a">Adamic, Lada A. (2000) [https://pattern.swarma.org/paper?id=e2805c54-6f36-11ea-a07b-0242ac1a0005 "Zipf, Power-laws, and Pareto - a ranking tutorial"].(2007)</ref> |
| + | |
| | | |
| 有人说齐普夫定律的这种表述更适合于统计上的检验,并以这种方式在30,000多篇英文文本中进行了分析。 拟合优度测试的结果是,只有大约15% 的文本在统计学上符合[[齐普夫定律]]的表达。 而齐普夫定律定义的细微变化可以使这个百分比增加到接近50% 。<ref name="aaa">Moreno-Sánchez, I, Font-Clos, F, A (2016) [https://pattern.swarma.org/paper?id=dd812014-6f39-11ea-8164-0242ac1a0005 "Large-Scale Analysis of Zipf's Law in English Texts"].PLOS One, arXiv:1509.04486. doi:10.1371/journal.pone.0147073. PMC 4723055. PMID 26800025..11.</ref> | | 有人说齐普夫定律的这种表述更适合于统计上的检验,并以这种方式在30,000多篇英文文本中进行了分析。 拟合优度测试的结果是,只有大约15% 的文本在统计学上符合[[齐普夫定律]]的表达。 而齐普夫定律定义的细微变化可以使这个百分比增加到接近50% 。<ref name="aaa">Moreno-Sánchez, I, Font-Clos, F, A (2016) [https://pattern.swarma.org/paper?id=dd812014-6f39-11ea-8164-0242ac1a0005 "Large-Scale Analysis of Zipf's Law in English Texts"].PLOS One, arXiv:1509.04486. doi:10.1371/journal.pone.0147073. PMC 4723055. PMID 26800025..11.</ref> |
第70行: |
第75行: |
| | | |
| 在英语单词出现频率的例子中,<math>n </math>为英语单词的数量,如果我们使用典型的齐普夫定律进行测验,指数 <math>s</math> 为1。 <math>F (k; s,n)</math>将是第<math> k </math>个最常见单词出现时间的分数。公式表达如下:<math>fksN=\frac{1}{k^sH_{Ns}}</math> | | 在英语单词出现频率的例子中,<math>n </math>为英语单词的数量,如果我们使用典型的齐普夫定律进行测验,指数 <math>s</math> 为1。 <math>F (k; s,n)</math>将是第<math> k </math>个最常见单词出现时间的分数。公式表达如下:<math>fksN=\frac{1}{k^sH_{Ns}}</math> |
| + | |
| | | |
| 齐普夫定律最简单的例子如“<math>1 / f</math> 函数” ,给定一组[[齐普夫分布]]频率,按照出现频率排序,出现频率的第二位数值是第一位频率数值的一半,第三位频率数值是第一位频率数值的<math>1 / 3</math>,第<math>N</math>位频率数值是第一位频率数值的<math>1 / n</math>。 但数值有可能不精确,因为统计条目必须出现整数次数; 同一个单词不能出现2.5次。 然而在相当广的范围内,很多自然现象都遵循齐普夫定律。 | | 齐普夫定律最简单的例子如“<math>1 / f</math> 函数” ,给定一组[[齐普夫分布]]频率,按照出现频率排序,出现频率的第二位数值是第一位频率数值的一半,第三位频率数值是第一位频率数值的<math>1 / 3</math>,第<math>N</math>位频率数值是第一位频率数值的<math>1 / n</math>。 但数值有可能不精确,因为统计条目必须出现整数次数; 同一个单词不能出现2.5次。 然而在相当广的范围内,很多自然现象都遵循齐普夫定律。 |
| + | |
| | | |
| 在人类语言中,词频有一个很明显的重尾分布,因此可以用一个 <math>s </math>接近1的齐普夫分布来合理地建模。只要指数 <math>s</math> 大于1,这样的定律就有可能适用于无穷多个单词, | | 在人类语言中,词频有一个很明显的重尾分布,因此可以用一个 <math>s </math>接近1的齐普夫分布来合理地建模。只要指数 <math>s</math> 大于1,这样的定律就有可能适用于无穷多个单词, |
| + | |
| + | <br> |
| | | |
| == 统计学解释 == | | == 统计学解释 == |