更改

跳到导航 跳到搜索
删除1字节 、 2020年5月22日 (五) 13:52
第57行: 第57行:  
例如,单词'''the'''(依据上方法)将表现在 <math>x=log (1) ,y=log </math>(69971)中。 也可以根据频率或者倒数频率或者单词间隔来绘制倒数排序。如果图呈线性,那么数据符合[[齐普夫定律]]。
 
例如,单词'''the'''(依据上方法)将表现在 <math>x=log (1) ,y=log </math>(69971)中。 也可以根据频率或者倒数频率或者单词间隔来绘制倒数排序。如果图呈线性,那么数据符合[[齐普夫定律]]。
   −
正式表达如下:
+
令:
n为所考察元素的数量 N be the number of elements
+
:n为所考察元素的数量 N be the number of elements
k为他们所代表的等级 k be their rank
+
:k为他们所代表的等级 k be their rank
s是表示分布的指数值be the value of the exponent characterizing the distribution.
+
:s是表示分布的指数值be the value of the exponent characterizing the distribution.
    
然后齐普夫定律预测,在<math> n </math>元素总体中,等级<math> k,f (k; s,n)</math>元素的标准化频率是:
 
然后齐普夫定律预测,在<math> n </math>元素总体中,等级<math> k,f (k; s,n)</math>元素的标准化频率是:
<math>fksN=\frac{1/k^s}{\sum\limits_{n=1}^N (1/n^s)}</math>
+
 
 +
 
 +
:<math>fksN=\frac{1/k^s}{\sum\limits_{n=1}^N (1/n^s)}</math>
 +
 
 +
 
 
如果给定频率的元素个数是幂律分布的随机变量,则齐普夫定律成立。<math>p(f) = \alpha f^{-1-1/s}.</math> <ref name="a">Adamic, Lada A. (2000) [https://pattern.swarma.org/paper?id=e2805c54-6f36-11ea-a07b-0242ac1a0005 "Zipf, Power-laws, and Pareto - a ranking tutorial"].(2007)</ref>
 
如果给定频率的元素个数是幂律分布的随机变量,则齐普夫定律成立。<math>p(f) = \alpha f^{-1-1/s}.</math> <ref name="a">Adamic, Lada A. (2000) [https://pattern.swarma.org/paper?id=e2805c54-6f36-11ea-a07b-0242ac1a0005 "Zipf, Power-laws, and Pareto - a ranking tutorial"].(2007)</ref>
 +
    
有人说齐普夫定律的这种表述更适合于统计上的检验,并以这种方式在30,000多篇英文文本中进行了分析。 拟合优度测试的结果是,只有大约15% 的文本在统计学上符合[[齐普夫定律]]的表达。 而齐普夫定律定义的细微变化可以使这个百分比增加到接近50% 。<ref name="aaa">Moreno-Sánchez, I, Font-Clos, F, A (2016) [https://pattern.swarma.org/paper?id=dd812014-6f39-11ea-8164-0242ac1a0005 "Large-Scale Analysis of Zipf's Law in English Texts"].PLOS One, arXiv:1509.04486. doi:10.1371/journal.pone.0147073. PMC 4723055. PMID 26800025..11.</ref>
 
有人说齐普夫定律的这种表述更适合于统计上的检验,并以这种方式在30,000多篇英文文本中进行了分析。 拟合优度测试的结果是,只有大约15% 的文本在统计学上符合[[齐普夫定律]]的表达。 而齐普夫定律定义的细微变化可以使这个百分比增加到接近50% 。<ref name="aaa">Moreno-Sánchez, I, Font-Clos, F, A (2016) [https://pattern.swarma.org/paper?id=dd812014-6f39-11ea-8164-0242ac1a0005 "Large-Scale Analysis of Zipf's Law in English Texts"].PLOS One, arXiv:1509.04486. doi:10.1371/journal.pone.0147073. PMC 4723055. PMID 26800025..11.</ref>
第70行: 第75行:     
在英语单词出现频率的例子中,<math>n </math>为英语单词的数量,如果我们使用典型的齐普夫定律进行测验,指数 <math>s</math> 为1。 <math>F (k; s,n)</math>将是第<math> k </math>个最常见单词出现时间的分数。公式表达如下:<math>fksN=\frac{1}{k^sH_{Ns}}</math>
 
在英语单词出现频率的例子中,<math>n </math>为英语单词的数量,如果我们使用典型的齐普夫定律进行测验,指数 <math>s</math> 为1。 <math>F (k; s,n)</math>将是第<math> k </math>个最常见单词出现时间的分数。公式表达如下:<math>fksN=\frac{1}{k^sH_{Ns}}</math>
 +
    
齐普夫定律最简单的例子如“<math>1 / f</math> 函数” ,给定一组[[齐普夫分布]]频率,按照出现频率排序,出现频率的第二位数值是第一位频率数值的一半,第三位频率数值是第一位频率数值的<math>1 / 3</math>,第<math>N</math>位频率数值是第一位频率数值的<math>1 / n</math>。 但数值有可能不精确,因为统计条目必须出现整数次数; 同一个单词不能出现2.5次。 然而在相当广的范围内,很多自然现象都遵循齐普夫定律。
 
齐普夫定律最简单的例子如“<math>1 / f</math> 函数” ,给定一组[[齐普夫分布]]频率,按照出现频率排序,出现频率的第二位数值是第一位频率数值的一半,第三位频率数值是第一位频率数值的<math>1 / 3</math>,第<math>N</math>位频率数值是第一位频率数值的<math>1 / n</math>。 但数值有可能不精确,因为统计条目必须出现整数次数; 同一个单词不能出现2.5次。 然而在相当广的范围内,很多自然现象都遵循齐普夫定律。
 +
    
在人类语言中,词频有一个很明显的重尾分布,因此可以用一个 <math>s </math>接近1的齐普夫分布来合理地建模。只要指数 <math>s</math> 大于1,这样的定律就有可能适用于无穷多个单词,
 
在人类语言中,词频有一个很明显的重尾分布,因此可以用一个 <math>s </math>接近1的齐普夫分布来合理地建模。只要指数 <math>s</math> 大于1,这样的定律就有可能适用于无穷多个单词,
 +
 +
<br>
    
== 统计学解释 ==
 
== 统计学解释 ==
7,129

个编辑

导航菜单