更改

跳到导航 跳到搜索
删除15字节 、 2020年5月22日 (五) 13:43
第33行: 第33行:     
齐普夫定律最初是根据计量语言学来制定的,一般表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。则最频繁出现的单词的频率大约是第二个最频繁单词的两倍,是第三个最频繁单词的三倍,依此类推。这个定律被作为任何与幂定律概率分布有关的事物的参考。
 
齐普夫定律最初是根据计量语言学来制定的,一般表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。则最频繁出现的单词的频率大约是第二个最频繁单词的两倍,是第三个最频繁单词的三倍,依此类推。这个定律被作为任何与幂定律概率分布有关的事物的参考。
例如:在布朗英文语料库中,单词''' the''' 是最常出现的单词,占所有单词的近7%。根据[[齐普夫定律 Zipf's law]],排在第二位的 of 在单词中所占的比例略高于3.5%(共出现36,411次),其次为单词and(出现28,852次),仅前135个词汇就占了Brown语料库的一半。<ref name="asasa">Fagan, Ramazan, David E. A  [https://pattern.swarma.org/paper?id=a5099ae4-6f3a-11ea-ae37-0242ac1a0005 "An introduction to textual econometrics", "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."].Handbook of Empirical Economics and Finance.139.(133--153)</ref>
+
例如:在布朗英文语料库中,单词''' the''' 是最常出现的单词,占所有单词的近7%。根据齐普夫定律,排在第二位的 of 在单词中所占的比例略高于3.5%(共出现36,411次),其次为单词and(出现28,852次),仅前135个词汇就占了Brown语料库的一半。<ref name="asasa">Fagan, Ramazan, David E. A  [https://pattern.swarma.org/paper?id=a5099ae4-6f3a-11ea-ae37-0242ac1a0005 "An introduction to textual econometrics", "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."].Handbook of Empirical Economics and Finance.139.(133--153)</ref>
    
该定律以美国语言学家齐普夫命名,他致力于推广和阐释该定律,尽管他并没有声称自己是创始人。<ref>David M. W. Powers (1998) [https://pattern.swarma.org/paper?id=a96784a2-6f35-11ea-ab80-0242ac1a0005 Applications and Explanations of Zipf’s Law].</ref> 法国速记员让-巴蒂斯特 · 埃斯特鲁可能在齐普夫之前就注意到了这种规律。<ref>[https://nlp.stanford.edu/fsnlp/] Christopher D. Manning, Hinrich Schütze ''Foundations of Statistical Natural Language Processing'', MIT Press (1999), p. 24</ref>1913年,德国物理学家费利克斯·奥尔巴赫也注意到了这一点。<ref name="Auerbach1913">Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76</ref>
 
该定律以美国语言学家齐普夫命名,他致力于推广和阐释该定律,尽管他并没有声称自己是创始人。<ref>David M. W. Powers (1998) [https://pattern.swarma.org/paper?id=a96784a2-6f35-11ea-ab80-0242ac1a0005 Applications and Explanations of Zipf’s Law].</ref> 法国速记员让-巴蒂斯特 · 埃斯特鲁可能在齐普夫之前就注意到了这种规律。<ref>[https://nlp.stanford.edu/fsnlp/] Christopher D. Manning, Hinrich Schütze ''Foundations of Statistical Natural Language Processing'', MIT Press (1999), p. 24</ref>1913年,德国物理学家费利克斯·奥尔巴赫也注意到了这一点。<ref name="Auerbach1913">Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76</ref>
7,129

个编辑

导航菜单