更改

信息论 (查看源代码)

2020年11月21日 (六) 23:33的版本

添加162字节、 2020年11月21日 (六) 23:33

无编辑摘要

第3行：第3行：

|description=信息论,信息时代,正规科学,控制论,计算机科学

}}

−

+

信息论 Information Theory研究的是信息的量化、存储与传播。信息论最初是由[[克劳德·香农 Claude Shannon]]在1948年的一篇题为'''《一种通信的数学理论 A Mathematical Theory of Communication 》'''的里程碑式论文中提出的，其目的是找到信号处理和通信操作（如数据压缩）的基本限制。信息论对于旅行者号深空探测任务的成功、光盘的发明、移动电话的可行性、互联网的发展、语言学和人类感知的研究、对黑洞的理解以及许多其他领域的研究都是至关重要的。

−

~~'''~~信息论 Information ~~Theory'''研究的是信息的量化、存储与传播。信息论最初是由'''~~克劳德·香农 Claude Shannon~~'''~~在1948年的一篇题为'''《一种通信的数学理论 A Mathematical Theory of Communication 》'''的里程碑式论文中提出的，其目的是找到信号处理和通信操作（如数据压缩）的基本限制。信息论对于旅行者号深空探测任务的成功、光盘的发明、移动电话的可行性、互联网的发展、语言学和人类感知的研究、对黑洞的理解以及许多其他领域的研究都是至关重要的。

该领域是数学、统计学、计算机科学、物理学、神经生物学、信息工程和电气工程的交叉学科。这一理论也在其他领域得到了应用，比如推论统计学、自然语言处理、密码学、神经生物学<ref name="Spikes">{{cite book|title=Spikes: Exploring the Neural Code|author1=F. Rieke|author2=D. Warland|author3=R Ruyter van Steveninck|author4=W Bialek|publisher=The MIT press|year=1997|isbn=978-0262681087}}</ref>、人类视觉<ref>{{Cite journal|last1=Delgado-Bonal|first1=Alfonso|last2=Martín-Torres|first2=Javier|date=2016-11-03|title=Human vision is determined based on information theory|journal=Scientific Reports|language=En|volume=6|issue=1|pages=36038|bibcode=2016NatSR...636038D|doi=10.1038/srep36038|issn=2045-2322|pmc=5093619|pmid=27808236}}</ref>、分子编码的进化、和功能（生物信息学）、统计学中的模型选择<ref>Burnham, K. P. and Anderson D. R. (2002) ''Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition'' (Springer Science, New York)}}.</ref>、热物理学<ref>{{cite journal|last1=Jaynes|first1=E. T.|year=1957|title=Information Theory and Statistical Mechanics|url=http://bayes.wustl.edu/|journal=Phys. Rev.|volume=106|issue=4|page=620|bibcode=1957PhRv..106..620J|doi=10.1103/physrev.106.620}}</ref> 、量子计算、语言学、剽窃检测<ref>{{cite journal|last1=Bennett|first1=Charles H.|last2=Li|first2=Ming|last3=Ma|first3=Bin|year=2003|title=Chain Letters and Evolutionary Histories|url=http://sciamdigital.com/index.cfm?fa=Products.ViewIssuePreview&ARTICLEID_CHAR=08B64096-0772-4904-9D48227D5C9FAC75|journal=Scientific American|volume=288|issue=6|pages=76–81|bibcode=2003SciAm.288f..76B|doi=10.1038/scientificamerican0603-76|pmid=12764940|access-date=2008-03-11|archive-url=https://web.archive.org/web/20071007041539/http://www.sciamdigital.com/index.cfm?fa=Products.ViewIssuePreview&ARTICLEID_CHAR=08B64096-0772-4904-9D48227D5C9FAC75|archive-date=2007-10-07|url-status=dead}}</ref>、模式识别和异常检测<ref>{{Cite web|url=http://aicanderson2.home.comcast.net/~aicanderson2/home.pdf|title=Some background on why people in the empirical sciences may want to better understand the information-theoretic methods|author=David R. Anderson|date=November 1, 2003|archiveurl=https://web.archive.org/web/20110723045720/http://aicanderson2.home.comcast.net/~aicanderson2/home.pdf|archivedate=July 23, 2011|url-status=dead|accessdate=2010-06-23}}

第11行：第10行：

信息论的重要分支包括信源编码、算法复杂性理论、算法信息论、信息理论安全性、灰色系统理论和信息度量。

−

信息论在应用领域的基本课题包括无损数据压缩（例如:ZIP压缩文件）、有损数据压缩（例如:Mp3和jpeg格式），以及频道编码（例如:DSL）。信息论在信息检索、情报收集、赌博，甚至在音乐创作中也有应用。

+

信息论在应用领域的基本课题包括无损数据压缩（例如：ZIP压缩文件）、有损数据压缩（例如：Mp3和jpeg格式），以及频道编码（例如：DSL）。信息论在信息检索、情报收集、赌博，甚至在音乐创作中也有应用。

信息论中的一个关键度量是'''[[熵]]'''。熵量化了一个随机变量的值或者一个随机过程的结果所包含的不确定性。例如，识别一次公平抛硬币的结果（有两个同样可能的结果）所提供的信息（较低的熵）少于识别抛一次骰子的结果（有六个同样可能的结果）。信息论中的其他一些重要指标有：互信息、信道容量、误差指数和相对熵。

第17行：第16行：

==概览==

−

信息论主要研究信息的传递、处理、提取和利用。抽象地说，信息可以作为不确定性的解决方案。1948年，Claude Shannon在他的论文《一种通信的数学理论》中将这个抽象的概念具体化，在这篇论文中“信息”被认为是一组可能的信号，这些信号在通过带有噪声的信道发送后，接收者能在信道噪声的影响下以较低的错误概率来重构这些信号。香农的主要结论，有噪信道编码定理，表明在信道使用的许多限制情况下，渐近可达到信息传输速率等于的信道容量，一个仅仅依赖于信息发送所经过的信道本身的统计量。（译注：当信道的信息传输率不超过信道容量时，采用合适的编码方法可以实现任意高的传输可靠性，但若信息传输率超过了信道容量，就不可能实现可靠的传输。）

+

信息论主要研究信息的传递、处理、提取和利用。抽象地说，信息可以作为不确定性的解决方案。1948年，Claude Shannon在他的论文《一种通信的数学理论》中将这个抽象的概念具体化，在这篇论文中“信息”被认为是一组可能的信号，这些信号在通过带有噪声的信道发送后，接收者能在信道噪声的影响下以较低的错误概率来重构这些信号。 Shannon的主要结论，有噪信道编码定理，表明在信道使用的许多限制情况下，渐近可达到信息传输速率等于的信道容量，一个仅仅依赖于信息发送所经过的信道本身的统计量。（译注：当信道的信息传输率不超过信道容量时，采用合适的编码方法可以实现任意高的传输可靠性，但若信息传输率超过了信道容量，就不可能实现可靠的传输。）

信息论与一系列纯科学和应用科学密切相关。在过去半个世纪甚至更久的时间里，在全球范围内已经有各种各样的学科理论被研究和化归为工程实践，比如在[[自适应系统]]，预期系统，人工智能，[[复杂系统]]，[[复杂性科学]]，[[控制论]]，信息学，[[机器学习]]，以及[[系统科学]]。信息论是一个广博而深遂的数学理论，也具有广泛而深入的应用，其中'''编码理论'''是至关重要的领域。

第27行：第26行：

==历史背景==

−

1948年7月和10月，克劳德·E·香农在《贝尔系统技术期刊》上发表了经典论文：《一种通信的数学理论》，这就是建立信息论学科并立即引起全世界关注的里程碑事件。

+

1948年7月和10月，[[克劳德·E·香农 Claude E. Shannon]]在《贝尔系统技术期刊》上发表了经典论文：《一种通信的数学理论》，这就是建立信息论学科并立即引起全世界关注的里程碑事件。

−

在此之前，贝尔实验室已经提出了有限的信息论思想，所有这些理论都隐性地假设了概率均等的事件。Harry Nyquist 在1924年发表的论文《集中影响电报速率的因素 Certain Factors Affecting Telegraph Speed》中包含一个理论章节，量化了“情报”和通信系统可以传输的“线路速度”，并给出了关系式 {{math|1=''W'' = ''K'' log ''m''}} (参考玻尔兹曼常数) ，其中 ''W'' 是情报传输的速度， ''m'' 是每个时间步长可以选择的不同电压电平数，''K'' 是常数。Ralph Hartley 在1928年发表的论文《信息的传输 Transmission of Information》中，将单词信息作为一个可测量的量，以此反映接收者区分一系列符号的能力，从而将信息量化为 {{math|1=''H'' = log ''S''''n'' = ''n'' log ''S''}}，其中 ''S'' 是可以使用的符号的数量，''n'' 是传输中符号的数量。因此信息的单位就是十进制数字，为了表示对他的尊敬，这个单位有时被称为 ~~Hartley，作为信息的单位、尺度或度量。1940年，图灵在二战时期破解德国的“迷”密码（Enigma ciphers）的统计分析中使用了类似的思想。~~

+

在此之前，贝尔实验室已经提出了有限的信息论思想，所有这些理论都隐性地假设了概率均等的事件。Harry Nyquist 在1924年发表的论文《集中影响电报速率的因素 Certain Factors Affecting Telegraph Speed》中包含一个理论章节，量化了“情报”和通信系统可以传输的“线路速度”，并给出了关系式 {{math|1=''W'' = ''K'' log ''m''}} (参考玻尔兹曼常数) ，其中 ''W'' 是情报传输的速度， ''m'' 是每个时间步长可以选择的不同电压电平数，''K'' 是常数。Ralph Hartley 在1928年发表的论文《信息的传输 Transmission of Information》中，将单词信息作为一个可测量的量，以此反映接收者区分一系列符号的能力，从而将信息量化为 {{math|1=''H'' = log ''S''''n'' = ''n'' log ''S''}}，其中 ''S'' 是可以使用的符号的数量，''n'' 是传输中符号的数量。因此信息的单位就是十进制数字，为了表示对他的尊敬，这个单位有时被称为 Hartley，作为信息的单位、尺度或度量。1940年，图灵在二战时期破解德国的“迷”密码 Enigma ciphers的统计分析中使用了类似的思想。

−

~~信息论背后的许多数学理论（包括不同概率的事件）都是由路德维希·玻尔兹曼和约西亚·威拉德·吉布斯为热力学领域开发出来的。~~

+

信息论背后的许多数学理论（包括不同概率的事件）都是由[[路德维希·玻尔兹曼 Ludwig Boltzmann]]和[[约西亚·威拉德·吉布斯 J. Willard Gibbs]]为热力学领域开发出来的。

−

香农的那篇革命性的、开创性的论文，于1944年的年底便已基本在贝尔实验室完成。在这论文里，香农将通信看作一个统计学过程，首次提出了通信的量化模型，并以此为基础推导出了信息论。论文开篇便提出了一下论断：

+

Shannon的那篇革命性的、开创性的论文，于1944年的年底便已基本在贝尔实验室完成。在这论文里， Shannon将通信看作一个统计学过程，首次提出了通信的量化模型，并以此为基础推导出了信息论。论文开篇便提出了一下论断：

''<blockquote>“The basic problem of communication is the accurate or approximate representation at one point of selected information at another point.”

第61行：第60行：

−

其中{{math|''pi''}}是源符号的第{{math|''i''}}个可能值出现的概率。该方程以比特（每个符号）为单位给出熵，因为它使用以2为底的对数。为表纪念，这个熵有时被称为香农熵。熵的计算也通常使用自然对数（以[[E (mathematical constant)|{{mvar|e}}]]为底数，其中{{mvar|e}}是欧拉数，其他底数也是可行的，但不常用），这样就可以测量每个符号的熵值，有时在公式中可以通过避免额外的常量来简化分析。例如以{{math|1=28 = 256}}为底的对数，得出的值就以字节（而非比特）作为单位。以10为底的对数，每个符号将产生以十进制数字(或哈特利)为单位的测量值。

+

其中{{math|''pi''}}是源符号的第{{math|''i''}}个可能值出现的概率。该方程以比特（每个符号）为单位给出熵，因为它使用以2为底的对数。为表纪念，这个熵有时被称为'''香农熵'''。熵的计算也通常使用自然对数（以[[E (mathematical constant)|{{mvar|e}}]]为底数，其中{{mvar|e}}是欧拉数，其他底数也是可行的，但不常用），这样就可以测量每个符号的熵值，有时在公式中可以通过避免额外的常量来简化分析。例如以{{math|1=28 = 256}}为底的对数，得出的值就以字节（而非比特）作为单位。以10为底的对数，每个符号将产生以十进制数字(或哈特利)为单位的测量值。

直观的来看，离散型随机变量{{math|''X''}}的熵{{math|''HX''}}是对不确定性的度量，当只知道其分布时，它的值与{{math|''X''}}的值相关。

第82行：第81行：

−

===联合熵===

+

===联合熵 Joint entropy===

两个离散的随机变量{{math|''X''}}和{{math|''Y''}}的'''联合熵 Joint Entropy'''大致是它们的配对： {{math|(''X'', ''Y'')}}。若{{math|''X''}}和{{math|''Y''}}是独立的，那么它们的联合熵就是其各自熵的总和。

第92行：第91行：

尽管符号相似，注意联合熵与交叉熵不能混淆。

−

===~~条件熵（含糊度）~~===

+

===条件熵（含糊度）Conditional entropy (equivocation)===

在给定随机变量{{math|''Y''}}下{{math|''X''}}的'''条件熵 Conditional Entropy'''（或条件不确定性，也可称为{{math|''X''}}关于{{math|''Y''}}的含糊度)）是{{math|''Y''}}上的平均条件熵： <ref name=Ash>{{cite book | title = Information Theory | author = Robert B. Ash | publisher = Dover Publications, Inc. | origyear = 1965| year = 1990 | isbn = 0-486-66521-6 | url = https://books.google.com/books?id=ngZhvUfF0UIC&pg=PA16&dq=intitle:information+intitle:theory+inauthor:ash+conditional+uncertainty}}</ref>

第103行：第103行： −

===~~互信息~~(~~转移信息~~)===

+

===互信息（转移信息） Mutual information (transinformation)===

'''互信息 Mutual Information'''度量的是某个随机变量在通过观察另一个随机变量时可以获得的信息量。在通信中可以用它来最大化发送和接收信号之间共享的信息量，这一点至关重要。{{math|''X''}}相对于{{math|''Y''}}的互信息由以下公式给出：

第133行：第133行：

−

===散度(~~信息增益~~)===

+

===Kullback-Leibler散度（信息增益） Kullback–Leibler divergence (information gain)===

−

'''~~~~Kullback-Leibler 散度~~~~'''~~(或信息散度、相对熵、信息增益)是比较两种分布的方法：~~ “真实的”概率分布''p(X)''和任意概率分布''q(X)''。若假设''q(X)''是基于某种方式压缩的数据的分布，而实际上''p(X)''才是真正分布，那么 Kullback-Leibler 散度是每个数据压缩所需的平均额外比特数。因此定义：

+

'''Kullback-Leibler 散度'''（或信息散度、相对熵、信息增益）是比较两种分布的方法： “真实的”概率分布''p(X)''和任意概率分布''q(X)''。若假设''q(X)''是基于某种方式压缩的数据的分布，而实际上''p(X)''才是真正分布，那么 Kullback-Leibler 散度是每个数据压缩所需的平均额外比特数。因此定义：

:<math>D_{\mathrm{KL}}(p(X) \| q(X)) = \sum_{x \in X} -p(x) \log {q(x)} \, - \, \sum_{x \in X} -p(x) \log {p(x)} = \sum_{x \in X} p(x) \log \frac{p(x)}{q(x)}.</math>

第145行：第145行：

===其他度量===

−

信息论中其他重要的量包括'''瑞丽熵 Rényi Entropy'''~~(一种熵的推广)，微分熵(信息量推广到连续分布)，以及条件互信息。~~

+

信息论中其他重要的量包括'''瑞丽熵 Rényi Entropy'''（一种熵的推广），微分熵（信息量推广到连续分布），以及条件互信息。

第190行：第190行：

===信道容量===

−

通过信道(例如，以太网电缆)进行通信是信息论的主要动机。然而，这样的信道往往不能产生信号的精确重建; 静默时段内、噪声、其他形式的信号损坏往往会使得信息质量的降低。

+

通过信道（例如，以太网电缆）进行通信是信息论的主要动机。然而，这样的信道往往不能产生信号的精确重建；静默时段内、噪声、其他形式的信号损坏往往会使得信息质量的降低。

考虑离散信道上的通信过程。该过程的简单模型如下：

第201行：第201行：

:<math> C = \max_{f} I(X;Y).\! </math>

−

~~信道容量具有以下与以信息速率“R”进行通信有关的属性(其中“R”通常为每个符号的比特数)。对于任意信息速率~~''R < C''和编码错误ε > 0，存在足够大的长度为''N''和速率大于等于R的代码以及解码算法使得块错误的最大概率小于等于ε；即总是可以在任意小的块错误下进行传输。此外对于任何速率的“ R> C”，不可能以很小的块错误进行发送。

+

信道容量具有以下与以信息速率“R”进行通信有关的属性（其中“R”通常为每个符号的比特数）。对于任意信息速率''R < C''和编码错误ε > 0，存在足够大的长度为''N''和速率大于等于R的代码以及解码算法使得块错误的最大概率小于等于ε；即总是可以在任意小的块错误下进行传输。此外对于任何速率的“ R> C”，不可能以很小的块错误进行发送。

信道编码就寻找一种接近最优的编码，它可以用于在噪声信道上以接近信道容量的速率传输数据，且编码错误很小。

薄荷

7,129

个编辑

更改

信息论 (查看源代码)

2020年11月21日 (六) 23:33的版本

导航菜单

搜索