数学之美系列四：怎样度量信息？

作者&投稿：大非（若有异议请与网页底部的电邮联系）

有谁知道《数学之美》——吴军的电子文档在哪下在呀~

现在网上的电子文档都未更新的

这个是用Jensen不等式.
函数f(x) = x·log(x)在x > 0上是一个凸函数(可由f"(x) = log(e)/x > 0证明).
因此对p1, p2,..., p32 > 0, p1+p2+...+p32 = 1, 有
f(p1)+f(p2)+...+f(p32) ≥ 32·f((p1+p2+...+p32)/32)
= 32·f(1/32)
= 32·1/32·log(1/32)
= -5.
即信息量 = -(p1·log(p1)+p2·log(p2)+...+p32·log(p32)) ≤ 5.

参考: http://baike.baidu.com/view/1427148.htm

信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，香农提出了“信息熵”(shāng) 的概念，才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。那么我们如何量化的度量信息量呢？我们来看一个例子，马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯，赛后我问一个知道比赛结果的观众“哪支球队是冠军”？他不愿意直接告诉我，而要让我猜，并且我每猜一次，他要收一元钱才肯告诉我是否猜对了，那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号，从 1 到 32，然后提问： “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了，我会接着问： “冠军在 1-8 号中吗?” 假如他告诉我猜错了，我自然知道冠军队在 9-16 中。这样只需要五次，我就能知道哪支球队是冠军。所以，谁是世界杯冠军这条消息的信息量只值五块钱。当然，香农不是用钱，而是用 “比特”（bit）这个概念来度量信息量。一个比特是一位二进制数，计算机中的一个字节是八个比特。在上面的例子中，这条消息的信息量是五比特。（如果有朝一日有六十四个队进入决赛阶段的比赛，那么“谁世界杯冠军”的信息量就是六比特，因为我们要多猜一次。）读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。）有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军，因为象巴西、德国、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此，我们第一次猜测时不需要把 32 个球队等分成两个组，而可以把少数几个最可能的球队分成一组，把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程，根据夺冠概率对剩下的候选球队分组，直到找到冠军队。这样，我们也许三次或四次就猜出结果。因此，当每个球队夺冠的可能性（概率）不等时，“谁世界杯冠军”的信息量的信息量比五比特少。香农指出，它的准确信息量应该是 = -（p1*log p1 + p2 * log p2 + ．．．＋p32 *log p32)，其中，p1，p2 ，．．．，p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy)，一般用符号 H 表示，单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时，对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X（比如得冠军的球队），它的熵定义如下：变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。有了“熵”这个概念，我们就可以回答本文开始提出的问题，即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字（一级二级国标）大约有 7000 字。假如每个字等概率，那么我们大约需要 13 个比特（即 13 位二进制数）表示一个汉字。但汉字的使用是不平衡的。实际上，前 10% 的汉字占文本的 95% 以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立的概率，那么，每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性，每个汉字的信息熵只有5比特左右。所以，一本五十万字的中文书，信息量大约是 250 万比特。如果用一个好的算法压缩一下，整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书，大约需要 1MB 大小，是压缩文件的三倍。这两个数量的差距，在信息论中称作“冗余度”（redundancy)。需要指出的是我们这里讲的 250 万比特是个平均数，同样长度的书，所含的信息量可以差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。在下一集中，我们将介绍信息熵在信息处理中的应用以及两个相关的概念互信息和相对熵。对中文信息熵有兴趣的读者可以读我和王作英教授在电子学报上合写的一篇文章《语信息熵和语言模型的复杂度》

学习之美
读书是开启智慧之门的钥匙,它不仅让我们品味文学之美,更教会我们如何与世界对话。现在,你可以轻松上网,享受读书带来的福利。作业的美好作业是学习旅程中的一道美丽风景,当你觉得掌握了知识点,适量的作业就是轻松的小憩。寻找平衡写作业是为了巩固所学,但过多则可能成为负担。找到那个平衡点,让学习与生活和谐...

“感悟学习之美”征文四至五年级不少于400字
感悟学习之美走在人生道路上，也许，我也应该回头看看了吧。人生若长，度日如年，若短，弹指一挥间。坐在礁石上，听水浪打在脚下的声音，有一种莫名的安心。三年前，我在这里，听海声，三年后，我依旧在这里，不过，心态不再仅仅存在天真，我们再也不会问父母为什么天空是蓝色的了，我们再也不会...

数学之美师徒四人
由题目可知，悟空、唐僧、八戒都不挑水，所以只能是沙僧挑水，唐僧一定洗菜，如果他不洗菜，沙僧就不挑水，由于洗菜和挑水都有人干了，所以还有淘米和烧火两项，由于八戒不淘米，所以八戒只可以烧火，剩下的淘米就是由悟空干了。所以，沙僧挑水，唐僧洗菜，八戒烧火，悟空淘米 ...

茶艺美学解读:中国茶艺美学的四个境界
从认识茶叶的“活”之美，通过学习和体验深化理解；到体验泡茶和品饮的“体味”之美，通过实践感受茶的本真；再到在茶艺中找到“自由”之美，摆脱外在影响，觉知当下；最后达到“人性”之美，接纳生命中的各种可能，实现平等交流和生命融合。这四个境界，既是茶艺的追求，也是生活的哲学。

感受学教的四季之美教育心得
我也喜欢把“秋季”贮藏的成果拿出回味，所以，我喜欢拜读《刘正生名师工作室》的，感受他不一样的语世界；我喜欢翻看“星学员”们的博客，仔细阅读着他们分享的美，以及对自己各阶段收获总结的博，都是如数家珍一样。“学教的四季”，既是一个学习阶段的结束，又是下一个教学轮回的开始。不断欣赏...

...不少学者认为第四个特征应该是质朴之美,你怎么看
主要表现为儿童心理、生活中的天真、稚拙的情态和形态。形式方面，从广义上说，其语言组合、叙述方式以及情节构成方式的变化可以产生一种天真稚拙的形式感。2、谐趣欢愉。儿童最不喜欢枯燥的故事和乏味的叙述。他们需要有趣的东西。因此，儿童文学相对于成人文学来说，总是洋溢着更为浓郁的谐趣和欢愉之美...

数学之美
(1)(美)西奥妮•帕帕斯 . 理性的乐章--从名言中感受数学之美. 王幼军译. 上海:上海科技教育出版社,2010.(2)(英)波斯特 . 数学证明之美 . 贺俊杰,铁红玲译 . 湖南:湖南科技出版社,2012(3)(美)克利福德•A•皮科夫 . 马东玺译 . 湖南:湖南科学技术出版社,2010(4)吴军 . 数学之美系列文章 ....

文学之美是什么?
文学之美是从美学角度对文学的欣赏。文学之美以文学艺术作为对象，从审美关系出发，研究美、丑、崇高等审美范畴和人的审美意识，美感经验，以及美的创造、发展及其规律。文学作品不同于其他艺术，音乐是凭借听觉感受它的美，雕塑是凭借视觉感受美，当然感受不同艺术的美同样需要经过各种艺术欣赏的思维训练。...

世界上最美的方程式,带你享受数学之美
这是一个非常优雅的方程，这个方程告诉我们一切是如何联系在一起的——太阳的存在是如何扭曲时空，使地球绕着它在轨道上运行的，等等。它还告诉你宇宙自大爆炸以来是如何演化的，并预言宇宙中应该存在黑洞。另一个占统治地位的物理学理论，标准模型描述了目前被认为构成我们宇宙的基本粒子的集合。该理论可以...

初一必看的十部数学影片
初一学生必看的十部数学影片有：《脑筋急转弯》、《发现数学》、《玩转数学》、《数独》《数学大冒险》、《数学的故事》、《数学奇趣录》、《数学的力量》、《数学沙盘》、《数学之美》。一、《脑筋急转弯》这部影片主要通过一系列有趣的脑筋急转弯问题，激发学生的逻辑思维能力和创造力。它可以帮助学生...

长洲区13582989876： 数学之美系列四:怎样度量信息? - ？
兆索左洛： 信息是个很抽象的概念.我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少.比如一本五十万字的中文书到底有多少信息量.直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题. 一条信...

长洲区13582989876： 信息的度量 - ？
兆索左洛： 就是给出各种不同信息符号出现的概率.例如,在低山阔叶林区,有草本1/2,灌木1/3,乔木1/6这些种类的植物.草本,灌木,乔木称为信息符号,,而出现的概率例1/2这是就对信息的度量

长洲区13582989876： 怎样衡量信息量的大小呢? - ？
兆索左洛： 如果用统计学的术语来描述,就是出现概率小的事件信息量多.因此,事件出现得概率越小,信息量愈大.即信息量的多少是与事件发生频繁(即概率大小)成反比.例题:向空中投掷硬币,落地后有两种可能的状态,一个是正面朝上,另一...

长洲区13582989876： 信息管理导论举例说明如何测度信息量的大小? - ？
兆索左洛： 基于shannon熵的信息量测度方法主要用于随机型语法信息量计算.信息是事物运动状态及其变化的方式,而世间事物繁多且相互联系,所以事物的状态及其变化一班具有一定的不确定性,即人们不能确切地知道某些状态时候出现或某些变化是否发生.但shannon发现有一类变化具有一定统计规律即随机不确定,可以通过大量重复性试验得到稳定的发生概率,从而可以用概率计算消除这类不确定性的信息量.

长洲区13582989876： 如何计算网站网页相似度 - ？
兆索左洛： 据统计,网页上的大部分相同的页面占29%,而主体内容完全相同的占22%,这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, ...

长洲区13582989876： 信息的概念是什么 - ？
兆索左洛：信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科. 信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的...

长洲区13582989876： 数学美的表现形式 - ？
兆索左洛：[答案] 数学美的表现形式是多种多样的,从数学内容看,有概念之美、公式之美、体系之美等;从数学的方法及思维看,有简约之美、类比之美、抽象之美、无限之美等;从狭义美学意义上看,有对称之美、和谐之美、奇异之美等. (一)语言美数学有着...

长洲区13582989876： 1、粮店有面粉四分之三吨,大米比面粉多五分之三.大米有多少吨? - ？
兆索左洛： 大米比面粉多五分之三.大米有3/4*(1+3/5)=3/4*8/5=6/5吨大米比面粉少五分之三.大米有3/4*(1-3/5)=3/10吨【数学之美】很高兴为你解答,不懂请追问!满意请采纳,谢谢!O(∩_∩)O~

长洲区13582989876： 已知a - a分之1=2,求a²+a²分之1和a四次幂+a四次幂分之1的值 - ？
兆索左洛： 解:∵a-1/a=2 两边同时平方 ∴a²-2+1/a²=4 ∴a²+1/a²=6 继续平方 a^4+2+1/a^4=36 ∴a^4+1/a^4=34 数学之美为您解答,希望满意采纳.

长洲区13582989876： 鸿运超市运来一批水果,其中梨的箱数是香蕉箱数的3分之4,苹果的箱数是香蕉的7分之8,已知运来梨24箱运来苹 - ？
兆索左洛： 香蕉24/(3/4)=32箱苹果24*7/8=21箱【数学之美】很高兴为你解答,不懂请追问!满意请采纳,谢谢!O(∩_∩)O~

你可能想看的相关专题

星空见康网

数学之美系列四：怎样度量信息？

你可能想看的相关专题