如何用计算证明红楼梦后40回不是曹雪芹写的?

论坛 期权论坛 期权     
期权宽客   2018-8-30 06:54   3183   0

本文由管大宇老师的学生撰写

期权,从零到卓越”线上线下同步开课

授课老师:管大宇


课程四大优势:
1. 只讲实战,只讲干货。
2. 建立完整的期权思维和交易体系的理解框架,从而实现稳定有效的盈利(已经培养出一批稳定盈利的学员,这是一个通过市场验证的课程体系)。
3. 终身免费复训。
4.学员中有众多大佬和专业人士,在学到期权投资技能的同时,对职业发展也大有裨益。

(一般两个月左右有一次线下课程,终身免费复训)
报名电话/微信:18516600808,2018年9月16日(周日)


量化并不是和主观对立的,它只是一种认识客观世界的方法,量化可以看成是帮我们突破大脑局限的工具,能帮我们快速验证很多想法,发现一些靠人脑很难发现的规律。
举个例子,我们读文学作品的时候,可以清晰的感觉到不同的作家各自有不同的风格,比如鲁迅和莎士比亚的作品,一眼就能分辨出来。但是这种风格的感受是非常主观,难以精确描述的。不过在quant看来,就连如此主观的事情,当我们引入“信息熵”这个概念以后,都是可以用量化的方法实现的。“信息熵”也叫“香农熵”,是度量一个信息系统信息量的指标,由香农在1948年提出。一个信息系统中需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。





这是熵的物理学定义,其中i标记所有可能的微观态,表示微观态i的出现几率,是玻尔兹曼常数 。



这是信息熵的定义,其中i标记概率空间中所有可能的样本,表示该样本的出现几率,K是和单位选取相关的任意常数。

物理学上我们可以将熵看作是一个系统“混乱程度”的度量,因为一个系统越混乱,可以看作是微观状态分布越均匀,也就是状态越随机。所以一个系统的熵越大,表明这个系统越混乱;熵越小,表明这个系统的越有序。
热力学第二定律说明一个孤立系统的倾向于增加混乱程度,现实中绝大多数遇到的都不是孤立系统,比如生命系统总是与外界存在着物质和能量的交换,使得系统始终维持一种低熵的状态,其实相当于外界通过食物、空气、水为生命系统提供了负熵,生命现象一般都是高度有序的。
1948年,香农将统计物理中熵的概念,引申到信道通信的过程中,用来解决信息的度量问题。
我们用信息熵去分析不同作者的文学作品,将文学作品的单词、短语序列化,统计短语的频率,将频率映射为熵中的概率,可以计算文学作品的熵。
会得到一个有趣的发现:同一作者不同的作品的信息熵比较接近,不同作者的作品的信息熵差别比较大,具有明显的个性化特征,比如莎士比亚的作品信息熵就比较小,鲁迅的熵就比较大,说明莎翁的作品比较smoothly,鲁迅的作品风格比较激烈。
最典型的例子是红楼梦,我们现在大多数读的红楼梦120回,前80回是曹雪芹所著,后40回是高鹗续写,如何验证呢?通过分别计算前80回和后40回的熵,会发现两者的熵差别很大。前80回不同片段的熵,彼此之间是比较相近的,后40回不同片段的熵彼此也比较接近,但两者之间的熵差别很大,这就可以验证确实出自不同作者之手。
甚至连美术作品也可以将像素进行序列化,然后计算不同作者的熵,用来作为古字画鉴别的一个辅助维度。同样也可以计算基因序列的熵,蛋白质序列的熵,一方面可以用来衡量基因或者蛋白质序列的有序程度,另一方面也可以作为不同序列的分类标准。


(基因序列的熵)


(蛋白质序列的熵)

本文由管大宇老师的学生撰写

“期权,从零到卓越”线上线下同步开课

授课老师:管大宇


课程四大优势:
1. 只讲实战,只讲干货。
2. 建立完整的期权思维和交易体系的理解框架,从而实现稳定有效的盈利(已经培养出一批稳定盈利的学员,这是一个通过市场验证的课程体系)。
3. 终身免费复训。
4.学员中有众多大佬和专业人士,在学到期权投资技能的同时,对职业发展也大有裨益。

(一般两个月左右有一次线下课程,终身免费复训)
报名电话/微信:18516600808,2018年9月16日(周日)

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:5743
帖子:1178
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP