文学上一直有一个争议,就是名著「红楼梦」只有前80回的作者是曹雪芹,而后40回的作者则另有其人。究竟统计学又有什么方法可以寻出真相呢?
统计学上有一种方法称为文本挖掘,做法是先统计文本上不同的字汇所出现的频率,然后跟据得出的分布进行分析。
当中套用文本挖掘最出名的例子,就是尝试解决中国四大名著之一「红楼梦」作者谁属的争议。其中一个做法,是先将120回分成12段,每段有连续10回的内容,然后找出出现频率最高的数百个单字(例如「的」、「了」、「人」、「不」等)并统计出现次数,以此为数据并利用聚类分析法进行分类。简单来说,就是根据每段的单字分布进行归类。结果显示后40回跟前80回在语法用字上存在不一致性,以此推论不是出自同一人手笔。