统计教室 - 澳门特别行政区政府统计暨普查局

统计学上有一种方法称为文本挖掘，做法是先统计文本上不同的字汇所出现的频率，然后跟据得出的分布进行分析。
当中套用文本挖掘最出名的例子，就是尝试解决中国四大名著之一「红楼梦」作者谁属的争议。其中一个做法，是先将120回分成12段，每段有连续10回的内容，然后找出出现频率最高的数百个单字（例如「的」、「了」、「人」、「不」等）并统计出现次数，以此为数据并利用聚类分析法进行分类。简单来说，就是根据每段的单字分布进行归类。结果显示后40回跟前80回在语法用字上存在不一致性，以此推论不是出自同一人手笔。

立即登入 / 成为会员

文学篇

文学上一直有一个争议，就是名著「红楼梦」只有前80回的作者是曹雪芹，而后40回的作者则另有其人。究竟统计学又有什么方法可以寻出真相呢？