文學上一直有一個爭議,就是名著「紅樓夢」只有前80回的作者是曹雪芹,而後40回的作者則另有其人。究竟統計學又有什麼方法可以尋出真相呢?
統計學上有一種方法稱為文本挖掘,做法是先統計文本上不同的字彙所出現的頻率,然後跟據得出的分佈進行分析。
當中套用文本挖掘最出名的例子,就是嘗試解決中國四大名著之一「紅樓夢」作者誰屬的爭議。其中一個做法,是先將120回分成12段,每段有連續10回的內容,然後找出出現頻率最高的數百個單字(例如「的」、「了」、「人」、「不」等)並統計出現次數,以此為數據並利用聚類分析法進行分類。簡單來說,就是根據每段的單字分佈進行歸類。結果顯示後40回跟前80回在語法用字上存在不一致性,以此推論不是出自同一人手筆。