統計教室 - 澳門特別行政區政府統計暨普查局

統計學上有一種方法稱為文本挖掘，做法是先統計文本上不同的字彙所出現的頻率，然後跟據得出的分佈進行分析。
當中套用文本挖掘最出名的例子，就是嘗試解決中國四大名著之一「紅樓夢」作者誰屬的爭議。其中一個做法，是先將120回分成12段，每段有連續10回的內容，然後找出出現頻率最高的數百個單字（例如「的」、「了」、「人」、「不」等）並統計出現次數，以此為數據並利用聚類分析法進行分類。簡單來說，就是根據每段的單字分佈進行歸類。結果顯示後40回跟前80回在語法用字上存在不一致性，以此推論不是出自同一人手筆。

立即登入 / 成為會員

文學篇

文學上一直有一個爭議，就是名著「紅樓夢」只有前80回的作者是曹雪芹，而後40回的作者則另有其人。究竟統計學又有什麼方法可以尋出真相呢？