Tem-se debatido quem são os autores da famosa obra literária chinesa “Hong Lou Meng” (O Sonho da Câmara Vermelha). Há quem atribua a autoria dos 80 primeiros capítulos a Cao Xueqin e os restantes 40 a outrem. Existe algum método estatístico permita determinar a verdade?
Em estatística o método denominado mineração de texto permite calcular a frequência de palavras escritas no texto e depois efectuar a análise consoante a distribuição das mesmas no texto.
O exemplo mais representativo em que se aplicou o método da mineração de texto, foi usado numa das quatro obras chinesas mais famosas, intitulada “Hong Lou Meng” (O Sonho da Câmara Vermelha) em que se tentou resolver a questão que surgiu em torno do autor da obra. Uma das maneiras é a seguinte: em primeiro lugar, dividem-se os 120 capítulos em 12 secções, tendo cada secção 10 capítulos seguidos; depois, procuram-se as centenas de palavras escritas mais frequentemente (por exemplo “de”, “já”, “a gente”, “não”, etc.) e calcula-se a sua frequência; finalmente, com base nestes dados, utiliza-se a análise de agrupamentos para classificar os dados. Escrevendo por outras palavras, classificam-se os dados segundo a distribuição de palavras de cada secção. O resultado da análise mostrou que as palavras gramaticais usadas nos últimos 40 capítulos não coincidem com as dos 80 primeiros capítulos, pelo qual se inferiu que a obra não fora escrita pelo mesmo autor.