
上世紀,美國出現了一位神秘的炸彈客。
從 1978 年到 1996 年被捕,17 年裏,他寄出了 16 枚炸彈,造成了 3 人死亡,23 人受傷。在這期間,FBI 出動了
500 多名特工,花費了數百萬美元,也沒抓到這位 ” 炸彈客 “(Unabomber)。
看起來,這是一位行事謹慎的高智商犯罪者:隨機選擇襲擊目標,並且幾乎沒有在現場留下任何可以追溯的證據,比如指紋、頭發或其他纖維,包括製作炸彈的材料,也無從追溯購買地址,比如用到的木頭看起來就像是路邊撿來的垃圾。

1987 年炸彈客製造的一次爆炸後的炸彈碎片丨 FBI
破案的線索,最終落到了 ” 炸彈客 ” 的語言風格。
1995 年,FBI 收到一封信。寄信人說,那些炸彈都是自己寄的,並且以 ” 停止炸彈攻擊 ”
為條件,要求刊登他的一篇論文,題為《論工業社會及其未來》(Industrial Society & Its
Future)。寄信人聲稱,這篇論文可以解釋他的作案動機以及對社會弊病的看法。

當年的論文原件丨 FBI
經過 ” 要不要屈從於恐怖分子 ” 的辯論,FBI 決定將這篇論文公開發布,希望有人能認出作者。
這篇論文宣稱現代技術與工業化嚴重侵蝕了人類社會,因此需要有人站出來阻止技術進步,從而拯救全人類。這些極端言論引發了廣泛討論,” 炸彈客
” 因此被很多極端分子和無政府主義者視為 ” 英雄 “;同時,也引起了民眾的注意。
很快,一位名叫大衛 · 卡辛斯基(David
Kaczynski)的群眾通過律師聯係了警方,說發現這篇論文的觀點和寫作風格都很像自己的兄弟泰德 · 卡辛斯基(Ted
Kaczynski),並提供了一些舊的信件和文章素材。
FBI 專家對這些材料進行了語言學分析,發現,除了 ” 科技有罪 ”
的論點,還有很多寫作風格都和公開的炸彈客的論文相符,比如,格式、標點和獨特的拚寫(炸彈客的論文發布之前,FBI 就注意到,論文裏的
“analyse” 一詞采用了英式拚寫)——但這些證據不足以讓他們簽署搜查令。
關鍵證據來自一封信,裏麵有一句 “you can ’ t have your cake and eat it,
too“,在炸彈客的論文第 185
段,也使用了同樣的措辭。以此為突破口,警方最終在美國蒙大拿州一處偏遠的小木屋中找到並逮捕了炸彈客本人,也就是泰德 ·
卡辛斯基。

“you can ’ t have your cake and eat it, too” 丨參考文獻 [ 5 ]
資料顯示,泰德 · 卡辛斯基的智商高達 167,16 歲就被哈佛大學數學係錄取,25
歲就成為加州大學伯克利分校曆史上最年輕的數學係助理教授——這樣一位瘋狂的高智商反社會炸彈客,最後敗露於自己的行文風格。

” 炸彈客 ” 泰德 · 卡辛斯基(Ted Kaczynski)丨 FBI
” 去目的地得打的 “
在刑偵工作中,能夠追溯一個人身份的方法有很多,比如指紋、虹膜、DNA 等,都是獨一份兒的身份標識。
其實,語言和寫作風格也能夠用來確認身份,比如,上文中的炸彈客就是被自己兄弟辨認出了寫作風格。調查這宗案件的 FBI
調查員曾說:”沒有兩個人會寫得一樣(No two people write alike)。”
一個人在書寫或者打字時,會形成一些特定的詞語用法,而這點小線索,就像文字上的指紋,可以讓我們分辨這篇文字到底出自誰手。這種將文章書寫特征作為
” 指紋 ” 來判斷作者的技術,叫做 “作者識別“(Author
Verification)。有一門叫做 ” 刑偵語言學(Forensic Linguistics)”
的學問,就是專門研究書寫或語言的表達方式,來分析案情中嫌疑人或被害者的身份信息。
2018
年,《紐約時報》刊登了一篇匿名文章《我是特朗普政府中的一名抵抗者》,作者自稱是白宮的工作人員,對當時的美國政壇一頓批評。這可把時任總統特朗普氣得不輕,表示一定要揪出這個
” 內鬼 “。這時,作者識別就有了用武之地。有人發現,在這封匿名信中出現了
“北極星(lodestar)“,而當時的副總統彭斯就特別愛用這個詞。後者當然趕緊出來否認。

《紐約時報》發表的匿名文章 丨《紐約時報》發表的匿名文章
作者識別有很多流派和技巧。比如,特定年代的用語可以判斷書寫者所處的年份(” 你是 GG 還是
MM”,” 你媽喊你回家吃飯 “,” 神馬都是浮雲 ”
這些當年爆火的流行語如今已經成了時代的眼淚);一些特定詞匯的使用也可以體現作者的職業(比如,總是把閉環、抓手、賦能這些詞掛在嘴邊的,很大可能是互聯網從業人員)。
這些流派在分析時,大多以實詞作為依據。實詞,比如名詞、動詞、形容詞之類,一般會用來表達具體的意思。但是,使用實詞分析會麵臨一個問題:作者在撰寫不同的內容時,會用到不同體係的實詞。比如,一個生物學家兼職寫作言情小說。在工作時,他會用到大量的生物術語;而在夜班碼字時,可能會用到很多情情愛愛的詞匯。所以,用實詞來判斷作者時,容易被不同文體間的轉換幹擾。

作者在撰寫不同的內容時,會用到不同體係的實詞 丨 Giphy.com
比起實詞,副詞、介詞、連詞等虛詞通常就沒啥確定的含義,即使寫不同題材的文章,虛詞的使用頻率也大體不變。有人做過統計,在漢語文章中,”
的 ” 字的出現頻率大約是每 10 字出現 0.45 次,是所有人都最常用的漢字之一 。同樣,” 地 “、” 得 “、” 嗎 “、”
呢 ” 之類虛詞的出現頻率,也幾乎不受文章內容的影響,更能反映作者的寫作習慣。

容易混用的 ” 的地得 ” 三兄弟
在中國,最知名的作者識別案例,當屬 “《紅樓夢》後 40 回作者懸案 “。《紅樓夢》全書 120 回,目前公認的說法是曹雪芹寫了前
80 回,高鶚續寫了後麵的 40 回。1970 年,紅學家趙岡,就用 ” 的 “、” 了 “、” 在 “、” 兒 “、” 著 ”
這五個字的出現頻率來研究紅樓夢的作者問題,得出了前 80 回和後 40 回確實出自不同人之手。
這項研究中用了 5 個字,其中 3 個都是虛詞。
用算法在文學圈證明 ” 你是你 “
與曹雪芹類似,國外也有那麽幾個大作家,需要後世學者來給其名下的作品掌掌眼,比如英國文豪莎士比亞。

威廉 · 莎士比亞丨 John Taylor / Wikimedia Commons
很多文學研究者認為莎士比亞的一些作品其實也是他人續寫的,其中就包括名作《亨利八世》。
《亨利八世》是莎翁晚期的作品。晚年的莎士比亞一直擔任 King ’ s Men 劇團的劇作家,他去世後,約翰 ·
弗萊徹接替了這個職務。因此,有人 ” 合理 ” 懷疑弗萊徹續寫、甚至修改了《亨利八世》。

亨利八世和家人 丨 Unknown author / Wikimedia Commons
1850 年,文學評論家詹姆斯 · 斯派丁(James Spedding)提出了一些證據:在《亨利八世》書稿中,有時會用 ye 代替
you,或用 em 代替 them,而這些都是弗萊徹的行文習慣。
當然,相關的說法一直存在爭議。即便是二人合著,也沒法判斷到底這部作品中,莎翁和弗萊徹各自貢獻了多少。
然而,隨著技術的進步,特別是機器學習算法的成熟,有人就想用新方法來解開《亨利八世》的謎題。
2019 年,一位名叫彼得 · 普萊查(Petr Plech
á)的研究員說自己有了答案。這位來自捷克科學院的學者,使用機器學習算法來識別劇本的每一行文字,然後讓機器來判斷作者是誰。
為了訓練算法,得出優化模型,彼得先是翻出與《亨利八世》同時期的其他莎翁著作,包括《冬天的故事》、《暴風雨》等。然後,他將這些著作變成一行行數據,喂給了算法,再讓程序能識別莎士比亞的單詞和語句模式。同樣,彼得也找來了不少弗萊徹所寫的劇本,讓算法進行學習。最後,這個經過訓練的算法就可以成為一名裁判,來分辨《亨利八世》的內容到底出自誰人之手。

S 代表莎士比亞,F 代表弗萊徹,帶下標的數字表示給定段落的最後一行丨參考文獻 [ 8 ]
人工智能的分析結果證實了斯派丁的猜測——弗萊徹確實參與了《亨利八世》的撰寫。而且,根據算法的分析,弗萊徹貢獻還不小,有一半左右的劇本都出自他筆下。甚至,算法還能精確地指出哪些段落是莎士比亞自己寫的,而哪些是弗萊徹所寫。比如,算法分析了第二幕第三場,前
1261 行是莎士比亞所寫,而 1261~1299 行的作者則是弗萊徹,隨後又轉回莎士比亞。
當然,真相早已埋沒在曆史洪流之中,現代學者能做的,隻是基於概率來做出合理的推測。對於成名的作家來說,即使部分作品存在捉刀人,也不能撼動其文學地位。
不過,有些作家麵臨的狀況就更窘迫些了,因為有後人懷疑其所有作品都不是自己寫的——法國劇作家莫裏哀就遭到了這樣的全盤否定。

莫裏哀畫像丨 Pierre Mignard / Wikimedia Commons
寫出過《吝嗇鬼》、《偽君子》等名作的莫裏哀,在法國人民心中的地位和莎士比亞在英國人心中的地位差不多。
然而,幾百年後,有人開始懷疑莫裏哀並沒有寫過劇本,說他其實是個欺世盜名之徒,理由包括:首先,根據曆史記載,莫裏哀是當時的知名演員,一輩子幾乎都在旅行和巡演,哪有時間寫劇本?再者,人們從沒發現過莫裏哀親筆簽名的原稿。
還有評論家列出了幾位可能的 ” 槍手 ” 人選,其中呼聲最高的,是一位名叫皮埃爾 · 科尼耶(Pierre
Corneille)的劇作者。有人甚至據此腦補了一出 ” 代筆大戲
“:受過良好教育的科尼耶,寫了這些劇本,然後簽上莫裏哀的名字,這樣可以利用莫裏哀的明星效應,讓劇本更受歡迎。
” 代筆疑雲 ” 中的這些當事人早已長眠地下,沒法出來對證。於是,探案工作又交到了機器手中。

“Why Moli è re most likely did write his plays” 丨參考文獻 [ 9 ]
2019 年,兩位法國學者在學術期刊《科學進展》 ( Science Advances ) 上發表了一篇論文,題為 “Why Moli
è re most likely did write his plays(為什麽說莫裏哀很可能寫了他的劇本)”。
看論文標題,就知道這項研究一定十分嚴謹。
研究者收集了莫裏哀、科尼耶以及其他 10
位同時代作家的作品,將這些作品輸入計算機程序,並統計了每個作者對虛詞的使用頻率。為了力求準確,他們還分析了詞匯、詞綴、語法等方方麵麵,最終提煉出了每個作者的行文特征。
經過海量的數據收集、複雜的統計學分析,配合優化的機器學習算法,這兩位法國學者心滿意足地敲下了論文的結論:
“These conclusions strongly substantiate the idea that Moli è re
indeed wrote his own plays。”
(這些證據強烈表明:莫裏哀的劇本確實是莫裏哀寫的 ) 。
參考文獻
[ 1 ] Jankowska, M., Milios, E., & Keselj, V. ( 2014, August ) .
Author verification using common n-gram profiles of text documents.
In Proceedings of COLING 2014, the 25th International Conference on
Computational Linguistics: Technical Papers ( pp. 387-397 ) .
[ 2 ] https://www.fbi.gov/history/famous-cases/unabomber
[ 3 ]
https://www.fbi.gov/news/stories/the-words-of-a-killer-the-unabomber-case-25-years-later-040221
[ 4 ]
https://www.fbi.gov/news/podcasts/inside-the-fbi-the-unabomber-case-040821
[ 5 ] Kaczynski, B. T. . INDUSTRIAL SOCIETY AND ITS FUTURE ( 1995 )
.
[ 6 ] 孫曉明 , & 馬少平 . ( 2001 ) . 基於寫作風格的作者識別 . In 見 :
中國中文信息學會二十周年學術會議論文集 . 北京 : 清華大學出版社 .
[ 7 ] 趙岡、陳鍾毅,《紅樓夢新探》,1970
[ 8 ] Plech á , P. ( 2019 ) . Relative contributions of Shakespeare
and Fletcher in Henry VIII: An analysis based on most frequent
words and most frequent rhythmic patterns. Digital Scholarship in
the Humanities.
[ 9 ] Cafiero, F., & Camps, J. B. ( 2019 ) . Why Moli è re most
likely did write his plays. Science Advances, 5 ( 11 ) ,
eaax5489.
作者:圓的方塊
編輯:麥芽楊
一個 AI
除了 ” 的地得警察 “,” 的地得 ” 寫不好……可能也會招來真 · 警察。
華客新聞 | 時事與歷史:你寫的每個“的地得”,都可能成為呈堂證供