人工智能現在的寫作能力雖然還不至于寫出世界名著,但足以掩藏住機器的痕跡,混淆普通人的視線。最重要的是,AI可以批量生產文本,炮制假新聞、快速刷評論。該如何揪出冒充人類的AI呢?哈佛大學和麻省理工學院- IBM沃森人工智能實驗室(MIT-IBM Watson AI Lab)的研究人員想到了用AI識別AI。
他們開發了一種叫做“巨型語言模型測試器”(GLTR)的新工具,用于識別人工智能生成的文本。其辨別原理基于:人工智能是利用文本中的統計模式來自動生成文本的,而不考慮單詞和句子的實際含義。也就是說,如果一篇文章中的用詞都是可預測的,該文章就極可能是由人工智能寫的,而GLTR可以標注出文章用詞是否可預測。
開發最厚的盾,就要用最強的矛來測試。前一陣子,埃隆馬斯克參與創立的AI研究機構OpenAI推出了一種算法,可以自動生成真實度極高的段落。只要在該算法的“學習模式”中輸入海量數據,該算法就可以統計詞頻,組合高頻詞,生成新的段落。而哈佛大學的團隊正是用Open AI公開發布的代碼為基礎,發明了GLTR。
GLTR可以根據詞頻,標明最可能出現的單詞搭配。最易預測的單詞是綠色的,較難預測的是黃色和紅色的,最難預測的是紫色的。當對Open AI編寫的算法所生成的文字進行測試后,發現大部分單詞都可預測;而人類寫出的新聞和科學摘要文字搭配更多樣。
那么,什么樣的用詞才是AI無法模仿的“人來之筆”呢?澎湃新聞記者將《哈姆雷特》中膾炙人口的段落放進該工具中檢索。