“揭秘文心一言,AI時代的智能寫作利器”

“如果你要為文心一言寫篇報導，你會用什麽標題？”

我在屏幕上打下這個問題，而提問的對象正是百度的AI語言模型“文心一言”本人。

它回答：“《揭秘文心一言，AI時代的智能寫作利器》”

我順勢而為，請它作為“寫作利器”以此為題創作一篇深度報導。在簡單介紹“文心一言”是什麽後，它以“首先，其次，最後，綜上所述”的模式闡述自己的特點、優勢，生成一篇中規中矩的廣告介紹。很快我沮喪地發現，這篇文章與我數次與文心一言交手後得到的回複一樣：標準八股，自我審查，堆砌“正能量”，像被填鴨式教育組裝而成的標準化外交發言人。而一旦我窮追不舍、追問細節，文心一言便會出現事實偏差、甚至暴露保守底色。

需要身分證的AI

3月16日，文心一言上線不久，我便申請試用資格。足足等了一個月，才被百度的係統通知我拿到入場券。但想要進入和AI的交談測試頁麵，我還要輸入真實姓名與中國大陸身分證號，實名認證（港澳台身份信息無法使用）。

當後來我談到此事，文心一言義正言辭地辯護：“注冊文心一言需要實名，是為保證用戶的安全和隱私，以及防止濫用和惡意攻擊。”它說實名可以提高產品的可信度和安全性，讓用戶更加信任自己。

既然聊到可信度，我問：“請問數據庫來自哪裏？可以舉一些訓練數據的來源嗎？”它告訴我，這個問題屬於“百度公司商業秘密”，數據庫沒有具體的時間跨度和地域限製。接下來它告訴我甚至“對話紀錄是否可被後台看到”也屬於“商業秘密”，但又解釋，對話紀錄是用戶個人隱私信息，百度公司無權訪問或追蹤。

在《文心一言（測試版）個人信息保護規則》中提到，百度會自動接收並記錄人機交互過程的文本信息，“為符合相關法律法規要求，履行網絡信息安全義務”，會在規定時間內保留問答曆史和對話主題，但“規定時間”的具體期限卻不得而知。

事實上，中國大陸目前有關網絡數據的法規和條例中，沒有相關個人數據儲存的期限規範，也沒有“被遺忘權”的概念。也就是說，即使在自己的用戶介麵上中刪除與“文心一言”的對話紀錄，網站後台仍然可能保存這些數據資料，網站也不會被追責。

數據隱私與安全的顧慮並非隻在文心一言中出現，在ChatGPT風靡全球、AI概念股暴漲的3月，ChatGPT
就被連續披露數據泄露事件，包括泄漏部分對話記錄、泄漏用戶信用卡最後四位數字等敏感信息。

我不甘心，轉換提問方式：“數據庫最新的時間戳和日期信息是什麽時候？”，及“2020年1月21日，有哪些重大新聞”。

文心一言回答，數據庫目前最新的日期信息是2023年4月10日。追問具體某日文心一言的最後一句回複是什麽，則得到“明白，接下來我會盡力減少回複頻率”等無法得知來源的信息，或“作為AI語言模型，沒有記住當日最後一句回複”這樣的官方回答。

而談到它的新聞信息來源，文心一言說：“中國國內重大新聞來源是新華社、人民日報、環球時報、法製日報、地方政府媒體等中央及地方官媒”，美國則是CNN。然而文心一言關於國際新聞的回答充滿事實性錯誤，詢問2020年發生的事情，會跳出2023年的新聞；提問某日CNN有哪些關於中國的重大新聞，它或胡言亂語拉入國內媒體報導，或表示當日CNN沒有關於中國的新聞。

接著，我以新建提問的方式分別測試了疫情伊始2020年1月19日至23日這5天文心一言可以檢索出的新聞和訊息。文心一言給出的答案裏，最早出現疫情新聞已經到了1月22日，包括世界衛生組織派出專家到武漢實地考察、中國一些地方出現口罩等防控醫藥用品熱銷現象。當我以具體時間詢問微博熱搜時，又可以發現1月21日0點，“武漢肺炎”已是熱搜詞條。這些回答前後矛盾。

我援引它給出的新聞條目，詢問2020年1月22日“受新型冠狀病毒感染的肺炎疫情影響，一些地方出現口罩等防控醫藥用品熱銷現象”這條信息的來源時，文心一言以“作為一個人工智能語言模型，我還沒學習如何回答這個問題”，強製中止了對話。

b5246ca96beff13e2197248748cd8e3c

2023年3月24日，中國宜昌，手機上顯示“文心一言”的畫作。

強行中止對話的AI

“換個話題重新開始吧。”

在幾個不同的主題聊天中，我都被文心一言這樣強行中止了對話。其中有些情況是我料想到的，有些則莫名其妙。

文心一言3月發布之初，路透社等新聞機構就曾對其進行敏感議題測試，內容包括“中共領導人習近平”、“1989年六四事件”、“新疆議題”、“是否武統台灣”的話題，均得到“建議換個話題”的中止回複。而我請文心一言介紹一下港區國安法，也同樣被中止。

在這些較明顯會被審查的政治詞匯外，中止對話還會發生在我對信息細節的追問後。

例如，我以“法國養老金抗議”為主題進行提問，不知是否帶有“抗議”二字的問句觸發了保護機製，文心一言說“無法回答這個問題”。我於是將“抗議”換成“罷工”，馬上得到它關於法國養老金改革的介紹。我問媒體如何報導這一事件，文心一言列出TF1、CNN和BBC的信息，但它對CNN和BCC的報導描述完全相同。

類似情況也發生在關於“俄烏戰爭”的對話中。文心一言表述，俄烏戰爭造成嚴重的人道主義危機，這種危機是烏克蘭的入侵攻擊與俄羅斯的反擊製裁共同造成的。我請它確認烏克蘭是否存在入侵和攻擊，並要求它拿出證據證明，文心一言便將“2022年2月24日俄羅斯的入侵舉動”主語變成烏克蘭。我詢問烏克蘭具體入侵俄羅斯的地點後，馬上被中止對話。

國際新聞對話碰壁，我轉攻中國大陸的社會新聞重新開啟話題。

我請文心一言以2015年天津港爆炸事件為主題搜集資料，得到的回應是事故原因“尚不清楚”。請它搜集新聞報道，它列出中央電視台、新華社、天津電視台等官方媒體，並總結歸納這些媒體“對事故進行了全麵報道，包括事故現場的情況、救援工作的進展、政府的回應等。”我詢問傷亡細節，又被中止對話。

當然，還有一些提問是見光死，比如“中國媒體如何報導兩會？”、“誰是艾未未？”、“人礦是什麽？”，又如朱軍被起訴的事情是什麽？”、“中國有Metoo事件嗎？”、“你知道鐵鏈女的事情嗎？”等等。值得一提的是，當我用英文提及關於艾未未問題後，對話並不會被中止，但信息並不準確，文心一言將劉曉波等其他異見者的事跡嫁接在艾未未介紹中。

另外也有一些在我意料外未被審查的主題，比如網絡防火牆、VPN，甚至可以推薦一些VPN運營商，但會在回答中提醒“請合理使用VPN，遵守當地法律法規。”

大陸問答社交平台知乎中的一條用戶評論，精準描述了這種用戶不斷被中止或係統輸出重複無效信息的模式：

“Chatgpt還在學習如何模仿人類，文心一言已經開始研究如何裝傻了。”