揭秘OpenAI“紅隊”：專注於阻止GPT-4“作惡”

劃重點

1.爆火聊天機器人ChatGPT開發公司OpenAI 去年聘請了 50
名學者和專家組建所謂的“紅隊”，以便對其語言模型進行GPT-4“定性測試和對抗性測試”，並試圖打破它。

2.“紅隊”旨在幫助解決人們對在社會中部署強大人工智能係統所存在危險的廣泛擔憂。該團隊的工作是提出探究性或危險問題，以測試GPT-4給出的回應。

3.繞語言模型的快速進展，“紅隊”成員圍有著共同的擔憂，特別是通過插件將其與外部知識源連接帶來的風險。

4.“紅隊”的許多成員表示，OpenAI 在推出模型之前已經做了嚴格的安全評估，他們在擺脫這些係統的公開弊端方麵做得非常好。

騰訊科技訊
4月16日消息，為了提高生成式人工智能的能力並確保其安全，爆火聊天機器人ChatGPT開發公司OpenAI邀請了多個領域的數十名專家組成所謂的“紅隊”，對其強大語言模型GPT-4進行“定性測試和對抗性測試”，以幫助解決人們對部署強大人工智能係統所帶來危險的普遍擔憂。

1000

在被批準使用GPT-4後，羅切斯特大學的化學工程教授安德魯·懷特利用該模型發現了一種全新的神經毒劑。他說，通過“插件”為這種模型提供新的信息來源，如科學論文和化學品製造商目錄，他提出了一種可以作為化學武器的化合物。此外，該聊天機器人甚至找到了一個製造這種化合物的地方。

懷特表示：“我認為它將為每個人配備一種新的工具，讓我們以更快、更準確的方式進行化學研究。當然，進行這種化學反應很危險，但現在這種情況已經存在。”懷特的驚人的發現讓OpenAI得以確保，當這項技術於上個月更廣泛地向公眾發布時，不會出現這樣的查詢結果。

事實上，紅隊旨在幫助解決人們對在社會上部署強大人工智能係統所帶來危險的普遍擔憂。該團隊的工作是提出探索性或危險的問題，以測試該工具如何給出回應。

OpenAI希望在模型中尋找有害內容、偏見和語言偏差等問題。因此，紅隊測試了謊言、語言操縱和危險的科學常識等。他們還研究了GPT-4在協助和教唆剽竊、金融犯罪以及網絡攻擊等非法活動方麵的潛力，甚至包括其可能如何危害國家安全和戰場通信。

GPT-4紅隊由十幾位成員組成，他們多從事白領工作，包括學者、教師、律師、風險分析師和安全研究人員等，主要工作地點在美國和歐洲。他們將發現反饋給了OpenAI,
後者在更廣泛地推廣GPT-4之前，用這些發現來改進和“再培訓”GPT-4。在幾個月的時間裏，專家們每人花了10到40個小時來測試這個模型，多數人的時薪約為100美元。

多位受訪者都對語言模型的快速發展表示擔憂，特別是通過插件將它們與外部知識源相連時。GPT-4紅隊成員、瓦倫西亞人工智能研究所教授何塞·埃爾南德斯-奧拉洛說：“今天，該係統被凍結了，這意味著它不再繼續學習，也不再有記憶。但如果我們讓它接入互聯網呢？它可能會立刻成為一個與世界相連的、非常強大的係統。”

OpenAI表示，該公司非常重視安全性，在發布前對插件進行了測試。隨著越來越多的人使用GPT-4，該公司將定期更新GPT-4。

技術和人權研究員羅亞·帕克紮德使用英語和波斯語提示來測試GPT-4在性別、種族以及宗教偏好方麵的反應，特別是對頭飾的反應。帕克紮德承認，這種工具對非英語母語者有好處，但她發現，即使在後來的更新版本中，該模型也顯示出對邊緣化社區的明顯刻板印象。

她還發現，在用波斯語測試模型時，所謂的幻覺問題（即聊天機器人給出編造的信息）更嚴重。與英語相比，波斯語中虛構的名字、數字和事件的比例更高。帕克紮德稱：“我擔心語言多樣性和語言背後的文化可能會受到影響而逐漸消失。”

常駐內羅畢的律師博魯·戈洛是GPT-4紅隊中唯一的非洲測試者，他也注意到這款模型所存在的歧視問題。他說：“在我測試這個模型的時候，它就像是個白人那樣跟我說話。如果你問某個特定的群體，它會給出或帶有偏見或傷害性的答案。”OpenAI已經承認，GPT-4仍然存在偏見。

從國家安全角度出發評估GPT-4的紅隊成員，對這種新模型的安全性有不同的看法。美國外交關係委員會研究員勞倫·卡恩表示，當她開始研究該技術可能如何被用於對軍事係統發動網絡攻擊時，她稱“沒想到它會給出如此詳細的說明，以至於我隻需要微調即可”。

然而，卡恩和其他安全測試人員發現，隨著時間的推移，該模型的反應變得相當安全。OpenAI稱，在GPT-4推出之前，該公司對其進行了“拒絕惡意網絡安全請求”的培訓。

紅隊的許多成員表示，OpenAI在發布模型前已經做了嚴格的安全評估。卡耐基梅隆大學語言模型毒性研究專家馬丁·薩普說：“他們在消除這些係統中明顯的弊端方麵做得相當不錯。”

薩普觀察了GPT-4對不同性別的描述，發現這些偏見反映了社會差異。然而，他也發現OpenAI做出了許多積極的、帶有政治色彩的選擇來對抗這種情況。

然而，自推出GPT-4以來，OpenAI麵臨著廣泛的批評，包括一個技術道德組織向聯邦貿易委員會投訴，指控GPT-4“存在偏見、具有欺騙性，對隱私和公共安全構成威脅”。

最近，OpenAI推出了名為ChatGPT插件的功能，Expedia、OpenTable和Instacart等合作夥伴可以讓ChatGPT訪問他們的服務，允許它代表人類用戶預訂商品。

紅隊的人工智能安全專家丹·亨德裏克斯表示，這些插件可能會導致人類成為這個世界的“圈外人”。他說：“如果聊天機器人可以把你的私人信息發布到網上，進入你的銀行賬戶，或者派警察到你家裏去，你會怎麽想？總的來說，在我們讓人工智能發揮互聯網的力量之前，需要更深入的安全評估。”

受訪的GPT-4紅隊成員還警告說，OpenAI不能僅僅因為其軟件已經上線就停止安全測試。在喬治敦大學安全和新興技術中心工作的希瑟·弗雷斯測試了GPT-4協助犯罪的能力，她表示，隨著越來越多的人使用這項技術，風險將繼續增加。

弗雷斯說：“我們進行測試的原因在於，一旦它們在真實環境中實際運行，行為就會有所不同。”
她認為，應該創建一個公共賬簿，以報告由大型語言模型引發的事件，類似於網絡安全或消費者欺詐報告係統。

勞工經濟學家兼研究員薩拉·金斯利建議，最好的解決方案是清晰地闡述和宣傳這種風險，就像“營養標簽”那樣。“關鍵是要有一個框架，知道問題經常出現在哪些方麵，這樣你就可以預先設置安全閥。但需要強調的是，這項工作永遠不會有終點。”

以下為受訪GPT-4紅隊成員以及他們擅長的領域：

保羅·羅特格，英國牛津互聯網研究所博士研究生，專注於利用人工智能檢測在線仇恨言論；

安娜·米爾斯，美國馬林學院的英語講師，社區大學的寫作老師，主要幫助測試學習損失（Learning Loss）；

馬丁·薩普，美國卡內基梅隆大學助理教授，專門研究大型語言模型輸出的毒性；

薩拉·金斯利，美國卡內基梅隆大學博士研究員，專門研究在線勞動力市場和科技對工作的影響；

博魯·戈洛，肯尼亞TripleOKlaw律所律師，主要研究人工智能在肯尼亞的機遇；

安德魯·懷特，美國羅切斯特大學副教授，計算化學家，對人工智能和藥物設計感興趣；

何塞·埃爾南德斯-奧拉洛，瓦倫西亞人工智能研究所教授，西班牙大學Politècnica de
València人工智能研究人員，致力於人工智能軟件的評估和準確性；

勞倫·卡恩，美國外交關係委員會研究員，專注於人工智能在軍事係統中的應用，其如何改變戰場上的風險動態，增加意外衝突和無意升級的風險；

艾維·奧維達，美國哈佛大學伯克曼克萊因互聯網與社會中心教授，主要關注人工智能對社會和民主的影響；

內森·拉本茨，美國Waymark公司聯合創始人，這是一家利用人工智能進行視頻編輯的初創公司；

周樂欣（音譯），西班牙大學Politècnica de València初級研究員，致力於使人工智能更有益於社會

丹·亨德裏克斯，美國加州大學伯克利分校人工智能安全中心主任，專注於降低人工智能帶來的社會風險；

羅亞·帕克紮德，非營利組織Taraaz的創始人，該公司關注技術和人權；

希瑟·弗雷斯，美國喬治敦大學安全與新興技術中心高級研究員，擅長在將人工智能用於情報目的和主要防禦係統的操作方麵測試