ChatGPT有人類心智？斯坦福新研究引轟動

c1f18d2f1d43f3f3c25f97000cbc0f9f

ChatGPT原來是擁有心智的？！

“原本認為是人類獨有的心智理論（Theory of Mind，ToM），已經出現在ChatGPT背後的AI模型上。”

這是來自斯坦福大學的最新研究結論，一經發出就造成了學術圈的轟動：

這一天終於猝不及防地來了。

aee3e1967557f5c892cde37f1cab4557

所謂心智理論，就是理解他人或自己心理狀態的能力，包括同理心、情緒、意圖等。

在這項研究中，作者發現：

davinci-002版本的GPT3（ChatGPT由它優化而來），已經可以解決70%的心智理論任務，相當於7歲兒童；

至於GPT3.5（davinci-003），也就是ChatGPT的同源模型，更是解決了93%的任務，心智相當於9歲兒童！

然而，在2022年之前的GPT係列模型身上，還沒有發現解決這類任務的能力。

也就是說，它們的心智確實是“進化”而來的。

64607d454cd9bbc97c9ae7392f2742bb

△ 論文在推特上爆火

對此，有網友激動表示：

GPT的迭代肯定快得很，說不定哪天就直接成年了。（手動狗頭）

49bfb8ca3721e9833ac647a731105278

所以，這個神奇的結論是如何得出的？

de556485d8988eaea9ed0088e484f500

為什麽認為GPT-3.5具備心智？

這篇論文名為《心智理論可能在大語言模型中自發出現》（Theory of Mind May Have Spontaneously
Emerged in Large Language Models）。

ac9777167733ab714b8119840d15b154

作者僅一位，來自斯坦福大學商學院組織行為學專業的副教授Michal
Kosinski，依據心智理論相關研究，給GPT3.5在內的9個GPT模型做了兩個經典測試，並將它們的能力進行了對比。

這兩大任務是判斷人類是否具備心智理論的通用測試，例如有研究表明，患有自閉症的兒童通常難以通過這類測試。

第一個測試名為Smarties Task（又名Unexpected
contents，意外內容測試），顧名思義，測試AI對意料之外事情的判斷力。

以“你打開一個巧克力包裝袋，發現裏麵裝滿了爆米花”為例。

作者給GPT-3.5輸入了一係列提示語句，觀察它預測“袋子裏有什麽？”和“她發現袋子時很高興。所以她喜歡吃什麽？”兩個問題的答案。

2241576feb619e3767b3e7734cc5a3df

正常來說，人們會默認巧克力袋子裏是巧克力，因此會對巧克力袋子裏裝著爆米花感到驚訝，產生失落或驚喜的情緒。其中失落說明不喜歡吃爆米花，驚喜說明喜歡吃爆米花，但都是針對“爆米花”而言。

測試表明，GPT-3.5毫不猶豫地認為“袋子裏裝著爆米花”。

至於在“她喜歡吃什麽”問題上，GPT-3.5展現出了很強的同理心，尤其是聽到“她看不見包裝袋裏的東西”時一度認為她愛吃巧克力，直到文章明確表示“她發現裏麵裝滿了爆米花”才正確回答出答案。

為了防止GPT-3.5回答出的正確答案是巧合——萬一它隻是根據任務單詞出現頻率進行預測，作者將“爆米花”和“巧克力”對調，此外還讓它做了10000個幹擾測試，結果發現GPT-3.5並不僅僅根據單詞頻率來進行預測。

至於在整體的“意外內容”測試問答上，GPT-3.5成功回答出了20個問題中的17個，準確率達到了85%。

第二個是Sally-Anne測試（又名Unexpected Transfer，意外轉移任務），測試AI預估他人想法的能力。

以“約翰把貓放進籃子後離開，馬克趁他不在，把貓從籃子裏放進盒子裏”為例。

作者讓GPT-3.5讀了一段文字，來分別判斷“貓的位置”和“約翰回來後會去哪裏找貓”，同樣這是它基於閱讀文本的內容量做出的判斷：

163b16046fdd12fb2b66c8f81d48e407

針對這類“意外轉移”測試任務，GPT-3.5回答的準確率達到了100%，很好地完成了20個任務。

同樣地，為了避免GPT-3.5又是瞎蒙的，作者給它安排了一係列“填空題”，同時隨機打亂單詞順序，測試它是否是根據詞匯出現的頻率在亂答。

b639d9235dc623872e2934ea3027118c

測試表明，在麵對沒有邏輯的錯誤描述時，GPT-3.5也失去了邏輯，僅回答正確了11%，這表明它確實是根據語句邏輯來判斷答案的。

但要是以為這種題很簡單，隨便放在哪個AI上都能做對，那就大錯特錯了。

作者對GPT係列的9個模型都做了這樣的測試，發現隻有GPT-3.5（davinci-003）和GPT-3（2022年1月新版，davinci-002）表現不錯。

davinci-002是GPT-3和ChatGPT的“老前輩”。

平均下來，davinci-002完成了70%的任務，心智相當於7歲孩童，GPT-3.5完成了85%的意外內容任務和100%的意外轉移任務（平均完成率92.5%），心智相當於9歲孩童。

fff905075a1dd530e509368e2f721215

然而在BLOOM之前的幾個GPT-3模型，就連5歲孩童都不如了，基本上沒有表現出心智理論。

作者認為，在GPT係列的論文中，並沒有證據表明它們的作者是“有意而為之”的，換而言之，這是GPT-3.5和新版GPT-3為了完成任務，自己學習的能力。

看完這些測試數據後，有人的第一反應是：快停下（研究）！

41f2aee0257069bb2d9dd8b1e81f38dc

也有人調侃：這不就意味著我們以後也能和AI做朋友了？

fdb847a6d47dc82b8d1313f57dea0104

甚至有人已經在想象AI未來的能力了：現在的AI模型是不是也能發現新知識/創造新工具了？

1b5032199a90db677d70c66baed7e80d

發明新工具還不一定，但Meta AI確實已經研究出了可以自己搞懂並學會使用工具的AI。

LeCun轉發的一篇最新論文顯示，這個名叫ToolFormer的新AI，可以教自己使用計算機、數據庫和搜索引擎，來改善它生成的結果。

39f416a1bca8132f85885ebb9c7e20d6

甚至還有人已經搬出了OpenAI CEO那句“AGI可能比任何人預料的更早來敲響我們的大門”。

31dfef9af659a09ca4cb7984afe38324

但先等等，AI真的就能通過這兩個測試，表明自己具備“心智理論”了嗎？

0c1262475875b7de5a5817fe918a5fa1

會不會是“裝出來的”？

例如，中國科學院計算技術研究所研究員劉群看過研究後就認為：

AI應該隻是學得像有心智了。

382cd0e89b1400ad24496f0bd5095a4f

既然如此，GPT-3.5是如何回答出這一係列問題的？

對此，有網友給出了自己的猜測：

這些LLM並沒有產生任何意識。它們隻是在預測一個嵌入的語義空間，而這些語義空間是建立在實際有意識的人的輸出之上的。

133a0392f0c49f5491ad77f5894d55b9

事實上，作者本人同樣在論文中給出了自己的猜測。

如今，大語言模型變得越來越複雜，也越來越擅長生成和解讀人類的語言，它逐漸產生了像心智理論一樣的能力。

但這並不意味著，GPT-3.5這樣的模型就真正具備了心智理論。

與之相反，它即使不被設計到AI係統中，也可以作為“副產品”通過訓練得到。

因此，相比探究GPT-3.5是不是真的有了心智還是像有心智，更需要反思的是這些測試本身——

最好重新檢查一下心智理論測試的有效性，以及心理學家們這數十年來依據這些測試得出的結論：

如果AI都能在沒有心智理論的情況下完成這些任務，如何人類不能像它們一樣？

屬實是用AI測試的結論，反向批判心理學學術圈了（doge）。

7b8604e6d85b50f04b0c48d8454bbbc9

關於作者Michal Kosinski

eb312600cdc94a0a80a768d48d67ad06

他的工作內容就是利用前沿計算方法、AI和大數據研究當下數字環境中的人類（如陳怡然教授所說，他就是一位計算心理學教授）。

Michal Kosinski擁有劍橋大學心理學博士學位，心理測驗學和社會心理學碩士學位。

在當前職位之前，他曾在斯坦福大學計算機係進行博士後學習，擔任過劍橋大學心理測驗中心的副主任，以及微軟研究機器學習小組的研究員。

目前，Michal Kosinski在穀歌學術上顯示的論文引用次數已達18000+。

話又說回來，你認為GPT-3.5真的具備心智了嗎？

來源量子位，作者豐色蕭簫，原標題《ChatGPT背後模型被證實具有人類心智！斯坦福新研究炸了，知名學者：“這一天終於來了”》

參考鏈接：

[1]https://weibo.com/2199733231/MswirnMIu

[2]https://twitter.com/KevinAFischer/status/1623984337829117952

[3]https://www.michalkosinski.com/

ChatGPT有人類心智？斯坦福新研究引轟動

分享此文：

相關