跳至正文

賽跑開始:中國能做出像GPT那樣厲害的AI嗎?

圖片來源 @視覺中國

文|矽穀 101,作者|何源清,編輯|泓君

OpenAI,是一個人工智能研究的實驗室,它是由非營利組織 Open AI inc 的母公司與一個盈利的子公司
OpenAI LP
組成。它的目標是實現通用人工智能,在實現這個目標的過程中,搞出了幾個模型,一個是我們之前的播客討論過的
GPT3,還有一個是最近帶火 ” 文字生成圖片 ” 的 Dall · E · 2。如果說 Google
搜索引擎開啟了上一個周期的印鈔機模式,下一代的巨頭是不是像 OpenAI 和 Stability 這樣的做 AI
底層模型的公司呢?

這輪由生成式 AI 主導的人工智能跟上一輪不太一樣的地方是,上一輪 AI 很多靠 to B 的大公司獲取收入,而 AIGC
的出現,不必像自動駕駛那樣做到萬無一失才可以應用,成立 18 個月的 Jasper.AI 就可以有 9000 萬美元的收入。

AIGC 是指 Artificial Intelligence Generated Content,簡單來說,就是用 AI
生成內容,比如 AI 生成圖片、生成文字、生成代碼、生成視頻。本期節目,《矽穀 101》邀請到了中國知名加速器 AIGC 負責人晉英傑
Jack 和大廠 AIGC 戰略胡家康,來聊聊他們對於中國和美國 AIGC 創業格局現狀的看法跟未來展望。

01文生圖火了,15 倍超募

《矽穀 101》:AIGC
方向特別火,有兩家創業公司,它是連續兩天都有新聞曝光,說他們拿了 1 億美元的融資。一個是 Stable
Diffusion 背後的母公司 Stability,它是拿了大概是 1.01 億美元,它的估值現在是 10
億美元。這家公司的創建時間也不太久。另外一個公司是叫做 Jasper.AI,它也是做 AIGC
這種文字內容生成的。他剛剛拿了 1.05 億美元的融資,現在的估值是 15 億美元。我們先討論一下為什麽說 AIGC
在這個時間點它這麽的火?

(來源於網絡)

晉英傑:最近正好在學習 Stable Diffusion,創始人是 Emad
Mostaque,是一個巴基斯坦裔,之前在倫敦求學,以前是一個對衝基金的經理。他預測未來 AI 是一個需要 Super
Data(超級數據), Super Talent (超級人才)和超強的算力支撐的一個屬於企業的一種資產。

就像 Open AI、穀歌,它們會擁有這樣的能力,所以他希望把這件事情做成一個開源的,讓世界有平等 AI
能力的機構,有點像一個去中心化的 Foundation Model(基礎模型)。

去年年底 DALL · E · 2 剛出現的時候 ,很多非 AI 背景的人開始關注到 AI 作畫,但是AI
作畫真正出圈或者瘋狂火起來的時候,是在今年。 Stability 的 Stable Diffusion 推出來之後的一個月, AI
作畫遍地開花。包括在 Photoshop 上出現的 AI 生成的功能。因為 Stable
Diffusion,它是從模型的權重上就完全開源,所有人都可以自己做部署、二次開發。而今天我們看到很多大模型 Foundation
Model(基礎模型)是沒有這樣開源的。

開始的時候就像模型的推理時間,隻能在 Nvidia GPU 上去做推理,可能需要 5 秒鍾,但是現在不同的社區的成員的努力下,在
Stable Diffusion 裏邊可以把它壓縮到 1.8 秒。也可以在 Apple 的 M1、M2 的 CPU,包括 Intel
的 CPU 上都可以去做推理。隨著用戶量的增加,他們開始做一些大企業的服務,包括獲取更多的這種數據。

這個增長速度是非常可怕的。這一輪他們據我了解獲得了 15 倍的一個 Oversubscribe(超額訂閱),對外估值講的是 10
億美元,但有人開到了 40 億美元的 Offer,還沒有進去。

《矽穀 101》:為什麽隻融 1
億呢?我不知道它們的模型是不是自己研究的,因為像這種大模型,它背後靠的是堆算力,是需要很大的成本去鋪算力資源的。因為我今天還在跟人聊,有人會覺得這是一個資金密集型行業,那它為什麽隻拿
1 億美元呢?

晉英傑:好問題。他們整個團隊是相當扁平的,團隊百人的人數裏邊也隻有一個 PhD ,他們的
Stable Diffusion Model 是跟慕尼黑大學的一個實驗室做出來的,包括今天也跟 Midjourney
這款非常火的文生圖的產品開發者一塊研究。因為它是開源的,所以它會跟大量的機構去合作,去堆這樣的模型。

Emad 他自己是放了很多錢進去的。Stability 背後是有 4000 張 A100
的算力,他們算力是非常夠的。而從學術研究的角度,他們會跟一些機構去合作,推一些開源的模型,所以這個階段可能還不需要那麽多的錢。但是我猜明年估值應該還能翻
10 倍,那個時候可能會融再 10 倍的錢了。

《矽穀 101》:MidJourney 的火爆,除了 Stable Diffusion,跟
DALL · E · 2 整個 API 接口的全麵開放是不是也有關係呢?

胡家康:對,我覺得是很有關係的。包括剛才晉英傑 Jack 也說過,大概是 Stable
Diffusion 在七八月火的時候,9
月份我們可以看到國內市場是已經出現了一大批創業公司,這些創業公司做的文字生成圖片的應用基本上都是基於 Stable Diffusion
做的。所以看到它的開放能夠驅動整個應用層的生態繁榮的增長,並且會驅動很多創新的應用出現。

比如 DALL · E · 2
推出的那一段時間,我們看到的文生圖的一些創意應用還比較少,但是在八九月份以來,我們看到了文生圖可以用在很多不同的場景,這也激發了非常多的想象力。而且我相信從第四季度開始,我們會看到更多創新的應用形態出來。

02為什麽長不出中國的 OpenAI

晉英傑:從你們角度,為什麽你們沒有去做一個千億的模型,你們去怎麽看這一點投入和產出?

胡家康:清華有一個團隊叫麵壁智能,出過一個大模型參數的榜單:顯示了隨著不同時間段、不同公司發了哪些大模型,他們的參數規模是怎樣的,其基於他們數據去做分析,可以看到幾個很明顯的趨勢:

第一,一個確實是大模型的參數達到了 5000 多億參數量級之後,大家都沒有再往上突了。今年 22
年的時候,新發的一些大模型,要麽就是在千億左右參數的規模,要麽就是可能針對某個細分場景做了一些的優化,要麽更強調跨模態,比如遊戲、強化學習、圖等等。為什麽會有這個現象?我個人理解,去提高參數的邊際收益其實已經相對沒有那麽大了,因為你想一下,從千億參數提到萬億參數,你所需要的算力規模的量其實是會比
10 倍量要需求更高的是。不是你對 10 倍的機器就能夠訓出 10
倍參數的模型,效果的提升其實是沒有相應的那麽顯著了,這是生成類任務。

第二,像 NLP
還有一類典型的任務是理解類任務,比如去做文本的分類,信息的抽取等等的。這類任務我們看到從百億到千億去跨越的時候,其實它的邊際效果的提升已經不太多了。所以我們真正去做產業應用的時候,到底是不是必須要用一個非常大參數的模型,目前其實是打一個問號的。

從下半年開始,一些新的機構加入這些戰場了,也可以說明這個領域確實是兩個特性:一是我們肯定是不需要太多家的基礎設施;第二,它是一個資金密集型的特性,並且它有比較強的規模效應,所以你在已經那麽卷的階段,你再去新切入市場,其實價值已經相應沒那麽大了。

《矽穀 101》:根據你剛剛的榜單,中國大模型參數訓練最多的是哪一家?

胡家康:根據公開資料的披露,目前中國廠商推出的大模型參數量最大的是阿裏的 M6
大模型,達到了萬億級別,但是它的萬億級別背後對應的它其實是用了一種稀疏化的模型的方式,很容易把參數堆上去,你可以理解為它的數字會比
GBP-3 的千億模型有虛高的成分存在。

其次就是一批千億模型,包括智源、清華的幾個實驗室、百度文心、華為的盤古大模型,也達到了千億的規模。去做生成類任務,其實千億是一個門檻。

《矽穀
101》:在中國做到千億模型,它大概花的比如服務器、顯卡的這些算力成本,大概是在一個什麽樣的量級?

胡家康:可能我們公司的數據不太好說,但是肯定是起碼得上千張卡規模。

《矽穀 101》:智源的模型跟百度的模型,他們的效果最後怎麽樣?

胡家康:這一類做文本生成的大模型,在中文領域的效果都是遠遠不及 GPT-3
的。背後可能有很多原因:

第一,本身對中文的理解和對英文的理解、生成,是兩個體係,中文的難度是更大;

第二,不管是 OpenAI 還是
Stability,他們都有一種更加創新與靈活的組織形式,其實是聚集了一種開放、利益互享的方式,聚集了一批頂尖的科學家一起去做貢獻,但是國內目前這個模式可能還沒有一個很成功的案例出來。對方相當於是以那種很小的杠杆可以撬動巨大的力量,但是國內可能還是依靠於各個大廠大型公司,自己的科研人員去做這個事情,再對比下來,難度還是有一點大的。

第三,還是在資源的投入上有區別。雖然國內的公司也投入了很大的資源在做這個事情,但是相比海外,比如
Stability 4000 張 A100 的卡的這樣一個量級的投入來,作為一個國內的大型公司,它很難去把這個故事給講圓的。

第四,GPT-3 2020 年推出之後,較快地形成了一個創業生態,一大堆產品去用它的 API
去得到用戶的反饋來優化模型。這個事情在國內其實目前以文本生成角度來說,還沒有形成一個可以和國外相媲美的應用生態。所以對於做技術的人來說,反饋和優化的空間也會相對的少一些,所以在這種技術迭代的加速度上,會比國外相對的落後一些。現在有很多的創業者進來,各類科技公司去提供很好的基礎設施,在這種正循環的促進下,有希望在明年看到國內能夠做起來類似海外的這樣一個應用生態起來的。

《矽穀 101》 :Jack
你要不要給大家介紹一下為什麽同樣大家都是一個千億級參數的訓練量,Open AI
它能把這事給做成了。為什麽它能夠吸引到整個行業比較頂級的科學家?

晉英傑:目前我看到了一個信息,OpenAI 能否在中國發展出來,或者是一家
AGI(通用人工智能)公司能否在中國發展出來,影響這件事情的要素在我看來會有三個:

第一個是人才的密度、高度;

第二個是資本的 goodwill(加持);

第三個是背後政策的一個支持。

從 2020 年開始,我開始尋找中國有能力做 OpenAI
的人。先去拜訪了一些老師,包括藤校的教授,大廠的大模型的一把手等等。但是會發現中國 AI
地位比較高的老師,也可能是我認知淺薄,感覺他們都有一點 懷疑的, OpenAI 300 個人大部分都不是
CS(計算機科學)的博士。中國在各個領域學術人才的交叉的密度可能還不太夠, Openness(開放程度)還不太夠。

比如像 OpenAI 的創始人 Sam Altman,還有他合夥人 Ilya Sutskever,他們都是 30
多歲,頂尖聰明的年輕人。在中國有這樣的視野 的年輕人,至少我遇到的還是蠻少的,可能人才上還是要比美國落後 3-5 年。

另外一方麵,從開放性 上,剛才我們提到 5000 億和 1000 億,為什麽沒有人再去堆 1
萬億了?剛才家康提到特別好的一點,你成本是非線性的,每個 GPU
之間的一個通訊成本會大幅度增加。怎麽去解這一點?或者從第一性原理上,它應該是什麽樣的?我們人腦有 860 億個神經元,有 1.7
萬億左右的連結。1.7 萬億對應我們模型的一個參數量,也就是 GPT-3 做了一個參數量是人腦 1/10 倍的模型。

如果我們真的想對標人腦的這種鏈接能力,沒準我們還真的需要一個 1.7
萬億參數的模型,你不光是需要從數據、算法層麵去做革新,你還需要從硬件方麵去做革新。怎麽讓 GPU
之間打破這樣馮諾伊曼架構的牆壁,需要腦架構,或者認知科學,或者腦神經科學相關的一些科學家跟模型的科學家老師聯合跨組,在大廠裏麵直接是跨部門的一種合作了。這方麵看到的還是相對少一些的。

在 OpenAI 裏邊就 300 個人,來自各種各樣的一些領域,化學的、生命科學的、物理學的、數學的,有頂尖的 CEO
和科學家去帶領著,都很年輕,裏邊分成很多組,這些組不單單是都去衝 AIGC
的,對於他們這件事情來說,風險是其實極高的,它落地的收益又是相對少的。

做 OpenAI
這家公司,美國是有一部分資本是有耐心的,微軟給他們的資金。國內很少有機構願意去賭,一個團隊兩年的時間,什麽商業化的東西都沒做出來,就做了一篇論文。但是這家機構就是為了
AGI(通用人工智能)一路走到黑。Deepmind 和 OpenAI
都是這樣的一個氣質。國內就會比如我要求你半年給我產生點東西,有一個什麽模型之後,我就立刻需要落地的一個營收回報來證明這件事情有價值。

《矽穀
101》:馬斯克當時說:你應該擔心人工智能的安全問題,因為它比朝鮮問題還要危險。他是怕人工智能作惡的這樣的一個初心。最開始
OpenAI,它在解決一個什麽問題?它想做通用人工智能。

所謂的通用人工智能就是人工智能在所有的領域都可以做得比人好,或者至少跟人能達到一樣的治理水準。關於這樣的一個願景,在業界跟學界,包括一直到今天是有非常多的爭議的。就像我知道有很多的教授,到現在都覺得通用人工智能的這種提法是有問題的,甚至有很多人就直接覺得馬斯克要做這件事情,是因為他不懂
AI,包括紮克伯格也是這樣懟過的。所以馬斯克懂不懂 AI 我們不知道。我們可能會專門花一期的時間去討論這件事情。

03生成式 AI:可生萬物

《矽穀 101》:AIGC 有很多 To B 的應用,To C
也很有想象力,很有想象力。還有一個特別小眾的領域的應用,《矽穀 101 》之前的一位嘉賓 Howie 提到,有一個考古學的教授發現
AIGC
在考古學裏麵太有用了。因為考古它的場景,它其實是一個不太清晰的發掘現場。但是他其實很需要根據現場去還原成一個清晰的、有過往想象力的東西,他發現用
DALLE2 的模型,就能更好地去幫他們看考古當時的場景是怎麽樣的,我還挺沒有想到的。

晉英傑:有意思,不隻是如此,Sam Altman 就聊到 AI
有可能的三個很關鍵的任務:

第一個是做科學家的工具,比如像 Alphafold;

第二個是解決每一個人日常的一些需求,比如 AI coding,做編程;

第三個就是 AI 自己演化成一個科學家。

<>藝術在我們看來是非常難的一件事情,但是 AI 做得很好;做一個科學家也是很難的事情,有可能 AI
也可以做好。我們今天去解決一些複雜的問題,比如阿爾茲海默綜合征,我們如果有足夠的數據的情況下,我會把它拆成一個個的子問題,在不同的學科裏邊尋找答案。每個科學家都會有一個自己的實驗記錄本,記錄我可能為什麽這裏用的公式,那裏邊用了這樣的一個物理學的原理,直到我們解開這樣一個科學的謎題。

《矽穀 101》:剛剛你們提到的, AI 可以去賦能科學家這件事情,它到底是 AI 還是
AIGC?因為比如 AI,它可以參與到製藥,它可以去探索蛋白質的結構,是就 Alphafold 做的那些事情,它是 AI 做的,它跟
AIGC 有沒有關係?

晉英傑:我們今天話題雖然是 AIGC,但是紅杉那篇文章的標題是 Generative AI:
A Creative New World。它不單單是生成內容,後邊的東西可以是萬物。
決定於你把什麽樣的模態放進去,你今天放代碼,我就生代碼;你今天放蛋白質三維結構,我就生蛋白質;你要是放科學推理,我就給你直接變成科學家。還是挺有意思的,我們可以往這一塊去討論。

《矽穀 101》:所以 AI
不僅僅可以生成文字、圖片、視頻,它也可以生成代碼或者萬物,就看我們想要它生成什麽。

《矽穀 101》:跟生成式 AI 相對應的是什麽?

胡家康:我覺得相對應的就是理解式
AI,因為我們一般會把生成和理解做一個對應。有點類似人的成長過程:一個小朋友剛誕生的時候,他就隻能去看到這個世界萬物是什麽樣的。他知道樹葉是樹葉,媽媽是媽媽,但是他無法表達,更無法創新。但是生成式
AI,它隨著逐步的發展,智能化程度不斷提高,它就有點像人類到了十幾歲的狀態,能夠去做演講,能夠去作畫,甚至能夠去產生更多的思考和創作。

《矽穀 101》:從你們個人的角度,你們相信通用人工智能可以實現嗎?

晉英傑:從我的角度,我還挺喜歡 John Carmack 說的那句話。John Carmack
就是之前 Oculus 的首席科學家,他是在領域裏邊很少的又懂遊戲,又懂 AI,又懂 VR 又懂圖形學的人。他帶著他的兒子在 2020
年去做了自己的一家 AI 公司,是今年爆出來的新聞,但是他從 2020 年就走了,去幹 AGI
了。那時候也有一波報道的,可能今天公司才成立,或者是正式對外招人之類的。

他最近說了一句話,他說:” 今天通往 AGI
的路徑可能已經存在於我們現在已有的人類的信息的各種各樣的教科書和知識庫裏麵了,隻不過我們還沒有以正確的方式把它們組合起來。”