Skip to content

最早出發的中國大模型創業者:“貧窮限製了我們的想象力”

周明是在國內 AI 市場溫度降到穀底的時刻決定創業的。那是兩年前,2020
年底,他考慮辭去微軟亞洲研究院副院長的工作,很多朋友勸他別出來,但他很堅定地要開始大模型創業,認為
“大模型未來會成為某種基礎設施”。

這之前 6 個月,OpenAI 發布了 GPT-3,在人工智能領域引起關注,但尚未形成去年底 ChatGPT
發布後大模型機會已至的共識。

不像一些熱潮中加入的創業者那樣願意談 “終局”,周明在接受《晚點 LatePost》采訪時,一再強調的是
“公司要活下來”。他給出的商業前景沒有那麽 “性感”。他認為對國內創業者而言,更靠譜的是 2B 的慢生意。

他笑著承認,“有 2C 誌向的人,大概看不上做 2B 的人”。他認為大模型 2C 創業是無止境的 “軍備競賽”,不確定性很大,2B
更務實。

務實的背後是他始終受製於資源不足。

周明創立瀾舟科技時,國內 AI 創投活動正處於冰點。他慶幸自己沒有再晚一年從微軟出來。自 2019 年以來,中國 AI
領域的創投熱度一直在下降,去年到了最低穀。據 IT 桔子,截至 2022 年 11 月,中國 AI 領域一級市場融資總額比 2021
年同期下降 61%。

一成立,周明和瀾舟就遇到了冰冷的市場環境,當時也少有人認可大模型的潛力。

資源受限也來自客戶習慣:中國不少大型企業,尤其是央國企有數據私有化的強需求。所以周明走訪了上百家國內客戶後,得到的反饋往往是:“你做大模型,我們也用不起。”

它們要把大模型部署到本地,這需要自己購買大量 GPU、建算力中心,至少得投入上千萬元人民幣。因此,周明一開始選擇做 10
億參數量級的模型,研發重點是如何用輕量級模型解決問題。直到 ChatGPT 教育了客戶,瀾舟開始加速研發百億、千億級別大模型。

資源不足還有時代印記。周明從 1980 年代就開始研究自然語言處理(NLP),參與研發了中國第一個中英機器翻譯係統
CEMT。那時算力很低,他每天想著如何節省內存。90 年代他去清華任教,申請到的科研經費仍然有限。1999
年加入當時剛成立的微軟亞研院後,他和團隊很長一段時間的重點也放在如何用小數據訓練出與大數據相仿的結果。

周明經常開玩笑說自己是 “貧窮限製了想象力”——他一直不敢想通用人工智能(AGI)會實現,直到 ChatGPT 爆發,他才把 AGI
作為願景。在做自然語言處理研究將近四十年、創業兩年後,他終於有了適當的野心。

不過,在如今對更大機會、更新物種的暢想氛圍中,周明並不是最吸引資本和資源的創業者。不止一位關注大模型的投資人對《晚點
LatePost》強調創業者的年齡,一些人相信,過去的 NLP
研究範式已被完全顛覆,更年輕的創業者才能更好地理解新技術,把握新機會。

周明在 “知天命” 的年紀開始創業,習慣了關於年齡的質疑。年齡也帶來好處,就是經曆過周期的韌性。

“利用好天時地利,才是一個人的核心競爭力。”他說。

103295ccf750c2be4a9c70b13fe12578瀾舟科技創始人兼
CEO 周明

以下是周明和《晚點 LatePost》的對話:

01 普通人沒感覺,但AI界 “巨震” 早就開始了

《晚點》:你 2020 年底從微軟亞研院離職,決定做大模型創業,ChatGPT
引起震動是在這兩年之後。你為什麽更早看到了機會?

周明:我當時在微軟亞研院的團隊做了不少研究,看到大模型的用處。我認為再發展下去,它會成為某種基礎設施。

當時很多國內中小企業還沒感受到大模型是什麽、有什麽用。BAT
已經開始做大模型了,但還沒有對外釋放太多技術和服務。中國企業,尤其中小企業未來一定會用大模型。誰來做?這裏就存在一個創業機會。

《晚點》:大模型有用,你在當時是怎麽感知到的?

周明:其實 2017 年 Google 的 Transformer 出來後,NLP(自然語言處理)領域立刻就轉到
Transformer 上了。

我當時在微軟領導的自然語言組也馬上開始用 Transformer
做編碼、解碼,做各種大模型,那時叫預訓練模型,我們當時做了一個業界挺有名的模型叫 Unified Language Model
(UniLM)。我們的技術成功應用到多個產品,涉及微軟圖靈大模型、必應搜索的相關度提升、Office 的語法錯誤檢查、Azure
的機器翻譯等。

《晚點》:所以 2017 年的 Transformer 給行業帶來的震動比 ChatGPT 更大?

周明:如果未來頒圖靈獎,也許會頒給 Transformer 而不是
ChatGPT,因為圖靈獎一般鼓勵有長期廣泛影響的基礎技術。

普通人沒感覺,可是 AI 界當時全都轉用 Transformer。Google 也許覺得有點虧,Transformer
是它搞的,轟動一時的 BERT 也是它搞的,但現在摘果子的是 GPT。

(*BERT 是 Google 2018 年基於 Transformer 推出的大模型。)

《晚點》:Transformer 具體帶來了什麽變化?

周明:讓我們從頭來講。為什麽自然語言處理這幾年發展很快?“自監督學習” 是最重要的。

過去做自然語言的很多任務,比如中英翻譯,你得去互聯網上找中-英雙語語料,人工檢查確認,或者補充新的語料。不同任務還要標不同數據,標注成本特別大。再利用標注數據設計一個模型進行學習。這就是
“監督學習”。

GPT 大模型是 “自監督學習”,不需要提前標數據了,隻需要把大規模語料準備好,神經網絡會自己調整參數,學到一個穩定狀態。

做具體任務時,比如信息抽取或文本生成,需要再在模型上做一個微調,這需要標注針對這些任務的數據,但標注量比監督學習小很多。因為模型更聰明了,你給它舉幾個例子,它就會了。原來可能要標
1 萬條數據,現在可能 100 條就行了。

現在 GPT-4
連針對具體任務做標注這步都不需要了,它可以直接通過提示(prompt)告訴模型怎麽做任務,你提示得越詳細、準確,它完成得就越好。

《晚點》:Transformer 是如何實現自監督學習的?

周明:自監督學習,搞自然語言的人老早就想到了,隻不過沒有很好的編碼方式去實現。

NLP 領域近年的第一個大變化是在 2012 年 ImageNET
大火,大家認識到深度學習在圖像識別領域的強大能力,開始把深度學習用到 NLP 上。最初深度學習隻改造了原有 NLP
流程的一部分,主要是用它生成幫助機器理解語言的
feature(特征),比如在翻譯任務裏,詞的個數比例、兩個詞對譯的可能性等都是特征。但當時做不到大模型這樣,從輸入數據到輸出結果的端到端的訓練,主要是因為編碼能力和效率不足。

Transformer 的出現改變了這種情況,它帶來了目前最高效的編碼和解碼器,而且它可以並行計算,速度快。關鍵在於它引入了
“多頭自注意力機製”;並且在給詞語編碼時,除了語義信息,也加了這個詞在上下文的位置信息。簡單來說,這可以做到多維度抽取句子信息,最後把多層注意力模型和位置信息拚起來,編解碼能力大幅提升。

這後麵大家膽子就大了,BERT、GPT-1、2、3,再到 ChatGPT,一條線都出來了。

《晚點》:現在回看,這好像是一種挺自然的思路,為什麽 2017 年才實現?

周明:第一,算力是真提高了。這種編碼形式對算力要求極高,因為要搞這麽多注意力,每個詞的編碼位都很多,神經網絡層數也很多,這些都要耗費很大計算量。

第二是想象力增強了,這和算力提升也有關。以前一個頭的注意力都不敢想,太費空間了。

算力、算法和數據之間是互動前進的:算力強了,可以想得更多,算法強了,又可以把數據處理效率提得更高。

《晚點》:對做 NLP 多年的人來說,Transformer 是一個石破天驚的顛覆式創新還是基於已有技術的漸進式創新?

周明:顛覆式創新。它的每一個部分過去可能都有人想到過,但把它變成一個體係,成為神經網絡的基礎,這肯定是顛覆式創新。

《晚點》:你曾經想到了其中的什麽部分嗎?

周明:編碼,還有詞跟詞之間的相關度。也不能說是我想到的,我從 1985 年就開始做
NLP,當時就有人研究多特征編碼,研究能不能不管詞性、語種,都用統一的多維向量來編碼?

《晚點》:但是這麽多年來,你自己和其他人都沒能實現這些設想。

周明:貧窮限製了想象力。

我們那時機器太小,整天想的是如何節省內存。假設真有人往那兒想,你就會說
stupid,一下把內存外存全吃了,怎麽可能做出來?大模型是反過來的,想的是如何把算力充分調動起來,沒那麽在乎算力消耗。

而且過去我們隻有皮毛和初步想法。Transformer
則是一種全方位、多語言、多模態的大一統編碼精神,所有語種,包括程序代碼都能做,因為編碼機製是一樣的。

02 Ilya有底層創新能力,Sam把集成創新做到極致

《晚點》:在 Transformer 基礎上,OpenAI 做了什麽?

周明:持續努力,把數據清洗、規模、參數量、訓練速度……所有東西做到了極致。

《晚點》:Meta 的 AI 首席科學家楊樂昆(Yann LeCun)評價 ChatGPT “就底層技術而言,沒什麽創新”。

周明:他說的有一定道理。搞學術研究的人會說 ChatGPT 沒什麽了不起,它使用的技術點點滴滴散落在文獻中,多少在別處用過。

但搞工程、產品的人會覺得 ChatGPT 很了不起。它最大的功績是把各方麵做到極致,是集成創新的典範。

中國的集成創新能力相對薄弱,我們在點上的、應用上的創新現在做得不錯。

《晚點》:當年微軟亞洲研究院孫劍指導下做的 ResNET 屬於哪一類創新?

周明:它屬於 fundamental 的底層創新。ResNET 的光芒至今照耀整個神經網絡和 AI 領域,是微軟亞研院的驕傲。

(*ResNET 主要解決深度過大的神經網絡難以訓練的問題,由何愷明、張祥雨、任少卿、孫劍於 2015 年底提出,論文被引用超 12
萬次。“最強棋手”AlphaGo Zero 也用到這個技術。)

《晚點》:底層創新和集成創新,區別是什麽?

周明:底層創新,算法從頭到尾是自己提出來的。集成創新則像 “吸星大法”,集成所有優秀的算法、工程、界麵、交互能力,甚至 PR
能力。

大模型領域,你可以理解為 Transformer 是底層創新,ChatGPT 是集成創新的集大成者。

《晚點》:上一次以計算機視覺為主的 AI 熱潮中,中國科學家提出了 ResNET 這樣的成果,現在看語言大模型,為什麽從底層的
Transformer,到後來的 ChatGPT 都出現在美國?

周明:任何技術出現都有一定偶然性。

集成創新中國是比較薄弱,OpenAI 以外很多美國公司也薄弱。微軟也幫 OpenAI 做了很多事,OpenAI
聰明地把微軟的計算、資源、數據都用起來了。

《晚點》:那這個問題可以是,為什麽是 OpenAI?

周明:世界上有幾類人,有人就是要研究底層創新。有的是在底層創新上做應用,一般的應用是解決單項任務。還有的是做集成創新,把所有工作、應用、算法都在一個大平台上體現,形成裏程碑。OpenAI
恰好集成創新做得非常好。

中國應用創新比較厲害,集成創新相對薄弱,底層創新有一些突破。

《晚點》:底層創新來自何處,比如第一個想到 Transformer 的人是怎麽想到的?

周明:一是想象力,想象力又來自提問能力。

做應用創新的人不會去想
“怎麽對語言更好地編碼”,但能提出底層創新的人會想,這個問題不解決,後麵的東西很難推;他看到了問題的全部,同時能找到突破點。

二是,做底層創新需要數學功底。

《晚點》:OpenAI 的成功給你什麽啟發?

周明:它跟微軟是難得的天作之合。Sam 跟微軟 CEO 納德拉,跟馬斯克、黃仁勳都有很好的私交,有信任。加上 Sam
看了很多創業項目,有戰略定力,知道該往哪個方向走,再搭配一個首席科學家 Ilya,那個人就是很執著。

《晚點》:Ilya 難尋,還是 Sam 更難尋?

周明:中國有 Ilya,也有 Sam,但是這倆碰到一起不容易。中國也缺乏微軟這樣的公司。

Ilya 就是堅信某些技術能出奇跡。我們這個領域也有。

《晚點》:你覺得自己是哪類人才?

周明:我可能更像一個
architect,架構師。我有清晰的想法,能把不同人、資源架構起來,知道可以往哪走。但是讓我寫特別牛的算法,我寫不出來。

瀾舟的應用做得非常強了,模型、算法還算國內一流水平。我也看到有些創業團隊,不懂底層的技術,就直接做集成,可能欲速則不達。

《晚點》:你們是國內最早做大模型開發和應用實踐的公司之一,現在其他公司來挖人你怎麽辦?

周明:他們還沒往我們這看。我們不注重個人英雄主義,我們每個人發揮自己的優勢,不同的人互相支撐,能做出大項目。

大公司,包括新成立的公司,都在看國際人才。你在 OpenAI 幹過,哪怕就是掃地的,現在身價都很高。OpenAI
的沒找著,在微軟、Google 幹過也湊合,現在都這麽找人。

《晚點》:他們去美國挖人是明智之舉嗎?

周明:不論在國內挖還是國外挖,單純挖人都不是上策。多數人在一個公司裏隻做某一個螺絲釘,隻對問題有局部了解,本來就是個兵,你指望他到你這兒做帥,你想想你公司會往哪兒走?

03 2C更有雄心,但是2B更務實

《晚點》:你曾評價 OpenAI “雄心令人敬佩”,國內做 NLP 有些 “膽小”。什麽是 “雄心”?什麽是 “膽小”?

周明:OpenAI 從一開始就想做
AGI(通用人工智能),不鳴則已,一鳴驚人。國內外其他公司多數沒這個雄心,更多是想著把機器翻譯、搜索引擎等任務做好,不一定非要走到
AGI。

不過現在一些中國公司看到 OpenAI 的成功之後,雄心又太大了,認為我隻要有錢,隻要買得起機器,很快會達到或超越
ChatGPT。我覺得是不太可能的。

《晚點》:你自己也沒想過 AGI?

周明:我以前認為做不出來,現在我也不敢說瀾舟能做出來了,但有了這個
Vision(願景)。有和沒有區別很大:我們這一代也許能實現,也許實現不了,但大家每天都在逼近,要有這樣的雄心。

《晚點》:你怎麽定義 AGI?有人認為 AGI 已經來了。

周明:AGI 是一個遞進過程,你原來隻能做一個任務,後來變成 N 個任務、1 萬個任務,都用一個平台實現。

1 萬個任務是 AGI 嗎?也不是,它可能一直往上漲,越前麵的任務越容易被人用到,越往後的是越長尾的。

《晚點》:你這是從通用性角度定義 AGI,你並不考慮機器的認知或意識問題?

周明:我是站在生產力的角度,不是生產關係的角度。現在生產力都還沒做出來。

《晚點》:想法挺務實。你們具體怎麽做?

周明:我講究兩條腿走路,一個是 Vision,一個是 Stage(階段)。Vision
是終極目標,每個階段還有階段目標,讓公司有中間成果或實現收入。

所以我們既煉模型,同時也希望它能很快在某些領域落地,邊煉邊用,不能割裂,這二者存在互相反饋:煉模型時要考慮怎麽用,這樣會更聚焦,效率更高;用時要想好怎麽和
“最後一公裏” 結合。現在的創業團隊裏,同時有煉和用的能力的很少。

《晚點》:王慧文的想法也是 “大模型 + 應用”,他管這叫雙輪驅動。

周明:這說明他真是幹過大公司的。瀾舟的優勢是已經做了兩年,吃了很多苦,我們過去的模型已經有落地經驗,現在是做更大的模型去落地,我們多了一個
“反饋鏈”。

《晚點》:和這一批新公司不同,瀾舟 2021 年初做的是一個 10 億參數的模型,回頭看這是不是一種相對膽小的選擇?

周明:我剛出來創業時就想做大模型,可我調研了上百家單位,他們說你做大模型,我也用不起,你給我一個百億或千億參數的模型,我得買多少機器?中國央國企是要私有化部署的,我認為它們是中國
2B 最主要的客戶。所以這兩年,瀾舟做輕量化是走務實的路線。

《晚點》:客戶部署大模型的成本具體是多少?

周明:如果是訓練千億參數級大模型,追求訓練速度,要上千塊 A100,現在一塊 A100 約 10
萬元人民幣,這是上億元投入。如果接受訓練得很慢很慢,我覺得最少用 128 塊
A100,這也是上千萬投入,而且我不確認能不能訓練出來。

當然如果隻是本地部署推理,則不需要那麽多卡。推理就是模型訓好了來用。千億大模型要 8 到 16 塊
A100,也是一二百萬元的投入。如果這個模型支持的任務沒那麽重要,客戶還是覺得不合算。所以當時隻能做輕量化模型。

《晚點》:今年 3 月瀾舟的孟子大模型發布會上,你們說接下來要做百億、千億參數的模型。

周明:2B 的需求分布是:80% 是輕量化模型能解決的任務,如機器翻譯、信息收集、閱讀理解等;還有 20%
的任務需要多輪對話、複雜語義理解或意圖識別,比如客服、合同審核等,這隻能大模型來做。我們以前不碰這 20%,即使它客單價更高。

前兩年我們做的事是先拿 80% 的任務,積累能力,再逐步做更大的模型,去拿 20% 的大單。

《晚點》:ChatGPT 出來前,一定拿不到那 20% 的單?

周明:拿不到。你模型能力不夠,客戶也覺得你做不了。我要審時度勢,作為初創團隊,我得先靠 80% 的任務活著。

但 ChatGPT
一來,它教育了客戶,客戶想用了。我們原本的規劃,加上技術的進步、客戶的教育、同行的競爭,我們能力也更強了,萬事俱備,我就應該做這個(千億參數大模型)。

《晚點》:現在做百億以上參數規模的大模型,企業客戶會不會還是用不起?

周明:一是更大、更重要的任務有更大的預算;二是按照摩爾定律,機器每 18
個月性能高一倍,價格低一倍。當然現在中國是被美國限製了芯片。

《晚點》:你一開始就在調研企業客戶,為什麽不考慮做 2C?

周明:2C 可能成就偉大公司,2B 節奏慢,但是更務實。有 2C 誌向的人,大概看不上 2B 誌向的人。

但大模型 2C 在中國很難,我私下以為,可能是一條不歸路。首先現在好多人沒明白 C 和 B 的區別,他覺得我把 ChatGPT
抄出來,將來兩條路全可以做。

實際上 2C 更需要 AGI,要把各種功能放在一個通用引擎上,不能翻譯一個 App,寫作一個 App,一堆
App。這就要把兩類能力——聽懂人話,即語言理解的基礎能力,和做事,即解決各種任務的能力——放在一個模型裏。相應地,模型參數規模必須大。ChatGPT
參數量已到了 1750 億,未來還會更大。做 2C ,未來就是一個不斷增加參數規模、數據量和機器的軍備競賽,可能一直被 OpenAI
壓著走。

第二,國內 2C 很難直接找用戶收到錢,而且監管比較嚴。

其實還有第三條路,就是 2B2C,類似 OpenAI 把 GPT 的能力嵌入微軟的標準產品,如 Bing 或 Office
裏。這條路得有機緣,要找好合作夥伴。

《晚點》:瀾舟現在是重點 2B,考慮 2B2C,不碰 2C?

周明:我們也做 2C,但是是為了獲客。2B2C,我們已和一家大型通信廠商合作,去服務它的客戶。

《晚點》:未來更追求通用性的 2C 大模型會碾壓更小的模型嗎?

周明:在具體任務上,相對小的模型,加上更好的微調和特定領域的數據,會超越通用大模型。另外還有成本,對很多場景來說,客戶需要便宜和夠用。

《晚點》:如果把未來通用大模型做到公有雲上再 2B,就可以平攤掉小任務的成本。

周明:央企國企的很多業務出於數據安全考量,一般不會用公有雲,我認為這個形勢大概未來十年不會變。

《晚點》:這給 2B 帶來一個問題,你們能用客戶數據幫助優化模型,形成數據飛輪嗎?

周明:國內的行業數據飛輪效應很難建立,央國企的數據、訓練出來的模型也不是你能帶走的。當然這對所有公司都一樣,大家都在一個起跑線。

人左右不了局勢,隻能適應局勢。中國的 SaaS(軟件即服務)沒有美國普及。公有雲和 SaaS
有一天可能會迸發,在這之前要積累和保留能力,等待未來的變化。

《晚點》:變化可能來自哪兒?

周明:在於自己先強起來,從不能做到能做,然後等待一些外部關係調整,包括看看出海可能,不停尋找新的活下來的機會。

我出生在比較窮苦的家庭,從小各種惡劣環境都經曆過,所以不怕吃苦。我覺得事情每天都在變好。

《晚點》:相比上一次 AI 熱潮,中國和世界的差距是拉大還是縮小了?

周明:越來越好了。如果不是因為芯片的事,差距不會有看起來這麽大。

《晚點》:這次創業之初,你曾和人說希望做世界上最好的 NLP 公司。這受很多因素左右。

周明:一個人怎麽把天時地利用好,才是他的核心競爭力。

《晚點》:如果最終這個願望沒實現,是一個怎樣的遺憾?

周明:這就像機器學習,它需要正反饋,也需要負反饋,最終神經網絡才會越來越強。當你抱著一顆學習之心,人生的經曆,不管成功、失敗,所有人和所有事,都是你的學習,你的訓練語料。