Skip to content

文心一言,接上了全民“宮廷玉液酒” 的暗號

03b5405bcf201ef601606312a014e34d

圖片來源 @視覺中國

文 | 獨角獸挖掘機,作者 | 獸姐,編輯 | 角叔

2023 年開年,人工智能領域華麗返場,以 ChatGPT 為代表的生成式 AI 接棒此前的
AlpgaGo,帶著全新的故事重回世界舞台中央。

繼微軟投資的 OpenAI 實驗室上線聊天機器人 ChatGPT 僅 4
個月後,國內科技企業百度也推出了其基於新一代大語言模型的生成式 AI 產品 ” 文心一言
“。看著你方唱罷我方喝的情景,人們不禁發出這般感慨:世界終是變了,AI 時代已全麵襲來。

文心一言之於百度,甚至之於整個 AI 產業的價值,資本市場反應也比較積極:產品上線首日,百度美股漲幅接近 4%,最高漲幅一度超過
7%;次日,百度港股大漲 12.87%,一舉收複前幾個交易日失地。

都說 AI
大模型的研發是實力公司之間的博弈,盡管眾人皆知這是一條厚雪長坡,但想要做出一番成績,背後無不依靠參與企業憑借驚人的耐力做出持續的投入,同時還要對中短期內無法實現商業化有著較強的心理素質。

生成式 AI 已處爆發前夜,站在一個技術和商業化交匯的路口。而百度文心一言發布會後不到 24 小時,排隊申請文心一言企業版
API 調用服務測試的企業用戶已達 8 萬家,從這一數據不難看出,市場關注度的背後,其實也是整條產業鏈的蓄勢待發。

01生成式 AI 競技升維

大概在去年 9 月,知名投資機構紅杉資本曾發表了一篇名為《生成式 AI:一個充滿創造力的新世界》的文章。文中寫到,生成式 AI
讓機器開始大規模涉足知識類和創造性工作,這涉及數十億人的工作,未來預計能夠產生數萬美元的經濟價值。

站在大市場來看,各大互聯網企業在數據、算力、模型訓練上早已投入多年,這也決定了底層基建注定是其中實力企業的 ” 蛋糕
“。隻不過時至今日,生成式 AI
領域的競爭已上升至應用層,想要打開新的商業局麵,並達到真正的規模化,市場需要一個現象級的產品。

換言之,微軟的 ChatGPT、穀歌的 Bard
以及百度的文心一言幾乎在同一時間段內分別推出自家生成式對話產品,也可謂是恰逢其時。

盡管在這三家企業當中,百度推出文心一言的速度較其他兩家稍遜幾日,但市場仍對其抱有更大的期待——

在已站上賽場上的三家企業當中,百度是唯一一家中國互聯網大廠。大語言模型底層所需要的深度學習、自然語言處理(NLP)等 ” 根技術
” 無法短期速成,需要多年持續的投入和積累。相較於國內外眾多 AI 創業公司,百度對於技術態度始終立足於 ” 根深才能葉茂
“。

文心一言已基本做到 ” 人有我有,人有我優,以及人有我待優
“,尤其是大模型比較通用等優勢能力方麵,如文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成等等。

我們僅以文字創作、數理邏輯推算兩大核心能力為例來具體看一下。

根據李彥宏的現場演示,文心一言回答問題的準確性、流暢性已具備相當高的水準。而從 ” 以洛陽紙貴進行藏頭詩創作 “”
用四川話複述回複 ” 等操作來看,在一些中國文化語境下,文心一言在問題作答,甚至是對問題進行理解延伸等方麵,都較 GPT-4
等競品更優。

adbbad0506dbfd22272fab1a5ba9d068

《獨角獸挖掘機》給文心一言提了兩個比較帶梗的問題。” 宮廷玉液酒多少錢一杯?””
宮廷玉液酒的下一句?”,文心一言的回答都完全 get 到了。同樣的問題,GPT-4
則一本正經將按照白酒發酵給出解答。

文心一言更懂中文是有據可依的。

作為國內最大搜索引擎,百度每天接受數十億用戶的搜索請求,以及其他百度移動生態 APP
的訓練,超全的知識圖譜讓百度在問答和內容生成領域享有得天獨厚的優勢。某種角度上,文心一言也是搜索業務的曆史進階。

此外,文心一言的數理邏輯推算表現同樣令人驚喜。李彥宏介紹道,”
文心一言大模型的訓練數據包括:萬億級網頁數據、數十億搜索數據和圖片數據、百億級語音日均調用數據,以及 5500
億事實的知識圖譜。”

數據規模越大,大模型越容易發生 ” 智能湧現
“,從而逐漸形成邏輯思維和推理能力,並在答題時將問題拆分成子逐步推理。這也是李彥宏向文心一言首次提問經典 ” 雞兔同籠 ”
時,文心一言甚至可以判別題目本身正確與否。

02轉守為攻,百度迎戰

當穀歌、微軟以及越來越多 ” 跑步 ” 進場的新選手們,紛紛都想要在生成式 AI
領域大展拳腳之時,一向低調的百度已悄然扭轉了姿態,轉守為攻,以一種更加積極的方式迎接這場新的競技——

經過不到兩個月的內測,文心一言正式上線,目前申請服務測試的企業用戶就已突破 8 萬家。

百度首席技術官王海峰在發布會上講道,百度IT 技術棧發生根本性變化即 ” 三層變四層
“,包括底層的芯片、深度學習框架、大模型以及最上層的搜索及其他應用,” 文心一言 ”
則位於模型層。百度也是全球為數不多的全棧布局且每層都有落地產品的公司之一。

通過 ” 文心一言
“,百度一方麵能夠讓上層應用更為智能化,從而在多個產業領域落地,推動商業化從而在多個產業領域落地推動商業化,另一方麵能夠給予底層芯片、學習框架以用戶反饋,不斷優化性能。

但需要提到的一點是,李彥宏和王海峰均在發布會上反複強調,大語言模型還遠未到發展完善的階段,有賴於通過真實的用戶反饋,未來會加速迭代速度。為了保證用戶體驗,文心一言目前采取的是
” 邀請測試製 “,後麵會逐步開放給更多用戶。

就這一點看,相較於 OpenAI 的 GPT-4,百度對創新技術的應用更加嚴謹。不久前,OpenAI
曾在其官網中公開承認:GPT-4 仍存在與早期 GPT 模型相似的局限性,它並不是 ” 完全可靠的 “,最新版本的 GPT 仍會 ”
幻覺 ” 事實並出現推斷錯誤。


在使用時應格外小心,特別是在容易出錯的語境下,具體的使用規則應根據具體需求來確定,例如人工審查、加強背景理解甚至完全避免高風險使用等規則。”
如果按照 OpenAI 這般陳述,換個說法則是人們使用 GPT-4 的時間成本、精力成本或並不低。

事實上,在推出 ” 文心一言 ” 之前,百度已推出了自己 AIGC 相關產品,如作畫平台 ” 文心一格 “。從用戶反饋來看,”
文心一格 ” 已做到了秒級出圖,同時對硬件設備的要求也不是很高。如今,” 文心一格 ”
功能全新升級,內容生成已從圖像走向了視頻。

當然,無論是百度的文心一言也好,還是 OpenAI 的 GPT-4,科技企業想要引領這條大模型差異之路絕非易事。

首先是高昂的現實成本。語音大模型的訓練階段大致分為三個:人工 ” 投喂 ”
數據進行標注;類似於獎勵模型,對輸出的內容進行排序和比較;強化學習,利用上一階段的內容升級。每一階段都是 ” 燒錢 ”
換來的,極高的資金門檻無形隔斷了絕大部分企業。

其次是待破的技術難關。通用 AI 必須具備更強的認知智能,這是目前製約 AI 取得更大突破、更廣泛應用的瓶頸,而 NLP
正是認知智能的核心。

不少業內人士認為,深度學習是經驗主義的一個新高峰,而這個領域的 ” 低枝果實 ”
總有摘完的一天。深度學習的下一個大的進展,應該是讓神經網絡真正理解內容,而唯有啃下更難啃的 NLP 等一些基礎研究,才能讓 AI
真正產生質變。

03為什麽說百度難複製?

作為國內搜索行業中的頭部企業,如今的百度已從過去較為單一的搜索業務不斷擴圍至內容信息、智能硬件、智能雲服務、自動駕駛等更廣泛的業務領域。如果按照規劃
” 文心一言將被整合至多個業務板塊之中 “,那這勢必將為百度帶來更多想象力。

文心一言發布會後,不少行業人士將 ” 率先 “” 創新 “” 突圍 ”
等溢美之詞送給百度,但在這些評價的背後,市場更看重的是那些被稱之為 ” 內驅力 ”
等方麵的東西,因為這才是一家企業跨越周期、實現進階的核心引擎。

有這樣幾組關鍵信息值得特別關注——

一來,早在十幾年前,百度就已在 AI 研究上不斷加碼,主張壓強式、馬拉鬆式研發,近十年研發投入累計超過千億元。2019
年,百度推出了文心大模型 ERNIE 1.0,時至今日,最新一代的 ERNIE 3.0 單日響應數十億搜索請求,和其他移動生態 APP
的大量訓練。

二來,基於百度的技術能力,生態外客戶及夥伴對於文心一言生態擁有較強的市場認知。據發布會上的數據,短短一個月內,已有超過 600
家合作夥伴(其中不乏藍色光標、掌閱科技、軟通動力等知名上市公司)宣布加入其中。這為文心一言未來商業化奠定了堅實的基礎。

三來,文心一言的定位是人工智能基座型的賦能平台,換言之,百度創新的意義並非隻是為自己打造出一顆推動新增長曲線的 ” 衛星
“,而是希望做千行萬業的 ” 陪跑者 “,通過技術輸出帶動 ” 獨創新不如眾創新 “,進而創造出更多的社會價值。

中信證券預計,” 文心一言 ” 在短期仍將聚焦迭代升級。中期維度,根據此前公司副總裁沈抖披露,公司預計在 5
月在百度雲平台開啟相關 API 的調用,後續商業化的前景值得期待。

隨著 AI
創新不斷深入,全球科技產業正迎來一場前所未有的巨變,在這波技術浪潮中,語言大模型成為了新的引擎。文心一言等大型預訓練模型的問世,讓人們見證了
AI 在 NLP、CV 等多領域所取得的重大突破。

更深一層涵義上,這場變革已不僅僅局限在技術層麵,或多或少正在重塑人類與機器之間的關係。AIGC 大航海時代已全麵來臨。