Skip to content

體驗完百度的文心一言,我隻能說:它膽子夠大

3 月 16 日下午 2
點,百度北京總部的發布廳內,李彥宏邁著急促的步伐走上台,和大家公布了最近一段時間備受關注的產品——文心一言。

盡管這位科技巨頭創始人,登過《時代》周刊封麵,見過無數大場麵,但發布會中,他的神態裏都透露了些許緊張和局促。

06430e92a73559e68eced8785cba8c99

有人滿懷期待,但也有很多人,隻是單純想看它出醜。

bad3322f52f992ff805b3ca33a7927a9

會上,百度共在 5 個場景下,展示了文心一言的能力。

在文學創作方麵,文心一言可以總結出《三體》內容,也可以在哲學角度續寫《三體》。

在商業文案創作這塊,它可以根據公司的業務類型取名,生成 Slogan ,以及撰寫幾百字的新聞稿。

dd30c49e020c8559e1622dfe5ff958cf

同時,它也可以做一些數理邏輯推算,比如雞兔同籠,還可以判斷出題目錯了。

除此之外,文心一言可以給用戶反饋圖像,語音和視頻。

比如它可以為 2023
世界智能交通大會創作一張海報,也能用四川話回答你的問題,甚至是生成視頻。不過,想實現這些功能其實並不難,百度做的也許就是把這幾項服務融合了一下。

fcef5f65695e463a3aee32d62e29920b

可惜的是,發布會上所有素材都事先錄好的,並非現場實操,所以對於文心一言的真實能力,很多人都表示懷疑。

我們先測試了一些日常問題:如何做一份好吃的鬆鼠桂魚?

這是文心一言的回答。

7f1fb5cbe1a4110985f1e237dde40c0b

這是 New Bing 的回答。

46b58d6f98e7e876bbcb7d758e5a1d0a

雖然我們沒有時間測出誰的菜譜味道更好,但能看出百度文心一言的回答要優質一些。它按照標準的菜譜格式,分別給出了備料,步驟以及注意事項。

隨後,我們又問了一個經典的帶有思維陷阱數學問題:一個青蛙掉到了一個 10米深的井裏,它每天晚上向上跳 3 米但會滑下來 2
米,請問他第幾天能跳出井裏?

文心一言的回答是 8 天,這是正確答案。

afd281f96c5572de85fc516593127f2f

而 New Bing 的回答是 5 天。

3a7d309be9bb04efa40f4df9b446b36c

但 New Bing 一共有三種模式,在切換了精確模式後,New Bing 也給出了正確回答。

6f8cdb41c2f8241643b663ccfa6dd94c

接著,我們測試了大家比較關心的敲代碼能力,讓它們幫忙寫了一個漸變色按鈕的 CSS 。

這是文心一言給的代碼。

d7d291467868e38e08d82d20dfb677f7

在實測後發現可以跑出來,但它把“漸變色”理解成了鼠標指上去後,顏色發生變化。

6e83dd756d0bbfe16d3a745670a9af35

而 New Bing 給出的代碼顯示,它成功理解了漸變色。

134b45b11cb68c7dc0dd160af9abd856

後來,我們又測試了取名, New Bing 給的是:麻晨曦、麻晴雯、麻璿璣、麻雲舒,似乎挺有新意。

18b6497ace571bacc22cb8dd346c4e32

但文心一言的建議,說實話,我一眼就覺得好像在“中國新生兒最熱姓名”裏看過。。。

0148767f6e09d5ac2202a47b3b21aac3

隨後,我又提了一些節選自弱智吧的問題,測試下他們的“智商”。

比如:把加特林從冰箱拿出來算冷兵器嗎?

兩者都講解了什麽是冷兵器後,給出了正確答案:不是。

ee704f7300aa06344a0370179723457f

6d96fa487d75121f1deded4cd2f62e8d

我們又接著問了另外一個問題“為什麽貝多芬不出新歌了?”

New Bing 在簡單介紹後,回答因為已經去世 200年了。

08363aac9e366b687571dbee11b85b24

但文心一言似乎陷入了圈套,分析了一堆可能導致貝多芬不出歌的原因。。。

657f57a1b859c6b273ea0aa6ddcc7b6e

當然,測試 AI 智商肯定離不開數學題:請用 1 , 2 , 3 , 4 四個數字計算 24 點,每個數字隻能用一次。

8608ff591335a2f9cf1fc21e1bc271ad

後來我們又測試了一下,雖然這次不燒了,但不知道它在回答什麽東西。

f9a903572c5cf46551bd56c1a6760ff6

這是 New Bing 的回答。

a8127b53d3c823905bd3bf24dfb51b2d

接著對於中文互聯網黑話的理解能力,我們也測試了一下,但讓人失望的是,這方麵文心一言表現還不如 New Bing 。

比如雞你太美的梗,它並沒給出一個滿意的答複。

5a1b6e3247ccdbcb629883abeed68e54

而 New Bing 的回答,雖然也有錯誤,但起碼比文心一言更接近答案。

8d7cfcff171dbbcc260312dfa37f3e4d

對於差評 925 的梗,文心一言可能因為訓練語料的原因,沒給到我們想要的答案,而是放出了一個非常古老的諧音梗。

2cde2b4d7e6d0c93551b2aaafcbfd5fc

New Bing 則近乎完美解釋了我們 925 的梗。

b50358641a0e7eafd8b12a84fd859c1b

在信息搜索的問題上,我們也進行了提問:理想汽車過去五個月銷量,請逐月列出。

文心一言的答案是:

190fa5eaaad45f6f93d0323c5f1b7579

New Bing 的回答是:

43e32b0f4465408bd57123208e4545ef

最後,我們測試了文心一言獨有的畫圖能力。

我們先讓它生成一隻刺蝟在敲鍵盤的圖片,這個效果算挺不錯的。

6463305658d4794566953d6f9cbc1462

但在讓它生成了一隻小馬拉大車的圖片後,我們顯然是高興早了,這 TM 是真馬車啊。。。

63fa624ccd12922cfa71ce26da4b00be

OK ,以上就是給大家做的文心一言測試。

其實這段時間,互聯網上大家對文心一言都帶著點嘲諷的味道,前兩天,微信群裏就流傳著一個嘲諷表情包。

53a2b0c2a3960e7b05035d1c3c4c1e72

甚至還有聊天記錄形式的段子,說一旦文心無法正確答複,要用員工頂上。( 明顯是假的 )

4eecdd4b6e3b7d33dc9b3bfe1bc72134

發布會直播間裏,質疑和嘲諷的彈幕也隨處可見。

的確,對比New Bing來說,文心一言表現是挺一般,不少方麵甚至可以用“拉”來形容。

百度自己也知道,文心一言還差了不少火候。

在測試中,它就像個不自信的小孩。不管答案怎樣,隻要你一否認,他就一邊向你承認錯誤,一邊保證自己會變得更好,給他點時間。

2bec026f3de1e5784cf7700e67300c32

說句實在話,差評君覺得這次百度,可以說是勇氣可嘉。

一方麵,雖然大廠們都在說自己搞了類似的東西,但是在 ChatGPT
如日中天的這會兒,百度還是敢頂住壓力,發布了文心一言。

而且,作為一家搞搜索引擎的,文心一言也很可能會顛覆自己的核心業務。畢竟咱們之前也和大家聊過,傳統的搜索引擎與其廣告模式,很可能會被類似的產品幹掉。

百度這波啊,多少是有股激流勇進的味道。

體驗完這波產品,我覺得百度最應該做的,還是盡快迭代,抓緊時間把用戶體驗拉上來。不然就現在這個狀態,別說是 GPT-4 和 New
Bing 了,擺到 GPT-3.5 麵前,還是有待增強。

至於咱們,也可以耐心一點,給這個初出茅廬的、不自信的小孩多一點時間。

萬一哪天,它突然就把事幹成了呢?