不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

本文作者： nebula

2023-10-25 14:20

導(dǎo)語：文心一言綜合實(shí)力已超GPT-4？直接評測看真相。

10月17日的百度世界大會，百度創(chuàng)始人、董事長兼CEO李彥宏官宣文心大模型4.0發(fā)布，其中一句話讓人印象深刻：文心大模型4.0綜合水平與GPT-4相比已經(jīng)毫不遜色！這么短的時間內(nèi)，國內(nèi)大模型是否真就趕上了GPT-4。有媒體針對連著進(jìn)行了公開的評測，結(jié)果顯示文心大模型4.0已然在綜合能力上可以逼近并比肩 GPT-4，甚至在一些強(qiáng)調(diào)文化背景的問題中展現(xiàn)了超越 GPT-4 的態(tài)勢。

此次測評維度評測整體圍繞模型的語言理解、推理、生成、知識、記憶這五個維度展開設(shè)計(jì)，設(shè)計(jì)了以下10類評測題：

常識推理題
打敗80%人類的中文語言理解題
再上點(diǎn)難度：語言理解+邏輯推理
成年人不擅長的古詩生成題
本土文化考察：90后專屬非主流文字識別
弱智吧經(jīng)典戰(zhàn)役
知識問答：四大名著考察
GPT-4最擅長的數(shù)學(xué)計(jì)算
GPT-4最擅長的代碼題
測測翻譯腔

第一類評測題：常識推理題

首先祭出這個曾經(jīng)把全體大模型（包括文心一言3.5、通義千問、訊飛星火、ChatGPT等）都干崩了的常識推理Case：

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

結(jié)果顯示，文心4.0完勝！幾個月過去了，GPT-4還是做不對，但親測文心4.0成為了目前全世界唯一一個把這個case做對的大模型。

第二類評測題：打敗80%人類的中文語言理解題

在語言理解問題上，簡單case測試沒意義！直接上難度看下兩者的表現(xiàn)。

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

可以看到這一局評測雙方表現(xiàn)都差強(qiáng)人意，可以說是打平。嘗試一下例子：

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

本以為這個case兩個模型也都要翻車，沒想到文心和GPT竟然都做對了。比不出來？那就再來一題！

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

結(jié)果竟然又打平了?？磥韮烧叩恼Z言理解能力都很強(qiáng)，不分伯仲。

第三類評測題：語言理解+邏輯推理

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

雖然GPT-4和文心4.0答案都對了，但推理過程是錯的，這局算打平。

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

可以看到，文心4.0逐步分析，展現(xiàn)出了清晰的推理邏輯，而 GPT-4 則明顯暈了，效果驚艷，文心4.0勝！

第四類評測題：成年人不擅長的古詩生成題

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

能從結(jié)果看出，果然還是百度更懂中文。文心大模型4.0比GPT-4表現(xiàn)更優(yōu)秀！

第五類評測題：本土文化考察：90后專屬非主流文字識別

80、90后一定還記得當(dāng)年在QQ空間上流行的非主流文字，來，看看你倆有沒有刷過QQ空間。

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

果然，通過這道題，能看出百度是有20年前的互聯(lián)網(wǎng)記憶的，OpenAI在本土化方面的表現(xiàn)被百度碾壓，符合預(yù)期！

第六類評測題：弱智吧經(jīng)典戰(zhàn)役

這就必須祭出每逢大模型發(fā)布時，媒體的必考題。

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

文心4.0完勝！GPT-4太失敗了，時隔半年，它還是認(rèn)為生蠔煮熟后就變成了熟蠔，現(xiàn)在認(rèn)為煮熟后叫做“蠔”或者“煮熟的蠔”。

第七類評測題：知識問答：四大名著考察

相信大家已經(jīng)通過上面的評測感受到了文心4.0在中文語言理解等方面對GPT-4形成的碾壓。我們接著考察一下兩個模型對四大名著的掌握程度。

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

離大譜！GPT-4不僅真的胡亂編造起來林黛玉倒拔垂楊柳的故事，連孫悟空、觀音都搬出來了。

第八類評測題：GPT-4最擅長的數(shù)學(xué)計(jì)算

在我們之前的評測中，GPT-4的數(shù)學(xué)計(jì)算完爆一眾國產(chǎn)模型。時隔半年，再來PK一波！

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

這道題GPT-4竟然答錯了，文心大模型4.0在這道數(shù)學(xué)計(jì)算題上贏了GPT-4！當(dāng)然這只是一個例子，有興趣的小伙伴可以找更多case進(jìn)行測試。

第九類評測題：GPT-4最擅長的代碼題

直接上NLP算法工程師最熟悉的分詞算法，看看NLP大模型對NLP算法的理解能力。

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

文心大模型4.0的代碼能力的確有了不錯的提升，本題打平！

第十類評測題：測測翻譯腔

做機(jī)器翻譯容易，但想要翻譯出來的內(nèi)容非常地道，不帶翻譯腔，其實(shí)很難。

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知仔細(xì)對比下，文心4.0的英翻中的結(jié)果翻譯腔明顯更弱，翻譯的更加地道，本題文心4.0勝！

文心大模型4.0

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

GPT-4

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

這道題，文心大模型4.0竟然翻譯成了古詩，足以看出在中文上的領(lǐng)先優(yōu)勢！

由于case有限，盡管從這不到20個case中，看起來文心大模型4.0效果比GPT-4效果好很多，但實(shí)際上由于測試類型覆蓋不夠全，因此不能得出置信的文心大模型4.0比GPT-4強(qiáng)的結(jié)論，僅能作為一個對兩個大模型能力特色的感性認(rèn)知。整體上，可以看出文心大模型4.0的表現(xiàn)非常超出預(yù)期，相比3.5版本的提升實(shí)在是太大了。

一直以來，國內(nèi)外無數(shù)大模型測評榜單來來去去回回，其中哪怕是在中文能力之上，始終位居榜首紋絲不動的仍然是目前世界上最先進(jìn)的大模型——GPT-4。而伴隨著文心大模型4.0的發(fā)布，經(jīng)過測評后，可以給出的答案是：

“文心大模型4.0綜合水平與GPT-4相比確實(shí)已經(jīng)毫不遜色！”

通過上面從理解、生成、邏輯、記憶這四大能力出發(fā)并且不斷切換不同展示能力的視角與問題，可以看到文心大模型4.0已然在綜合能力上可以逼近并比肩 GPT-4，甚至在一些強(qiáng)調(diào)文化背景的問題中展現(xiàn)了超越 GPT-4 的態(tài)勢。文心大模型在4.0時代綜合能力的進(jìn)化，是為未來一個智能時代的到來奠基。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

nebula

運(yùn)營

發(fā)私信

當(dāng)月熱門文章

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知

不僅毫不遜色，甚至小有優(yōu)勢？你對文心大模型4.0的真實(shí)能力一無所知