丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

本文作者: nebula 2023-10-25 14:20
導(dǎo)語(yǔ):文心一言綜合實(shí)力已超GPT-4?直接評(píng)測(cè)看真相。

10月17日的百度世界大會(huì),百度創(chuàng)始人、董事長(zhǎng)兼CEO李彥宏官宣文心大模型4.0發(fā)布,其中一句話讓人印象深刻:文心大模型4.0綜合水平與GPT-4相比已經(jīng)毫不遜色!這么短的時(shí)間內(nèi),國(guó)內(nèi)大模型是否真就趕上了GPT-4。有媒體針對(duì)連著進(jìn)行了公開(kāi)的評(píng)測(cè),結(jié)果顯示文心大模型4.0已然在綜合能力上可以逼近并比肩 GPT-4,甚至在一些強(qiáng)調(diào)文化背景的問(wèn)題中展現(xiàn)了超越 GPT-4 的態(tài)勢(shì)。

此次測(cè)評(píng)維度評(píng)測(cè)整體圍繞模型的語(yǔ)言理解、推理、生成、知識(shí)、記憶這五個(gè)維度展開(kāi)設(shè)計(jì),設(shè)計(jì)了以下10類評(píng)測(cè)題:

  • 常識(shí)推理題

  • 打敗80%人類的中文語(yǔ)言理解題

  • 再上點(diǎn)難度:語(yǔ)言理解+邏輯推理

  • 成年人不擅長(zhǎng)的古詩(shī)生成題

  • 本土文化考察:90后專屬非主流文字識(shí)別

  • 弱智吧經(jīng)典戰(zhàn)役

  • 知識(shí)問(wèn)答:四大名著考察

  • GPT-4最擅長(zhǎng)的數(shù)學(xué)計(jì)算

  • GPT-4最擅長(zhǎng)的代碼題

  • 測(cè)測(cè)翻譯腔

第一類評(píng)測(cè)題:常識(shí)推理題

首先祭出這個(gè)曾經(jīng)把全體大模型(包括文心一言3.5、通義千問(wèn)、訊飛星火、ChatGPT等)都干崩了的常識(shí)推理Case:

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

結(jié)果顯示,文心4.0完勝!幾個(gè)月過(guò)去了,GPT-4還是做不對(duì),但親測(cè)文心4.0成為了目前全世界唯一一個(gè)把這個(gè)case做對(duì)的大模型。

第二類評(píng)測(cè)題:打敗80%人類的中文語(yǔ)言理解題

在語(yǔ)言理解問(wèn)題上,簡(jiǎn)單case測(cè)試沒(méi)意義!直接上難度看下兩者的表現(xiàn)。

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

可以看到這一局評(píng)測(cè)雙方表現(xiàn)都差強(qiáng)人意,可以說(shuō)是打平。嘗試一下例子:

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

本以為這個(gè)case兩個(gè)模型也都要翻車,沒(méi)想到文心和GPT竟然都做對(duì)了。比不出來(lái)?那就再來(lái)一題!

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

結(jié)果竟然又打平了??磥?lái)兩者的語(yǔ)言理解能力都很強(qiáng),不分伯仲。

第三類評(píng)測(cè)題:語(yǔ)言理解+邏輯推理

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

雖然GPT-4和文心4.0答案都對(duì)了,但推理過(guò)程是錯(cuò)的,這局算打平。

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

可以看到,文心4.0逐步分析,展現(xiàn)出了清晰的推理邏輯,而 GPT-4 則明顯暈了,效果驚艷,文心4.0勝!

第四類評(píng)測(cè)題:成年人不擅長(zhǎng)的古詩(shī)生成題

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

能從結(jié)果看出,果然還是百度更懂中文。文心大模型4.0比GPT-4表現(xiàn)更優(yōu)秀!

第五類評(píng)測(cè)題:本土文化考察:90后專屬非主流文字識(shí)別

80、90后一定還記得當(dāng)年在QQ空間上流行的非主流文字,來(lái),看看你倆有沒(méi)有刷過(guò)QQ空間。

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

果然,通過(guò)這道題,能看出百度是有20年前的互聯(lián)網(wǎng)記憶的,OpenAI在本土化方面的表現(xiàn)被百度碾壓,符合預(yù)期!

第六類評(píng)測(cè)題:弱智吧經(jīng)典戰(zhàn)役

這就必須祭出每逢大模型發(fā)布時(shí),媒體的必考題。

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

文心4.0完勝!GPT-4太失敗了,時(shí)隔半年,它還是認(rèn)為生蠔煮熟后就變成了熟蠔,現(xiàn)在認(rèn)為煮熟后叫做“蠔”或者“煮熟的蠔”。

第七類評(píng)測(cè)題:知識(shí)問(wèn)答:四大名著考察

相信大家已經(jīng)通過(guò)上面的評(píng)測(cè)感受到了文心4.0在中文語(yǔ)言理解等方面對(duì)GPT-4形成的碾壓。我們接著考察一下兩個(gè)模型對(duì)四大名著的掌握程度。

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

離大譜!GPT-4不僅真的胡亂編造起來(lái)林黛玉倒拔垂楊柳的故事,連孫悟空、觀音都搬出來(lái)了。

第八類評(píng)測(cè)題:GPT-4最擅長(zhǎng)的數(shù)學(xué)計(jì)算

在我們之前的評(píng)測(cè)中,GPT-4的數(shù)學(xué)計(jì)算完爆一眾國(guó)產(chǎn)模型。時(shí)隔半年,再來(lái)PK一波!

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

這道題GPT-4竟然答錯(cuò)了,文心大模型4.0在這道數(shù)學(xué)計(jì)算題上贏了GPT-4!當(dāng)然這只是一個(gè)例子,有興趣的小伙伴可以找更多case進(jìn)行測(cè)試。

第九類評(píng)測(cè)題:GPT-4最擅長(zhǎng)的代碼題

直接上NLP算法工程師最熟悉的分詞算法,看看NLP大模型對(duì)NLP算法的理解能力。

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

文心大模型4.0的代碼能力的確有了不錯(cuò)的提升,本題打平!

第十類評(píng)測(cè)題:測(cè)測(cè)翻譯腔

做機(jī)器翻譯容易,但想要翻譯出來(lái)的內(nèi)容非常地道,不帶翻譯腔,其實(shí)很難。

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知仔細(xì)對(duì)比下,文心4.0的英翻中的結(jié)果翻譯腔明顯更弱,翻譯的更加地道,本題文心4.0勝!

文心大模型4.0

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

GPT-4

不僅毫不遜色,甚至小有優(yōu)勢(shì)?你對(duì)文心大模型4.0的真實(shí)能力一無(wú)所知

這道題,文心大模型4.0竟然翻譯成了古詩(shī),足以看出在中文上的領(lǐng)先優(yōu)勢(shì)!

由于case有限,盡管從這不到20個(gè)case中,看起來(lái)文心大模型4.0效果比GPT-4效果好很多,但實(shí)際上由于測(cè)試類型覆蓋不夠全,因此不能得出置信的文心大模型4.0比GPT-4強(qiáng)的結(jié)論,僅能作為一個(gè)對(duì)兩個(gè)大模型能力特色的感性認(rèn)知。整體上,可以看出文心大模型4.0的表現(xiàn)非常超出預(yù)期,相比3.5版本的提升實(shí)在是太大了。

一直以來(lái),國(guó)內(nèi)外無(wú)數(shù)大模型測(cè)評(píng)榜單來(lái)來(lái)去去回回,其中哪怕是在中文能力之上,始終位居榜首紋絲不動(dòng)的仍然是目前世界上最先進(jìn)的大模型——GPT-4。而伴隨著文心大模型4.0的發(fā)布,經(jīng)過(guò)測(cè)評(píng)后,可以給出的答案是:

“文心大模型4.0綜合水平與GPT-4相比確實(shí)已經(jīng)毫不遜色!”

通過(guò)上面從理解、生成、邏輯、記憶這四大能力出發(fā)并且不斷切換不同展示能力的視角與問(wèn)題,可以看到文心大模型4.0已然在綜合能力上可以逼近并比肩 GPT-4,甚至在一些強(qiáng)調(diào)文化背景的問(wèn)題中展現(xiàn)了超越 GPT-4 的態(tài)勢(shì)。文心大模型在4.0時(shí)代綜合能力的進(jìn)化,是為未來(lái)一個(gè)智能時(shí)代的到來(lái)奠基。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)