丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

本文作者: 王悅 2023-12-25 18:19
導(dǎo)語(yǔ):研究結(jié)果表明,Gemini 綜合性能難敵 ChatGPT 。


最近谷歌發(fā)布的 Gemini 格外引人注目,其號(hào)稱是第一個(gè)在各種任務(wù)中可與 OpenAI 的 ChatGPT 相媲美的大模型。

報(bào)道顯示,Gemini 的“Ultra”版本在各種任務(wù)上都優(yōu)于 GPT-4,而 Gemini 的“Pro”版本則與 GPT-3.5 不相上下。

針對(duì)兩個(gè)當(dāng)紅炸子雞的較量,美國(guó)卡內(nèi)基梅隆大學(xué)近日展開了一項(xiàng)研究,深入探討了谷歌 Gemini 的語(yǔ)言理解和生成能力,并將其與 OpenAI 的 GPT 系列作了對(duì)比,得到了有趣的結(jié)論——谷歌 Gemini 的綜合性能與 ChatGPT 仍有較大差距。

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

論文地址:https://arxiv.org/pdf/2312.11444.pdf


一、Gemini 僅媲美 GPT-3.5 Turbo

CMU 的這項(xiàng)研究主要探討了兩個(gè)問題:

其一,對(duì) OpenAI GPT 和 Google Gemini 模型的能力進(jìn)行了第三方客觀比較,并提供了可重現(xiàn)的代碼和完全透明的結(jié)果;

其二,對(duì)結(jié)果進(jìn)行了更深入的研究,找出兩類模型中某一類模型分別擁有的優(yōu)勢(shì)領(lǐng)域。

研究團(tuán)隊(duì)對(duì)測(cè)試各種語(yǔ)言能力的 10 個(gè)數(shù)據(jù)集進(jìn)行了分析,包括推理、回答基于知識(shí)的問題、解決數(shù)學(xué)問題、語(yǔ)言間翻譯、生成代碼以及充當(dāng)指令遵循代理。

在所有的基準(zhǔn)測(cè)試任務(wù)基礎(chǔ)上,CMU 團(tuán)隊(duì)分析發(fā)現(xiàn):

Gemini Pro 模型在模型大小和類別上與 GPT 3.5 Turbo 相當(dāng),其準(zhǔn)確度一般與 GPT 3.5 Turbo 相當(dāng),但略遜于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多選題的回答順序偏差、多位數(shù)數(shù)學(xué)推理、過早終止智能體任務(wù)以及因激進(jìn)的內(nèi)容過濾而導(dǎo)致回答失敗等方面存在問題。

在特別長(zhǎng)和復(fù)雜的推理任務(wù)中,Gemini 的表現(xiàn)優(yōu)于 GPT 3.5 Turbo,包括生成非英語(yǔ)語(yǔ)言以及處理更長(zhǎng)、更復(fù)雜的推理鏈。而在不對(duì)回答進(jìn)行過濾的任務(wù)中,Gemini 也善于使用多種語(yǔ)言。

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

圖為基準(zhǔn)測(cè)試的主要結(jié)果(最佳模型以粗體顯示,次佳模型以下劃線顯示。Mixtral 只對(duì)部分任務(wù)進(jìn)行了評(píng)估。)


二、大模型關(guān)鍵能力分析

在大模型的幾項(xiàng)關(guān)鍵能力上,團(tuán)隊(duì)的具體研究結(jié)果如下:

知識(shí)圖譜問答能力

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

在大模型的問答能力層面,從上圖中可以看出每個(gè)模型在部分代表性任務(wù)上的表現(xiàn),與 GPT 3.5 相比,Gemini Pro 在大多數(shù)任務(wù)上表現(xiàn)不佳,思維鏈提示降低了各子任務(wù)之間的差異。

團(tuán)隊(duì)又深入研究 Gemini Pro 性能低于/優(yōu)于 GPT 的任務(wù)3.5 的差距,得出結(jié)論:

1)Gemini Pro 在 human_sexuality(社會(huì)科學(xué))、formal_logic(人文科學(xué))、elementary_mathematics(STEM)和 professional_medicine(專業(yè)領(lǐng)域)方面落后于 GPT 3.5。

2)在 Gemini Pro 優(yōu)于 GPT 3.5 Turbo 的兩項(xiàng)任務(wù)中,Gemini Pro 只取得了微弱的優(yōu)勢(shì)。

推理能力

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

在推理能力層面, Gemini Pro 的整體準(zhǔn)確率略低于 GPT 3.5 Turbo,遠(yuǎn)低于 GPT 4 Turbo,但Gemini Pro 在更長(zhǎng)、更復(fù)雜的問題上表現(xiàn)不佳,而 GPT 模型對(duì)此則更為穩(wěn)健。

文中亦給出了 GPT 3.5 Turbo 性能超過 Gemini Pro 最多的任務(wù):

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

數(shù)學(xué)能力

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

從數(shù)學(xué)推理的總體結(jié)果可以看出,在包含多種語(yǔ)言模式的 GSM8K、SVAMP 和 ASDIV 任務(wù)中,Gemini Pro 的準(zhǔn)確率略低于 GPT 3.5 Turbo,遠(yuǎn)低于 GPT 4 Turbo。

在 MAWPS 任務(wù)中,所有模型的準(zhǔn)確率都超過了 90%,但 Gemini Pro 仍略遜于 GPT 模型。

代碼生成能力

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

代碼能力生成方面,在英語(yǔ)任務(wù)中,Gemini Pro 在較長(zhǎng)的輸入和輸出方面表現(xiàn)較強(qiáng)。分析結(jié)果可以發(fā)現(xiàn),在大多數(shù)使用庫(kù)的情況下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

不過,在 matplotlib 的情況下,它的性能要優(yōu)于 GPT 3.5 和 GPT 4,這表明 Gemini 在通過代碼執(zhí)行繪圖可視化時(shí)具有更強(qiáng)的能力。

機(jī)器翻譯能力

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

在翻譯能力上,Gemini Pro 有 8 種語(yǔ)言的性能優(yōu)于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 種語(yǔ)言中的 8 種語(yǔ)言上的表現(xiàn)優(yōu)于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 種語(yǔ)言上取得了最佳表現(xiàn)。不過,Gemini Pro 在大約 10 種語(yǔ)言對(duì)中表現(xiàn)出強(qiáng)烈的阻塞響應(yīng)趨勢(shì)。


雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

CMU 最新研究:Gemini 綜合不敵 ChatGPT,谷歌還需努力

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說