丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

三大模型巨頭比拼思考“幻覺”:DeepSeek 不敵 ChatGPT,Gemini 用詞最少

本文作者: 鄭佳美   2025-03-28 15:37
導(dǎo)語:基礎(chǔ)模型在兼顧幻覺與推理能效上仍有很長的路要走。

近日,智利大學(xué) CIAE 教育研究所的研究員 Roberto Araya 進(jìn)行了 4 組對(duì)照實(shí)驗(yàn):提供相同的提示詞,讓 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 進(jìn)行推理分析,研究三個(gè)模型在應(yīng)對(duì)幻覺問題上的性能對(duì)比。

其研究發(fā)現(xiàn):ChatGPT 03-mini 在應(yīng)對(duì)大模型幻覺問題上占有絕對(duì)優(yōu)勢,能夠靈活切換不同的策略進(jìn)行思考推理。

相比之下,DeepSeek R1 和 Gemini 2.0 Flash 雖然能夠嘗試使用策略,但表現(xiàn)了出對(duì)這些策略的抗拒,且推理過程存在錯(cuò)誤或混亂。

三大模型巨頭比拼思考“幻覺”:DeepSeek 不敵 ChatGPT,Gemini 用詞最少

在面對(duì)同一個(gè)問題時(shí),三個(gè)思考模型在進(jìn)行推理的過程中也展現(xiàn)出了較大的差異:

其中,Gemini 2.0 Flash 的思維鏈用詞最少,ChatGPT o3-mini 是其約 3 到 10 倍,DeepSeek R1 是其大約 12 到 36 倍。而用詞更多,往往意味著推理的算力成本更高。

盡管 Gemini 2.0 Flash 用詞更少,其推理過程中策略使用方法與推理結(jié)論效果卻不是最佳——在四個(gè)策略實(shí)驗(yàn)中,ChatGPT o3-mini 的推理過程與結(jié)論正確率最高,DeepSeek R1 雖然推理過程更冗長、但結(jié)論正確率遠(yuǎn)高于 Gemini。

ChatGPT-o3 mini、Gemini 2.0 Flash 與 DeepSeek R1 是當(dāng)前全球綜合能力最強(qiáng)的幾個(gè)基礎(chǔ)模型,他們在問題思考與推理上的不足也代表了當(dāng)前大模型技術(shù)距離 AGI 終點(diǎn)還有很長的路要走。

貝葉斯推理視角下的大模型推理

為了得出較為準(zhǔn)確的結(jié)論,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)適合小學(xué)生興趣與認(rèn)知水平的貝葉斯推理問題,并選擇了謊言檢測這一主題。大模型需要運(yùn)用自身的推理能力來識(shí)別謊言并得到正確答案。

在第一個(gè)實(shí)驗(yàn)中,研究人員測試了模型在無提示的情況下解決一個(gè)貝葉斯推理問題的能力。

他們先是提出了一個(gè)適合小學(xué)生的謊言檢測問題,描述了一個(gè)包含多個(gè)對(duì)象(如谷倉、羊、豬、貓、書等)的鄉(xiāng)村風(fēng)景場景。問題的核心線索包括:貓聲稱卡片不在它旁邊,豬表示 90% 的時(shí)間卡片都在貓旁邊,以及貓?jiān)谔囟ㄇ闆r下說謊的概率等。模型需要根據(jù)這些線索判斷卡片最可能隱藏在哪本書中。

實(shí)驗(yàn)中,研究人員沒有提供任何關(guān)于使用自然頻率、整體對(duì)象或具身啟發(fā)式方法的提示,而是觀察 LLMs 是否能夠自主使用這些生態(tài)策略來解決問題。

而結(jié)果表明,測試的三種模型均未能自主使用這些策略。

Gemini 2.0 Flash 在第一次嘗試中用了 255 個(gè)詞得出結(jié)論,第二次嘗試用了389個(gè)詞。在第一次嘗試中,Gemini 的推理過程主要依賴于先驗(yàn)概率,得出的結(jié)論是正確的,但推理過程不正確。在第二次嘗試中 Gemini 則是直接給出了錯(cuò)誤的結(jié)論。

而 ChatGPT 用了 2039 個(gè)詞,耗時(shí)32秒。它的推理過程看似合理,但過程存在邏輯漏洞,未能正確整合所有線索。

DeepSeek R1 的推理過程最為復(fù)雜,用了 2876 個(gè)詞,在經(jīng)過多次自我反思和檢查后,最終得出了正確結(jié)論,但在推理過程中猶豫不決,且未能清晰解釋如何計(jì)算概率。

三大模型巨頭比拼思考“幻覺”:DeepSeek 不敵 ChatGPT,Gemini 用詞最少

而第二個(gè)實(shí)驗(yàn)則是直接在上一個(gè)實(shí)驗(yàn)的基礎(chǔ)上,增加了一個(gè)引導(dǎo)提示,建議模型使用 Gerd Gigerenzer 提出的“自然頻率”策略來解決問題。

在這個(gè)實(shí)驗(yàn)中,只有 ChatGPT o3-mini 成功地將概率轉(zhuǎn)換為自然頻率。它用了 1107 個(gè)詞,并且將推理過程分成了兩部分。第一部分使用貝葉斯公式得出正確結(jié)論,第二部分使用自然頻率再次驗(yàn)證,并得出了正確結(jié)論。

相比之下,Gemini 2.0 Flash 用了 204 個(gè)詞,雖然嘗試了自然頻率策略,但其推理過程并不一致,仍然依賴于百分比進(jìn)行部分計(jì)算,最終得出了錯(cuò)誤的推理邏輯。

DeepSeek R1的表現(xiàn)則更為復(fù)雜,共用了 7344 個(gè)詞,最終雖然得出了正確的結(jié)論,但其推理過程充滿了猶豫和反思,缺乏清晰性和一致性。

三大模型巨頭比拼思考“幻覺”:DeepSeek 不敵 ChatGPT,Gemini 用詞最少

緊接著,實(shí)驗(yàn)三與實(shí)驗(yàn)二的內(nèi)容相同,但研究人員在最后增加了一個(gè)條件:且明確地以塑料塊的具體形式表示每個(gè)案例,并將問題簡化為計(jì)數(shù)塊。

最終的結(jié)果顯示,實(shí)驗(yàn)中只有 ChatGPT o3-mini 成功地將概率轉(zhuǎn)換為自然頻率,共用了 1141 個(gè)詞,并用塑料塊來表示每個(gè)案例,從而得出了正確結(jié)論。

而 Gemini 2.0 Flash 用了 351 個(gè)詞,雖然嘗試了整體對(duì)象策略,但其推理過程并不一致,仍然依賴于百分比進(jìn)行部分計(jì)算,導(dǎo)致其推理邏輯存在錯(cuò)誤。

而 DeepSeek R1 用了 5504 個(gè)詞,而且在推理過程中頻繁地在自然頻率和百分比之間切換,結(jié)論雖然正確,但過程過于冗長。

三大模型巨頭比拼思考“幻覺”:DeepSeek 不敵 ChatGPT,Gemini 用詞最少

最后一個(gè)實(shí)驗(yàn)則是在實(shí)驗(yàn)三的基礎(chǔ)上,增加一句話:“描述你如何通過計(jì)數(shù)塊來解決問題。以一種適合12歲學(xué)生的教學(xué)方式,使用兩種顏色的塊來解釋你的推理。”

最終 ChatGPT o3-mini 用了 1405 個(gè)詞并成功地將概率轉(zhuǎn)換為自然頻率,并用塑料塊來表示每個(gè)案例,同時(shí)正確地使用了著色策略得出了正確結(jié)論。

Gemini 2.0 Flash 用了 504 個(gè)詞,雖然嘗試了著色策略,但在推理過程中出現(xiàn)了錯(cuò)誤,未能正確整合所有線索,結(jié)論正確但論證過程存在錯(cuò)誤。

DeepSeek R1 的表現(xiàn)則更為復(fù)雜,用了 8457 個(gè)詞,而且過程中多次出現(xiàn)混亂,最終在清潔版本中正確使用塑料塊,但顏色標(biāo)記錯(cuò)誤。

最終,研究人員得出結(jié)論:

在實(shí)驗(yàn)中,三種模型在貝葉斯推理任務(wù)中的表現(xiàn)各有不同,并且所有模型在某些條件下都能得出正確結(jié)論,但在無提示條件下,它們的表現(xiàn)都不穩(wěn)定。

其中,ChatGPT o3-mini 在提示條件下表現(xiàn)最為穩(wěn)定,能夠靈活切換推理方法,并正確使用自然頻率進(jìn)行推理。

相比之下,DeepSeek R1 雖然最終也能得出正確結(jié)論,但其推理過程冗長且混亂,多次進(jìn)行自我檢查和調(diào)整。

而 Gemini 2.0 Flash 雖然在提示條件下能夠嘗試使用生態(tài)有效策略,但其推理過程存在錯(cuò)誤。

在策略使用方面,ChatGPT o3-mini 是唯一一個(gè)在提示條件下能夠完全正確使用自然頻率的模型。

而 DeepSeek R1 和 Gemini 2.0 Flash 雖然嘗試使用具體物體和顏色標(biāo)記,但未完全掌握這些方法的使用,表現(xiàn)出對(duì)生態(tài)有效策略的抗拒。

在過程復(fù)雜性方面,ChatGPT o3-mini 的推理過程較為簡潔,能夠直接使用自然頻率得出結(jié)論。相反,DeepSeek R1 的推理過程最為冗長,而 Gemini 2.0 Flash 的推理過程較短,但存在錯(cuò)誤。

三大模型巨頭比拼思考“幻覺”:DeepSeek 不敵 ChatGPT,Gemini 用詞最少

大模型的幻覺問題

從大模型的出現(xiàn)到普及,幻覺問題都是一個(gè)“頑疾”,不管技術(shù)多么先進(jìn),模型總會(huì)有不靠譜的時(shí)候。

它一般指的是模型生成的內(nèi)容與現(xiàn)實(shí)世界事實(shí)或用戶輸入不一致的現(xiàn)象。這種現(xiàn)象可以被視為模型的“胡說八道”。具體來說,大模型的幻覺可以分為事實(shí)性幻覺和忠實(shí)性幻覺兩大類。

其中,事實(shí)性幻覺指的是模型生成的內(nèi)容與可驗(yàn)證的現(xiàn)實(shí)世界事實(shí)不一致。例如,模型可能回答“保時(shí)捷借鑒了小米 SU7 的外觀”,但事實(shí)卻悄悄相反。而忠實(shí)性幻覺則是模型生成的內(nèi)容與用戶的指令或上下文不一致。例如,我們要求模型幫我們查詢今天的天氣,但模型卻給了我們?nèi)ツ杲袢盏奶鞖庑侣劇?/p>

而大模型產(chǎn)生幻覺的原因主要可以歸納為幾個(gè)方面:

數(shù)據(jù)源問題:訓(xùn)練數(shù)據(jù)中的錯(cuò)誤信息、偏見以及過時(shí)或不完整的知識(shí)都會(huì)導(dǎo)致模型生成不準(zhǔn)確的內(nèi)容。

訓(xùn)練過程問題:模型在訓(xùn)練過程中可能會(huì)學(xué)習(xí)到不準(zhǔn)確的模式和規(guī)律,尤其是在數(shù)據(jù)分布不均勻或數(shù)據(jù)質(zhì)量不高的情況下。

推理過程問題:模型在生成內(nèi)容時(shí),可能會(huì)基于其學(xué)習(xí)到的模式進(jìn)行“想象”或“創(chuàng)造”,而不是嚴(yán)格遵循輸入信息。這種“想象”在某些情況下可能是合理的,但在其他情況下則可能導(dǎo)致錯(cuò)誤。

為了減少幻覺問題,研究人員們也提供了多種策略,例如:提升訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性、引入先驗(yàn)知識(shí)和常識(shí)、增加模型的魯棒性、優(yōu)化模型架構(gòu)和算法、結(jié)合人類評(píng)估和反饋等方法。

當(dāng)然,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))認(rèn)為幻覺并不代表著絕對(duì)的錯(cuò)誤。

雖然幻覺有時(shí)候可能導(dǎo)致模型生成不準(zhǔn)確或誤導(dǎo)性的內(nèi)容,但兩者之間還是存在著一定的區(qū)別。

回答錯(cuò)誤是輸出與正確答案不符,可通過比較糾正,而幻覺是生成內(nèi)容脫離實(shí)際輸入或現(xiàn)實(shí),是模型的“想象”,難以直接比較發(fā)現(xiàn)。兩者之間可能有所關(guān)聯(lián),但評(píng)估模型時(shí)需綜合考慮多種因素。

參考鏈接:https://arxiv.org/pdf/2503.15268


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

三大模型巨頭比拼思考“幻覺”:DeepSeek 不敵 ChatGPT,Gemini 用詞最少

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說