三大模型巨頭比拼思考“幻覺”：DeepSeek 不敵 ChatGPT，Gemini 用詞最少

本文作者：鄭佳美

2025-03-28 15:37

導(dǎo)語：基礎(chǔ)模型在兼顧幻覺與推理能效上仍有很長的路要走。

近日，智利大學(xué) CIAE 教育研究所的研究員 Roberto Araya 進(jìn)行了 4 組對照實(shí)驗(yàn)：提供相同的提示詞，讓 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 進(jìn)行推理分析，研究三個(gè)模型在應(yīng)對幻覺問題上的性能對比。

其研究發(fā)現(xiàn)：ChatGPT 03-mini 在應(yīng)對大模型幻覺問題上占有絕對優(yōu)勢，能夠靈活切換不同的策略進(jìn)行思考推理。

相比之下，DeepSeek R1 和 Gemini 2.0 Flash 雖然能夠嘗試使用策略，但表現(xiàn)了出對這些策略的抗拒，且推理過程存在錯(cuò)誤或混亂。

三大模型巨頭比拼思考“幻覺”：DeepSeek 不敵 ChatGPT，Gemini 用詞最少

在面對同一個(gè)問題時(shí)，三個(gè)思考模型在進(jìn)行推理的過程中也展現(xiàn)出了較大的差異：

其中，Gemini 2.0 Flash 的思維鏈用詞最少，ChatGPT o3-mini 是其約 3 到 10 倍，DeepSeek R1 是其大約 12 到 36 倍。而用詞更多，往往意味著推理的算力成本更高。

盡管 Gemini 2.0 Flash 用詞更少，其推理過程中策略使用方法與推理結(jié)論效果卻不是最佳——在四個(gè)策略實(shí)驗(yàn)中，ChatGPT o3-mini 的推理過程與結(jié)論正確率最高，DeepSeek R1 雖然推理過程更冗長、但結(jié)論正確率遠(yuǎn)高于 Gemini。

ChatGPT-o3 mini、Gemini 2.0 Flash 與 DeepSeek R1 是當(dāng)前全球綜合能力最強(qiáng)的幾個(gè)基礎(chǔ)模型，他們在問題思考與推理上的不足也代表了當(dāng)前大模型技術(shù)距離 AGI 終點(diǎn)還有很長的路要走。

貝葉斯推理視角下的大模型推理

為了得出較為準(zhǔn)確的結(jié)論，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)適合小學(xué)生興趣與認(rèn)知水平的貝葉斯推理問題，并選擇了謊言檢測這一主題。大模型需要運(yùn)用自身的推理能力來識別謊言并得到正確答案。

在第一個(gè)實(shí)驗(yàn)中，研究人員測試了模型在無提示的情況下解決一個(gè)貝葉斯推理問題的能力。

他們先是提出了一個(gè)適合小學(xué)生的謊言檢測問題，描述了一個(gè)包含多個(gè)對象（如谷倉、羊、豬、貓、書等）的鄉(xiāng)村風(fēng)景場景。問題的核心線索包括：貓聲稱卡片不在它旁邊，豬表示 90% 的時(shí)間卡片都在貓旁邊，以及貓?jiān)谔囟ㄇ闆r下說謊的概率等。模型需要根據(jù)這些線索判斷卡片最可能隱藏在哪本書中。

實(shí)驗(yàn)中，研究人員沒有提供任何關(guān)于使用自然頻率、整體對象或具身啟發(fā)式方法的提示，而是觀察 LLMs 是否能夠自主使用這些生態(tài)策略來解決問題。

而結(jié)果表明，測試的三種模型均未能自主使用這些策略。

Gemini 2.0 Flash 在第一次嘗試中用了 255 個(gè)詞得出結(jié)論，第二次嘗試用了389個(gè)詞。在第一次嘗試中，Gemini 的推理過程主要依賴于先驗(yàn)概率，得出的結(jié)論是正確的，但推理過程不正確。在第二次嘗試中 Gemini 則是直接給出了錯(cuò)誤的結(jié)論。

而 ChatGPT 用了 2039 個(gè)詞，耗時(shí)32秒。它的推理過程看似合理，但過程存在邏輯漏洞，未能正確整合所有線索。

DeepSeek R1 的推理過程最為復(fù)雜，用了 2876 個(gè)詞，在經(jīng)過多次自我反思和檢查后，最終得出了正確結(jié)論，但在推理過程中猶豫不決，且未能清晰解釋如何計(jì)算概率。

三大模型巨頭比拼思考“幻覺”：DeepSeek 不敵 ChatGPT，Gemini 用詞最少

而第二個(gè)實(shí)驗(yàn)則是直接在上一個(gè)實(shí)驗(yàn)的基礎(chǔ)上，增加了一個(gè)引導(dǎo)提示，建議模型使用 Gerd Gigerenzer 提出的“自然頻率”策略來解決問題。

在這個(gè)實(shí)驗(yàn)中，只有 ChatGPT o3-mini 成功地將概率轉(zhuǎn)換為自然頻率。它用了 1107 個(gè)詞，并且將推理過程分成了兩部分。第一部分使用貝葉斯公式得出正確結(jié)論，第二部分使用自然頻率再次驗(yàn)證，并得出了正確結(jié)論。

相比之下，Gemini 2.0 Flash 用了 204 個(gè)詞，雖然嘗試了自然頻率策略，但其推理過程并不一致，仍然依賴于百分比進(jìn)行部分計(jì)算，最終得出了錯(cuò)誤的推理邏輯。

DeepSeek R1的表現(xiàn)則更為復(fù)雜，共用了 7344 個(gè)詞，最終雖然得出了正確的結(jié)論，但其推理過程充滿了猶豫和反思，缺乏清晰性和一致性。

三大模型巨頭比拼思考“幻覺”：DeepSeek 不敵 ChatGPT，Gemini 用詞最少

緊接著，實(shí)驗(yàn)三與實(shí)驗(yàn)二的內(nèi)容相同，但研究人員在最后增加了一個(gè)條件：且明確地以塑料塊的具體形式表示每個(gè)案例，并將問題簡化為計(jì)數(shù)塊。

最終的結(jié)果顯示，實(shí)驗(yàn)中只有 ChatGPT o3-mini 成功地將概率轉(zhuǎn)換為自然頻率，共用了 1141 個(gè)詞，并用塑料塊來表示每個(gè)案例，從而得出了正確結(jié)論。

而 Gemini 2.0 Flash 用了 351 個(gè)詞，雖然嘗試了整體對象策略，但其推理過程并不一致，仍然依賴于百分比進(jìn)行部分計(jì)算，導(dǎo)致其推理邏輯存在錯(cuò)誤。

而 DeepSeek R1 用了 5504 個(gè)詞，而且在推理過程中頻繁地在自然頻率和百分比之間切換，結(jié)論雖然正確，但過程過于冗長。

三大模型巨頭比拼思考“幻覺”：DeepSeek 不敵 ChatGPT，Gemini 用詞最少

最后一個(gè)實(shí)驗(yàn)則是在實(shí)驗(yàn)三的基礎(chǔ)上，增加一句話：“描述你如何通過計(jì)數(shù)塊來解決問題。以一種適合12歲學(xué)生的教學(xué)方式，使用兩種顏色的塊來解釋你的推理?！?/p>

最終 ChatGPT o3-mini 用了 1405 個(gè)詞并成功地將概率轉(zhuǎn)換為自然頻率，并用塑料塊來表示每個(gè)案例，同時(shí)正確地使用了著色策略得出了正確結(jié)論。

Gemini 2.0 Flash 用了 504 個(gè)詞，雖然嘗試了著色策略，但在推理過程中出現(xiàn)了錯(cuò)誤，未能正確整合所有線索，結(jié)論正確但論證過程存在錯(cuò)誤。

DeepSeek R1 的表現(xiàn)則更為復(fù)雜，用了 8457 個(gè)詞，而且過程中多次出現(xiàn)混亂，最終在清潔版本中正確使用塑料塊，但顏色標(biāo)記錯(cuò)誤。

最終，研究人員得出結(jié)論：

在實(shí)驗(yàn)中，三種模型在貝葉斯推理任務(wù)中的表現(xiàn)各有不同，并且所有模型在某些條件下都能得出正確結(jié)論，但在無提示條件下，它們的表現(xiàn)都不穩(wěn)定。

其中，ChatGPT o3-mini 在提示條件下表現(xiàn)最為穩(wěn)定，能夠靈活切換推理方法，并正確使用自然頻率進(jìn)行推理。

相比之下，DeepSeek R1 雖然最終也能得出正確結(jié)論，但其推理過程冗長且混亂，多次進(jìn)行自我檢查和調(diào)整。

而 Gemini 2.0 Flash 雖然在提示條件下能夠嘗試使用生態(tài)有效策略，但其推理過程存在錯(cuò)誤。

在策略使用方面，ChatGPT o3-mini 是唯一一個(gè)在提示條件下能夠完全正確使用自然頻率的模型。

而 DeepSeek R1 和 Gemini 2.0 Flash 雖然嘗試使用具體物體和顏色標(biāo)記，但未完全掌握這些方法的使用，表現(xiàn)出對生態(tài)有效策略的抗拒。

在過程復(fù)雜性方面，ChatGPT o3-mini 的推理過程較為簡潔，能夠直接使用自然頻率得出結(jié)論。相反，DeepSeek R1 的推理過程最為冗長，而 Gemini 2.0 Flash 的推理過程較短，但存在錯(cuò)誤。

三大模型巨頭比拼思考“幻覺”：DeepSeek 不敵 ChatGPT，Gemini 用詞最少

大模型的幻覺問題

從大模型的出現(xiàn)到普及，幻覺問題都是一個(gè)“頑疾”，不管技術(shù)多么先進(jìn)，模型總會有不靠譜的時(shí)候。

它一般指的是模型生成的內(nèi)容與現(xiàn)實(shí)世界事實(shí)或用戶輸入不一致的現(xiàn)象。這種現(xiàn)象可以被視為模型的“胡說八道”。具體來說，大模型的幻覺可以分為事實(shí)性幻覺和忠實(shí)性幻覺兩大類。

其中，事實(shí)性幻覺指的是模型生成的內(nèi)容與可驗(yàn)證的現(xiàn)實(shí)世界事實(shí)不一致。例如，模型可能回答“保時(shí)捷借鑒了小米 SU7 的外觀”，但事實(shí)卻悄悄相反。而忠實(shí)性幻覺則是模型生成的內(nèi)容與用戶的指令或上下文不一致。例如，我們要求模型幫我們查詢今天的天氣，但模型卻給了我們?nèi)ツ杲袢盏奶鞖庑侣劇?/p>

而大模型產(chǎn)生幻覺的原因主要可以歸納為幾個(gè)方面：

數(shù)據(jù)源問題：訓(xùn)練數(shù)據(jù)中的錯(cuò)誤信息、偏見以及過時(shí)或不完整的知識都會導(dǎo)致模型生成不準(zhǔn)確的內(nèi)容。

訓(xùn)練過程問題：模型在訓(xùn)練過程中可能會學(xué)習(xí)到不準(zhǔn)確的模式和規(guī)律，尤其是在數(shù)據(jù)分布不均勻或數(shù)據(jù)質(zhì)量不高的情況下。

推理過程問題：模型在生成內(nèi)容時(shí)，可能會基于其學(xué)習(xí)到的模式進(jìn)行“想象”或“創(chuàng)造”，而不是嚴(yán)格遵循輸入信息。這種“想象”在某些情況下可能是合理的，但在其他情況下則可能導(dǎo)致錯(cuò)誤。

為了減少幻覺問題，研究人員們也提供了多種策略，例如：提升訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性、引入先驗(yàn)知識和常識、增加模型的魯棒性、優(yōu)化模型架構(gòu)和算法、結(jié)合人類評估和反饋等方法。

當(dāng)然，雷峰網(wǎng)(公眾號：雷峰網(wǎng))認(rèn)為幻覺并不代表著絕對的錯(cuò)誤。

雖然幻覺有時(shí)候可能導(dǎo)致模型生成不準(zhǔn)確或誤導(dǎo)性的內(nèi)容，但兩者之間還是存在著一定的區(qū)別。

回答錯(cuò)誤是輸出與正確答案不符，可通過比較糾正，而幻覺是生成內(nèi)容脫離實(shí)際輸入或現(xiàn)實(shí)，是模型的“想象”，難以直接比較發(fā)現(xiàn)。兩者之間可能有所關(guān)聯(lián)，但評估模型時(shí)需綜合考慮多種因素。

參考鏈接：https://arxiv.org/pdf/2503.15268

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章

三大模型巨頭比拼思考“幻覺”：DeepSeek 不敵 ChatGPT，Gemini 用詞最少

貝葉斯推理視角下的大模型推理

大模型的幻覺問題

三大模型巨頭比拼思考“幻覺”：DeepSeek 不敵 ChatGPT，Gemini 用詞最少