0
本文作者: 鄭佳美 | 2025-03-28 15:37 |
近日,智利大學(xué) CIAE 教育研究所的研究員 Roberto Araya 進(jìn)行了 4 組對(duì)照實(shí)驗(yàn):提供相同的提示詞,讓 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 進(jìn)行推理分析,研究三個(gè)模型在應(yīng)對(duì)幻覺問題上的性能對(duì)比。
其研究發(fā)現(xiàn):ChatGPT 03-mini 在應(yīng)對(duì)大模型幻覺問題上占有絕對(duì)優(yōu)勢,能夠靈活切換不同的策略進(jìn)行思考推理。
相比之下,DeepSeek R1 和 Gemini 2.0 Flash 雖然能夠嘗試使用策略,但表現(xiàn)了出對(duì)這些策略的抗拒,且推理過程存在錯(cuò)誤或混亂。
在面對(duì)同一個(gè)問題時(shí),三個(gè)思考模型在進(jìn)行推理的過程中也展現(xiàn)出了較大的差異:
其中,Gemini 2.0 Flash 的思維鏈用詞最少,ChatGPT o3-mini 是其約 3 到 10 倍,DeepSeek R1 是其大約 12 到 36 倍。而用詞更多,往往意味著推理的算力成本更高。
盡管 Gemini 2.0 Flash 用詞更少,其推理過程中策略使用方法與推理結(jié)論效果卻不是最佳——在四個(gè)策略實(shí)驗(yàn)中,ChatGPT o3-mini 的推理過程與結(jié)論正確率最高,DeepSeek R1 雖然推理過程更冗長、但結(jié)論正確率遠(yuǎn)高于 Gemini。
ChatGPT-o3 mini、Gemini 2.0 Flash 與 DeepSeek R1 是當(dāng)前全球綜合能力最強(qiáng)的幾個(gè)基礎(chǔ)模型,他們在問題思考與推理上的不足也代表了當(dāng)前大模型技術(shù)距離 AGI 終點(diǎn)還有很長的路要走。
為了得出較為準(zhǔn)確的結(jié)論,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)適合小學(xué)生興趣與認(rèn)知水平的貝葉斯推理問題,并選擇了謊言檢測這一主題。大模型需要運(yùn)用自身的推理能力來識(shí)別謊言并得到正確答案。
在第一個(gè)實(shí)驗(yàn)中,研究人員測試了模型在無提示的情況下解決一個(gè)貝葉斯推理問題的能力。
他們先是提出了一個(gè)適合小學(xué)生的謊言檢測問題,描述了一個(gè)包含多個(gè)對(duì)象(如谷倉、羊、豬、貓、書等)的鄉(xiāng)村風(fēng)景場景。問題的核心線索包括:貓聲稱卡片不在它旁邊,豬表示 90% 的時(shí)間卡片都在貓旁邊,以及貓?jiān)谔囟ㄇ闆r下說謊的概率等。模型需要根據(jù)這些線索判斷卡片最可能隱藏在哪本書中。
實(shí)驗(yàn)中,研究人員沒有提供任何關(guān)于使用自然頻率、整體對(duì)象或具身啟發(fā)式方法的提示,而是觀察 LLMs 是否能夠自主使用這些生態(tài)策略來解決問題。
而結(jié)果表明,測試的三種模型均未能自主使用這些策略。
Gemini 2.0 Flash 在第一次嘗試中用了 255 個(gè)詞得出結(jié)論,第二次嘗試用了389個(gè)詞。在第一次嘗試中,Gemini 的推理過程主要依賴于先驗(yàn)概率,得出的結(jié)論是正確的,但推理過程不正確。在第二次嘗試中 Gemini 則是直接給出了錯(cuò)誤的結(jié)論。
而 ChatGPT 用了 2039 個(gè)詞,耗時(shí)32秒。它的推理過程看似合理,但過程存在邏輯漏洞,未能正確整合所有線索。
DeepSeek R1 的推理過程最為復(fù)雜,用了 2876 個(gè)詞,在經(jīng)過多次自我反思和檢查后,最終得出了正確結(jié)論,但在推理過程中猶豫不決,且未能清晰解釋如何計(jì)算概率。
而第二個(gè)實(shí)驗(yàn)則是直接在上一個(gè)實(shí)驗(yàn)的基礎(chǔ)上,增加了一個(gè)引導(dǎo)提示,建議模型使用 Gerd Gigerenzer 提出的“自然頻率”策略來解決問題。
在這個(gè)實(shí)驗(yàn)中,只有 ChatGPT o3-mini 成功地將概率轉(zhuǎn)換為自然頻率。它用了 1107 個(gè)詞,并且將推理過程分成了兩部分。第一部分使用貝葉斯公式得出正確結(jié)論,第二部分使用自然頻率再次驗(yàn)證,并得出了正確結(jié)論。
相比之下,Gemini 2.0 Flash 用了 204 個(gè)詞,雖然嘗試了自然頻率策略,但其推理過程并不一致,仍然依賴于百分比進(jìn)行部分計(jì)算,最終得出了錯(cuò)誤的推理邏輯。
DeepSeek R1的表現(xiàn)則更為復(fù)雜,共用了 7344 個(gè)詞,最終雖然得出了正確的結(jié)論,但其推理過程充滿了猶豫和反思,缺乏清晰性和一致性。
緊接著,實(shí)驗(yàn)三與實(shí)驗(yàn)二的內(nèi)容相同,但研究人員在最后增加了一個(gè)條件:且明確地以塑料塊的具體形式表示每個(gè)案例,并將問題簡化為計(jì)數(shù)塊。
最終的結(jié)果顯示,實(shí)驗(yàn)中只有 ChatGPT o3-mini 成功地將概率轉(zhuǎn)換為自然頻率,共用了 1141 個(gè)詞,并用塑料塊來表示每個(gè)案例,從而得出了正確結(jié)論。
而 Gemini 2.0 Flash 用了 351 個(gè)詞,雖然嘗試了整體對(duì)象策略,但其推理過程并不一致,仍然依賴于百分比進(jìn)行部分計(jì)算,導(dǎo)致其推理邏輯存在錯(cuò)誤。
而 DeepSeek R1 用了 5504 個(gè)詞,而且在推理過程中頻繁地在自然頻率和百分比之間切換,結(jié)論雖然正確,但過程過于冗長。
最后一個(gè)實(shí)驗(yàn)則是在實(shí)驗(yàn)三的基礎(chǔ)上,增加一句話:“描述你如何通過計(jì)數(shù)塊來解決問題。以一種適合12歲學(xué)生的教學(xué)方式,使用兩種顏色的塊來解釋你的推理。”
最終 ChatGPT o3-mini 用了 1405 個(gè)詞并成功地將概率轉(zhuǎn)換為自然頻率,并用塑料塊來表示每個(gè)案例,同時(shí)正確地使用了著色策略得出了正確結(jié)論。
Gemini 2.0 Flash 用了 504 個(gè)詞,雖然嘗試了著色策略,但在推理過程中出現(xiàn)了錯(cuò)誤,未能正確整合所有線索,結(jié)論正確但論證過程存在錯(cuò)誤。
DeepSeek R1 的表現(xiàn)則更為復(fù)雜,用了 8457 個(gè)詞,而且過程中多次出現(xiàn)混亂,最終在清潔版本中正確使用塑料塊,但顏色標(biāo)記錯(cuò)誤。
最終,研究人員得出結(jié)論:
在實(shí)驗(yàn)中,三種模型在貝葉斯推理任務(wù)中的表現(xiàn)各有不同,并且所有模型在某些條件下都能得出正確結(jié)論,但在無提示條件下,它們的表現(xiàn)都不穩(wěn)定。
其中,ChatGPT o3-mini 在提示條件下表現(xiàn)最為穩(wěn)定,能夠靈活切換推理方法,并正確使用自然頻率進(jìn)行推理。
相比之下,DeepSeek R1 雖然最終也能得出正確結(jié)論,但其推理過程冗長且混亂,多次進(jìn)行自我檢查和調(diào)整。
而 Gemini 2.0 Flash 雖然在提示條件下能夠嘗試使用生態(tài)有效策略,但其推理過程存在錯(cuò)誤。
在策略使用方面,ChatGPT o3-mini 是唯一一個(gè)在提示條件下能夠完全正確使用自然頻率的模型。
而 DeepSeek R1 和 Gemini 2.0 Flash 雖然嘗試使用具體物體和顏色標(biāo)記,但未完全掌握這些方法的使用,表現(xiàn)出對(duì)生態(tài)有效策略的抗拒。
在過程復(fù)雜性方面,ChatGPT o3-mini 的推理過程較為簡潔,能夠直接使用自然頻率得出結(jié)論。相反,DeepSeek R1 的推理過程最為冗長,而 Gemini 2.0 Flash 的推理過程較短,但存在錯(cuò)誤。
從大模型的出現(xiàn)到普及,幻覺問題都是一個(gè)“頑疾”,不管技術(shù)多么先進(jìn),模型總會(huì)有不靠譜的時(shí)候。
它一般指的是模型生成的內(nèi)容與現(xiàn)實(shí)世界事實(shí)或用戶輸入不一致的現(xiàn)象。這種現(xiàn)象可以被視為模型的“胡說八道”。具體來說,大模型的幻覺可以分為事實(shí)性幻覺和忠實(shí)性幻覺兩大類。
其中,事實(shí)性幻覺指的是模型生成的內(nèi)容與可驗(yàn)證的現(xiàn)實(shí)世界事實(shí)不一致。例如,模型可能回答“保時(shí)捷借鑒了小米 SU7 的外觀”,但事實(shí)卻悄悄相反。而忠實(shí)性幻覺則是模型生成的內(nèi)容與用戶的指令或上下文不一致。例如,我們要求模型幫我們查詢今天的天氣,但模型卻給了我們?nèi)ツ杲袢盏奶鞖庑侣劇?/p>
而大模型產(chǎn)生幻覺的原因主要可以歸納為幾個(gè)方面:
數(shù)據(jù)源問題:訓(xùn)練數(shù)據(jù)中的錯(cuò)誤信息、偏見以及過時(shí)或不完整的知識(shí)都會(huì)導(dǎo)致模型生成不準(zhǔn)確的內(nèi)容。
訓(xùn)練過程問題:模型在訓(xùn)練過程中可能會(huì)學(xué)習(xí)到不準(zhǔn)確的模式和規(guī)律,尤其是在數(shù)據(jù)分布不均勻或數(shù)據(jù)質(zhì)量不高的情況下。
推理過程問題:模型在生成內(nèi)容時(shí),可能會(huì)基于其學(xué)習(xí)到的模式進(jìn)行“想象”或“創(chuàng)造”,而不是嚴(yán)格遵循輸入信息。這種“想象”在某些情況下可能是合理的,但在其他情況下則可能導(dǎo)致錯(cuò)誤。
為了減少幻覺問題,研究人員們也提供了多種策略,例如:提升訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性、引入先驗(yàn)知識(shí)和常識(shí)、增加模型的魯棒性、優(yōu)化模型架構(gòu)和算法、結(jié)合人類評(píng)估和反饋等方法。
當(dāng)然,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))認(rèn)為幻覺并不代表著絕對(duì)的錯(cuò)誤。
雖然幻覺有時(shí)候可能導(dǎo)致模型生成不準(zhǔn)確或誤導(dǎo)性的內(nèi)容,但兩者之間還是存在著一定的區(qū)別。
回答錯(cuò)誤是輸出與正確答案不符,可通過比較糾正,而幻覺是生成內(nèi)容脫離實(shí)際輸入或現(xiàn)實(shí),是模型的“想象”,難以直接比較發(fā)現(xiàn)。兩者之間可能有所關(guān)聯(lián),但評(píng)估模型時(shí)需綜合考慮多種因素。
參考鏈接:https://arxiv.org/pdf/2503.15268
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。