0
本文作者: 鄭佳美 | 2025-03-28 15:37 |
近日,智利大學 CIAE 教育研究所的研究員 Roberto Araya 進行了 4 組對照實驗:提供相同的提示詞,讓 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 進行推理分析,研究三個模型在應對幻覺問題上的性能對比。
其研究發(fā)現(xiàn):ChatGPT 03-mini 在應對大模型幻覺問題上占有絕對優(yōu)勢,能夠靈活切換不同的策略進行思考推理。
相比之下,DeepSeek R1 和 Gemini 2.0 Flash 雖然能夠嘗試使用策略,但表現(xiàn)了出對這些策略的抗拒,且推理過程存在錯誤或混亂。
在面對同一個問題時,三個思考模型在進行推理的過程中也展現(xiàn)出了較大的差異:
其中,Gemini 2.0 Flash 的思維鏈用詞最少,ChatGPT o3-mini 是其約 3 到 10 倍,DeepSeek R1 是其大約 12 到 36 倍。而用詞更多,往往意味著推理的算力成本更高。
盡管 Gemini 2.0 Flash 用詞更少,其推理過程中策略使用方法與推理結論效果卻不是最佳——在四個策略實驗中,ChatGPT o3-mini 的推理過程與結論正確率最高,DeepSeek R1 雖然推理過程更冗長、但結論正確率遠高于 Gemini。
ChatGPT-o3 mini、Gemini 2.0 Flash 與 DeepSeek R1 是當前全球綜合能力最強的幾個基礎模型,他們在問題思考與推理上的不足也代表了當前大模型技術距離 AGI 終點還有很長的路要走。
為了得出較為準確的結論,研究團隊設計了一個適合小學生興趣與認知水平的貝葉斯推理問題,并選擇了謊言檢測這一主題。大模型需要運用自身的推理能力來識別謊言并得到正確答案。
在第一個實驗中,研究人員測試了模型在無提示的情況下解決一個貝葉斯推理問題的能力。
他們先是提出了一個適合小學生的謊言檢測問題,描述了一個包含多個對象(如谷倉、羊、豬、貓、書等)的鄉(xiāng)村風景場景。問題的核心線索包括:貓聲稱卡片不在它旁邊,豬表示 90% 的時間卡片都在貓旁邊,以及貓在特定情況下說謊的概率等。模型需要根據(jù)這些線索判斷卡片最可能隱藏在哪本書中。
實驗中,研究人員沒有提供任何關于使用自然頻率、整體對象或具身啟發(fā)式方法的提示,而是觀察 LLMs 是否能夠自主使用這些生態(tài)策略來解決問題。
而結果表明,測試的三種模型均未能自主使用這些策略。
Gemini 2.0 Flash 在第一次嘗試中用了 255 個詞得出結論,第二次嘗試用了389個詞。在第一次嘗試中,Gemini 的推理過程主要依賴于先驗概率,得出的結論是正確的,但推理過程不正確。在第二次嘗試中 Gemini 則是直接給出了錯誤的結論。
而 ChatGPT 用了 2039 個詞,耗時32秒。它的推理過程看似合理,但過程存在邏輯漏洞,未能正確整合所有線索。
DeepSeek R1 的推理過程最為復雜,用了 2876 個詞,在經過多次自我反思和檢查后,最終得出了正確結論,但在推理過程中猶豫不決,且未能清晰解釋如何計算概率。
而第二個實驗則是直接在上一個實驗的基礎上,增加了一個引導提示,建議模型使用 Gerd Gigerenzer 提出的“自然頻率”策略來解決問題。
在這個實驗中,只有 ChatGPT o3-mini 成功地將概率轉換為自然頻率。它用了 1107 個詞,并且將推理過程分成了兩部分。第一部分使用貝葉斯公式得出正確結論,第二部分使用自然頻率再次驗證,并得出了正確結論。
相比之下,Gemini 2.0 Flash 用了 204 個詞,雖然嘗試了自然頻率策略,但其推理過程并不一致,仍然依賴于百分比進行部分計算,最終得出了錯誤的推理邏輯。
DeepSeek R1的表現(xiàn)則更為復雜,共用了 7344 個詞,最終雖然得出了正確的結論,但其推理過程充滿了猶豫和反思,缺乏清晰性和一致性。
緊接著,實驗三與實驗二的內容相同,但研究人員在最后增加了一個條件:且明確地以塑料塊的具體形式表示每個案例,并將問題簡化為計數(shù)塊。
最終的結果顯示,實驗中只有 ChatGPT o3-mini 成功地將概率轉換為自然頻率,共用了 1141 個詞,并用塑料塊來表示每個案例,從而得出了正確結論。
而 Gemini 2.0 Flash 用了 351 個詞,雖然嘗試了整體對象策略,但其推理過程并不一致,仍然依賴于百分比進行部分計算,導致其推理邏輯存在錯誤。
而 DeepSeek R1 用了 5504 個詞,而且在推理過程中頻繁地在自然頻率和百分比之間切換,結論雖然正確,但過程過于冗長。
最后一個實驗則是在實驗三的基礎上,增加一句話:“描述你如何通過計數(shù)塊來解決問題。以一種適合12歲學生的教學方式,使用兩種顏色的塊來解釋你的推理?!?/p>
最終 ChatGPT o3-mini 用了 1405 個詞并成功地將概率轉換為自然頻率,并用塑料塊來表示每個案例,同時正確地使用了著色策略得出了正確結論。
Gemini 2.0 Flash 用了 504 個詞,雖然嘗試了著色策略,但在推理過程中出現(xiàn)了錯誤,未能正確整合所有線索,結論正確但論證過程存在錯誤。
DeepSeek R1 的表現(xiàn)則更為復雜,用了 8457 個詞,而且過程中多次出現(xiàn)混亂,最終在清潔版本中正確使用塑料塊,但顏色標記錯誤。
最終,研究人員得出結論:
在實驗中,三種模型在貝葉斯推理任務中的表現(xiàn)各有不同,并且所有模型在某些條件下都能得出正確結論,但在無提示條件下,它們的表現(xiàn)都不穩(wěn)定。
其中,ChatGPT o3-mini 在提示條件下表現(xiàn)最為穩(wěn)定,能夠靈活切換推理方法,并正確使用自然頻率進行推理。
相比之下,DeepSeek R1 雖然最終也能得出正確結論,但其推理過程冗長且混亂,多次進行自我檢查和調整。
而 Gemini 2.0 Flash 雖然在提示條件下能夠嘗試使用生態(tài)有效策略,但其推理過程存在錯誤。
在策略使用方面,ChatGPT o3-mini 是唯一一個在提示條件下能夠完全正確使用自然頻率的模型。
而 DeepSeek R1 和 Gemini 2.0 Flash 雖然嘗試使用具體物體和顏色標記,但未完全掌握這些方法的使用,表現(xiàn)出對生態(tài)有效策略的抗拒。
在過程復雜性方面,ChatGPT o3-mini 的推理過程較為簡潔,能夠直接使用自然頻率得出結論。相反,DeepSeek R1 的推理過程最為冗長,而 Gemini 2.0 Flash 的推理過程較短,但存在錯誤。
從大模型的出現(xiàn)到普及,幻覺問題都是一個“頑疾”,不管技術多么先進,模型總會有不靠譜的時候。
它一般指的是模型生成的內容與現(xiàn)實世界事實或用戶輸入不一致的現(xiàn)象。這種現(xiàn)象可以被視為模型的“胡說八道”。具體來說,大模型的幻覺可以分為事實性幻覺和忠實性幻覺兩大類。
其中,事實性幻覺指的是模型生成的內容與可驗證的現(xiàn)實世界事實不一致。例如,模型可能回答“保時捷借鑒了小米 SU7 的外觀”,但事實卻悄悄相反。而忠實性幻覺則是模型生成的內容與用戶的指令或上下文不一致。例如,我們要求模型幫我們查詢今天的天氣,但模型卻給了我們去年今日的天氣新聞。
而大模型產生幻覺的原因主要可以歸納為幾個方面:
數(shù)據(jù)源問題:訓練數(shù)據(jù)中的錯誤信息、偏見以及過時或不完整的知識都會導致模型生成不準確的內容。
訓練過程問題:模型在訓練過程中可能會學習到不準確的模式和規(guī)律,尤其是在數(shù)據(jù)分布不均勻或數(shù)據(jù)質量不高的情況下。
推理過程問題:模型在生成內容時,可能會基于其學習到的模式進行“想象”或“創(chuàng)造”,而不是嚴格遵循輸入信息。這種“想象”在某些情況下可能是合理的,但在其他情況下則可能導致錯誤。
為了減少幻覺問題,研究人員們也提供了多種策略,例如:提升訓練數(shù)據(jù)的質量和多樣性、引入先驗知識和常識、增加模型的魯棒性、優(yōu)化模型架構和算法、結合人類評估和反饋等方法。
當然,雷峰網(公眾號:雷峰網)認為幻覺并不代表著絕對的錯誤。
雖然幻覺有時候可能導致模型生成不準確或誤導性的內容,但兩者之間還是存在著一定的區(qū)別。
回答錯誤是輸出與正確答案不符,可通過比較糾正,而幻覺是生成內容脫離實際輸入或現(xiàn)實,是模型的“想象”,難以直接比較發(fā)現(xiàn)。兩者之間可能有所關聯(lián),但評估模型時需綜合考慮多種因素。
參考鏈接:https://arxiv.org/pdf/2503.15268
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。