丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

本文作者: 我在思考中 2022-12-23 16:50
導(dǎo)語:語言模型越大,其自我驗(yàn)證能力越強(qiáng),推理性能也更高。
語言模型越大,其自我驗(yàn)證能力越強(qiáng),推理性能也更高。

作者|黃楠、李梅

編輯|陳彩嫻

推理能力是機(jī)器接近人類智能的一個重要指標(biāo)。

最近的大型語言模型(Large language mode,LLM)正在變得越來越擅長推理,背后的一個關(guān)鍵技術(shù)是思維鏈(chain-of-thought,CoT),簡單來說,CoT 可以讓 LLM 模擬人類思考的過程,幫助大型語言模型生成一個推理路徑,將復(fù)雜的推理問題分解為多個簡單的步驟,而不僅僅只是一個最終答案,從而增強(qiáng)模型的推理能力。

對人類而言,我們推斷得出一個結(jié)論后,往往會通過重新驗(yàn)證來進(jìn)行核對、避免錯誤。但當(dāng) LLM 在通過 CoT 執(zhí)行復(fù)雜推理尤其是算術(shù)和邏輯推理的過程中若出現(xiàn)錯誤,會在一定程度上影響推理效果,所以不得不進(jìn)行人工驗(yàn)證。

那么能不能讓語言模型也具備自我糾錯和自我驗(yàn)證的能力呢?

近日,中國科學(xué)院自動化所的研究團(tuán)隊(duì)提出了一種新方法證明了 LLM 可對自己的推理結(jié)論進(jìn)行可解釋的自我驗(yàn)證,從而大大提高推理性能,這讓 LLM 朝著人類智能又前進(jìn)了一步。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能
論文地址:https://arxiv.org/pdf/2212.09561.pdf



1

正向推理+反向驗(yàn)證

當(dāng)涉及復(fù)雜推理時,語言模型往往缺乏穩(wěn)健性,一旦發(fā)生任何一個小錯誤,都可能會改變命題的全部含義,從而導(dǎo)致出現(xiàn)錯誤答案。使用CoT 提示進(jìn)行推理時,問題會更嚴(yán)重,由于模型沒有糾錯機(jī)制,以至于很難從錯誤的假設(shè)中糾正過來。

以往的一種解決方法是通過訓(xùn)練驗(yàn)證器(verififiers)來評估模型輸出正確性。但訓(xùn)練驗(yàn)證器有三個大缺點(diǎn):需要大量的人力和計(jì)算資源、可能存在誤報(bào)、可解釋性差。

為此,中科院團(tuán)隊(duì)提出讓 LLM 進(jìn)行自我驗(yàn)證。

首先,假設(shè)推理問題中的所有條件對于得出結(jié)論都是必要的,給定結(jié)論和其他條件后,可推導(dǎo)出其余條件。自我驗(yàn)證分兩個階段進(jìn)行:

  • 正向推理,LLM 生成候選思維鏈和結(jié)論給定的問題文本;

  • 反向驗(yàn)證,使用 LLM 來驗(yàn)證條件是否滿足候選結(jié)論,并根據(jù)驗(yàn)證分?jǐn)?shù)對候選結(jié)論進(jìn)行排序。

如下圖,對于“Jackie 有 10 個蘋果(f1),Adam 有 8 個蘋果(f2),Jackie 比 Adam 多了多少個蘋果?”這個問題,可從 f1 和 f2 推理出結(jié)論 fy。然后,通過反向驗(yàn)證來檢驗(yàn)該結(jié)論的準(zhǔn)確性,就像解方程一樣,如果以 f2 和 fy 為條件,可以得出 f1,通過驗(yàn)證 f1 是否與原來的 f1 結(jié)果一致,可以判斷 fy 的正確性。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 1:正向推理與反向驗(yàn)證

研究表明,LLM 僅需少量提示即可使用自我驗(yàn)證,無需訓(xùn)練或梯度更新。它們用候選結(jié)論來驗(yàn)證,解決了原 CoT 中偏離正確思維過程的問題。而且,驗(yàn)證分?jǐn)?shù)源自整個思維推理過程,可解釋性很高。

通過對 GPT?3、CODEX 和 Instruct?GPT 等大模型的實(shí)驗(yàn)分析,這項(xiàng)研究證明了 LLM 具備可解釋的自我驗(yàn)證能力。



2

LLM 的自我驗(yàn)證過程

自我驗(yàn)證的整個過程如圖 2所示。第一步與 CoT 類似,但研究通過采樣解碼生成多個候選結(jié)論,計(jì)算每個候選結(jié)論的驗(yàn)證分?jǐn)?shù),并選擇最高分?jǐn)?shù)作為最終結(jié)論。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 2:自我驗(yàn)證示例;LLM 在第一階段中生成一些候選結(jié)論,三個預(yù)訓(xùn)練語言模型用于大量自動構(gòu)建的數(shù)值推理問題,但這些方法需要大量的數(shù)據(jù)和專家注釋,然后 LLM 依次驗(yàn)證這些結(jié)論,統(tǒng)計(jì)推理正確的屏蔽條件的個數(shù)作為第二階段的驗(yàn)證分?jǐn)?shù)

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 3:這是一個需要使用多個條件的示例;如果只屏蔽第一個證據(jù),則不需要這個證據(jù)(前向推理時,需要計(jì)算周末的錢,周五的工作時數(shù)不影響最終結(jié)論)。因此,我們無法根據(jù)現(xiàn)有條件和任何候選結(jié)論來預(yù)測此證據(jù)

2.1 候選結(jié)論生成

給定一個語言模型 M 和一個問答數(shù)據(jù)集 D,CoT 為 D 設(shè)計(jì)了一組樣本 C,其中包含 n 個樣本,epoch 樣本有包含條件和問題的輸入 X,思維過程 t 和結(jié)論 y。這些示例用作測試時間的輸入。通常 n 是一位數(shù),因此需要語言模型 M 在生成 y 之前安裝 C 生成 t 的提示:

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

C 中的每個示例都連接為提示。

使用 Sampling 解碼生成 K  y,K 是 y 的個數(shù)。具體來說,采樣譯碼是一種隨機(jī)譯碼方法,它可以在每一步從可能生成的詞的概率分布中采樣來選擇下一個詞,重復(fù)使用 Sampling 解碼可以得到多個候選結(jié)論。

2.2 條件和結(jié)論的重寫

對輸入的 X 進(jìn)一步細(xì)分為中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能其中每個 f 是一個條件,q 是一個問題。我們使用命令“請把問題和答案改成完整的陳述句[q] The answer is [y]”通過 M 把 q 和 y 改成新的陳述句 fy 。

在問題生成上,問題的多樣性使得在實(shí)際操作中很難平衡問題和答案之間的連貫性和事實(shí)一致性的需要,因此直接屏蔽條件。首先,通過正則匹配找到 f1 中的值改寫為 X,在新問題的末尾加入“What is the answer of X?” ,從而提示語言模型指示目標(biāo)。

2.3 依次驗(yàn)證

如圖 4 所示,如果給定的 X 不滿足所有條件都是結(jié)論的必要條件,可以發(fā)現(xiàn)只有掩碼的第一個條件會有局限性,難以準(zhǔn)確評估其驗(yàn)證分?jǐn)?shù)。為了解決這個問題,可以采用多個條件依次驗(yàn)證的方法:依次用 X 替換原始 X 中出現(xiàn)的所有 f,并要求 M 重新預(yù)測它,提高驗(yàn)證的可靠性和準(zhǔn)確性。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 4:在八個基準(zhǔn)數(shù)據(jù)集上進(jìn)行評估,這些基準(zhǔn)數(shù)據(jù)集涵蓋了算術(shù)推理、常識推理和邏輯推理任務(wù)

2.4 驗(yàn)證分?jǐn)?shù)

研究人員設(shè)計(jì)了一個類似于正向推理的 CoT 以指導(dǎo) LLM 生成解決過程。而反向驗(yàn)證過程類似于求解方程式,可將其最終結(jié)果與屏蔽條件進(jìn)行匹配。

由于 LLM 本身性能有限,在反向驗(yàn)證過程中,單次解碼會因隨機(jī)性導(dǎo)致驗(yàn)證結(jié)果出現(xiàn)偏差,難以保證更準(zhǔn)確的驗(yàn)證分?jǐn)?shù)。為了解決這個問題,采樣解碼過程將重復(fù) P 次,這樣驗(yàn)證分?jǐn)?shù)就可以更準(zhǔn)確地反映模型對給定結(jié)論的置信度。

驗(yàn)證分?jǐn)?shù)計(jì)算如下:

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

其中,1(.)為指示函數(shù),從生成的 K 個候選答案中選擇驗(yàn)證分?jǐn)?shù)最高的一個作為結(jié)果,

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能



3

LLM 的自我驗(yàn)證能增強(qiáng)推理性能

任務(wù)和數(shù)據(jù)集

此項(xiàng)研究評估了6個算術(shù)推理數(shù)據(jù)集,進(jìn)一步證明了自我驗(yàn)證在常識推理和邏輯推理數(shù)據(jù)集上的有效性。這些數(shù)據(jù)集在輸入格式方面高度異質(zhì):

  • 算術(shù),前兩個是一步推理的數(shù)據(jù)集,后四個需要多步推理,解決起來比較有挑戰(zhàn)性

  • 常識,CommonsenseQA(CSQA)需要使用常識和關(guān)于世界的知識才能準(zhǔn)確回答具有復(fù)雜含義的問題,其依賴于先驗(yàn)知識來提供準(zhǔn)確的響應(yīng)

  • 邏輯,日期理解要求模型從一個上下文推斷日期

型號

研究人員在實(shí)驗(yàn)中測試來原始 CODEX 模型和 Instruct?GPT 模型,此外還通過使用 GPT?3 進(jìn)行分析實(shí)驗(yàn),研究了不同參數(shù)級別對可驗(yàn)證性的影響,LLM  的大小范圍為 0.3B 到 175B 。這些實(shí)驗(yàn)使用了 OpenAI 的 API 來獲得推理結(jié)果。

實(shí)驗(yàn)結(jié)果表明,使用了自我驗(yàn)證的兩個模型在多個任務(wù)中實(shí)現(xiàn)了 SOTA 性能。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 5:推理數(shù)據(jù)集上的問題解決率(%)

可以看到,自我驗(yàn)證在算術(shù)數(shù)據(jù)集上實(shí)現(xiàn)了1.67%/2.84%的平均改進(jìn),并為常識推理和邏輯推理任務(wù)帶來了少量優(yōu)化。此外,自我驗(yàn)證還直接導(dǎo)致高性能 Instruct?GPT 模型結(jié)果平均增加2.33%,這表明,具有強(qiáng)大前向推理能力的模型也具有很高的自我驗(yàn)證能力。

研究人員進(jìn)一步發(fā)現(xiàn)了以下幾個關(guān)鍵結(jié)論。

可用條件越多,驗(yàn)證準(zhǔn)確性越高

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 6:單條件驗(yàn)證與多條件驗(yàn)證的問題解決率(%)比較

圖 6 中觀察了對六個不同算術(shù)數(shù)據(jù)集使用單一條件掩碼的效果:由于這些數(shù)據(jù)集輸入中的每個數(shù)字都可以被視為一個條件,因此可以研究增加驗(yàn)證條件數(shù)量的影響。經(jīng)大多數(shù)實(shí)驗(yàn)可發(fā)現(xiàn),多條件掩碼比單條件掩碼表現(xiàn)更好,并且都比原始 CoT 表現(xiàn)更好。

模型越大,自我驗(yàn)證能力越強(qiáng)

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 7:不同尺寸模型的自我驗(yàn)證能力

圖 7顯示了參數(shù)從 0.4B 到 175B 的 GPT?3 模型能力。實(shí)驗(yàn)結(jié)果表明,當(dāng)參數(shù)較小時,模型的自驗(yàn)證能力較弱,甚至不如 CoT 的原始性能。這說明,模型的自我驗(yàn)證也是一種涌現(xiàn)能力,且往往出現(xiàn)在更大的模型中。

思維鏈提示很少并不影響自我驗(yàn)證能力

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 8:2 次提示和8 次提示的問題解決率(%)比較

圖 8 所示的實(shí)驗(yàn)結(jié)果顯示了不同的提示量對性能的影響??梢钥吹?,自我驗(yàn)證在較小的樣本中表現(xiàn)出更大的穩(wěn)健性,甚至低至 2 次,這時候其 8 次提示的性能是 99.6%,而 CoT 只有 98.7%。不僅如此,即使只有 4 個提示(2 個 CoT 提示+ 2 個自我驗(yàn)證提示),自我驗(yàn)證也明顯優(yōu)于 CoT 8 次提示,突出了自我驗(yàn)證在數(shù)據(jù)有限情況下的重要性。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 9:不同驗(yàn)證方式的提示對比

與其它方法相比,條件掩碼的自我驗(yàn)證性能更優(yōu)

有另一種方法可以驗(yàn)證模型答案的正確性:真-假項(xiàng)目驗(yàn)證,這以方法是模型對所有條件進(jìn)行二分判斷,如圖 12 所示,不覆蓋任何條件。此研究還提供了一個反向推理的例子,并嘗試讓模型自動從結(jié)論是否滿足條件進(jìn)行反向推理,但實(shí)驗(yàn)結(jié)果如圖 10 所示,真-假項(xiàng)目驗(yàn)證的性能,要落后于條件掩碼驗(yàn)證的性能。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 10:6 個算術(shù)數(shù)據(jù)集的問題解決率(%)條件掩碼驗(yàn)證和真-假項(xiàng)目驗(yàn)證的比較

為了理解這種差距的原因,研究分析了具體案例,如圖 11 所示,結(jié)果表明:(1)缺乏明確的反向推理目標(biāo)導(dǎo)致模型再次從正向推理,該結(jié)果沒有意義、并且不利用現(xiàn)有的結(jié)論;(2)真-假項(xiàng)目驗(yàn)證提供了所有的條件,但這些條件可能會誤導(dǎo)模型的推理過程,使模型沒有起點(diǎn)。因此,更有效的做法是使用條件掩碼驗(yàn)證,從而更好地激發(fā)模型的自我驗(yàn)證能力。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 11:一些實(shí)際生成案例進(jìn)一步展示了不同驗(yàn)證方法的影響

LLM 的自我驗(yàn)證能糾錯,但可也能「誤傷」

圖 12 展示了 LLM 使用自我驗(yàn)證來驗(yàn)證其自身結(jié)果的詳細(xì)結(jié)果:

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

圖 12:使用 Instruct?GPT 為八個數(shù)據(jù)集中的每一個生成了五組候選答案,然后利用 Instruct?GPT 的自我驗(yàn)證 能力,對它們進(jìn)行一一判斷和排序

左邊的扇形圖顯示了自我驗(yàn)證產(chǎn)生的候選結(jié)論的預(yù)測結(jié)果。LLM 在每次提示中產(chǎn)生1-5個候選結(jié)論(由于 LLM 的自洽性,可能會產(chǎn)生相同的候選結(jié)論),這些結(jié)論可能是正確的,也可能是錯誤的,再通過 LLM 自我驗(yàn)證來檢驗(yàn)這些結(jié)論,并將其類為真陽性(TP)、真陰性(TN)、假陰性(FN)或假陽性(FP)??梢园l(fā)現(xiàn),除了 TP 和 TN 之外,還有大量的 FN,但只有少量的 FP。

右邊的表格顯示了召回率明顯高于準(zhǔn)確率,由此可以說明,LLM 的自我驗(yàn)證可以準(zhǔn)確剔除不正確的結(jié)論,但也可能將一個正確結(jié)論錯誤地認(rèn)為是不正確的。這可能是由于反向驗(yàn)證時方程錯誤或計(jì)算錯誤造成的,這一問題將在未來解決。

最后總結(jié)一下,這項(xiàng)工作提出的自我驗(yàn)證方法能夠讓大型語言模型和提示來引導(dǎo)模型驗(yàn)證自己的結(jié)果,能提高 LLM 在推理任務(wù)中的準(zhǔn)確性和可靠性。

但需要注意的是,這些提示是人為構(gòu)造的,可能會引入偏差。所以方法的有效性會受到 LLM 產(chǎn)生的候選結(jié)論中正確答案的存在的限制,因此取決于模型正確前向推理的能力。

此外,該方法涉及生成多個候選 CoT 和結(jié)論,這對于 LLM 來說也存在計(jì)算資源的消耗。雖然它可以幫助 LLM 避免來自不正確的 CoT 干擾,但也可能無法完全消除推理過程中的錯誤。

更多內(nèi)容,點(diǎn)擊下方關(guān)注:

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說