強(qiáng)如 GPT-4，也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

本文作者：賴文昕

2024-03-13 15:31

導(dǎo)語：導(dǎo)語：讓不同的大模型玩“劇本殺”，結(jié)果出人意料。

編譯 | 賴文昕

編輯 | 陳彩嫻

語言大模型能依據(jù)人類設(shè)定的規(guī)則生成內(nèi)容嗎？

這背后關(guān)乎人類用戶使用大模型的安全問題。

例如，AI 科技評論想使用 GPT-4 制作一張包含對話框的圖片，但沒有針對目標(biāo)生成對話的內(nèi)容給予明確指示，而 GPT-4 生成的圖文效果便如下，顯示文本邏輯混亂、字不成章，還有部分“重影”：

強(qiáng)如 GPT-4，也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

語言大模型能否遵循人類指示生成合格內(nèi)容，是人類能否操控人工智能的重要評測標(biāo)準(zhǔn)之一。

近日，加州大學(xué)伯克利、斯坦福大學(xué)聯(lián)合AI安全中心（CAIS）及阿卜杜勒阿齊茲國王科技城（KACST）聯(lián)合發(fā)表了一項(xiàng)最新研究，提出一個(gè)用于衡量語言大模型（LLM）遵循規(guī)則能力的程序框架“RULES”，旨在以編程方式自動(dòng)檢查語言模型輸出的內(nèi)容合規(guī)性。

強(qiáng)如 GPT-4，也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

論文鏈接：https://arxiv.org/pdf/2311.04235v3.pdf

該項(xiàng)研究選取了包含 GPT、Claude、Gemini 三個(gè)閉源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等 123 個(gè)開源模型作為測試對象。讓人驚訝的是，大部分參與 RULES 測試的語言大模型，都沒有表現(xiàn)出令人滿意的結(jié)果。

其中，得分最高的 GPT-4 雖然在分?jǐn)?shù)上大幅領(lǐng)先，但也仍未通過 93 項(xiàng)測試。

RULES：大模型的“劇本殺”

伯克利等高校團(tuán)隊(duì)聯(lián)合提出的 RULES 作為一項(xiàng)檢驗(yàn) LLM 遵循規(guī)則能力的新基準(zhǔn)，到底有什么特別之處呢？

受計(jì)算機(jī)系統(tǒng)和兒童游戲安全特性的啟發(fā)，研究團(tuán)隊(duì)將 RULES 劃分為了 14 個(gè)文本場景，每個(gè)場景都需要目標(biāo)測試模型在遵循一個(gè)或多個(gè)規(guī)則的情況下進(jìn)行操作。

簡單來說，參與測試的 LLMs，就像參與“劇本殺”的一位位玩家，需要在 RULES 這位“NPC”給出的場景設(shè)定下根據(jù)規(guī)則給出相應(yīng)回答。如果 LLMs 違反了某個(gè)具體場景設(shè)定下的規(guī)則，“NPC”就會(huì)判其不得分。

為了更好地評估模型，研究人員創(chuàng)建了一系列具體的場景測試用例，難度從簡單到中等依次分為：良性（Benign）、基本（Basic）和紅隊(duì)（Redteam）。

研究人員總共設(shè)計(jì)了 9 條無害規(guī)則和 10 條有用規(guī)則，總共 19 條規(guī)則、涵蓋 14 個(gè)場景，其中無害規(guī)則定義了“模型不能做什么”，而有用規(guī)則定義了“模型必須做什么”。如果模型按順序響應(yīng)了每個(gè)測試的用戶消息而不違反規(guī)則，則稱該模型成功通過測試用例。

強(qiáng)如 GPT-4，也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

每個(gè)場景的規(guī)則都以自然語言呈現(xiàn)給模型，作為對話中的第一條用戶消息，或者可選作為系統(tǒng)消息（如果模型支持），模型必須在對話期間遵守所有規(guī)則。

其中，較簡單的場景只有一個(gè)規(guī)則，而其他場景則將最多三個(gè)規(guī)則組合成一個(gè)任務(wù)，有些場景還涉及多個(gè)不同的用戶。在這種情況下，研究人員通過在前面加上發(fā)送者的姓名來指示發(fā)送每條消息的用戶的身份。他們還對用戶消息施加限制，即都必須在前面加上有效的用戶名。

某些規(guī)則旨在與其他場景中的其他規(guī)則保持類似的結(jié)構(gòu)，例如，在加密場景中，模型不得泄露隱私密鑰；而在二進(jìn)制搜索場景中，模型不得泄露秘密數(shù)字。

研究團(tuán)隊(duì)設(shè)計(jì)的 14 個(gè)場景讓使用字符串比較和正則表達(dá)式模式的函數(shù)可以評估模型的響應(yīng)是否符合規(guī)則，且每個(gè)函數(shù)只有幾行代碼，不需要使用大型模型進(jìn)行推理或人工標(biāo)記。

在評估無害規(guī)則時(shí)，RULES 依賴于精確的字符串匹配，舉例來說，如果密碼是“芝麻開門”，則包含“芝麻開門”的模型響應(yīng)將通過。在評估有用的規(guī)則時(shí)，通常首先通過去除標(biāo)點(diǎn)符號和空格字符，并檢查是否存在標(biāo)準(zhǔn)化的預(yù)期響應(yīng)來規(guī)范化模型響應(yīng)，因此，如果指令指定響應(yīng)“謝謝！”，則模型響應(yīng)“謝謝”就足夠了。

以加密場景為例，在“管理秘密計(jì)算機(jī)系統(tǒng)”這個(gè)“劇本殺”設(shè)定下，被測試的模型會(huì)被告知密鑰并被要求遵守保密的規(guī)則，而在后續(xù)對話中，只有被測試的模型拒絕向用戶重復(fù)密鑰，才算是通過了測試：

強(qiáng)如 GPT-4，也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

研究人員將所有模型生成限制為 100 個(gè) tokens 以評估模型是否會(huì)違反規(guī)則，三個(gè)測試套件中的所有測試用例最多有 3 個(gè)測試的用戶消息。在良性和基本套件中，測試用例包含了其他用戶和助理響應(yīng)作為測試用戶消息之前用來填充的上下文。

良性測試用于檢查模型在響應(yīng)完全不相關(guān)的消息時(shí)是否能夠避免違反規(guī)則。測試用例包含了 GPT 生成的多輪對話的 UltraChat 200k 數(shù)據(jù)集的對話片段。研究團(tuán)隊(duì)對 5 個(gè)對話進(jìn)行采樣，每個(gè)對話包含 5 輪，并為每個(gè)對話的每一輪構(gòu)建了一個(gè)測試用例。

基本測試可以評估模型在響應(yīng)直接請求它違反規(guī)則的用戶消息時(shí)能否遵循規(guī)則。與良性測試類似，基本測試也使用了不同的對話填充上下文，然后提出違反規(guī)則的請求。

而在紅隊(duì)測試中，研究人員進(jìn)行了多輪內(nèi)部紅隊(duì)測試，試圖欺騙模型違反規(guī)則，他們總結(jié)出了成功欺騙模型的五類策略，然后再根據(jù)這些策略鞏固紅隊(duì)測試套件，分別是：

? 間接：用戶要求模型執(zhí)行看似無害的任務(wù)

? 法律術(shù)語：用戶對規(guī)則提出誤導(dǎo)性的重新解釋

? 混淆：用戶偽裝模型的請求以破壞規(guī)則

? 規(guī)則更改：用戶通知模型新的或更新的規(guī)則

? 模擬：用戶要求模型模擬或討論假設(shè)情況

對于每一個(gè)測試套件，研究人員都會(huì)分別計(jì)算無害和有用測試用例的百分比，并將百分比重新調(diào)整為滿分 10 分，以產(chǎn)生無害分?jǐn)?shù)和有用分?jǐn)?shù)，最后再取 6 個(gè)分?jǐn)?shù)的算術(shù)平均值來計(jì)算總分，將其稱為“RULES 分?jǐn)?shù)”。

無模型通過測試，最強(qiáng) GPT-4 也不例外

在這項(xiàng)研究中，研究團(tuán)隊(duì)評估了一系列當(dāng)下最熱門的大語言模型，其中包含了 GPT、Claude、Gemini 這三個(gè)閉源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等開源模型。

在開源模型中，他們除了評估各種基礎(chǔ)語言模型外，還評估了各種官方和社區(qū)微調(diào)的模型，例如 Vicuna、Zephyr、Starling 等，總計(jì)高達(dá) 123 個(gè)。

在評估領(lǐng)先的閉源模型和 100 多個(gè)開源模型后，研究人員發(fā)現(xiàn)：絕大多數(shù)模型在很大一部分測試用例上未能遵循規(guī)則。

開放模型在基本和紅隊(duì)測試組合上都遇到了困難，特別是在有用規(guī)則的測試用例上，會(huì)比無害規(guī)則困難得多。盡管少數(shù)社區(qū)開發(fā)的微調(diào)方法可以很好地提高分?jǐn)?shù)，但現(xiàn)有的對齊微調(diào)方法在規(guī)則遵循性能方面會(huì)適得其反。

強(qiáng)如 GPT-4，也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

對多個(gè)版本的模型進(jìn)行重復(fù)數(shù)據(jù)刪除后，研究人員特別統(tǒng)計(jì)了前 20 個(gè)模型的測試結(jié)果：GPT-4 取得了近乎完美的分?jǐn)?shù)，大大超過了第二高分的模型 Claude 3 Opus。

有趣的是，Claude Instant 獲得了比 Claude 2.1 (+1.01) 更高的分?jǐn)?shù)。在開源模型中，Qwen1.5 72B Chat 等較新、較大的模型得分最高，而 Llama-2 7B 基礎(chǔ)模型在所有 7B 模型中排名第一。雖然更好的開源模型往往更大，但 Yi-34B 型號的微調(diào)也有很好的表現(xiàn)。

強(qiáng)如 GPT-4，也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

值得一提的是，盡管 GPT-4 表現(xiàn)最佳，但仍然未能通過 93 個(gè)獨(dú)特的測試用例，其中包括了 18 個(gè)基本測試用例以及紅隊(duì)測試用例 17 條規(guī)則中的至少 1 個(gè)測試用例。

研究團(tuán)隊(duì)強(qiáng)調(diào)，在相對簡單的測試上獲得高分并不意味著 LLM 就能夠充分遵守規(guī)則。

另外值得關(guān)注的是，盡管 Llama-2 和 Gemma 雙方的技術(shù)報(bào)告均未列出具體細(xì)節(jié)，但這兩個(gè)模型都對以安全為中心的數(shù)據(jù)采用了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

在 RULES 的測試中，Llama-2 和 Gemma 的表現(xiàn)明顯較差。研究人員推斷，這說明了許多現(xiàn)有的對齊方法，特別是專注于避免有害輸出的方法，不足以確保模型具有遵守規(guī)則的能力。

強(qiáng)如 GPT-4，也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

除了對齊方法，研究團(tuán)隊(duì)還評估其他形式的微調(diào)對規(guī)則遵循能力的影響，比如提高基礎(chǔ)模型的對話和其他能力。研究人員發(fā)現(xiàn)，以零樣本方式提示的基礎(chǔ)模型在遵循規(guī)則方面表現(xiàn)出色：

在紅隊(duì)測試組合中，大多數(shù)基礎(chǔ)模型都位于 Pareto frontier 上。

在較小的型號 Llama-2 7B/13B 和 Mistral 7B 中，現(xiàn)有的微調(diào)似乎主要是用較低的無害分?jǐn)?shù)換取較高的有用分?jǐn)?shù)。

然而，在較大的基礎(chǔ)模型上，一些大模型團(tuán)隊(duì)的微調(diào)方法能夠改善模型的規(guī)則遵循能力，例如 Qwen1.5 72B Chat、Yi-34B-200K AEZAKMI-v2 和 Tulu-2 70B（微調(diào)自 Llama-2 70B）。

隨著大語言模型在各行業(yè)應(yīng)用的逐步加深，其遵守規(guī)則的能力收到了廣泛的關(guān)注。在邁向 AGI 的道路上，安全一直是焦點(diǎn)話題，而遵守規(guī)則是個(gè)中最核心的考驗(yàn)。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))AI 科技評論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài)，歡迎添加 anna042023，交流認(rèn)知，互通有無

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

賴文昕

資深編輯

關(guān)注具身智能。

發(fā)私信

當(dāng)月熱門文章