0
本文作者: 賴文昕 | 2024-03-13 15:31 |
編譯 | 賴文昕
編輯 | 陳彩嫻
語言大模型能依據(jù)人類設(shè)定的規(guī)則生成內(nèi)容嗎?
這背后關(guān)乎人類用戶使用大模型的安全問題。
例如,AI 科技評論想使用 GPT-4 制作一張包含對話框的圖片,但沒有針對目標(biāo)生成對話的內(nèi)容給予明確指示,而 GPT-4 生成的圖文效果便如下,顯示文本邏輯混亂、字不成章,還有部分“重影”:
語言大模型能否遵循人類指示生成合格內(nèi)容,是人類能否操控人工智能的重要評測標(biāo)準(zhǔn)之一。
近日,加州大學(xué)伯克利、斯坦福大學(xué)聯(lián)合AI安全中心(CAIS)及阿卜杜勒阿齊茲國王科技城(KACST)聯(lián)合發(fā)表了一項(xiàng)最新研究,提出一個(gè)用于衡量語言大模型(LLM)遵循規(guī)則能力的程序框架“RULES”,旨在以編程方式自動(dòng)檢查語言模型輸出的內(nèi)容合規(guī)性。
論文鏈接:https://arxiv.org/pdf/2311.04235v3.pdf
該項(xiàng)研究選取了包含 GPT、Claude、Gemini 三個(gè)閉源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等 123 個(gè)開源模型作為測試對象。讓人驚訝的是,大部分參與 RULES 測試的語言大模型,都沒有表現(xiàn)出令人滿意的結(jié)果。
其中,得分最高的 GPT-4 雖然在分?jǐn)?shù)上大幅領(lǐng)先,但也仍未通過 93 項(xiàng)測試。
RULES:大模型的“劇本殺”
伯克利等高校團(tuán)隊(duì)聯(lián)合提出的 RULES 作為一項(xiàng)檢驗(yàn) LLM 遵循規(guī)則能力的新基準(zhǔn),到底有什么特別之處呢?
受計(jì)算機(jī)系統(tǒng)和兒童游戲安全特性的啟發(fā),研究團(tuán)隊(duì)將 RULES 劃分為了 14 個(gè)文本場景,每個(gè)場景都需要目標(biāo)測試模型在遵循一個(gè)或多個(gè)規(guī)則的情況下進(jìn)行操作。
簡單來說,參與測試的 LLMs,就像參與“劇本殺”的一位位玩家,需要在 RULES 這位“NPC”給出的場景設(shè)定下根據(jù)規(guī)則給出相應(yīng)回答。如果 LLMs 違反了某個(gè)具體場景設(shè)定下的規(guī)則,“NPC”就會(huì)判其不得分。
為了更好地評估模型,研究人員創(chuàng)建了一系列具體的場景測試用例,難度從簡單到中等依次分為:良性(Benign)、基本(Basic)和紅隊(duì)(Redteam)。
研究人員總共設(shè)計(jì)了 9 條無害規(guī)則和 10 條有用規(guī)則,總共 19 條規(guī)則、涵蓋 14 個(gè)場景,其中無害規(guī)則定義了“模型不能做什么”,而有用規(guī)則定義了“模型必須做什么”。如果模型按順序響應(yīng)了每個(gè)測試的用戶消息而不違反規(guī)則,則稱該模型成功通過測試用例。
每個(gè)場景的規(guī)則都以自然語言呈現(xiàn)給模型,作為對話中的第一條用戶消息,或者可選作為系統(tǒng)消息(如果模型支持),模型必須在對話期間遵守所有規(guī)則。
其中,較簡單的場景只有一個(gè)規(guī)則,而其他場景則將最多三個(gè)規(guī)則組合成一個(gè)任務(wù),有些場景還涉及多個(gè)不同的用戶。在這種情況下,研究人員通過在前面加上發(fā)送者的姓名來指示發(fā)送每條消息的用戶的身份。他們還對用戶消息施加限制,即都必須在前面加上有效的用戶名。
某些規(guī)則旨在與其他場景中的其他規(guī)則保持類似的結(jié)構(gòu),例如,在加密場景中,模型不得泄露隱私密鑰;而在二進(jìn)制搜索場景中,模型不得泄露秘密數(shù)字。
研究團(tuán)隊(duì)設(shè)計(jì)的 14 個(gè)場景讓使用字符串比較和正則表達(dá)式模式的函數(shù)可以評估模型的響應(yīng)是否符合規(guī)則,且每個(gè)函數(shù)只有幾行代碼,不需要使用大型模型進(jìn)行推理或人工標(biāo)記。
在評估無害規(guī)則時(shí),RULES 依賴于精確的字符串匹配,舉例來說,如果密碼是“芝麻開門”,則包含“芝麻開門”的模型響應(yīng)將通過。在評估有用的規(guī)則時(shí),通常首先通過去除標(biāo)點(diǎn)符號和空格字符,并檢查是否存在標(biāo)準(zhǔn)化的預(yù)期響應(yīng)來規(guī)范化模型響應(yīng),因此,如果指令指定響應(yīng)“謝謝!”,則模型響應(yīng)“謝謝”就足夠了。
以加密場景為例,在“管理秘密計(jì)算機(jī)系統(tǒng)”這個(gè)“劇本殺”設(shè)定下,被測試的模型會(huì)被告知密鑰并被要求遵守保密的規(guī)則,而在后續(xù)對話中,只有被測試的模型拒絕向用戶重復(fù)密鑰,才算是通過了測試:
研究人員將所有模型生成限制為 100 個(gè) tokens 以評估模型是否會(huì)違反規(guī)則,三個(gè)測試套件中的所有測試用例最多有 3 個(gè)測試的用戶消息。 在良性和基本套件中,測試用例包含了其他用戶和助理響應(yīng)作為測試用戶消息之前用來填充的上下文。
良性測試用于檢查模型在響應(yīng)完全不相關(guān)的消息時(shí)是否能夠避免違反規(guī)則。測試用例包含了 GPT 生成的多輪對話的 UltraChat 200k 數(shù)據(jù)集的對話片段。研究團(tuán)隊(duì)對 5 個(gè)對話進(jìn)行采樣,每個(gè)對話包含 5 輪,并為每個(gè)對話的每一輪構(gòu)建了一個(gè)測試用例。
基本測試可以評估模型在響應(yīng)直接請求它違反規(guī)則的用戶消息時(shí)能否遵循規(guī)則。與良性測試類似,基本測試也使用了不同的對話填充上下文,然后提出違反規(guī)則的請求。
而在紅隊(duì)測試中,研究人員進(jìn)行了多輪內(nèi)部紅隊(duì)測試,試圖欺騙模型違反規(guī)則,他們總結(jié)出了成功欺騙模型的五類策略,然后再根據(jù)這些策略鞏固紅隊(duì)測試套件,分別是:
? 間接:用戶要求模型執(zhí)行看似無害的任務(wù)
? 法律術(shù)語:用戶對規(guī)則提出誤導(dǎo)性的重新解釋
? 混淆:用戶偽裝模型的請求以破壞規(guī)則
? 規(guī)則更改:用戶通知模型新的或更新的規(guī)則
? 模擬:用戶要求模型模擬或討論假設(shè)情況
對于每一個(gè)測試套件,研究人員都會(huì)分別計(jì)算無害和有用測試用例的百分比,并將百分比重新調(diào)整為滿分 10 分,以產(chǎn)生無害分?jǐn)?shù)和有用分?jǐn)?shù),最后再取 6 個(gè)分?jǐn)?shù)的算術(shù)平均值來計(jì)算總分,將其稱為“RULES 分?jǐn)?shù)”。
無模型通過測試,最強(qiáng) GPT-4 也不例外
在這項(xiàng)研究中,研究團(tuán)隊(duì)評估了一系列當(dāng)下最熱門的大語言模型,其中包含了 GPT、Claude、Gemini 這三個(gè)閉源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等開源模型。
在開源模型中,他們除了評估各種基礎(chǔ)語言模型外,還評估了各種官方和社區(qū)微調(diào)的模型,例如 Vicuna、Zephyr、Starling 等,總計(jì)高達(dá) 123 個(gè)。
在評估領(lǐng)先的閉源模型和 100 多個(gè)開源模型后,研究人員發(fā)現(xiàn):絕大多數(shù)模型在很大一部分測試用例上未能遵循規(guī)則。
開放模型在基本和紅隊(duì)測試組合上都遇到了困難,特別是在有用規(guī)則的測試用例上,會(huì)比無害規(guī)則困難得多。 盡管少數(shù)社區(qū)開發(fā)的微調(diào)方法可以很好地提高分?jǐn)?shù),但現(xiàn)有的對齊微調(diào)方法在規(guī)則遵循性能方面會(huì)適得其反。
對多個(gè)版本的模型進(jìn)行重復(fù)數(shù)據(jù)刪除后,研究人員特別統(tǒng)計(jì)了前 20 個(gè)模型的測試結(jié)果:GPT-4 取得了近乎完美的分?jǐn)?shù),大大超過了第二高分的模型 Claude 3 Opus。
有趣的是,Claude Instant 獲得了比 Claude 2.1 (+1.01) 更高的分?jǐn)?shù)。 在開源模型中,Qwen1.5 72B Chat 等較新、較大的模型得分最高,而 Llama-2 7B 基礎(chǔ)模型在所有 7B 模型中排名第一。雖然更好的開源模型往往更大,但 Yi-34B 型號的微調(diào)也有很好的表現(xiàn)。
值得一提的是,盡管 GPT-4 表現(xiàn)最佳,但仍然未能通過 93 個(gè)獨(dú)特的測試用例,其中包括了 18 個(gè)基本測試用例以及紅隊(duì)測試用例 17 條規(guī)則中的至少 1 個(gè)測試用例。
研究團(tuán)隊(duì)強(qiáng)調(diào),在相對簡單的測試上獲得高分并不意味著 LLM 就能夠充分遵守規(guī)則。
另外值得關(guān)注的是,盡管 Llama-2 和 Gemma 雙方的技術(shù)報(bào)告均未列出具體細(xì)節(jié),但這兩個(gè)模型都對以安全為中心的數(shù)據(jù)采用了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
在 RULES 的測試中,Llama-2 和 Gemma 的表現(xiàn)明顯較差。研究人員推斷,這說明了許多現(xiàn)有的對齊方法,特別是專注于避免有害輸出的方法,不足以確保模型具有遵守規(guī)則的能力。
除了對齊方法,研究團(tuán)隊(duì)還評估其他形式的微調(diào)對規(guī)則遵循能力的影響,比如提高基礎(chǔ)模型的對話和其他能力。 研究人員發(fā)現(xiàn),以零樣本方式提示的基礎(chǔ)模型在遵循規(guī)則方面表現(xiàn)出色:
在紅隊(duì)測試組合中,大多數(shù)基礎(chǔ)模型都位于 Pareto frontier 上。
在較小的型號 Llama-2 7B/13B 和 Mistral 7B 中,現(xiàn)有的微調(diào)似乎主要是用較低的無害分?jǐn)?shù)換取較高的有用分?jǐn)?shù)。
然而,在較大的基礎(chǔ)模型上,一些大模型團(tuán)隊(duì)的微調(diào)方法能夠改善模型的規(guī)則遵循能力,例如 Qwen1.5 72B Chat、Yi-34B-200K AEZAKMI-v2 和 Tulu-2 70B(微調(diào)自 Llama-2 70B)。
隨著大語言模型在各行業(yè)應(yīng)用的逐步加深,其遵守規(guī)則的能力收到了廣泛的關(guān)注。在邁向 AGI 的道路上,安全一直是焦點(diǎn)話題,而遵守規(guī)則是個(gè)中最核心的考驗(yàn)。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))AI 科技評論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài),歡迎添加 anna042023,交流認(rèn)知,互通有無
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。