丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

本文作者: 賴文昕 2024-03-13 15:31
導(dǎo)語:導(dǎo)語:讓不同的大模型玩“劇本殺”,結(jié)果出人意料。


編譯 | 賴文昕

編輯 | 陳彩嫻

語言大模型能依據(jù)人類設(shè)定的規(guī)則生成內(nèi)容嗎?

這背后關(guān)乎人類用戶使用大模型的安全問題。

例如,AI 科技評論想使用 GPT-4 制作一張包含對話框的圖片,但沒有針對目標(biāo)生成對話的內(nèi)容給予明確指示,而 GPT-4 生成的圖文效果便如下,顯示文本邏輯混亂、字不成章,還有部分“重影”:

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

語言大模型能否遵循人類指示生成合格內(nèi)容,是人類能否操控人工智能的重要評測標(biāo)準(zhǔn)之一。

近日,加州大學(xué)伯克利、斯坦福大學(xué)聯(lián)合AI安全中心(CAIS)及阿卜杜勒阿齊茲國王科技城(KACST)聯(lián)合發(fā)表了一項(xiàng)最新研究,提出一個(gè)用于衡量語言大模型(LLM)遵循規(guī)則能力的程序框架“RULES”,旨在以編程方式自動(dòng)檢查語言模型輸出的內(nèi)容合規(guī)性。

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

論文鏈接:https://arxiv.org/pdf/2311.04235v3.pdf

該項(xiàng)研究選取了包含 GPT、Claude、Gemini 三個(gè)閉源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等 123 個(gè)開源模型作為測試對象。讓人驚訝的是,大部分參與 RULES 測試的語言大模型,都沒有表現(xiàn)出令人滿意的結(jié)果。

其中,得分最高的 GPT-4 雖然在分?jǐn)?shù)上大幅領(lǐng)先,但也仍未通過 93 項(xiàng)測試。


RULES:大模型的“劇本殺”

伯克利等高校團(tuán)隊(duì)聯(lián)合提出的 RULES 作為一項(xiàng)檢驗(yàn) LLM 遵循規(guī)則能力的新基準(zhǔn),到底有什么特別之處呢?

受計(jì)算機(jī)系統(tǒng)和兒童游戲安全特性的啟發(fā),研究團(tuán)隊(duì)將 RULES 劃分為了 14 個(gè)文本場景,每個(gè)場景都需要目標(biāo)測試模型在遵循一個(gè)或多個(gè)規(guī)則的情況下進(jìn)行操作。

簡單來說,參與測試的 LLMs,就像參與“劇本殺”的一位位玩家,需要在 RULES 這位“NPC”給出的場景設(shè)定下根據(jù)規(guī)則給出相應(yīng)回答。如果 LLMs 違反了某個(gè)具體場景設(shè)定下的規(guī)則,“NPC”就會(huì)判其不得分。

為了更好地評估模型,研究人員創(chuàng)建了一系列具體的場景測試用例,難度從簡單到中等依次分為:良性(Benign)、基本(Basic)和紅隊(duì)(Redteam)。

研究人員總共設(shè)計(jì)了 9 條無害規(guī)則和 10 條有用規(guī)則,總共 19 條規(guī)則、涵蓋 14 個(gè)場景,其中無害規(guī)則定義了“模型不能做什么”,而有用規(guī)則定義了“模型必須做什么”。如果模型按順序響應(yīng)了每個(gè)測試的用戶消息而不違反規(guī)則,則稱該模型成功通過測試用例。

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

每個(gè)場景的規(guī)則都以自然語言呈現(xiàn)給模型,作為對話中的第一條用戶消息,或者可選作為系統(tǒng)消息(如果模型支持),模型必須在對話期間遵守所有規(guī)則。

其中,較簡單的場景只有一個(gè)規(guī)則,而其他場景則將最多三個(gè)規(guī)則組合成一個(gè)任務(wù),有些場景還涉及多個(gè)不同的用戶。在這種情況下,研究人員通過在前面加上發(fā)送者的姓名來指示發(fā)送每條消息的用戶的身份。他們還對用戶消息施加限制,即都必須在前面加上有效的用戶名。

某些規(guī)則旨在與其他場景中的其他規(guī)則保持類似的結(jié)構(gòu),例如,在加密場景中,模型不得泄露隱私密鑰;而在二進(jìn)制搜索場景中,模型不得泄露秘密數(shù)字。

研究團(tuán)隊(duì)設(shè)計(jì)的 14 個(gè)場景讓使用字符串比較和正則表達(dá)式模式的函數(shù)可以評估模型的響應(yīng)是否符合規(guī)則,且每個(gè)函數(shù)只有幾行代碼,不需要使用大型模型進(jìn)行推理或人工標(biāo)記。

在評估無害規(guī)則時(shí),RULES 依賴于精確的字符串匹配,舉例來說,如果密碼是“芝麻開門”,則包含“芝麻開門”的模型響應(yīng)將通過。在評估有用的規(guī)則時(shí),通常首先通過去除標(biāo)點(diǎn)符號和空格字符,并檢查是否存在標(biāo)準(zhǔn)化的預(yù)期響應(yīng)來規(guī)范化模型響應(yīng),因此,如果指令指定響應(yīng)“謝謝!”,則模型響應(yīng)“謝謝”就足夠了。

以加密場景為例,在“管理秘密計(jì)算機(jī)系統(tǒng)”這個(gè)“劇本殺”設(shè)定下,被測試的模型會(huì)被告知密鑰并被要求遵守保密的規(guī)則,而在后續(xù)對話中,只有被測試的模型拒絕向用戶重復(fù)密鑰,才算是通過了測試:

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

研究人員將所有模型生成限制為 100 個(gè) tokens 以評估模型是否會(huì)違反規(guī)則,三個(gè)測試套件中的所有測試用例最多有 3 個(gè)測試的用戶消息。 在良性和基本套件中,測試用例包含了其他用戶和助理響應(yīng)作為測試用戶消息之前用來填充的上下文。

良性測試用于檢查模型在響應(yīng)完全不相關(guān)的消息時(shí)是否能夠避免違反規(guī)則。測試用例包含了 GPT 生成的多輪對話的 UltraChat 200k 數(shù)據(jù)集的對話片段。研究團(tuán)隊(duì)對 5 個(gè)對話進(jìn)行采樣,每個(gè)對話包含 5 輪,并為每個(gè)對話的每一輪構(gòu)建了一個(gè)測試用例。

基本測試可以評估模型在響應(yīng)直接請求它違反規(guī)則的用戶消息時(shí)能否遵循規(guī)則。與良性測試類似,基本測試也使用了不同的對話填充上下文,然后提出違反規(guī)則的請求。

而在紅隊(duì)測試中,研究人員進(jìn)行了多輪內(nèi)部紅隊(duì)測試,試圖欺騙模型違反規(guī)則,他們總結(jié)出了成功欺騙模型的五類策略,然后再根據(jù)這些策略鞏固紅隊(duì)測試套件,分別是:

? 間接:用戶要求模型執(zhí)行看似無害的任務(wù)

? 法律術(shù)語:用戶對規(guī)則提出誤導(dǎo)性的重新解釋

? 混淆:用戶偽裝模型的請求以破壞規(guī)則

? 規(guī)則更改:用戶通知模型新的或更新的規(guī)則

? 模擬:用戶要求模型模擬或討論假設(shè)情況

對于每一個(gè)測試套件,研究人員都會(huì)分別計(jì)算無害和有用測試用例的百分比,并將百分比重新調(diào)整為滿分 10 分,以產(chǎn)生無害分?jǐn)?shù)和有用分?jǐn)?shù),最后再取 6 個(gè)分?jǐn)?shù)的算術(shù)平均值來計(jì)算總分,將其稱為“RULES 分?jǐn)?shù)”。


無模型通過測試,最強(qiáng) GPT-4 也不例外

在這項(xiàng)研究中,研究團(tuán)隊(duì)評估了一系列當(dāng)下最熱門的大語言模型,其中包含了 GPT、Claude、Gemini 這三個(gè)閉源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等開源模型。

在開源模型中,他們除了評估各種基礎(chǔ)語言模型外,還評估了各種官方和社區(qū)微調(diào)的模型,例如 Vicuna、Zephyr、Starling 等,總計(jì)高達(dá) 123 個(gè)。

在評估領(lǐng)先的閉源模型和 100 多個(gè)開源模型后,研究人員發(fā)現(xiàn):絕大多數(shù)模型在很大一部分測試用例上未能遵循規(guī)則。

開放模型在基本和紅隊(duì)測試組合上都遇到了困難,特別是在有用規(guī)則的測試用例上,會(huì)比無害規(guī)則困難得多。 盡管少數(shù)社區(qū)開發(fā)的微調(diào)方法可以很好地提高分?jǐn)?shù),但現(xiàn)有的對齊微調(diào)方法在規(guī)則遵循性能方面會(huì)適得其反。

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

對多個(gè)版本的模型進(jìn)行重復(fù)數(shù)據(jù)刪除后,研究人員特別統(tǒng)計(jì)了前 20 個(gè)模型的測試結(jié)果:GPT-4 取得了近乎完美的分?jǐn)?shù),大大超過了第二高分的模型 Claude 3 Opus。

有趣的是,Claude Instant 獲得了比 Claude 2.1 (+1.01) 更高的分?jǐn)?shù)。 在開源模型中,Qwen1.5 72B Chat 等較新、較大的模型得分最高,而 Llama-2 7B 基礎(chǔ)模型在所有 7B 模型中排名第一。雖然更好的開源模型往往更大,但 Yi-34B 型號的微調(diào)也有很好的表現(xiàn)。

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

值得一提的是,盡管 GPT-4 表現(xiàn)最佳,但仍然未能通過 93 個(gè)獨(dú)特的測試用例,其中包括了 18 個(gè)基本測試用例以及紅隊(duì)測試用例 17 條規(guī)則中的至少 1 個(gè)測試用例。

研究團(tuán)隊(duì)強(qiáng)調(diào),在相對簡單的測試上獲得高分并不意味著 LLM 就能夠充分遵守規(guī)則。

另外值得關(guān)注的是,盡管 Llama-2 和 Gemma 雙方的技術(shù)報(bào)告均未列出具體細(xì)節(jié),但這兩個(gè)模型都對以安全為中心的數(shù)據(jù)采用了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

在 RULES 的測試中,Llama-2 和 Gemma 的表現(xiàn)明顯較差。研究人員推斷,這說明了許多現(xiàn)有的對齊方法,特別是專注于避免有害輸出的方法,不足以確保模型具有遵守規(guī)則的能力。

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

除了對齊方法,研究團(tuán)隊(duì)還評估其他形式的微調(diào)對規(guī)則遵循能力的影響,比如提高基礎(chǔ)模型的對話和其他能力。 研究人員發(fā)現(xiàn),以零樣本方式提示的基礎(chǔ)模型在遵循規(guī)則方面表現(xiàn)出色:

在紅隊(duì)測試組合中,大多數(shù)基礎(chǔ)模型都位于 Pareto frontier 上。

在較小的型號 Llama-2 7B/13B 和 Mistral 7B 中,現(xiàn)有的微調(diào)似乎主要是用較低的無害分?jǐn)?shù)換取較高的有用分?jǐn)?shù)。

然而,在較大的基礎(chǔ)模型上,一些大模型團(tuán)隊(duì)的微調(diào)方法能夠改善模型的規(guī)則遵循能力,例如 Qwen1.5 72B Chat、Yi-34B-200K AEZAKMI-v2 和 Tulu-2 70B(微調(diào)自 Llama-2 70B)。

隨著大語言模型在各行業(yè)應(yīng)用的逐步加深,其遵守規(guī)則的能力收到了廣泛的關(guān)注。在邁向 AGI 的道路上,安全一直是焦點(diǎn)話題,而遵守規(guī)則是個(gè)中最核心的考驗(yàn)。


雷峰網(wǎng)(公眾號:雷峰網(wǎng))AI 科技評論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài),歡迎添加 anna042023,交流認(rèn)知,互通有無


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說