丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給馬蕊蕾
發(fā)送

0

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊

本文作者: 馬蕊蕾 2024-07-31 18:20 專題:ICML 2019
導語:導語:純靠Transformer的架構(gòu)或數(shù)據(jù)驅(qū)動模型,解決不了推理問題。


作者:馬蕊蕾

編輯:陳彩嫻

大模型的安全研究,沒有趕上 AI 的發(fā)展速度。

7 月微軟藍屏事件,像是新老交替之際的一記警鐘。每一項新技術(shù)的發(fā)明,都伴隨著一種新責任的出現(xiàn)。假使 AI 集成到每個應(yīng)用,那么發(fā)生在微軟的藍屏事件,同樣也會成為 AI 潛在的危險。

“大模型能力的提升并不能代表它的安全也能得到改進,大家還是要有意識的發(fā)現(xiàn)模型潛在的風險和漏洞?!?ICML 2024 大會期間,AI 科技評論訪談 ICML Tutorial Chair 李博時,她如是說道。

李博現(xiàn)任伊利諾伊大學香檳分校(UIUC)和芝加哥大學教授,目前處于學術(shù)休假期間在工業(yè)界訪問。她重點研究機器學習、計算機安全、隱私和博弈論,大部分工作都在探索機器學習系統(tǒng)對各種對抗性攻擊的漏洞,并致力于開發(fā)現(xiàn)實世界的可信機器學習系統(tǒng)。

她曾榮獲 IJCAI 2022 計算機與思想獎、麻省理工學院技術(shù)評論 MIT TR-35 、Alfred P. Sloan 斯隆研究獎、NSF CAREER 獎、AI’s 10 to Watch、C.W. Gear Outstanding Faculty Award,英特爾新星獎等,并獲得來自 Amazon、Facebook、谷歌、英特爾和 IBM 等科技公司的學術(shù)研究獎。她的論文曾獲多個頂級機器學習和安全會議的最佳論文獎,研究成果還被永久收藏于英國科技博物館。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊

在去年 12 月份,她在模型安全領(lǐng)域創(chuàng)業(yè),創(chuàng)立了新公司——Virtue AI。

李博告訴 AI 科技評論,在此之前,她一直沒有找到合適的契機去創(chuàng)立一家公司,直到 2023 年初的 ChatGPT 開始,大模型的安全問題逐漸顯現(xiàn),成立一家公司來解決眼前的問題擁有了最佳時機。

隨即,李博與被稱為“AI 安全教母”的伯克利大學教授宋曉冬(Dawn Song)等人一起成立了安全公司 Virtue AI。據(jù)悉,目前 Virtue AI 團隊不過 20 人,但已獲得上千萬美元的融資。

大模型在處理復(fù)雜任務(wù)時,沒法繞開的挑戰(zhàn)之一就是幻覺問題。在她看來,推理能力純靠 Transformer 的架構(gòu)或者數(shù)據(jù)驅(qū)動模型,是解決不了問題的,因為公共數(shù)據(jù)模型不能真正的學習符號推理的任務(wù)。

她嘗試過數(shù)據(jù)驅(qū)動模型和符號邏輯推理的架構(gòu)組合,并提出一個觀點:她認為當模型同時具備數(shù)據(jù)驅(qū)動的泛化能力和邏輯的推理能力,才能從根本上解決幻覺問題。

在 ICML 2024 大會期間,AI 科技評論聯(lián)系到李博教授,與她就 ICML 2024、大模型安全以及新公司 Virtue AI 等話題進行了對話,以下作者進行了不改原意的編輯與整理:

大模型能力的提升≠安全能力的改進

AI科技評論:今年 ICML 的熱門方向有哪些?

李博:首先,大模型依舊是非常熱的方向;其次,agent也是一個重要方向;還有,今年多模態(tài)的發(fā)展明顯有了更快的進展,像最佳論文獎也涉及到了圖像和視頻生成的領(lǐng)域;深度學習也是熱門方向,包括人工智能價值對齊(AI Alignment)和具身智能。

另外,由于大模型越來越熱門,相應(yīng)地,有關(guān)安全的研究以及政策也越來越多,這個也是比較重要的話題。

AI科技評論:今年ICML新增了"Position Papers"板塊,這是不是意味著對學界的前瞻性觀點越來越重視了?

李博:對的,因為大模型本身會在很多新領(lǐng)域,引發(fā)新的討論話題。所以“Position Papers”板塊,可以讓大家在一些新興領(lǐng)域,提出他們認為應(yīng)該去研究但目前還不清楚怎么去研究的話題。

我認為這是非常重要的,比如當一個新興話題還沒有基礎(chǔ)和具體的方法時,很難寫出一篇方法論(methodology)。但有了這個"Position Papers"板塊,就可以讓更多學界的人提出一些話題,讓更多的人認識到這個話題很重要并能參與討論,相當于一個引導信息的區(qū)域。

AI科技評論:今年您在ICML上參與了哪些活動?

李博:我們組里有 13 篇論文,所以有很多學生參加。

例如像《C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models》,理論分析了LLm的生成風險,并證明RAG比Vanilla LLm生成風險低;還有《RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content》,已經(jīng)被Llamaguarc V2引用,還表示我們的模型型號更具備彈性。

這次我也在 Alignment Workshop、AI Safety Workshop和 AI Safety Panel and Social有一些討論,但重點主要在AI安全方面。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊被Llamaguarc V2引用的論文,論文鏈接:http://arxiv.org/pdf/2403.13031

AI科技評論:今年哪些論文或研究可能對未來機器學習領(lǐng)域有重大影響?

李博:研究模型的體系架構(gòu)領(lǐng)域肯定會有較大的影響,會運用在不同的領(lǐng)域或者完善模型上,像 AI 安全如何應(yīng)對在文本、視頻等領(lǐng)域的內(nèi)容風險問題。

未來我們可以預(yù)料到,大家會將大模型運用在不同的產(chǎn)品上,如果永遠需要去微調(diào)模型,既對效用有影響,也會產(chǎn)生更高的成本。所以內(nèi)部的 Guardrail 模型是一個輕量和靈活的解決辦法,我們做了很多關(guān)于安全風險、Guardrail 模型的一些工作。

AI科技評論:您怎么看 Meta Llama 3.1 模型?

李博:我們發(fā)布了一個針對Llama 3.1 405B 型號的安全風險評估報告,Llama 3.1 模型對于開源社區(qū)確實是一件非常好的事情,對大家做大模型的微調(diào)很有益處。

但我們從安全的角度去做評估,還是會有很多安全問題。所以,我們可以看到大模型能力的提升并不能代表它的安全也能得到改進,大家還是要有意識的發(fā)現(xiàn)模型潛在的風險和漏洞。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊Llama 3.1 405B型號整體安全性評估,照片來源:https://www.virtueai.com/research/

大模型幻覺問題的解法

AI科技評論:目前大模型在處理復(fù)雜任務(wù)時面臨的重要挑戰(zhàn)有哪些?

李博:第一方面,業(yè)界有很多人討論過大模型,認為它還是在做數(shù)據(jù)分配,還不具備真正的推理能力。如何提高模型的推理能力以及能讓模型真正的理解詞匯和遵循知識規(guī)則,一直是比較重要的挑戰(zhàn)。

第二方面,如何整合知識來解釋它到底能有什么用處。

第三方面,從模型微調(diào)和訓練角度來看,效率還是一個挑戰(zhàn)。目前小的模型,也是一種趨勢,例如 OpenAI 的GPT-4o mini,雖然很小但很有能力。

AI科技評論:未來模型能否解決幻覺的問題?

李博:我認為,推理能力純靠Transformer的架構(gòu)或者數(shù)據(jù)驅(qū)動模型,是解決不了問題的。因為公共數(shù)據(jù)模型本質(zhì)就是學習數(shù)據(jù)的分配,它并不能真正的學習符號推理的任務(wù),所以需要對模型的架構(gòu)上做改變。

我之前有做過數(shù)據(jù)驅(qū)動模型和象征性邏輯推理的架構(gòu)組合,使得模型不僅有數(shù)據(jù)驅(qū)動的泛化能力,還有邏輯推理的能力,我覺得這才能在根本上解決幻覺問題。

AI科技評論:國內(nèi)在大模型安全領(lǐng)域感覺提的相對很少。

李博:其實國內(nèi)提的也不少,國內(nèi)有可信安全實驗室以及各類可信機構(gòu),還提了很多法案。

其實我們有一篇Paper《AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies》,提到歐盟、美國和中國有關(guān)模型安全的政府政策涵蓋的風險類別,當中有一個非常有意思的發(fā)現(xiàn),中國在內(nèi)容安全風險、社會風險以及法律和權(quán)利風險上覆蓋的都很多。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊AI Risk Categorization Decoded (AIR 2024),圖片來源:https://arxiv.org/html/2406.17864v1

AI科技評論:目前有哪些研究在探索如何安全地訓練大模型?

李博:我們有不同的一些方向。第一步,從數(shù)據(jù)的角度,如何讓模型生成更高質(zhì)量的數(shù)據(jù),從而不被噪音數(shù)據(jù)所誤導。

第二步,從模型的角度,預(yù)訓練包括模型微調(diào)之后,如何讓模型在學習的過程中過濾噪音數(shù)據(jù),捕捉到更本質(zhì)的信號。

第三步,從模型的外部如何加一層,即使受到了噪音數(shù)據(jù)的影響,也不會輸出這種內(nèi)容,能及時被處理。第四步,如何將知識清晰的整合到大模型當中,繼而去加推理組件,這是我們一直在做的,使得它更好的推理、緩解幻覺或者應(yīng)對一些風險內(nèi)容。

AI科技評論:對抗性訓練在提高大模型魯棒性方面扮演了什么角色?

李博:對抗性訓練的方法很多,尤其在大模型上做人工智能價值對齊(AI Alignment),包括一站式開發(fā)平臺(LAF)、可信賴的模型微調(diào)指令、學習私密或有害信息等,這些在大模型魯棒性方面都能提高性能。

反而相對于對抗性訓練的幫助很小,我個人認為在圖像方面,對抗訓練的方向非常明確。但是在大模型上,對抗性訓練受很多方面的影響,例如網(wǎng)絡(luò)安全、有害信息等等,在對抗訓練的時候,你可能把每一類都要考慮周全,這幾乎是不可能做到的。所以,其實會有更適合大模型的方法來提高人工智能價值對齊,而不是單純依賴于對抗性訓練。

AI科技評論:您認為可信AI的未來將如何發(fā)展?

李博:可信AI非常重要,現(xiàn)在大家基本上都能夠做模型的微調(diào),但是如何把完善好的大模型真正的運用到實際解決問題的場景中?大家目前不敢部署,因為一旦部署,就會有一些安全爭議。

所以,我個人覺得,大模型可信AI的瓶頸會是把基礎(chǔ)模型部署到真正可使用到場景中的能力。

從基礎(chǔ)混合模型來看,需要解決如何對齊和微調(diào)的問題。針對添加了額外的模型,需要考慮如何輔助它變得更安全;針對新添的知識,能有一些額外的推理組件,真正做到可推理。這些是比較重要的手段來提高模型,包括最后的認證,由于我們都不能保證模型什么時候還會變得易攻擊,所以需要一些認證。

創(chuàng)立Virtue AI的動機

AI科技評論:您為什么在去年年底成立Virtue AI公司?當時有什么契機嗎?

李博:其實很早就想做一個有關(guān)模型層安全的公司,因為我們之前的很多算法已經(jīng)被其他大公司用了,也想讓更多的人進行更有效的使用。

之前確實沒有找到合適的契機,因為當時模型還有發(fā)展起來,還不能找到適合應(yīng)用它的場景。我們不知道模型中最重要的安全問題到底是什么。從2023年初的ChatGPT一直到年底,基本上能部署到一些地方,比如Copilot都用起來了,所以這個時候安全的問題就逐漸開始顯現(xiàn),當問題出現(xiàn)的時候,公司成立正好可以去解決當下的問題,相當于和問題一起成長。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊Virtue AI,照片來源:https://www.virtueai.com/research/

AI科技評論:做模型層的安全,您是基于什么考慮決定先做面向B端的?

李博:目前大模型好的應(yīng)用有很多都集中在B端,安全對于B端來說更為嚴重,無論是巨大的經(jīng)濟損失還是人身安全的問題,所以想要先去幫助B端解決問題。

AI科技評論:目前團隊的情況。

李博:我們目前團隊成員15-20人,主要都是對AI安全領(lǐng)域非常感興趣的研究者,一群有夢想的人聚集在一起,希望實現(xiàn)AI安全真正能夠部署在真實的場景中。

AI科技評論:你們的愿景目標是什么?

李博近期目標,我們還是希望縮小大模型的發(fā)展和部署在實際場景之間的鴻溝,讓安全真正能運用到場景中,確?,F(xiàn)有的AI模型能夠被保護起來。

長期目標,我們也希望像Ilya的SSI公司擁有一個安全模型,不一定是超級安全智能,安全智能也可以。但是近期,我們不會聚焦在安全模型,眼前還有很多的問題沒有解決,先讓AI能安全的用起來,再去聚焦在新的安全模型的發(fā)展上。

AI科技評論:那目前主要的難點問題什么?

李博:比如風險評估問題,對于大模型我們會有一個理論認證,但現(xiàn)在的認證還不是非常令我們滿意,所以我們還在努力完善。另外大模型很大,我們本身有一些算法,但目前都比較貴,這也是一個問題。

AI科技評論:公司在大模型安全這塊的技術(shù)是什么?

李博:目前在做風險評估,主要是攻擊技術(shù),幫助大家理解模型到底是否安全。其次,我們有一系列多模態(tài)的Guardrail模型,比如在文字,圖像,和視頻等領(lǐng)域去幫助大家保護現(xiàn)有的AI產(chǎn)品或者模型。

我們也有Safe Agent、Guardrail Agent和Virtue Agent。這些Agent可以吸收外部真實的信息,做一些決策和推理,然后確保安全。

AI科技評論:目前公司核心的競爭力是什么?

李博:AI安全本身是一個很難的問題,我們做了很久也還沒有徹底解決這個問題。所以只做工程師是不夠的,還是需要一些核心的算法,根本上去識別和解決安全問題。我們有十幾年的關(guān)于AI安全知識的積累,也有自己算法的積累。

AI科技評論:你之前一直在學術(shù)界,創(chuàng)立新公司對你來說有哪些挑戰(zhàn)?

李博:挑戰(zhàn)有很多,商業(yè)模式和產(chǎn)品都是一些很新的領(lǐng)域,有很多的東西需要學習。但非常有意思的點是,我能夠近距離接觸工業(yè)界,從中了解到他們真正關(guān)心、擔心的AI安全問題是什么以及希望得到什么樣的方式去解決問題。

從之前研究角度,可能做出的總結(jié)不是工業(yè)界真正需要的。通過現(xiàn)在的公司,其實是能夠了解一些真正的需求和場景,所以這兩者之間對我來說是相輔相成的。

AI科技評論:目前公司的產(chǎn)品有哪些?

李博:我們最近已經(jīng)發(fā)布了新產(chǎn)品,第一個產(chǎn)品線是面向AI模型、系統(tǒng)和代理的綜合風險評估平臺,無論是哪種模型,我們都可以為大家提供風險評估;第二個產(chǎn)品線是Guardrail模型,這個模型會優(yōu)先給大家使用,做出一些輸入輸出的模型;第三個產(chǎn)品線是Safe Agent,用Agent去解決有關(guān)安全的問題。

AI科技評論:目前主要在和哪些公司有合作,重點在做些什么?

李博:我們正在和斯坦福大學的HELM合作開發(fā)AIR-BENCH 2024,這是一項綜合基準,為了評估遵循新興監(jiān)管框架的 AI 模型的安全性和合規(guī)性。

也和Huggingface 共同托管標準LLM安全排行榜,從公平性、穩(wěn)健性、隱私性和毒性等不同的安全性和可信度角度為基礎(chǔ)模型提供統(tǒng)一的評估。

AI科技評論:公司接下來重點要做的是什么?

李博:我們現(xiàn)在還是會積極招聘在AI和AI安全方面感興趣的人,雖然公司有產(chǎn)品也有客戶,但我們更注重研究,還是會發(fā)論文。接下來也想處理一些有挑戰(zhàn)的研究問題,將其轉(zhuǎn)化為產(chǎn)品。

(雷峰網(wǎng)(公眾號:雷峰網(wǎng))

(雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊

分享:
相關(guān)文章

主筆

有關(guān)智能硬件行業(yè)里扣人心弦的人與故事,歡迎添加微信rl0209-,期待和你交流。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說