丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給Nemo
發(fā)送

0

攻克大模型訓(xùn)練難題!360實(shí)現(xiàn)全網(wǎng)首個(gè)開源強(qiáng)化學(xué)習(xí)LoRA訓(xùn)練方案

本文作者: Nemo   2025-06-04 16:00
導(dǎo)語(yǔ):目前,RL-LoRA相關(guān)核心代碼已正式對(duì)外開放下載使用。


在大模型的訓(xùn)練中,強(qiáng)化學(xué)習(xí)算法一直是提升模型性能的關(guān)鍵。然而,其面臨著計(jì)算資源要求高、訓(xùn)練速度慢等問(wèn)題,讓普通企業(yè)機(jī)構(gòu)望而卻步。面對(duì)行業(yè)共性難題,近日,在360數(shù)字安全集團(tuán)冰刃實(shí)驗(yàn)室主導(dǎo)下,打造出“輕量化、高性能”的AI訓(xùn)練方案:RL-LoRA,在保持模型泛化能力的前提下,體積僅為原始全參數(shù)模型的1%-5%,實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)訓(xùn)練技術(shù)引領(lǐng)性突破。目前,360安全大模型已深度融合RL-LoRA技術(shù),相關(guān)核心代碼也已正式對(duì)外開放下載使用。

 大模型強(qiáng)化學(xué)習(xí)訓(xùn)練困境:更高性能,更高門檻

當(dāng)DeepSeek-R1憑借卓越的推理與泛化能力驚艷全球,其背后的核心引擎——強(qiáng)化學(xué)習(xí)算法GRPO(Generalized Reinforcement Learning Policy Optimization)也備受矚目。GRPO的訓(xùn)練能夠簡(jiǎn)潔有效的提升大模型的推理能力,同時(shí)保持更優(yōu)的泛化能力。然而GRPO訓(xùn)練對(duì)顯存消耗高且速度緩慢,這就對(duì)于大模型的強(qiáng)化學(xué)習(xí)訓(xùn)練設(shè)置了更高的門檻要求,讓一些資源有限的企業(yè)以及在垂直領(lǐng)域的模型應(yīng)用望而卻步。

 一方面,強(qiáng)化學(xué)習(xí)訓(xùn)練方法對(duì)顯存資源要求巨大,在配備TRL+FA2的GRPO設(shè)置中,Llama 3.1(8B)在20K上下文長(zhǎng)度下,訓(xùn)練需要510.8GB的VRAM,而主流的娛樂級(jí)顯卡容量通常為2GB、4GB或8GB。

 另一方面,強(qiáng)化學(xué)習(xí)訓(xùn)練相對(duì)速度慢,需要持續(xù)對(duì)訓(xùn)練效率優(yōu)化提升。GRPO執(zhí)行過(guò)程中,需同時(shí)運(yùn)行策略模型、參考模型和推理模型,每一次權(quán)重更新操作需要頻繁切換模型,不僅引發(fā)效率瓶頸,還會(huì)產(chǎn)生顯存占用尖峰,使得強(qiáng)化學(xué)習(xí)訓(xùn)練速度緩慢。

最后,顯卡資源有限的機(jī)構(gòu)或垂類領(lǐng)域應(yīng)用大模型時(shí),常面臨在單一服務(wù)器上同時(shí)推理多個(gè)不同功能大模型的需求。LoRA這一低資源訓(xùn)練方法的重要性愈發(fā)凸顯,為高效利用有限資源、實(shí)現(xiàn)多模型協(xié)同推理提供了關(guān)鍵技術(shù)支撐。

重大突破:360實(shí)現(xiàn)全網(wǎng)首個(gè)強(qiáng)化學(xué)習(xí)LoRA訓(xùn)練方案

面對(duì)行業(yè)共性難題,由360冰刃實(shí)驗(yàn)室主導(dǎo),聯(lián)合加州伯克利大學(xué)BAIR頂尖學(xué)者(S.Xie、T.Lian、J.Pan)及字節(jié)跳動(dòng)Seed團(tuán)隊(duì)專家,在開源項(xiàng)目 Volcengine/VERL中貢獻(xiàn)了里程碑式方案:RL-LoRA集成支持,其主要具備以下技術(shù)優(yōu)勢(shì):

 更少資源、更高性能

RL-LoRA訓(xùn)練方法將LoRA引入至GRPO等強(qiáng)化學(xué)習(xí)訓(xùn)練全流程,能夠以更低的資源支持更大規(guī)模模型的強(qiáng)化訓(xùn)練。以往8卡A100無(wú)法觸及的32B+模型,如今可輕松訓(xùn)練70B甚至更大尺寸。

 實(shí)際測(cè)試中,對(duì)于LoRA_rank=32的0.5B模型,采用RL-LoRA訓(xùn)練方法,訓(xùn)練收斂速度和最終性能與常規(guī)GRPO訓(xùn)練幾乎相同,節(jié)省算力資源的同時(shí),保證了訓(xùn)練的正確性和穩(wěn)定性。

攻克大模型訓(xùn)練難題!360實(shí)現(xiàn)全網(wǎng)首個(gè)開源強(qiáng)化學(xué)習(xí)LoRA訓(xùn)練方案攻克大模型訓(xùn)練難題!360實(shí)現(xiàn)全網(wǎng)首個(gè)開源強(qiáng)化學(xué)習(xí)LoRA訓(xùn)練方案

 

更多批次、更高效率

RL-LoRA訓(xùn)練方法降低了顯存尖峰,在同等硬件下顯著提升訓(xùn)練批次(Batch Size),可以支持更多數(shù)據(jù)并行處理,提升計(jì)算資源利用率,進(jìn)而加快訓(xùn)練速度,助力模型高效訓(xùn)練。

 輕量化、易部署

訓(xùn)練產(chǎn)出的LoRA Adapter體積僅為原始全參數(shù)模型的1%-5%,微小體積使其復(fù)制、分發(fā)、加載異常便捷,徹底擺脫動(dòng)輒數(shù)百GB巨型模型的部署枷鎖。

 落地實(shí)踐:360安全大模型率先落地應(yīng)用RL-LoRA技術(shù)

針對(duì)安全垂直領(lǐng)域多場(chǎng)景化的應(yīng)用需求,360獨(dú)創(chuàng)了緊湊型多專家協(xié)同大模型(CCoE)架構(gòu),該架構(gòu)與模型基座解耦并具備遷移能力,使得專項(xiàng)任務(wù)無(wú)需訓(xùn)練大規(guī)?;鶇?shù)。在模型基座之上,360針對(duì)各類安全研判、分析、生成等任務(wù)設(shè)計(jì)了相互獨(dú)立的“專家”,即插即用,少許訓(xùn)練路由參數(shù)就能即可完成新任務(wù)“專家”擴(kuò)展工作。

 

攻克大模型訓(xùn)練難題!360實(shí)現(xiàn)全網(wǎng)首個(gè)開源強(qiáng)化學(xué)習(xí)LoRA訓(xùn)練方案

 

360安全大模型已深度融合CCoE與RL-LoRA技術(shù), 面向安全運(yùn)營(yíng)、威脅狩獵、釣魚研判等眾多安全場(chǎng)景,實(shí)現(xiàn)專項(xiàng)微調(diào)顯存占用降低、訓(xùn)練效率提升、集約化部署應(yīng)用。同時(shí),360通過(guò)專項(xiàng)訓(xùn)練推出100+安全專家智能體,已經(jīng)為北京市朝陽(yáng)區(qū)政府、重慶大學(xué)等近500家用戶在真實(shí)環(huán)境中完成測(cè)試應(yīng)用與交付,加持政府、金融、央企、運(yùn)營(yíng)商、交通、教育、醫(yī)療等行業(yè)客戶實(shí)現(xiàn)智能化安全防御。

 

目前,RL-LoRA相關(guān)核心代碼已正式對(duì)外開放下載使用。未來(lái),360繼續(xù)深耕AI+安全實(shí)踐應(yīng)用,以創(chuàng)新技術(shù)賦能行業(yè)智能化、高效化轉(zhuǎn)型,為國(guó)內(nèi)AI研發(fā)生態(tài)貢獻(xiàn)力量!

 


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)