0
本文作者: 鄭佳美 | 2025-02-24 14:14 |
2 月 18 日,馬斯克發(fā)布 Grok 3 的熱度還沒過去,梁文鋒就作為 co-authors 帶著 DeepSeek 研究團(tuán)隊(duì)殺了回來。
公布新研究的推文發(fā)布不到 3 個(gè)小時(shí),就帶來了三十多萬的瀏覽量,火爆程度不遜 OpenAI。
而這次 DeepSeek 團(tuán)隊(duì)最新的研究論文更是重磅,論文中介紹了一種全新的,可用于超快速的長(zhǎng)上下文訓(xùn)練與推理的注意力機(jī)制 —— NSA,值得一提的是,NSA 還具有與硬件對(duì)齊的特點(diǎn),十足的硬件友好。
論文中提到的 NSA 核心組成主要包括三點(diǎn):分別是動(dòng)態(tài)分層稀疏策略、粗粒度的 token 壓縮以及細(xì)粒度的 token 選擇。有了這三點(diǎn)核心技術(shù)的加持,就能夠在有效降低預(yù)訓(xùn)練成本的情況下,同時(shí)顯著提升推理速度,特別是在解碼階段實(shí)現(xiàn)了高達(dá) 11.6 倍的提升。
更讓人感到眼前一亮的是,DeepSeek 創(chuàng)始人兼 CEO 梁文鋒這次也出現(xiàn)在了合著名單之中,不僅親自上陣,還親自提交了論文。
看熱鬧不嫌事大的網(wǎng)友甚至還借此調(diào)侃奧特曼:DeepSeek 又發(fā)了一篇很強(qiáng)的新論文了哦!
DeepSeek 填補(bǔ)了稀疏注意力機(jī)制存在的缺陷
隨著 AI 領(lǐng)域的不斷發(fā)展,長(zhǎng)上下文建模能力的關(guān)鍵性日益凸顯,尤其在現(xiàn)實(shí)世界的應(yīng)用中有著廣泛需求,比如深度推理、代碼庫級(jí)代碼生成和多輪自主代理系統(tǒng)。就比如 DeepSeek 自家的 R1 模型就是突破了這個(gè)技術(shù),使其能夠處理整個(gè)代碼庫、長(zhǎng)篇文檔,并保持成千上萬 token 的對(duì)話連貫性,同時(shí)也能在長(zhǎng)距離依賴的情境下進(jìn)行復(fù)雜推理。
但序列越來越長(zhǎng),傳統(tǒng)的注意力機(jī)制就開始因?yàn)樘^復(fù)雜成為了造成運(yùn)行延遲的最大因素。理論分析顯示,使用 softmax 架構(gòu)的注意力計(jì)算在解碼 64k 長(zhǎng)度的上下文時(shí),幾乎占據(jù)了總延遲的 70-80%,傳統(tǒng)注意力機(jī)制存在明顯缺陷,提升速度成了一件非常重要的事情。
并且自然的實(shí)現(xiàn)高效長(zhǎng)上下文建模的方法是利用 softmax 注意力的固有稀疏性,選擇性地計(jì)算關(guān)鍵的 query-key 對(duì),從而大幅降低計(jì)算開銷,并保持模型性能。
近年來,相關(guān)研究在這一方向取得了進(jìn)展,提出了如 KV 緩存淘汰、塊狀 KV 緩存選擇,以及基于采樣、聚類或哈希的選擇方法等策略。盡管這些方法展示了很大的潛力,但現(xiàn)有的稀疏注意力技術(shù)在實(shí)際部署時(shí)種仍未能達(dá)到預(yù)期效果。并且大部分研究主要集中于推理階段,缺乏對(duì)訓(xùn)練階段有效支持,因此并不能充分發(fā)揮稀疏模式的優(yōu)勢(shì)。
為實(shí)現(xiàn)更高效的稀疏注意力,DeepSeek 研究團(tuán)隊(duì)提出了一種原生可訓(xùn)練的稀疏注意力架構(gòu) NSA,這個(gè)架構(gòu)的核心內(nèi)容是通過動(dòng)態(tài)分層稀疏策略,結(jié)合粗粒度的 token 壓縮和細(xì)粒度的 token 選擇,從而保留全局上下文感知能力和局部精確性。
同時(shí) NSA 通過精妙的算法設(shè)計(jì)和針對(duì)現(xiàn)代硬件的優(yōu)化,實(shí)現(xiàn)在計(jì)算速度上的顯著提升,并支持端到端訓(xùn)練,既提高了推理效率,又減少了預(yù)訓(xùn)練計(jì)算量,同時(shí)保持了模型性能。
除此之外,新研究還通過使用 Triton,開發(fā)了與硬件高度兼容的稀疏注意力內(nèi)核。
DeepSeek 的優(yōu)化策略則是采用不同的查詢分組方法,并通過以下特性實(shí)現(xiàn)接近最優(yōu)的計(jì)算強(qiáng)度平衡:
1、組內(nèi)數(shù)據(jù)加載:每次內(nèi)循環(huán)加載該組所有頭的查詢及其共享的稀疏 KV 塊索引。
2、共享KV加載:內(nèi)循環(huán)中連續(xù)加載 KV 塊,減少內(nèi)存加載的開銷。
3、網(wǎng)格循環(huán)調(diào)度:由于內(nèi)循環(huán)長(zhǎng)度在不同查詢塊間幾乎相同,將查詢/輸出循環(huán)與 Triton 的網(wǎng)格調(diào)度器結(jié)合,簡(jiǎn)化并優(yōu)化了內(nèi)核的執(zhí)行。
DeepSeek:NSA 已在多面碾壓全注意力
在對(duì) NSA 進(jìn)行技術(shù)評(píng)估時(shí),研究人員分別從通用基準(zhǔn)性能、長(zhǎng)文本基準(zhǔn)性能、思維鏈推理性能三個(gè)角度,分別將 NSA 與全注意力基線和 SOTA 稀疏注意力方法進(jìn)行比較。
測(cè)試中 NSA 的預(yù)訓(xùn)練損失曲線相比全注意力基線呈現(xiàn)出更加穩(wěn)定和平滑的下降趨勢(shì),且始終優(yōu)于全注意力模型。
除此之外,為了驗(yàn)證 NSA在實(shí)際訓(xùn)練和推理中的效果,DeepSeek 研究團(tuán)隊(duì)采用了當(dāng)前領(lǐng)先的 LLM 常用實(shí)踐,選擇了一個(gè)結(jié)合分組查詢注意力(GQA)和混合專家(MoE)架構(gòu)的模型作為樣本,該模型的總參數(shù)量為 27B,其中 3B 為活躍參數(shù)。
在這個(gè)基礎(chǔ)上,DeepSeek 對(duì) NSA、全注意力和其他注意力機(jī)制分別進(jìn)行了評(píng)估。結(jié)果顯示,盡管 NSA 采用了稀疏性,但其整體性能仍然優(yōu)于所有基線模型,包括全注意力模型,并且在 9 項(xiàng)評(píng)測(cè)指標(biāo)中有 7 項(xiàng)表現(xiàn)最好。
另外,在長(zhǎng)上下文任務(wù)中, NSA 在 64k 上下文的“大海撈針”測(cè)試中表現(xiàn)出了極高的檢索精度。這歸功于其分層稀疏注意力設(shè)計(jì),通過粗粒度的token壓縮實(shí)現(xiàn)了高效的全局上下文掃描,同時(shí)通過細(xì)粒度的選擇性標(biāo)記來保留關(guān)鍵的信息,從而有效平衡了全局感知與局部精確度。
同時(shí)研究團(tuán)隊(duì)還在 LongBench 基準(zhǔn)上,也對(duì) NSA 進(jìn)行了評(píng)估。最終 NSA 以最高平均分0.469,優(yōu)于其他所有基準(zhǔn)。
在思維鏈推理性能評(píng)估方面,研究人員通過從 DeepSeek-R1 進(jìn)行知識(shí)蒸餾,并借助 100 億條 32k 長(zhǎng)度的數(shù)學(xué)推理軌跡進(jìn)行了監(jiān)督微調(diào)(SFT)。
最后用 AIME 24 基準(zhǔn)來評(píng)估所生成的兩個(gè)模型Full Attention-R(全注意力基準(zhǔn)模型)和 NSA-R(稀疏變體模型)的表現(xiàn)。
在 8k 上下文設(shè)置下,NSA-R 的準(zhǔn)確率超過了 Full Attention-R,差距為 0.075。即使在 16k 上下文環(huán)境中,NSA-R 仍然保持著這一優(yōu)勢(shì),準(zhǔn)確率高出 0.054。
NSA 驗(yàn)證清華姚班早期論文
值得一提的是,論文末尾提到的處理復(fù)雜數(shù)學(xué)問題的示例,再次驗(yàn)證了兩年前清華大學(xué)姚班一篇論文中的結(jié)論。
由于 Transformer 架構(gòu)在注意力機(jī)制上的局限,處理復(fù)雜數(shù)學(xué)問題時(shí),tokens 數(shù)量過多常常會(huì)導(dǎo)致性能下降,特別是在任務(wù)復(fù)雜度較高時(shí)。
DeepSeek 的最新研究通過優(yōu)化問題理解和答案生成,將所需的tokens數(shù)量減少至 2275,從而成功得出了正確答案。而與之對(duì)比的基線方法,盡管消耗了 9392 個(gè) tokens,最終卻得出了錯(cuò)誤的答案。這一顯著的提升展示了新方法在效率和準(zhǔn)確性上的優(yōu)勢(shì)。
清華大學(xué)姚班的那篇論文探討了在 Transformer 架構(gòu)下,模型在計(jì)算兩個(gè)四位數(shù)乘法(例如 1234 × 5678 )時(shí)的表現(xiàn)。研究發(fā)現(xiàn),GPT-4 在處理三位數(shù)乘法時(shí)的準(zhǔn)確率為 59%,然而當(dāng)任務(wù)變?yōu)樗奈粩?shù)乘法時(shí),準(zhǔn)確率卻驟降至 4%。這一現(xiàn)象揭示了在面對(duì)更復(fù)雜計(jì)算時(shí),Transformer 架構(gòu)的推理能力受到顯著限制。
這些研究結(jié)果表明,盡管 Transformer 架構(gòu)在某些任務(wù)中表現(xiàn)出色,但在處理復(fù)雜推理任務(wù),尤其是需要大量信息處理時(shí),仍然存在瓶頸。
關(guān)于 DeepSeek 論文結(jié)尾的復(fù)雜數(shù)學(xué)題,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))也用 GPT o3-mini 進(jìn)行了解讀,最終呈現(xiàn)的解題過程比 DeepSeek 論文中給出的解題過程要長(zhǎng)出 2 倍之多。
由此可見,大模型的發(fā)展就是一個(gè)不斷推陳出新的過程。
而反觀 DeepSeek,未來的研究可能會(huì)更加專注于如何優(yōu)化模型在長(zhǎng)文本和代碼庫分析中的表現(xiàn),以進(jìn)一步提升其推理能力和實(shí)用性。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。