巖芯數(shù)智自研國內(nèi)首個(gè)非Attention機(jī)制大模型，無損提速7倍

本文作者：我在思考中

2024-01-25 17:20

導(dǎo)語：Yan模型用全新自研的“Yan架構(gòu)”代替Transformer架構(gòu)，用百億級參數(shù)達(dá)成千億參數(shù)大模型的性能效果。

1月24日，在上海巖芯數(shù)智人工智能科技有限公司“新架構(gòu)，新模力”大模型發(fā)布會(huì)上，巖芯數(shù)智正式發(fā)布了國內(nèi)首個(gè)非Attention機(jī)制的通用自然語言大模型——Yan模型。作為行業(yè)內(nèi)少有的非Transformer大模型，Yan模型用全新自研的“Yan架構(gòu)”代替Transformer架構(gòu)，用百億級參數(shù)達(dá)成千億參數(shù)大模型的性能效果——記憶能力提升3倍、速度提升7倍的同時(shí)，實(shí)現(xiàn)推理吞吐量的5倍提升。

會(huì)上，巖芯數(shù)智CEO劉凡平表示：“我們期望Yan架構(gòu)可作為人工智能領(lǐng)域的基礎(chǔ)設(shè)施，并以此建立AI領(lǐng)域的開發(fā)者生態(tài)，最終讓任何人在任何設(shè)備上都能使用通用大模型，獲取更加經(jīng)濟(jì)、便捷、安全的AI服務(wù)，推動(dòng)構(gòu)建普惠的人工智能未來。”

Transformer不是大模型的“唯一解”

Transformer是當(dāng)下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎(chǔ)架構(gòu)，它的崛起無疑是深度學(xué)習(xí)歷史長河中一個(gè)重要的里程碑。憑借著其強(qiáng)大的自然語言理解能力，Transformer在問世的短短幾年內(nèi)便取代了傳統(tǒng)的RNN網(wǎng)絡(luò)結(jié)構(gòu)，不僅成為自然語言處理領(lǐng)域的主流模型架構(gòu)，還在計(jì)算機(jī)視覺、語音識(shí)別等多個(gè)領(lǐng)域展示了其跨界的通用能力。

那么，在Transformer已經(jīng)占據(jù)人工智能領(lǐng)域半壁江山的今天，為什么巖芯數(shù)智還要另辟蹊徑，轉(zhuǎn)而尋求非Transformer的更多可能性呢？

發(fā)布會(huì)現(xiàn)場，劉凡平對這個(gè)問題做出了解答。他指出，以大規(guī)模著稱的Transformer，在實(shí)際應(yīng)用中的高算力和高成本，讓不少中小型企業(yè)望而卻步。其內(nèi)部架構(gòu)的復(fù)雜性，讓決策過程難以解釋；長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關(guān)鍵領(lǐng)域和特殊場景的廣泛應(yīng)用。隨著云計(jì)算和邊緣計(jì)算的普及，行業(yè)對于高效能、低能耗AI大模型的需求正不斷增長。

劉凡平提到：“在全球范圍內(nèi)，一直以來都有不少優(yōu)秀的研究者試圖從根本上解決對 Transformer架構(gòu)的過度依賴，尋求更優(yōu)的辦法替代 Transformer。就連Transformer 的論文作者之一Llion Jones也在探索‘Transformer 之后的可能’，試圖用一種基于進(jìn)化原理的自然啟發(fā)智能方法，從不同角度創(chuàng)造對AI框架的再定義。”

巖芯數(shù)智也不例外，他們在對Transformer模型不斷的調(diào)研和改進(jìn)過程中，意識(shí)到了重新設(shè)計(jì)大模型的必要性：一方面，在Attention機(jī)制下，現(xiàn)有架構(gòu)的調(diào)整幾乎已經(jīng)達(dá)到瓶頸；另一方面，巖芯數(shù)智更期望降低企業(yè)對大模型的使用門檻，讓大模型在更少的數(shù)據(jù)、更低的算力下具備更強(qiáng)的性能，以應(yīng)用于更廣泛的業(yè)務(wù)。因此，在歷經(jīng)近1000多個(gè)日夜，超過幾百次的設(shè)計(jì)、修改、優(yōu)化、對比、重來后，巖芯數(shù)智自主研發(fā)出了不再依賴Transformer的全新架構(gòu)——“Yan架構(gòu)”，同時(shí)，基于Yan架構(gòu)的通用大模型應(yīng)運(yùn)而生。

Yan架構(gòu)：面向技術(shù)與落地的雙重發(fā)力

如果說基于Transformer架構(gòu)的大模型是“耗油且高昂”的燃油車，那么基于Yan架構(gòu)的大模型，更像是更加經(jīng)濟(jì)、更加節(jié)能的新能源汽車。它去除了Transformer中高成本的注意力機(jī)制，代之以計(jì)算量更小、難度更低的線性計(jì)算，大大提高了建模效率和訓(xùn)練速度，效率翻倍的同時(shí)實(shí)現(xiàn)了成本的驟降。

發(fā)布會(huì)上，研究團(tuán)隊(duì)展示了Yan模型和同等參數(shù)規(guī)模Transformer模型的大量實(shí)測對比，經(jīng)實(shí)驗(yàn)數(shù)據(jù)表明，Yan架構(gòu)可以實(shí)現(xiàn)比Transformer架構(gòu)更高的訓(xùn)練效率、更強(qiáng)的記憶能力、更低的幻覺表達(dá)。

在同等資源條件下，Yan架構(gòu)的模型，訓(xùn)練效率和推理吞吐量分別是Transformer架構(gòu)的7倍及5倍，并使記憶能力得到3倍提升。Yan架構(gòu)的設(shè)計(jì)，使得Yan模型在推理時(shí)的空間復(fù)雜度為常量，因此針對Transformer面臨的長序列難題，Yan模型同樣表現(xiàn)優(yōu)異。對比數(shù)據(jù)表明，在單張4090 24G顯卡上，當(dāng)模型輸出token的長度超出2600時(shí)，Transformer的模型會(huì)出現(xiàn)顯存不足，而Yan模型的顯存使用始終穩(wěn)定在14G左右，理論上能夠?qū)崿F(xiàn)無限長度的推理。

另外，研究團(tuán)隊(duì)首創(chuàng)了一種合理的關(guān)聯(lián)特征函數(shù)和記憶算子，結(jié)合線性計(jì)算的方式，降低模型內(nèi)部結(jié)構(gòu)的復(fù)雜度。全新架構(gòu)下的Yan模型，將打開以往自然語言處理的“不可解釋黑盒”，充分發(fā)掘決策過程的透明度和可解釋性，從而助力大模型在醫(yī)療、金融、法律等高風(fēng)險(xiǎn)領(lǐng)域的廣泛運(yùn)用。

除了在技術(shù)上的突破創(chuàng)新，Yan模型也同時(shí)具備了私密化、經(jīng)濟(jì)化、精準(zhǔn)化和實(shí)時(shí)性、專業(yè)性、通用性等六大優(yōu)秀商業(yè)化落地能力，可謂是“為落地而生”。

就業(yè)內(nèi)共識(shí)而言，大模型競賽已經(jīng)從“卷參數(shù)”的時(shí)代過渡到了“卷應(yīng)用”的階段，行業(yè)對于通用大模型的需求亟待解決，故而許多大模型會(huì)通過剪枝、壓縮等主流技術(shù)手段來實(shí)現(xiàn)在設(shè)備上的運(yùn)行，而Yan模型100%支持私有化部署應(yīng)用，不經(jīng)裁剪和壓縮即可在主流消費(fèi)級CPU等端側(cè)設(shè)備上無損運(yùn)行，達(dá)到其他模型在GPU上的運(yùn)行效果。這一點(diǎn)在此次發(fā)布會(huì)上也得到了印證，研究人員現(xiàn)場展示了Yan模型在個(gè)人電腦端的運(yùn)行推理，下階段有望在手機(jī)端等更加便攜的設(shè)備或終端中進(jìn)行無損部署。

劉凡平表示：“巖芯數(shù)智旨在打造全模態(tài)實(shí)時(shí)人機(jī)交互系統(tǒng)，全面打通感知、認(rèn)知、決策與行動(dòng)，構(gòu)建通用人工智能的智能循環(huán)，為通用機(jī)器人等具身智能方向的研究提供大模型基礎(chǔ)底座的‘更多選擇’，希望能在低消耗、顯存受限的情況下，通過提供基于Yan架構(gòu)的專業(yè)生產(chǎn)力工具，實(shí)現(xiàn)端側(cè)訓(xùn)練、訓(xùn)推一體，助力千行百業(yè)完成數(shù)智化轉(zhuǎn)型及升級。”

新模力，新生態(tài)

發(fā)布會(huì)圓桌交流環(huán)節(jié)，劉凡平與中科院上海微研究所研究員兼博導(dǎo)、中國信通院上海工創(chuàng)中心總工程師李韓軍、智子鑫源創(chuàng)始人曹楊、閱文起點(diǎn)技術(shù)總監(jiān)葉禮偉，圍繞“創(chuàng)新與改變”的議題，就未來人工智能領(lǐng)域的生態(tài)建設(shè)進(jìn)行了深入交流與討論。

李韓軍表示：“人工智能發(fā)展至今，大模型的架構(gòu)升級始終在不斷進(jìn)化，在技術(shù)與應(yīng)用的雙重驅(qū)動(dòng)下，生態(tài)邊界也在擴(kuò)展?？梢哉f，每一次技術(shù)上的突破，都會(huì)帶來智能生態(tài)的發(fā)展。從當(dāng)前著眼通用性，到未來的個(gè)性化發(fā)展，我們期待行業(yè)生發(fā)更多新的生產(chǎn)力工具，引發(fā)新一輪技術(shù)革命，推動(dòng)整個(gè)AI行業(yè)向更加高效和可持續(xù)的方向發(fā)展?！?/p>

Yan模型在實(shí)際應(yīng)用中的表現(xiàn)還需要經(jīng)過市場的檢驗(yàn)，正如巖芯數(shù)智董事長陳代千的總結(jié)陳詞：“隨著Yan模型的進(jìn)一步落地和應(yīng)用，期待以Yan架構(gòu)為基礎(chǔ)的通用大模型，為各種機(jī)器人、嵌入式設(shè)備、物聯(lián)網(wǎng)設(shè)備提供所需的智能化能力，能為人工智能行業(yè)注入新的活力、新的思路，新的可能，為企業(yè)和用戶創(chuàng)造更多的價(jià)值。也用我們的力量，參與推動(dòng)人工智能領(lǐng)域新一輪的技術(shù)變革?！?/p>

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營

發(fā)私信

當(dāng)月熱門文章