丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給我在思考中
發(fā)送

0

巖芯數(shù)智自研國內(nèi)首個非Attention機制大模型,無損提速7倍

本文作者: 我在思考中 2024-01-25 17:20
導(dǎo)語:Yan模型用全新自研的“Yan架構(gòu)”代替Transformer架構(gòu),用百億級參數(shù)達成千億參數(shù)大模型的性能效果。

 

1月24日,在上海巖芯數(shù)智人工智能科技有限公司“新架構(gòu),新模力”大模型發(fā)布會上,巖芯數(shù)智正式發(fā)布了國內(nèi)首個非Attention機制的通用自然語言大模型——Yan模型。作為行業(yè)內(nèi)少有的非Transformer大模型,Yan模型用全新自研的“Yan架構(gòu)”代替Transformer架構(gòu),用百億級參數(shù)達成千億參數(shù)大模型的性能效果——記憶能力提升3倍、速度提升7倍的同時,實現(xiàn)推理吞吐量的5倍提升。

 

會上,巖芯數(shù)智CEO劉凡平表示:“我們期望Yan架構(gòu)可作為人工智能領(lǐng)域的基礎(chǔ)設(shè)施,并以此建立AI領(lǐng)域的開發(fā)者生態(tài),最終讓任何人在任何設(shè)備上都能使用通用大模型,獲取更加經(jīng)濟、便捷、安全的AI服務(wù),推動構(gòu)建普惠的人工智能未來?!?/p>

 

Transformer不是大模型的“唯一解”

 

Transformer是當(dāng)下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎(chǔ)架構(gòu),它的崛起無疑是深度學(xué)習(xí)歷史長河中一個重要的里程碑。憑借著其強大的自然語言理解能力,Transformer在問世的短短幾年內(nèi)便取代了傳統(tǒng)的RNN網(wǎng)絡(luò)結(jié)構(gòu),不僅成為自然語言處理領(lǐng)域的主流模型架構(gòu),還在計算機視覺、語音識別等多個領(lǐng)域展示了其跨界的通用能力。

 

那么,在Transformer已經(jīng)占據(jù)人工智能領(lǐng)域半壁江山的今天,為什么巖芯數(shù)智還要另辟蹊徑,轉(zhuǎn)而尋求非Transformer的更多可能性呢?

 

發(fā)布會現(xiàn)場,劉凡平對這個問題做出了解答。他指出,以大規(guī)模著稱的Transformer,在實際應(yīng)用中的高算力和高成本,讓不少中小型企業(yè)望而卻步。其內(nèi)部架構(gòu)的復(fù)雜性,讓決策過程難以解釋;長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關(guān)鍵領(lǐng)域和特殊場景的廣泛應(yīng)用。隨著云計算和邊緣計算的普及,行業(yè)對于高效能、低能耗AI大模型的需求正不斷增長。

 

劉凡平提到:“在全球范圍內(nèi),一直以來都有不少優(yōu)秀的研究者試圖從根本上解決對 Transformer架構(gòu)的過度依賴,尋求更優(yōu)的辦法替代 Transformer。就連Transformer 的論文作者之一Llion Jones也在探索‘Transformer 之后的可能’,試圖用一種基于進化原理的自然啟發(fā)智能方法,從不同角度創(chuàng)造對AI框架的再定義?!?/p>

 

巖芯數(shù)智也不例外,他們在對Transformer模型不斷的調(diào)研和改進過程中,意識到了重新設(shè)計大模型的必要性:一方面,在Attention機制下,現(xiàn)有架構(gòu)的調(diào)整幾乎已經(jīng)達到瓶頸;另一方面,巖芯數(shù)智更期望降低企業(yè)對大模型的使用門檻,讓大模型在更少的數(shù)據(jù)、更低的算力下具備更強的性能,以應(yīng)用于更廣泛的業(yè)務(wù)。因此,在歷經(jīng)近1000多個日夜,超過幾百次的設(shè)計、修改、優(yōu)化、對比、重來后,巖芯數(shù)智自主研發(fā)出了不再依賴Transformer的全新架構(gòu)——“Yan架構(gòu)”,同時,基于Yan架構(gòu)的通用大模型應(yīng)運而生。

 

Yan架構(gòu):面向技術(shù)與落地的雙重發(fā)力

 

如果說基于Transformer架構(gòu)的大模型是“耗油且高昂”的燃油車,那么基于Yan架構(gòu)的大模型,更像是更加經(jīng)濟、更加節(jié)能的新能源汽車。它去除了Transformer中高成本的注意力機制,代之以計算量更小、難度更低的線性計算,大大提高了建模效率和訓(xùn)練速度,效率翻倍的同時實現(xiàn)了成本的驟降。

 

發(fā)布會上,研究團隊展示了Yan模型和同等參數(shù)規(guī)模Transformer模型的大量實測對比,經(jīng)實驗數(shù)據(jù)表明,Yan架構(gòu)可以實現(xiàn)比Transformer架構(gòu)更高的訓(xùn)練效率、更強的記憶能力、更低的幻覺表達。

 

在同等資源條件下,Yan架構(gòu)的模型,訓(xùn)練效率和推理吞吐量分別是Transformer架構(gòu)的7倍及5倍,并使記憶能力得到3倍提升。Yan架構(gòu)的設(shè)計,使得Yan模型在推理時的空間復(fù)雜度為常量,因此針對Transformer面臨的長序列難題,Yan模型同樣表現(xiàn)優(yōu)異。對比數(shù)據(jù)表明,在單張4090 24G顯卡上,當(dāng)模型輸出token的長度超出2600時,Transformer的模型會出現(xiàn)顯存不足,而Yan模型的顯存使用始終穩(wěn)定在14G左右,理論上能夠?qū)崿F(xiàn)無限長度的推理。

 

另外,研究團隊首創(chuàng)了一種合理的關(guān)聯(lián)特征函數(shù)和記憶算子,結(jié)合線性計算的方式,降低模型內(nèi)部結(jié)構(gòu)的復(fù)雜度。全新架構(gòu)下的Yan模型,將打開以往自然語言處理的“不可解釋黑盒”,充分發(fā)掘決策過程的透明度和可解釋性,從而助力大模型在醫(yī)療、金融、法律等高風(fēng)險領(lǐng)域的廣泛運用。

 

除了在技術(shù)上的突破創(chuàng)新,Yan模型也同時具備了私密化、經(jīng)濟化、精準(zhǔn)化和實時性、專業(yè)性、通用性等六大優(yōu)秀商業(yè)化落地能力,可謂是“為落地而生”。

 

就業(yè)內(nèi)共識而言,大模型競賽已經(jīng)從“卷參數(shù)”的時代過渡到了“卷應(yīng)用”的階段,行業(yè)對于通用大模型的需求亟待解決,故而許多大模型會通過剪枝、壓縮等主流技術(shù)手段來實現(xiàn)在設(shè)備上的運行,而Yan模型100%支持私有化部署應(yīng)用,不經(jīng)裁剪和壓縮即可在主流消費級CPU等端側(cè)設(shè)備上無損運行,達到其他模型在GPU上的運行效果。這一點在此次發(fā)布會上也得到了印證,研究人員現(xiàn)場展示了Yan模型在個人電腦端的運行推理,下階段有望在手機端等更加便攜的設(shè)備或終端中進行無損部署。

 

劉凡平表示:“巖芯數(shù)智旨在打造全模態(tài)實時人機交互系統(tǒng),全面打通感知、認知、決策與行動,構(gòu)建通用人工智能的智能循環(huán),為通用機器人等具身智能方向的研究提供大模型基礎(chǔ)底座的‘更多選擇’,希望能在低消耗、顯存受限的情況下,通過提供基于Yan架構(gòu)的專業(yè)生產(chǎn)力工具,實現(xiàn)端側(cè)訓(xùn)練、訓(xùn)推一體,助力千行百業(yè)完成數(shù)智化轉(zhuǎn)型及升級?!?nbsp;

 

新模力,新生態(tài)

 

發(fā)布會圓桌交流環(huán)節(jié),劉凡平與中科院上海微研究所研究員兼博導(dǎo)、中國信通院上海工創(chuàng)中心總工程師李韓軍、智子鑫源創(chuàng)始人曹楊、閱文起點技術(shù)總監(jiān)葉禮偉,圍繞“創(chuàng)新與改變”的議題,就未來人工智能領(lǐng)域的生態(tài)建設(shè)進行了深入交流與討論。

 

李韓軍表示:“人工智能發(fā)展至今,大模型的架構(gòu)升級始終在不斷進化,在技術(shù)與應(yīng)用的雙重驅(qū)動下,生態(tài)邊界也在擴展??梢哉f,每一次技術(shù)上的突破,都會帶來智能生態(tài)的發(fā)展。從當(dāng)前著眼通用性,到未來的個性化發(fā)展,我們期待行業(yè)生發(fā)更多新的生產(chǎn)力工具,引發(fā)新一輪技術(shù)革命,推動整個AI行業(yè)向更加高效和可持續(xù)的方向發(fā)展?!?/p>

 

Yan模型在實際應(yīng)用中的表現(xiàn)還需要經(jīng)過市場的檢驗,正如巖芯數(shù)智董事長陳代千的總結(jié)陳詞:“隨著Yan模型的進一步落地和應(yīng)用,期待以Yan架構(gòu)為基礎(chǔ)的通用大模型,為各種機器人、嵌入式設(shè)備、物聯(lián)網(wǎng)設(shè)備提供所需的智能化能力,能為人工智能行業(yè)注入新的活力、新的思路,新的可能,為企業(yè)和用戶創(chuàng)造更多的價值。也用我們的力量,參與推動人工智能領(lǐng)域新一輪的技術(shù)變革?!?/p>

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說