丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

彩云科技DCFormer模型架構(gòu)發(fā)布,效率是Transformer的兩倍!

本文作者: 王悅 2024-05-23 11:27
導(dǎo)語:ICML 今年錄用論文的平均分為4.25-6.33,而彩云科技獲得7分。

自2017年Transformer架構(gòu)誕生之后,到現(xiàn)在為止其仍然是人工智能領(lǐng)域研究和應(yīng)用的基礎(chǔ),鮮少有團(tuán)隊(duì)能夠在最底層架構(gòu)上進(jìn)行一些變革和開發(fā)且做出較大的成效。一方面是由于Transformer確實(shí)好用;另一方面,在最底層上做突破并非易事。

然而,彩云科技是那個反共識者。2024年5月22日,彩云科技發(fā)布了全新通用模型結(jié)構(gòu)DCFormer,其相關(guān)論文《Improving Transformers with Dynamically Composable Multi-Head Attention 》(https://arxiv.org/abs/2405.08553)將在第41屆國際機(jī)器學(xué)習(xí)大會ICML 2024正式發(fā)表。

在論文中,彩云科技實(shí)驗(yàn)證明了在三千億級訓(xùn)練數(shù)據(jù)和70億級模型參數(shù)量下,DCFormer效率是Transformer的兩倍。據(jù)一位評委透露,今年錄用論文的平均分為4.25-6.33,而彩云科技團(tuán)隊(duì)的論文獲得平均7分的高分。

ICML是國際機(jī)器學(xué)習(xí)領(lǐng)域的頂級會議,能夠發(fā)表論文的中國初創(chuàng)企業(yè)屈指可數(shù)。彩云科技證實(shí),其大模型結(jié)構(gòu)DCFormer可以達(dá)到1.7~2倍算力的Transformer模型的效果,即算力智能轉(zhuǎn)化率提升了1.7~2倍。在眾多NLP下游任務(wù)和圖像識別任務(wù)上的測評也驗(yàn)證了DCFormer的有效性(詳見論文表格)。

DCFormer對性能算力比的提升幅度超過自2017年Transformer誕生至今被證明最普適有效并被廣泛采用的兩項(xiàng)結(jié)構(gòu)改進(jìn)的提升幅度之和(同時應(yīng)用這兩項(xiàng)改進(jìn)的Transformer架構(gòu)也叫Transformer++,如Llama)。而且隨著模型規(guī)模的增大,DCFormer的提升越來越大(左圖下的藍(lán)線和綠線),而Transformer++的提升越來越小(左圖下的黑線)??梢哉f,DCFormer讓Transformer的能力又躍上一個新臺階。

彩云科技DCFormer模型架構(gòu)發(fā)布,效率是Transformer的兩倍! 

 彩云科技DCFormer模型架構(gòu)發(fā)布,效率是Transformer的兩倍!

彩云科技CEO袁行遠(yuǎn)說:"如果底層模型沒有突破,人工智能的進(jìn)步終將停滯不前。人人都說神經(jīng)網(wǎng)絡(luò)是個黑盒,我們需要勇氣和耐心打開這個黑盒,通過分析模型運(yùn)轉(zhuǎn)原理,我們才能知道智能的本質(zhì)規(guī)律,從而可以改進(jìn)模型,提高模型的運(yùn)行效率。"雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)

通用大模型DCFormer將Transformer效率提升了兩倍,這意味著什么?袁行遠(yuǎn)解釋說:"如果 GPT-4o 能夠用上DCFormer,推理一次128k上文的成本,就可能從4元變成2元。而且DCFormer 模型越大,效果越好,考慮到ChatGPT的巨大參數(shù)量,DCFormer可能在千億、萬億模型上效果更好,因此價格甚至可能下降到1.5元、1元。Meta的100億美元顯卡訓(xùn)練的模型,可能50億美元就能夠用。"解開智能的科學(xué)的奧秘,實(shí)現(xiàn)通用人工智能——這是彩云科技10年以來孜孜不倦追求的目標(biāo)?;诖?,彩云科技在Github上開源了DCFormer的模型代碼、權(quán)重和訓(xùn)練數(shù)據(jù)集(https://github.com/Caiyun-AI/DCFormer),將該模型開源給全世界。

未來彩云科技會將全新大模型DCFormer應(yīng)用于旗下三款殺手級app,并將進(jìn)一步發(fā)展彩云小夢,加速提升AI續(xù)寫能力。袁行遠(yuǎn)說,"AI交互是前所未有的交互形式,也因此讓我們有機(jī)會在AI的幫助下,建立每個人自己的'次元宇宙',而DCFormer大模型將加快這一進(jìn)程。我們希望能夠通過彩云小夢,幫助更多人實(shí)現(xiàn)現(xiàn)實(shí)生活中無法實(shí)現(xiàn)的夢想。"


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

彩云科技DCFormer模型架構(gòu)發(fā)布,效率是Transformer的兩倍!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說