0
本文作者: 嘉嘉 | 2022-05-31 16:26 |
5月31日,騰訊"混元"AI大模型在多模態(tài)理解領(lǐng)域國際權(quán)威榜單VCR(視覺常識推理,Visual Commonsense Reasoning)中登頂,兩個單項成績和總成績均位列第一。
據(jù)了解,這是繼在跨模態(tài)檢索領(lǐng)域大滿貫、CLUE自然語言理解分類榜及CLUE總榜登頂后,"混元"AI大模型的又一重大突破,展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強大實力。
與跨模態(tài)理解任務(wù)不同的是,多模態(tài)理解任務(wù)要求計算機除了做到識別層次的感知(如分類檢測等),還需要達到認知層次的感知(如判斷意圖、邏輯推理等),具備和人類一樣的思考能力。
視覺常識推理VCR(Visual Commonsense Reasoning)作為多模態(tài)理解核心任務(wù)之一,由華盛頓大學等研究機構(gòu)于 2018 年發(fā)起,自舉辦以來吸引了眾多知名高校、企業(yè)和研究機構(gòu)參加,已成為國際上最權(quán)威的多模態(tài)理解領(lǐng)域榜單。
此次登頂VCR榜首的“混元”AI大模型由騰訊廣告多媒體AI團隊自主研發(fā),同時借助騰訊太極機器學習平臺的GPU算力和訓練加速框架,該模型在預訓練任務(wù)、訓練方式上進行了諸多的創(chuàng)新改進和設(shè)計,有效提升了模型性能。
訓練任務(wù)方面,“混元”AI大模型基于視覺場景圖預測任務(wù)(VSGP)進行細粒度的建模學習,能夠獲取更豐富的視覺語義信息;交互層面,“混元”采用全局+局部注意力的方式,能夠在有限訓練成本的情況下達到最大化的學習效率。
在訓練方式上,“混元”AI大模型在預訓練階段、微調(diào)階段增加對抗訓練,提升模型的泛化性能,增強該模型在下游任務(wù)上的性能?;诖耍盎煸倍嗄B(tài)理解大模型在圖文跨模態(tài)檢索、視覺問答等多個理解任務(wù)上都取得了明顯的效果提升,并最終在VCR上登頂榜首。
截至目前,“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多個領(lǐng)域的AI權(quán)威榜單中取得第一名的成績,并刷新多項行業(yè)歷史紀錄。這意味著,“混元”在自然語言理解、多模態(tài)理解、跨模態(tài)理解等領(lǐng)域的技術(shù)實力已經(jīng)得以驗證。
據(jù)悉,“混元”已應(yīng)用到騰訊廣告業(yè)務(wù)中的多個場景,有效提升廣告推薦精準度,提升用戶體驗和推薦效果。未來騰訊“混元”AI大模型研發(fā)團隊也將持續(xù)加強對模型的性能優(yōu)化及迭代,使其發(fā)揮更大的學術(shù)價值和社會價值。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。