丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給我在思考中
發(fā)送

0

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平

本文作者: 我在思考中 2024-01-22 16:20
導語:中英文兩大權威榜單領先,更懂中國用戶

1月22日,零一萬物Yi系列模型家族迎來新成員,Yi Vision Language(Yi-VL)多模態(tài)語言大模型正式面向全球開源。憑借卓越的圖文理解和對話生成能力,Yi-VL模型在英文數(shù)據(jù)集MMMU和中文數(shù)據(jù)集CMMMU上取得了領先成績,展示了在復雜跨學科任務上的強大實力。

據(jù)悉,Yi-VL模型基于Yi 語言模型開發(fā),包括Yi-VL-34B和Yi-VL-6B兩個版本。在全新多模態(tài)基準測試MMMU中,兩個版本均有不俗表現(xiàn)。

MMMU(全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大規(guī)模多學科多模態(tài)理解和推理)數(shù)據(jù)集包含了11500個來自六大核心學科(藝術與設計、商業(yè)、科學、健康與醫(yī)學、人文與社會科學以及技術與工程)的問題,涉及高度異構圖像類型和交織文本圖像信息,對模型的高級知覺和推理能力提出了極高要求。令人矚目的是,Yi-VL-34B在該測試集上以41.6%的準確率,成功超越了一系列多模態(tài)大模型,僅次于GPT-4V(55.7%),展現(xiàn)出強大的跨學科知識理解和應用能力。

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平 

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平 來源:https://mmmu-benchmark.github.io

同樣,在針對中文場景打造的CMMMU數(shù)據(jù)集上,Yi-VL模型再次展現(xiàn)“更懂中國人”的獨特優(yōu)勢。CMMMU包含了約12000道源自大學考試、測驗和教科書的中文多模態(tài)問題。其中,GPT-4V在該測試集上的準確率為43.7%, Yi-VL-34B以36.5%的準確率緊隨其后,領先于當前最前沿的開源多模態(tài)模型。

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平 

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平 

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平 來源:https://cmmmu-benchmark.github.io/

Yi-VL模型在圖文對話等多元場景中的表現(xiàn)如何?我們先看兩個范例:

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平 

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平 

可以看到,基于Yi語言模型的強大文本理解能力,只需對圖片進行對齊,就可以得到不錯的多模態(tài)視覺語言模型——這也是Yi-VL模型的核心亮點之一。

零一萬物Yi-VL多模態(tài)語言模型上線,躋身全球開源頂尖水平 圖說:Yi-VL模型架構設計和訓練方法流程一覽。


在架構設計上,Yi-VL模型基于開源 LLaVA架構,包含三個主要模塊:

? Vision Transformer(簡稱ViT)用于圖像編碼,使用開源的OpenClip ViT-H/14模型初始化可訓練參數(shù),通過學習從大規(guī)模"圖像-文本"對中提取特征,使模型具備處理和理解圖像的能力。

? Projection模塊為模型帶來了圖像特征與文本特征空間對齊的能力。該模塊由一個包含層歸一化(layer normalizations)的多層感知機(Multilayer Perceptron,簡稱MLP)構成。這一設計使得模型可以更有效地融合和處理視覺和文本信息,提高了多模態(tài)理解和生成的準確度。

? Yi-34B-Chat和Yi-6B-Chat 大規(guī)模語言模型的引入為 Yi-VL 提供了強大的語言理解和生成能力。該部分模型借助先進的自然語言處理技術,能夠幫助 Yi-VL 深入理解復雜的語言結構,并生成連貫、相關的文本輸出。

在訓練方法上,Yi-VL模型的訓練過程分為三個精心設計的階段,旨在全面提升模型的視覺和語言處理能力。

? 第一階段:零一萬物使用1億張的“圖像-文本”配對數(shù)據(jù)集訓練 ViT 和 Projection 模塊。在這一階段,圖像分辨率被設定為224x224,以增強 ViT 在特定架構中的知識獲取能力,同時實現(xiàn)與大型語言模型的高效對齊。

? 第二階段:零一萬物將 ViT 的圖像分辨率提升至448x448,這一提升讓模型更加擅長識別復雜的視覺細節(jié)。此階段使用了約2500萬“圖像-文本”對。

? 第三階段:零一萬物開放整個模型的參數(shù)進行訓練,目標是提高模型在多模態(tài)聊天互動中的表現(xiàn)。訓練數(shù)據(jù)涵蓋了多樣化的數(shù)據(jù)源,共約100萬“圖像-文本”對,確保了數(shù)據(jù)的廣泛性和平衡性。

零一萬物技術團隊同時也驗證了可以基于Yi 語言模型強大的語言理解和生成能力,用其他多模態(tài)訓練方法比如BLIP、Flamingo、EVA等快速訓練出能夠進行高效圖像理解和流暢圖文對話的多模態(tài)圖文模型。Yi系列模型可以作為多模態(tài)模型的基座語言模型,給開源社區(qū)提供一個新的選項。同時,零一萬物多模態(tài)團隊正在探索從頭開始進行多模態(tài)預訓練,更快接近、超過GPT-4V,達到世界第一梯隊水平。

目前,Yi-VL 模型已在Hugging Face、ModelScope等平臺上向公眾開放,用戶可通過以下鏈接親身體驗這款模型在圖文對話等多元場景中的優(yōu)異表現(xiàn)。歡迎探索Yi-VL多模態(tài)語言模型的強大功能,體驗前沿的AI技術成果! 

Yi-VL 模型地址:

https://huggingface.co/01-ai

https://www.modelscope.cn/organization/01ai

 雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說