丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

阿里國(guó)際發(fā)布最新開(kāi)源多模態(tài)模型Ovis,多模態(tài)能力再升級(jí)

本文作者: nebula 2024-09-19 14:11
導(dǎo)語(yǔ):阿里國(guó)際發(fā)布最新版多模態(tài)大模型Ovis,拿下開(kāi)源第一。

看一眼菜品圖就知道怎么做、能給植物看病、能把手寫英文準(zhǔn)確翻譯成中文、還能精準(zhǔn)分析財(cái)報(bào)數(shù)據(jù)……多模態(tài)能力再次升級(jí)!今天,阿里國(guó)際AI團(tuán)隊(duì)發(fā)布了一款多模態(tài)大模型Ovis,在圖像理解任務(wù)上不斷突破極限,多種具體的子類任務(wù)中均達(dá)到了SOTA(最新技術(shù))水平。

多模態(tài)大模型能夠處理和理解多種不同類型的數(shù)據(jù)輸入,例如文本、圖像。與大型語(yǔ)言模型(LLMs)相比,大語(yǔ)言模型在處理和生成文本數(shù)據(jù)方面有專長(zhǎng),而多模態(tài)大模型能夠處理非文本數(shù)據(jù),如圖像等等。

根據(jù)多模態(tài)權(quán)威綜合評(píng)測(cè)平臺(tái)OpenCompass的數(shù)據(jù),Ovis1.6-Gemma2-9B在30B參數(shù)以下的模型中取得了綜合排名第一,趕超MiniCPM-V-2.6等行業(yè)優(yōu)秀大模型。

阿里國(guó)際發(fā)布最新開(kāi)源多模態(tài)模型Ovis,多模態(tài)能力再升級(jí) 

圖:Ovis在OpenCompass上的測(cè)評(píng)數(shù)據(jù)情況 

據(jù)介紹,Ovis能夠在數(shù)學(xué)推理問(wèn)答、物體識(shí)別、文本提取和復(fù)雜任務(wù)決策等方面展現(xiàn)出色表現(xiàn)。例如,Ovis可以準(zhǔn)確回答數(shù)學(xué)問(wèn)題,識(shí)別花的品種,支持多種語(yǔ)言的文本提取,甚至可以識(shí)別手寫字體和復(fù)雜的數(shù)學(xué)公式。

阿里國(guó)際發(fā)布最新開(kāi)源多模態(tài)模型Ovis,多模態(tài)能力再升級(jí) 

案例1:Ovis對(duì)手寫文案的識(shí)別及翻譯能力 

 阿里國(guó)際發(fā)布最新開(kāi)源多模態(tài)模型Ovis,多模態(tài)能力再升級(jí)

案例2:Ovis對(duì)復(fù)雜數(shù)學(xué)公式的處理能力 

 阿里國(guó)際發(fā)布最新開(kāi)源多模態(tài)模型Ovis,多模態(tài)能力再升級(jí)

案例3:Ovis通過(guò)對(duì)圖片的識(shí)別處理能夠給出菜譜 

具體來(lái)說(shuō),Ovis模型有五大優(yōu)點(diǎn):

1、創(chuàng)新架構(gòu)設(shè)計(jì):可學(xué)習(xí)的視覺(jué)嵌入詞表:首次引入,將連續(xù)的視覺(jué)特征轉(zhuǎn)換為概率化的視覺(jué)token,再經(jīng)由視覺(jué)嵌入詞表加權(quán)生成結(jié)構(gòu)化的視覺(jué)嵌入,克服了大部分MLLM中MLP連接器架構(gòu)的局限性,大幅提升多模態(tài)任務(wù)表現(xiàn)。

2、高分圖像處理:動(dòng)態(tài)子圖方案:支持處理極端長(zhǎng)寬比的圖像,兼容高分辨率圖像,展現(xiàn)出色的圖像理解能力。

3、全面數(shù)據(jù)優(yōu)化:多方向數(shù)據(jù)集覆蓋:全面覆蓋Caption、VQA、OCR、Table、Chart等各個(gè)多模態(tài)數(shù)據(jù)方向,顯著提升多模態(tài)問(wèn)答、指令跟隨等任務(wù)表現(xiàn)。

4、卓越模型性能:Ovis展現(xiàn)出了優(yōu)異的榜單表現(xiàn)。在多模態(tài)權(quán)威綜合評(píng)測(cè)Opencompass上,Ovis1.6-Gemma2-9B在30B參數(shù)以下的模型中取得了綜合排名第一,超過(guò)了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在數(shù)學(xué)問(wèn)答等方向表現(xiàn)媲美70B參數(shù)模型;在幻覺(jué)等任務(wù)中,Ovis-1.6的幻覺(jué)現(xiàn)象和錯(cuò)誤率顯著低于同級(jí)別的模型,展現(xiàn)了更高的生成文本質(zhì)量和準(zhǔn)確性。

5、全部開(kāi)源可商用:Ovis系列模型License采用 Apache 2.0。Ovis 1.0、1.5的數(shù)據(jù)、模型、訓(xùn)練和推理代碼都已全部開(kāi)源,可復(fù)現(xiàn)。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已開(kāi)源權(quán)重。

在AI領(lǐng)域,多模態(tài)大模型的應(yīng)用場(chǎng)景非常廣泛,包括但不限于自動(dòng)駕駛、醫(yī)療診斷、視頻內(nèi)容理解、圖像描述生成、視覺(jué)問(wèn)答等。例如,在自動(dòng)駕駛領(lǐng)域,多模態(tài)大模型可以整合來(lái)自攝像頭、雷達(dá)和激光雷達(dá)的數(shù)據(jù),以實(shí)現(xiàn)更精準(zhǔn)的環(huán)境感知和決策。由于多模態(tài)大模型能夠?qū)W習(xí)如何聯(lián)合理解和生成跨多種模式的信息,也被視為朝向通用人工智能的下一個(gè)步驟。

根據(jù)此前媒體報(bào)道,阿里國(guó)際在去年成立了一支AI團(tuán)隊(duì),目前已經(jīng)在40多個(gè)電商場(chǎng)景里測(cè)試了AI能力,覆蓋跨境電商全鏈路,包括商品圖文、營(yíng)銷、搜索、廣告投放、SEO、客服、退款、店鋪裝修等,其中多個(gè)應(yīng)用場(chǎng)景均基于Ovis模型進(jìn)行開(kāi)發(fā),已幫助50萬(wàn)中小商家、對(duì)1億款商品進(jìn)行了信息優(yōu)化。據(jù)介紹,商家的AI需求不斷增長(zhǎng),近半年的數(shù)據(jù)顯示,平均每?jī)蓚€(gè)月,商家對(duì)于AI的調(diào)用量就翻1倍。

附相關(guān)鏈接:

論文arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)