零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

本文作者：張進(jìn)

2024-03-19 19:25

導(dǎo)語(yǔ)：長(zhǎng)文本、多模態(tài)依然是當(dāng)下大模型公司努力攻堅(jiān)的領(lǐng)域。

【雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))】近日，大模型初創(chuàng)公司零一萬(wàn)物發(fā)布了Yi 大模型 API 開(kāi)放平臺(tái)，為開(kāi)發(fā)者提供通用 Chat、200k 超長(zhǎng)上下文、多模態(tài)交互等模型。

零一萬(wàn)物由創(chuàng)新工場(chǎng)董事長(zhǎng)兼首席執(zhí)行官李開(kāi)復(fù)創(chuàng)辦于 2023 年 6 月，六個(gè)月后，零一萬(wàn)物便成功發(fā)布了 Yi 系列模型，包含 6B 和 34B 兩個(gè)版本，并開(kāi)源，打破了當(dāng)時(shí)國(guó)產(chǎn)開(kāi)源模型一直難以超過(guò) 14B 的現(xiàn)狀。34B也是黃金尺寸的模型，既達(dá)到了大模型“涌現(xiàn)”能力的門(mén)檻，同時(shí)也能在消費(fèi)級(jí)顯卡上訓(xùn)練，對(duì)開(kāi)發(fā)者相對(duì)友好。

此后較長(zhǎng)一段時(shí)間 Yi-34B 在 Hugging Face 英文開(kāi)源社區(qū)平臺(tái)躋身前列，一舉打響了零一萬(wàn)物的模型名聲。

而此次推出 Yi 大模型 API 開(kāi)放平臺(tái)，意味著經(jīng)過(guò)過(guò)去一年的籌措與準(zhǔn)備，零一萬(wàn)物已經(jīng)具備了一個(gè)初步的模型產(chǎn)品矩陣，將模型能力完全開(kāi)放出去供開(kāi)發(fā)者測(cè)試、使用。

跟開(kāi)源一樣，這同樣需要很大的勇氣，是對(duì)零一模型能力進(jìn)一步的測(cè)試與考驗(yàn)，但好在經(jīng)過(guò)前期體驗(yàn)與一些用戶實(shí)測(cè)，收獲了諸多好評(píng)。在 Yi-34B-Chat-0205、Yi-34B-Chat-200K 之外，零一萬(wàn)物開(kāi)放平臺(tái)此次同期上新的多模態(tài)大模型 Yi-VL-Plus，支持文本、視覺(jué)多模態(tài)輸入，面向?qū)嶋H場(chǎng)景大幅增強(qiáng)。多位用戶反饋：中文體驗(yàn)超過(guò) GPT-4V。

開(kāi)發(fā)者作為大模型生態(tài)中非常重要的一環(huán)，從開(kāi)源 Yi-34B 模型免費(fèi)供開(kāi)發(fā)者使用，到今天又推出Yi 大模型 API 開(kāi)放平臺(tái)，可以看到零一萬(wàn)物非常重視開(kāi)發(fā)者生態(tài)的塑造。

Yi 大模型 API 名額目前限量開(kāi)放，零一萬(wàn)物會(huì)為新用戶免費(fèi)贈(zèng)送 60 元，感興趣的開(kāi)發(fā)者不妨多多申請(qǐng)?bào)w驗(yàn)一下。

API 開(kāi)放平臺(tái)：聚焦 200K 長(zhǎng)上下文和多模態(tài)

據(jù)介紹，此次 API 開(kāi)放平臺(tái)提供以下模型，包括：

Yi-34B-Chat-0205：支持通用聊天、問(wèn)答、對(duì)話、寫(xiě)作、翻譯等功能。

Yi-34B-Chat-200K：200K 上下文，多文檔閱讀理解、超長(zhǎng)知識(shí)庫(kù)構(gòu)建小能手。

Yi-VL-Plus：多模態(tài)模型，支持文本、視覺(jué)多模態(tài)輸入，中文圖表體驗(yàn)超過(guò) GPT-4V。

（零一萬(wàn)物API開(kāi)放平臺(tái)鏈接：https://platform.lingyiwanwu.com/）

AI 科技評(píng)論發(fā)現(xiàn)，此次零一萬(wàn)物 API 開(kāi)放平臺(tái)主要聚焦于當(dāng)下兩個(gè)最重要的領(lǐng)域，一是長(zhǎng)文本，二是多模態(tài)。

大模型早已進(jìn)入長(zhǎng)文本時(shí)代，各家大模型都在推自己的長(zhǎng)文本能力，Yi-34B-Chat-200K 支持處理約 30 萬(wàn)個(gè)中英文字符，更具象的體現(xiàn)是可以輕松處理整本《哈利·波特與魔法石》小說(shuō)，適合用于多篇文檔內(nèi)容理解、海量數(shù)據(jù)分析挖掘和跨領(lǐng)域知識(shí)融合等行業(yè)人員。

例如金融分析師可用 Yi-34B-Chat-200K 快速閱讀報(bào)告并預(yù)測(cè)市場(chǎng)趨勢(shì)、律師可以用它精準(zhǔn)解讀法律條文、科研人員可以用它提取論文要點(diǎn)等。

在“大海撈針”的測(cè)評(píng)中，Yi-34B-Chat-200K 的性能提高了 10.5%，從 89.3% 提升到 99.8% 。該測(cè)試是將一個(gè)目標(biāo)句子（針）放進(jìn)一個(gè)隨機(jī)文檔語(yǔ)料庫(kù)（大海），然后提出一個(gè)只能使用“針”（目標(biāo)句子）中的信息才能回答的問(wèn)題來(lái)測(cè)試模型的回憶能力。

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

Yi-34B-Chat-200K 可以對(duì)200多頁(yè)的英文長(zhǎng)篇小說(shuō)《Frankentein》進(jìn)行中文歸納總結(jié)和用表格例舉書(shū)中人物。

而零一萬(wàn)物開(kāi)發(fā)的多模態(tài)模型 Yi-VL-Plus，可支持文本、視覺(jué)多模態(tài)輸入，面向?qū)嶋H應(yīng)用場(chǎng)景大幅增強(qiáng)：

增強(qiáng)Charts, Table, Inforgraphics, Screenshot 識(shí)別能力，支持復(fù)雜圖表理解、信息提取、問(wèn)答以及推理。中文圖表體驗(yàn)超過(guò)GPT-4V。

在 Yi-VL 基礎(chǔ)上進(jìn)一步提高了圖片分辨率，模型支持 1024*1024 分辨率輸入，顯著提高生產(chǎn)力場(chǎng)景中的文字、數(shù)字 OCR 的準(zhǔn)確性。

保持了 LLM 通用語(yǔ)言、知識(shí)、推理、指令跟隨等能力。

在全球多項(xiàng)權(quán)威評(píng)測(cè)榜單中，Yi 大模型表現(xiàn)優(yōu)異，性能直追 GPT-4。從實(shí)際測(cè)評(píng)結(jié)果顯示，很多場(chǎng)景 Yi-VL-Plus 效果超過(guò) GPT-4V。

例如，當(dāng)我們把下述表格分別給 Yi-VL-Plus 和 ChatGPT 處理，發(fā)現(xiàn)兩個(gè)模型的處理結(jié)果不同：

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

Yi-VL-Plus 得出了正確答案，GPT-4V 沒(méi)有，可見(jiàn) Yi-VL-Plus 對(duì)中文復(fù)雜表格的信息識(shí)別處理準(zhǔn)確度高于 GPT-4V：

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

再例如，我們將下述模糊漢字的圖片提交給 Yi-VL-Plus 和 ChatGPT 識(shí)別：

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

發(fā)現(xiàn)Yi-VL-Plus 回答正確了，ChatGPT 沒(méi)能答對(duì)：

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

在實(shí)際應(yīng)用場(chǎng)景中的效果：用戶評(píng)價(jià)較高

據(jù)零一萬(wàn)物透露，此前，Yi 大模型 API 小范圍開(kāi)放內(nèi)測(cè)，全球已有不少開(kāi)發(fā)者申請(qǐng)使用，并普遍反饋效果超出預(yù)期，其中，星云愛(ài)店 CTO 大董、技術(shù)人負(fù)責(zé)人劉亞光和測(cè)試過(guò)零一萬(wàn)物 API 開(kāi)放平臺(tái)后，也給出了較高評(píng)價(jià)。

星云愛(ài)店是知識(shí)探索服務(wù)的先行者，該公司的業(yè)務(wù)包含2C的“學(xué)術(shù)科研助手”，2B的兒童心理健康診療、青少年科學(xué)素養(yǎng)培養(yǎng)三大領(lǐng)域。

大模型爆火后，針對(duì)科研學(xué)術(shù)場(chǎng)景，星云愛(ài)店“萬(wàn)能小in科研助手”可以加載大模型能力，幫助用戶進(jìn)行深層次文本資料解讀、文獻(xiàn)分析以及創(chuàng)造性寫(xiě)作；針對(duì)青少年科學(xué)素養(yǎng)培育計(jì)劃，星云可以利用大模型來(lái)輔助制定個(gè)性化學(xué)習(xí)計(jì)劃，提供學(xué)習(xí)輔導(dǎo)，評(píng)估學(xué)習(xí)成果，并引導(dǎo)學(xué)生舉一反三，創(chuàng)造性提升學(xué)習(xí)效果。

所以要求大模型同時(shí)具備智商IQ和情商 EQ——做研究時(shí)大模型要有智商IQ，精確、嚴(yán)謹(jǐn)、化繁為簡(jiǎn)，而在服務(wù)用戶時(shí)又有情商EQ，善解人意、無(wú)微不至。

星云愛(ài)店 CTO 大董參加過(guò)諸多一線大模型的測(cè)評(píng)，但他發(fā)現(xiàn)找到雙商兼并的平臺(tái)并不容易，他們要求大模型能達(dá)到：長(zhǎng)文本精確摘要，對(duì)話文案專業(yè)化、精細(xì)化，拒答率低。這次，星云愛(ài)店成為零一萬(wàn)物 Yi 大模型 API 開(kāi)放平臺(tái)邀測(cè)的首批用戶。大董說(shuō)，相比其他大模型，滿分 10 分的話，給 Yi 大模型 API 開(kāi)放平臺(tái)整體評(píng)分可達(dá) 8.5，屬于他們測(cè)試大模型 API 中的頭部玩家。

經(jīng)過(guò)多次測(cè)試后，大董發(fā)現(xiàn)零一萬(wàn)物 Yi 大模型 API 開(kāi)放平臺(tái)，相對(duì)其他模型有以下優(yōu)勢(shì)：

（1）當(dāng)執(zhí)行復(fù)雜任務(wù)時(shí)，拒絕任務(wù)率低，完成度好，測(cè)試案例如下：

其他模型，被拒率達(dá) 40%。

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

切換到零一模型后，任務(wù)未發(fā)生拒絕執(zhí)行，且篇幅控制準(zhǔn)確，撰寫(xiě)創(chuàng)業(yè)優(yōu)良，翻譯專業(yè)準(zhǔn)確。

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

（2）學(xué)習(xí)專業(yè)知識(shí)并立即用于解讀，表現(xiàn)優(yōu)良。有深度、有創(chuàng)意。

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

結(jié)合歷史病歷和從圖片信息，零一模型可以較好的完成對(duì)青少年心理健康水平解讀。并被中國(guó)頂級(jí)精神衛(wèi)生醫(yī)院評(píng)價(jià)為：較準(zhǔn)確。

（3）閱讀18萬(wàn)字的報(bào)告集合，未遺漏重點(diǎn)

其他模型（左標(biāo)黃圖所示）：無(wú)地緣政治風(fēng)險(xiǎn)。

零一模型（右圖所示）：英國(guó)脫歐導(dǎo)致索尼總部搬遷，導(dǎo)致索尼歐洲業(yè)務(wù)連續(xù)性受影響。

零一萬(wàn)物 API 上線，用戶反饋多模態(tài)中文能力超過(guò) GPT-4V

使用了 Yi 大模型API開(kāi)放平臺(tái)后，現(xiàn)在，星云愛(ài)店的業(yè)務(wù)能力和用戶體驗(yàn)明顯提升。

首先是復(fù)雜場(chǎng)景下多指令理解反饋高效精準(zhǔn)。不管是學(xué)術(shù)研究還是為兒童青少年提供輔導(dǎo)，經(jīng)常都會(huì)有“既要又要還要”的刁鉆需求，比如需要總結(jié)一系列文章核心觀點(diǎn)，并按照某一標(biāo)準(zhǔn)排序打分后進(jìn)行語(yǔ)言翻譯，這是對(duì)模型的指令遵循、創(chuàng)意內(nèi)容生成以及推理速度的綜合考驗(yàn)。大董說(shuō)：“Yi-34B-Chat-200K面對(duì)幾萬(wàn)字的超長(zhǎng)提示詞，10 秒鐘就反饋回來(lái)了結(jié)果，極大提高大家的工作效率?！?/p>

其次是長(zhǎng)文本中“大海撈針”精確度優(yōu)異，這讓星云愛(ài)店的產(chǎn)品可以在諸多文本分析與寫(xiě)作平臺(tái)中獨(dú)占鰲頭。學(xué)術(shù)研究最難的并非找到1萬(wàn)篇文獻(xiàn)的共同點(diǎn)，而是要在浩如煙海的文字中，找到可能會(huì)被前人忽略的關(guān)鍵信息。大董說(shuō)，即使是做詩(shī)詞韻律相關(guān)的分析，在測(cè)試中發(fā)現(xiàn) Yi 大模型都可以準(zhǔn)確理解文獻(xiàn)表達(dá)的意思，很快抓住重點(diǎn)。30 萬(wàn)字的處理能力者對(duì)于知識(shí)庫(kù)的分析整理很重要。Yi 大模型在語(yǔ)義理解、摘要總結(jié)等精確度等方面是他測(cè)試過(guò)的各類長(zhǎng)文本模型里的領(lǐng)先者。

此外，不管是服務(wù)科研還是做心理咨詢，“靠譜”是最重要的品質(zhì)。大董說(shuō)，以心理咨詢場(chǎng)景為例，在線拒答率、回答文案的溫暖程度極大影響用戶體驗(yàn)。零一萬(wàn)物的API做到了靠譜且易用，這對(duì)一家業(yè)務(wù)正在持續(xù)增長(zhǎng)，用戶規(guī)模不斷擴(kuò)大的公司尤為重要。

而 Yi 大模型API開(kāi)放平臺(tái)的“靠譜易用”，還體現(xiàn)在 API 接入的順滑程度上。星云愛(ài)店技術(shù)負(fù)責(zé)人劉亞光說(shuō)，接入 Yi 大模型 API 代碼修改量極少，幾乎是分分鐘就可以搞定。

而用戶能擁有上述體驗(yàn)則要源于零一萬(wàn)物對(duì) API 的優(yōu)化，據(jù)零一萬(wàn)物透露，為了提升 API 性能，零一萬(wàn)物在 API 側(cè)進(jìn)行了推理優(yōu)化，因此 Yi-34B-Chat 系列 API 具備較快的推理速度，這不僅縮短了處理時(shí)間，同時(shí)也保持了出色的模型效果。此外，優(yōu)化的 API 接口顯著降低了模型回復(fù)的延遲，進(jìn)一步提高了用戶體驗(yàn)的流暢性和響應(yīng)速度。

同時(shí)，Yi 系列模型 API 與 OpenAI API完全兼容，只需要修改少量代碼，就能平滑遷移。

當(dāng)然，目前看來(lái) Yi 大模型 API 到底能不能與 GPT-4 Turbo、Gemini 1.5、Claude 3 這些模型的表現(xiàn)一較高下，還需要更多開(kāi)發(fā)者一起考察。

據(jù)零一萬(wàn)物技術(shù)副總裁及模型訓(xùn)練 AI Alignment、開(kāi)放平臺(tái)負(fù)責(zé)人俞濤透露，未來(lái)零一萬(wàn)物將會(huì)持續(xù)為開(kāi)發(fā)者提供更多更強(qiáng)模型和 AI 開(kāi)發(fā)框架，讓大模型更好地完成落地，包括：

推出一系列的模型 API，覆蓋更大的參數(shù)量、更強(qiáng)的多模態(tài)，更專業(yè)的代碼/數(shù)學(xué)推理模型等。

突破更長(zhǎng)的上下文，目標(biāo) 100萬(wàn) tokens；支持更快的推理速度，顯著降低推理成本。

基于超長(zhǎng)上下文能力，構(gòu)建向量數(shù)據(jù)庫(kù)、RAG、Agent 架構(gòu)在內(nèi)的全新開(kāi)發(fā)者 AI 框架。旨在提供更加豐富和靈活的開(kāi)發(fā)工具，以適應(yīng)多樣化的應(yīng)用場(chǎng)景。

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

張進(jìn)

主筆

發(fā)私信

當(dāng)月熱門(mén)文章