0
本文作者: 張進 | 2024-03-19 19:25 |
【雷峰網(wǎng)(公眾號:雷峰網(wǎng))】近日,大模型初創(chuàng)公司零一萬物發(fā)布了Yi 大模型 API 開放平臺,為開發(fā)者提供通用 Chat、200k 超長上下文、多模態(tài)交互等模型。
零一萬物由創(chuàng)新工場董事長兼首席執(zhí)行官李開復(fù)創(chuàng)辦于 2023 年 6 月,六個月后,零一萬物便成功發(fā)布了 Yi 系列模型,包含 6B 和 34B 兩個版本,并開源,打破了當(dāng)時國產(chǎn)開源模型一直難以超過 14B 的現(xiàn)狀。34B也是黃金尺寸的模型,既達到了大模型“涌現(xiàn)”能力的門檻,同時也能在消費級顯卡上訓(xùn)練,對開發(fā)者相對友好。
此后較長一段時間 Yi-34B 在 Hugging Face 英文開源社區(qū)平臺躋身前列,一舉打響了零一萬物的模型名聲。
而此次推出 Yi 大模型 API 開放平臺,意味著經(jīng)過過去一年的籌措與準(zhǔn)備,零一萬物已經(jīng)具備了一個初步的模型產(chǎn)品矩陣,將模型能力完全開放出去供開發(fā)者測試、使用。
跟開源一樣,這同樣需要很大的勇氣,是對零一模型能力進一步的測試與考驗,但好在經(jīng)過前期體驗與一些用戶實測,收獲了諸多好評。在 Yi-34B-Chat-0205、Yi-34B-Chat-200K 之外,零一萬物開放平臺此次同期上新的多模態(tài)大模型 Yi-VL-Plus,支持文本、視覺多模態(tài)輸入,面向?qū)嶋H場景大幅增強。多位用戶反饋:中文體驗超過 GPT-4V。
開發(fā)者作為大模型生態(tài)中非常重要的一環(huán),從開源 Yi-34B 模型免費供開發(fā)者使用,到今天又推出Yi 大模型 API 開放平臺,可以看到零一萬物非常重視開發(fā)者生態(tài)的塑造。
Yi 大模型 API 名額目前限量開放,零一萬物會為新用戶免費贈送 60 元,感興趣的開發(fā)者不妨多多申請體驗一下。
據(jù)介紹,此次 API 開放平臺提供以下模型,包括:
Yi-34B-Chat-0205:支持通用聊天、問答、對話、寫作、翻譯等功能。
Yi-34B-Chat-200K:200K 上下文,多文檔閱讀理解、超長知識庫構(gòu)建小能手。
Yi-VL-Plus:多模態(tài)模型,支持文本、視覺多模態(tài)輸入,中文圖表體驗超過 GPT-4V。
(零一萬物API開放平臺鏈接:https://platform.lingyiwanwu.com/)
AI 科技評論發(fā)現(xiàn),此次零一萬物 API 開放平臺主要聚焦于當(dāng)下兩個最重要的領(lǐng)域,一是長文本,二是多模態(tài)。
大模型早已進入長文本時代,各家大模型都在推自己的長文本能力,Yi-34B-Chat-200K 支持處理約 30 萬個中英文字符,更具象的體現(xiàn)是可以輕松處理整本《哈利·波特與魔法石》 小說,適合用于多篇文檔內(nèi)容理解、海量數(shù)據(jù)分析挖掘和跨領(lǐng)域知識融合等行業(yè)人員。
例如金融分析師可用 Yi-34B-Chat-200K 快速閱讀報告并預(yù)測市場趨勢、律師可以用它精準(zhǔn)解讀法律條文、科研人員可以用它提取論文要點等。
在“大海撈針”的測評中,Yi-34B-Chat-200K 的性能提高了 10.5%,從 89.3% 提升到 99.8% 。該測試是將一個目標(biāo)句子(針)放進一個隨機文檔語料庫(大海),然后提出一個只能使用“針”(目標(biāo)句子)中的信息才能回答的問題來測試模型的回憶能力。
Yi-34B-Chat-200K 可以對200多頁的英文長篇小說《Frankentein》進行中文歸納總結(jié)和用表格例舉書中人物。
而零一萬物開發(fā)的多模態(tài)模型 Yi-VL-Plus,可支持文本、視覺多模態(tài)輸入,面向?qū)嶋H應(yīng)用場景大幅增強:
增強Charts, Table, Inforgraphics, Screenshot 識別能力,支持復(fù)雜圖表理解、信息提取、問答以及推理。中文圖表體驗超過GPT-4V。
在 Yi-VL 基礎(chǔ)上進一步提高了圖片分辨率,模型支持 1024*1024 分辨率輸入,顯著提高生產(chǎn)力場景中的文字、數(shù)字 OCR 的準(zhǔn)確性。
保持了 LLM 通用語言、知識、推理、指令跟隨等能力。
在全球多項權(quán)威評測榜單中,Yi 大模型表現(xiàn)優(yōu)異,性能直追 GPT-4。從實際測評結(jié)果顯示,很多場景 Yi-VL-Plus 效果超過 GPT-4V。
例如,當(dāng)我們把下述表格分別給 Yi-VL-Plus 和 ChatGPT 處理,發(fā)現(xiàn)兩個模型的處理結(jié)果不同:
Yi-VL-Plus 得出了正確答案,GPT-4V 沒有,可見 Yi-VL-Plus 對中文復(fù)雜表格的信息識別處理準(zhǔn)確度高于 GPT-4V:
再例如,我們將下述模糊漢字的圖片提交給 Yi-VL-Plus 和 ChatGPT 識別:
發(fā)現(xiàn)Yi-VL-Plus 回答正確了,ChatGPT 沒能答對:
據(jù)零一萬物透露,此前,Yi 大模型 API 小范圍開放內(nèi)測,全球已有不少開發(fā)者申請使用,并普遍反饋效果超出預(yù)期,其中,星云愛店 CTO 大董、技術(shù)人負(fù)責(zé)人劉亞光和測試過零一萬物 API 開放平臺后,也給出了較高評價。
星云愛店是知識探索服務(wù)的先行者,該公司的業(yè)務(wù)包含2C的“學(xué)術(shù)科研助手”,2B的兒童心理健康診療、青少年科學(xué)素養(yǎng)培養(yǎng)三大領(lǐng)域。
大模型爆火后,針對科研學(xué)術(shù)場景,星云愛店“萬能小in科研助手”可以加載大模型能力,幫助用戶進行深層次文本資料解讀、文獻分析以及創(chuàng)造性寫作;針對青少年科學(xué)素養(yǎng)培育計劃,星云可以利用大模型來輔助制定個性化學(xué)習(xí)計劃,提供學(xué)習(xí)輔導(dǎo),評估學(xué)習(xí)成果,并引導(dǎo)學(xué)生舉一反三,創(chuàng)造性提升學(xué)習(xí)效果。
所以要求大模型同時具備智商IQ和情商 EQ——做研究時大模型要有智商IQ,精確、嚴(yán)謹(jǐn)、化繁為簡,而在服務(wù)用戶時又有情商EQ,善解人意、無微不至。
星云愛店 CTO 大董參加過諸多一線大模型的測評,但他發(fā)現(xiàn)找到雙商兼并的平臺并不容易,他們要求大模型能達到:長文本精確摘要,對話文案專業(yè)化、精細化,拒答率低。這次,星云愛店成為零一萬物 Yi 大模型 API 開放平臺邀測的首批用戶。大董說,相比其他大模型,滿分 10 分的話,給 Yi 大模型 API 開放平臺整體評分可達 8.5,屬于他們測試大模型 API 中的頭部玩家。
經(jīng)過多次測試后,大董發(fā)現(xiàn)零一萬物 Yi 大模型 API 開放平臺,相對其他模型有以下優(yōu)勢:
(1)當(dāng)執(zhí)行復(fù)雜任務(wù)時,拒絕任務(wù)率低,完成度好,測試案例如下:
其他模型,被拒率達 40%。
切換到零一模型后,任務(wù)未發(fā)生拒絕執(zhí)行,且篇幅控制準(zhǔn)確,撰寫創(chuàng)業(yè)優(yōu)良,翻譯專業(yè)準(zhǔn)確。
(2)學(xué)習(xí)專業(yè)知識并立即用于解讀,表現(xiàn)優(yōu)良。有深度、有創(chuàng)意。
結(jié)合歷史病歷和從圖片信息,零一模型可以較好的完成對青少年心理健康水平解讀。并被中國頂級精神衛(wèi)生醫(yī)院評價為:較準(zhǔn)確。
(3)閱讀18萬字的報告集合,未遺漏重點
其他模型(左標(biāo)黃圖所示):無地緣政治風(fēng)險。
零一模型(右圖所示):英國脫歐導(dǎo)致索尼總部搬遷,導(dǎo)致索尼歐洲業(yè)務(wù)連續(xù)性受影響。
使用了 Yi 大模型API開放平臺后,現(xiàn)在,星云愛店的業(yè)務(wù)能力和用戶體驗明顯提升。
首先是復(fù)雜場景下多指令理解反饋高效精準(zhǔn)。不管是學(xué)術(shù)研究還是為兒童青少年提供輔導(dǎo),經(jīng)常都會有“既要又要還要”的刁鉆需求,比如需要總結(jié)一系列文章核心觀點,并按照某一標(biāo)準(zhǔn)排序打分后進行語言翻譯,這是對模型的指令遵循、創(chuàng)意內(nèi)容生成以及推理速度的綜合考驗。大董說:“Yi-34B-Chat-200K面對幾萬字的超長提示詞,10 秒鐘就反饋回來了結(jié)果,極大提高大家的工作效率?!?/p>
其次是長文本中“大海撈針”精確度優(yōu)異,這讓星云愛店的產(chǎn)品可以在諸多文本分析與寫作平臺中獨占鰲頭。學(xué)術(shù)研究最難的并非找到1萬篇文獻的共同點,而是要在浩如煙海的文字中,找到可能會被前人忽略的關(guān)鍵信息。大董說,即使是做詩詞韻律相關(guān)的分析,在測試中發(fā)現(xiàn) Yi 大模型都可以準(zhǔn)確理解文獻表達的意思,很快抓住重點。30 萬字的處理能力者對于知識庫的分析整理很重要。Yi 大模型在語義理解、摘要總結(jié)等精確度等方面是他測試過的各類長文本模型里的領(lǐng)先者。
此外,不管是服務(wù)科研還是做心理咨詢,“靠譜”是最重要的品質(zhì)。大董說,以心理咨詢場景為例,在線拒答率、回答文案的溫暖程度極大影響用戶體驗。零一萬物的API做到了靠譜且易用,這對一家業(yè)務(wù)正在持續(xù)增長,用戶規(guī)模不斷擴大的公司尤為重要。
而 Yi 大模型API開放平臺的“靠譜易用”,還體現(xiàn)在 API 接入的順滑程度上。星云愛店技術(shù)負(fù)責(zé)人劉亞光說,接入 Yi 大模型 API 代碼修改量極少,幾乎是分分鐘就可以搞定。
而用戶能擁有上述體驗則要源于零一萬物對 API 的優(yōu)化,據(jù)零一萬物透露,為了提升 API 性能,零一萬物在 API 側(cè)進行了推理優(yōu)化,因此 Yi-34B-Chat 系列 API 具備較快的推理速度,這不僅縮短了處理時間,同時也保持了出色的模型效果。此外,優(yōu)化的 API 接口顯著降低了模型回復(fù)的延遲,進一步提高了用戶體驗的流暢性和響應(yīng)速度。
同時,Yi 系列模型 API 與 OpenAI API完全兼容,只需要修改少量代碼,就能平滑遷移。
當(dāng)然,目前看來 Yi 大模型 API 到底能不能與 GPT-4 Turbo、Gemini 1.5、Claude 3 這些模型的表現(xiàn)一較高下,還需要更多開發(fā)者一起考察。
據(jù)零一萬物技術(shù)副總裁及模型訓(xùn)練 AI Alignment、開放平臺負(fù)責(zé)人俞濤透露,未來零一萬物將會持續(xù)為開發(fā)者提供更多更強模型和 AI 開發(fā)框架,讓大模型更好地完成落地,包括:
推出一系列的模型 API,覆蓋更大的參數(shù)量、更強的多模態(tài),更專業(yè)的代碼/數(shù)學(xué)推理模型等。
突破更長的上下文,目標(biāo) 100萬 tokens;支持更快的推理速度,顯著降低推理成本。
基于超長上下文能力,構(gòu)建向量數(shù)據(jù)庫、RAG、Agent 架構(gòu)在內(nèi)的全新開發(fā)者 AI 框架。旨在提供更加豐富和靈活的開發(fā)工具,以適應(yīng)多樣化的應(yīng)用場景。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。