0
本文作者: 馬廣宇 | 2024-10-12 20:09 | 專題:全面突破 vivo NEX |
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))消息,2024 vivo開發(fā)者大會(huì)于10月10日在廣東深圳正式召開,vivo發(fā)布自研大模型——全新藍(lán)心大模型矩陣,并帶來(lái)了多項(xiàng)核心能力升級(jí)。
首先是語(yǔ)言大模型升級(jí),vivo自研語(yǔ)音大模型基于藍(lán)心文本大模型開發(fā),通過(guò)離散化編碼結(jié)合文本大模型學(xué)習(xí),實(shí)現(xiàn)更智能、豐富和簡(jiǎn)單的語(yǔ)音交互。它具備四大核心能力:語(yǔ)音合成、音色復(fù)刻、語(yǔ)音翻譯和方言自由說(shuō)。語(yǔ)音合成能將文本轉(zhuǎn)化為逼真擬人的語(yǔ)音,支持多語(yǔ)言及方言;音色復(fù)刻則只需用戶一句話即可復(fù)制音色;方言自由說(shuō)功能不僅滿足用戶方言交流需求,還助力方言文化的保護(hù)與傳承;語(yǔ)音翻譯能力則能直接將語(yǔ)音轉(zhuǎn)化為目標(biāo)語(yǔ)言文本,提高翻譯效率。
vivo將繼續(xù)深耕語(yǔ)音大模型在各場(chǎng)景的應(yīng)用,提升用戶體驗(yàn),并期待與各界共同探索大模型技術(shù)的更多可能性,造福社會(huì)。未來(lái),vivo計(jì)劃將語(yǔ)音大模型能力逐步開放至智能體平臺(tái),以更廣泛地服務(wù)于用戶和開發(fā)者。
BlueLM-70B 2.0新增學(xué)習(xí)了1億知識(shí)問(wèn)答,500w篇的論文,以及1.2億代碼倉(cāng)庫(kù)等高質(zhì)量數(shù)據(jù),模型整體能力提升30%。新增了多模態(tài)多輪對(duì)話能力,支持400+手機(jī)系統(tǒng)工具和180+三方工具的調(diào)用,以及全面升級(jí)了大模型的代碼生成能力,能實(shí)現(xiàn)數(shù)理計(jì)算和Excel的數(shù)據(jù)分析能力。BlueLM-70B 2.0模型較1.0模型能力提升30%。
圖像大模型方面,隨著擴(kuò)散模型與AI架構(gòu)的深度融合,圖像生成技術(shù)迎來(lái)了指數(shù)級(jí)飛躍,其中文生圖技術(shù)尤為顯著。vivo AIGC圖像大模型技術(shù)總監(jiān)阮曉虎在論壇上介紹了vivo的文生圖大模型——藍(lán)心圖像大模型BlueLM-Art,該模型精通中文語(yǔ)境,融合了中國(guó)特色與東方美學(xué),其在中文理解、中國(guó)文化詮釋、人物攝影美學(xué)及中文文字繪制等多個(gè)維度都取得了出色的效果,多次榮登SuperCLUE-Image基準(zhǔn)榜單中文領(lǐng)域榜首。
通過(guò)在算法架構(gòu)、數(shù)據(jù)處理、工程以及算力上的全面優(yōu)化,使藍(lán)心圖像大模型BlueLM-Art擁有諸多特性,不僅精通中文,擁有出色的指令跟隨性,還能生成與圖文完美結(jié)合的中文字符,并提供藝術(shù)字繪制插件。同時(shí),藍(lán)心圖像大模型BlueLM-Art在人物攝影美學(xué)方面有著卓越表現(xiàn),能呈現(xiàn)美觀、真實(shí)、富有質(zhì)感的人物形象。最后,BlueLM-Art還擁有可控性生成能力,能在圖像創(chuàng)作中保持更高的主體一致性。
基于藍(lán)心圖像大模型BlueLM-Art,vivo在藍(lán)心小V中推出了圖像創(chuàng)作、AI消除、圖像風(fēng)格化、藝術(shù)字創(chuàng)作等一系列AI功能,并在PAD的原子筆記中加入了AI涂鴉美化功能,極大地提升了用戶的創(chuàng)作體驗(yàn)。后續(xù)vivo將繼續(xù)優(yōu)化文生圖大模型及其相關(guān)AIGC功能,為用戶提供更多創(chuàng)意資源,讓先進(jìn)的AI技術(shù)惠及更廣泛的用戶群體,持續(xù)推動(dòng)圖像生成技術(shù)的創(chuàng)新與發(fā)展。
大模型時(shí)代,vivo持續(xù)推進(jìn)各模態(tài)大模型端側(cè)化能力建設(shè),探索大模型在各業(yè)務(wù)場(chǎng)景端側(cè)產(chǎn)品落地,覆蓋“聽、說(shuō)、讀、寫、畫”各應(yīng)用場(chǎng)景。在“聽”方面,vivo升級(jí)應(yīng)用語(yǔ)音識(shí)別大模型,讓語(yǔ)音操作隨時(shí)可用;在“說(shuō)”方面,利用語(yǔ)音生成大模型生成超擬人音色,為故事講述賦予更鮮活的魅力;在“讀”方面,利用多模態(tài)大模型針對(duì)視障用戶打造圖像問(wèn)答功能;在“寫”方面,將語(yǔ)言大模型在端側(cè)更廣泛的應(yīng)用,同時(shí)升級(jí)為3B端側(cè)大模型,給用戶更為優(yōu)質(zhì)的體驗(yàn)。此外,vivo還探索了圖像大模型端側(cè)化,為用戶帶來(lái)隨時(shí)可用的AI消除功能。
針對(duì)全模態(tài)大模型端側(cè)化,vivo從算法模型設(shè)計(jì),到量化、性能瓶頸分析工具建設(shè),再到底層運(yùn)行時(shí)異構(gòu)方案設(shè)計(jì)和業(yè)務(wù)框架層靈活的多業(yè)務(wù)部署架構(gòu)建設(shè),提供了完整的解決方案。通過(guò)軟硬件協(xié)同,充分挖掘芯片潛力,確保大模型在端側(cè)運(yùn)行時(shí)的強(qiáng)悍性能。未來(lái),vivo計(jì)劃開放成熟算法能力與端側(cè)加速能力,與行業(yè)開發(fā)者合作,共同打造創(chuàng)新、便利、智能的業(yè)務(wù)場(chǎng)景,為用戶提供更優(yōu)質(zhì)的智能化體驗(yàn)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。