0
本文作者: nebula | 2024-08-13 13:59 |
8月13日消息,阿里通義大模型繼續(xù)開源,Qwen2系列開源家族新增音頻語言模型Qwen2-Audio。Qwen2-Audio可以不需文本輸入,直接進(jìn)行語音問答,理解并分析用戶輸入的音頻信號,包括人聲、自然音、音樂等。該模型在多個(gè)權(quán)威測評中都顯著超越先前的最佳模型。通義團(tuán)隊(duì)還同步推出了一套全新的音頻理解模型測評基準(zhǔn),相關(guān)論文已入選本周正在舉辦的國際頂會ACL 2024。
聲音是人類以及許多生命體用以進(jìn)行交互和溝通的重要媒介,聲音中蘊(yùn)含豐富的信息,讓大模型學(xué)會理解各種音頻信號,對于通用人工智能的探索至為重要。Qwen2-Audio是通義團(tuán)隊(duì)在音頻理解模型上的新一步探索,相比前一代模型Qwen-Audio,新版模型有了更強(qiáng)的聲音理解能力和更好的指令跟隨能力。
Qwen2-Audio可以理解分析音樂
Qwen2-Audio是一款大型音頻語言模型(Large Audio-Language Model ,LALM),具備語音聊天和音頻分析兩種使用模式,前者是指用戶可以用語音向模型發(fā)出指令,模型無需自動語音識別(ASR)模塊就可理解用戶輸入;后者是指模型能夠根據(jù)用戶指令分析音頻信息,包括人類聲音、自然聲音、音樂或者多種信號混雜的音頻。Qwen2-Audio能夠自動實(shí)現(xiàn)兩種模式的切換。Qwen2-Audio支持超過8種語言和方言,如中文、英語、法語、意大利語、西班牙語、德語、日語,粵語。
通義團(tuán)隊(duì)同步開源了基礎(chǔ)模型 Qwen2-Audio-7B 及其指令跟隨版本Qwen2-Audio-7B-Instruct,用戶可以通過Hugging Face、魔搭社區(qū)ModelScope等下載模型,也可以在魔搭社區(qū)“創(chuàng)空間”直接體驗(yàn)?zāi)P湍芰Α?/p>
Qwen2-Audio的模型結(jié)構(gòu)與訓(xùn)練方法
根據(jù)Qwen2-Audio技術(shù)報(bào)告,Qwen2-Audio的模型結(jié)構(gòu)包含一個(gè)Qwen大語言模型和一個(gè)音頻編碼器。在預(yù)訓(xùn)練階段,依次進(jìn)行ASR、AAC等多任務(wù)預(yù)訓(xùn)練以實(shí)現(xiàn)音頻與語言的對齊,接著通過SFT(監(jiān)督微調(diào)) 強(qiáng)化模型處理下游任務(wù)的能力,再通過 DPO(直接偏好優(yōu)化)方法加強(qiáng)模型與人類偏好的對齊。
研發(fā)團(tuán)隊(duì)在一系列基準(zhǔn)測試集上對模型效果作了評估,包括 LibriSpeech、Common Voice 15、Fleurs、Aishell2、CoVoST2、Meld、Vocalsound 以及通義團(tuán)隊(duì)新開發(fā)的 AIR-Benchmark基準(zhǔn)。在所有任務(wù)中,Qwen2-Audio 都顯著超越了先前的最佳模型和它的前代 Qwen-Audio,成為新的SOTA模型。
Qwen2-Audio 在多個(gè)測評中都顯著超越了先前的最佳模型
附:Qwen2-Audio下載或體驗(yàn)地址
魔搭模型頁面: https://modelscope.cn/organization/qwen?tab=model
魔搭體驗(yàn)頁面: https://www.modelscope.cn/studios/qwen/Qwen2-Audio-Instruct-Demo
GitHub: https://github.com/QwenLM/Qwen2-Audio
Hugging Face:https://huggingface.co/collections/Qwen/qwen2-audio-66b628d694096020e0c52ff6
Qwen2-Audio技術(shù)報(bào)告: https://arxiv.org/pdf/2407.10759
AIR-Benchmark論文地址: https://arxiv.org/abs/2402.07729
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。