阿里通義推新一代語音模型Fun-ASR，垂直領(lǐng)域識別準(zhǔn)確率提升15%以上

本文作者：小七

2025-08-22 18:09

導(dǎo)語：阿里通義發(fā)布Fun-ASR大模型，垂直領(lǐng)域識別率提升15%+。

8月22日,阿里通義發(fā)布新一代端到端的語音識別大模型Fun-ASR,該模型增強(qiáng)了上下文感知和高精度語音轉(zhuǎn)寫能力，在家裝、保險(xiǎn)等多個(gè)行業(yè)場景的語音識別準(zhǔn)確率均提升了15%以上。目前，F(xiàn)un-ASR已應(yīng)用于會議字幕與同傳、智能紀(jì)要、語音助手等場景，未來該模型將進(jìn)一步在阿里云百煉上線。

Fun-ASR是大語言模型驅(qū)動的語音識別算法，其基于自研語音算法和監(jiān)督微調(diào)的Qwen3訓(xùn)練，并采用前沿的模型架構(gòu)以及先進(jìn)的文本模態(tài)對齊技術(shù)，可有效保護(hù)和增強(qiáng)大模型的語言處理能力；此外，F(xiàn)un-ASR集成了RAG方案，可提供自動化音頻信息檢索功能，最高可導(dǎo)入1000多個(gè)自定義熱詞。基于該功能，系統(tǒng)能夠根據(jù)輸入音頻精確獲取相關(guān)領(lǐng)域熱詞、文檔及前文記錄，大幅提升特定領(lǐng)域內(nèi)的關(guān)鍵詞識別效果。

阿里通義推新一代語音模型Fun-ASR，垂直領(lǐng)域識別準(zhǔn)確率提升15%以上

Fun-ASR架構(gòu)圖

為解決語音識別不準(zhǔn)確、噪聲干擾、語種混淆以及生成幻覺等問題，通義團(tuán)隊(duì)還在ASR模型訓(xùn)練中引入了RL（強(qiáng)化學(xué)習(xí)）技術(shù)，此策略有效減少識別過程中的幻覺，提高整體系統(tǒng)的準(zhǔn)確性與可靠性。在四川話、粵語、閩南語等多地方言上，F(xiàn)un-ASR取得了領(lǐng)先同類產(chǎn)品的表現(xiàn)。此外，F(xiàn)un-ASR對遠(yuǎn)場拾音和近場降噪的等多樣環(huán)境也表現(xiàn)出了良好的適應(yīng)性，無論是會議室、工位，還是超市、戶外，均可有效保證識別準(zhǔn)確率。

在訓(xùn)練數(shù)據(jù)上，F(xiàn)un-ASR基于上億小時(shí)音頻數(shù)據(jù)的訓(xùn)練，全面涵蓋了互聯(lián)網(wǎng)、科技、家裝、畜牧、汽車等十多個(gè)領(lǐng)域的專業(yè)術(shù)語，在多個(gè)垂直領(lǐng)域的識別準(zhǔn)確率顯著提升。實(shí)測數(shù)據(jù)顯示，F(xiàn)un-ASR在保險(xiǎn)行業(yè)的準(zhǔn)確率較以往提升18%，在家裝、畜牧等行業(yè)也實(shí)現(xiàn)了15%-20%的提升。

在音頻領(lǐng)域，通義實(shí)驗(yàn)室已推出語音生成大模型 Cosyvoice、端到端音頻多模態(tài)大模型MinMo、音頻生成模型ThinkSound等模型，全面覆蓋語音識別、語音合成、音頻生成、音頻理解等場景。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

小七

編輯

發(fā)私信

當(dāng)月熱門文章