丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給栗峰
發(fā)送

0

依圖科技聲紋識(shí)別權(quán)威競(jìng)賽奪冠,智能語音再下一城

本文作者: 栗峰 2019-09-11 11:46
導(dǎo)語:全球權(quán)威聲紋識(shí)別競(jìng)賽結(jié)果出爐,依圖科技獲得第一

依圖科技聲紋識(shí)別權(quán)威競(jìng)賽奪冠,智能語音再下一城

雷鋒網(wǎng)AI科技評(píng)論編者按:在奧地利召開的機(jī)器語音國(guó)際頂會(huì) InterSpeech 2019 上,國(guó)際聲紋識(shí)別權(quán)威競(jìng)賽 VoxCeleb Speaker Recognition Challenge(VoxSRC)公布最新結(jié)果,依圖科技大幅領(lǐng)先海內(nèi)外多支強(qiáng)隊(duì)獲得冠軍,再次展示了世界級(jí)人工智能算法實(shí)力。

不僅如此,依圖團(tuán)隊(duì)使用小數(shù)據(jù)就取得了優(yōu)于其他團(tuán)隊(duì)使用大數(shù)據(jù)得到的結(jié)果,充分表明中國(guó)聲紋識(shí)別技術(shù)已達(dá)世界領(lǐng)先水平。

依圖科技聲紋識(shí)別權(quán)威競(jìng)賽奪冠,智能語音再下一城

依圖團(tuán)隊(duì)(logicworld)在全球權(quán)威聲紋識(shí)別競(jìng)賽 VoxSRC 2019奪冠,等錯(cuò)誤率(EER)0.0098,大幅領(lǐng)先第二名。

聲紋識(shí)別為什么難?

聲紋識(shí)別是一種通過聲音判別說話人身份的技術(shù)。如果說語音識(shí)別是讓機(jī)器判斷「說了什么」,那聲紋識(shí)別就是判斷「是誰說的」,用于解決生物身份的確認(rèn)和識(shí)別。

2012 年以來,深度學(xué)習(xí)技術(shù)逐漸進(jìn)入聲紋識(shí)別主流,這種方法純粹采用數(shù)據(jù)驅(qū)動(dòng)的方式,通過海量數(shù)據(jù)樣本和深度神經(jīng)網(wǎng)絡(luò)模型,讓機(jī)器自動(dòng)去發(fā)掘聲學(xué)特征中說話人的信息差異,從而「學(xué)會(huì)」聲學(xué)特征中的說話人信息表示。

很顯然,使用基于端到端深度學(xué)習(xí)的方法做聲紋識(shí)別,擁有大量聲紋數(shù)據(jù)樣本,就有了無可置疑的優(yōu)勢(shì)。

目前,聲紋識(shí)別應(yīng)用還處于探索階段,但其應(yīng)用前景十分廣闊。最容易想到的,比如會(huì)議錄音的音頻轉(zhuǎn)錄,在結(jié)合了聲紋識(shí)別技術(shù)后,就能自動(dòng)標(biāo)注出誰在什么時(shí)候說了什么,輕松完成多人會(huì)議紀(jì)錄,大幅提高工作效率。

隨著技術(shù)的不斷成熟和融合,聲紋識(shí)別技術(shù)將逐漸融入日常生活,根據(jù)不同應(yīng)用場(chǎng)景的特點(diǎn)進(jìn)行針對(duì)性開發(fā),將產(chǎn)生巨大的應(yīng)用價(jià)值。

VoxSRC:聲紋識(shí)別界的 ImageNet 競(jìng)賽

VoxSRC 是由英國(guó)牛津大學(xué)、韓國(guó)互聯(lián)網(wǎng)巨頭 Naver、斯坦福國(guó)際研究院(SRI International)和 MIT 的研究者聯(lián)合發(fā)起的全球聲紋識(shí)別競(jìng)賽,可以說是「聲紋識(shí)別界的 ImageNet 競(jìng)賽」。在很大程度上,VoxSRC 結(jié)果反映了全球聲紋識(shí)別技術(shù)最高水平。

VoxSRC 基于開源數(shù)據(jù)集 VoxCeleb,由牛津大學(xué)團(tuán)隊(duì)于 2017 年發(fā)布,后來逐漸擴(kuò)充,現(xiàn)在是聲紋識(shí)別領(lǐng)域規(guī)模最大、標(biāo)注最完備的開源數(shù)據(jù)集之一。

VoxCeleb 來自 YouTube 名人采訪視頻,包含了 7000 多個(gè)不同種族、性別、口音、職業(yè)和年齡的說話人,在不同場(chǎng)合下超過 100 萬段的說話聲(utterance),時(shí)長(zhǎng)加起來總共超過 2000 小時(shí)(每段音頻的長(zhǎng)度從 3 秒到 20 秒不等)。

除了數(shù)據(jù)量大且來源多樣化,VoxCeleb 的音視頻基本都含有背景噪音、笑聲、重疊的說話聲和其他雜音,非??简?yàn)算法的實(shí)戰(zhàn)水平。

依圖科技聲紋識(shí)別權(quán)威競(jìng)賽奪冠,智能語音再下一城

牛津大學(xué)發(fā)布并維護(hù)的VoxCeleb數(shù)據(jù)集是目前全球規(guī)模最大、標(biāo)注最完備的開源聲紋數(shù)據(jù)集之一,數(shù)據(jù)來源多樣且都來自無約束場(chǎng)景,非??简?yàn)算法的實(shí)戰(zhàn)水平。 

此外,VoxSRC 的測(cè)試數(shù)據(jù)集是「盲的」(blind),即沒有任何標(biāo)注。這些數(shù)據(jù)無法用來訓(xùn)練或調(diào)整系統(tǒng),確保了比賽結(jié)果的公正與準(zhǔn)確(不會(huì)出現(xiàn)有團(tuán)隊(duì)過擬合數(shù)據(jù)的情況)。

今年的 VoxSRC 吸引了海內(nèi)外多支隊(duì)伍參與,有約翰霍普金斯大學(xué)、法國(guó)國(guó)家信息與自動(dòng)化研究所、清華大學(xué)、中山大學(xué)等知名高校和研究機(jī)構(gòu),也有平安科技、NEC、君林科技等大企業(yè)。

競(jìng)賽的任務(wù)很明確,就是判斷兩段音頻是出自同一個(gè)人,還是來自兩個(gè)不同的人。算法的輸出結(jié)果用等錯(cuò)誤率(Equal Error Rate,EER)來衡量。

EER 是衡量聲紋識(shí)別算法系統(tǒng)綜合性能的重要指標(biāo),EER 值越小,系統(tǒng)的性能就越好(雷鋒網(wǎng))。

什么是EER、FAR、FRR?

評(píng)估算法系統(tǒng)性能時(shí)常輸出ROC 曲線,用于描述FAR(誤識(shí)率)與FRR(拒識(shí)率)之間的關(guān)系。 

簡(jiǎn)單說,在聲紋識(shí)別中,誤識(shí)率就是“把不應(yīng)該匹配的聲紋當(dāng)成匹配聲紋”的比例,拒識(shí)率則是“把應(yīng)該匹配的聲紋當(dāng)成不匹配聲紋”的比例。

在對(duì)安全要求非常高的應(yīng)用場(chǎng)景,就會(huì)把FAR值設(shè)置得低一些,因?yàn)榕袛噱e(cuò)一次的代價(jià)很大,但這樣做的同時(shí)會(huì)導(dǎo)致FRR值上升,用戶體驗(yàn)度下降。

依圖科技聲紋識(shí)別權(quán)威競(jìng)賽奪冠,智能語音再下一城

等錯(cuò)誤率(EER)是系統(tǒng)的誤識(shí)率(FAR)和拒識(shí)率(FRR)相等時(shí)的錯(cuò)誤率,即ROC曲線與45度角直線相交的點(diǎn),是衡量聲紋識(shí)別算法系統(tǒng)綜合性能的重要指標(biāo)。EER數(shù)值越小,系統(tǒng)性能越好。

為了評(píng)估數(shù)據(jù)量(訓(xùn)練樣本多少)對(duì)系統(tǒng)性能的影響,這次 VoxSRC 競(jìng)賽給定了兩種情況,一是固定數(shù)據(jù)集,另一個(gè)是無約束數(shù)據(jù)集。

  • 固定數(shù)據(jù)集任務(wù),參賽隊(duì)伍使用的訓(xùn)練數(shù)據(jù)集是固定的,也即 VoxCeleb2,該數(shù)據(jù)集包含了來自 5994 個(gè)不同說話人超過 100 萬段的說話聲音頻。

  • 無約束數(shù)據(jù)集任務(wù),參賽隊(duì)伍在訓(xùn)練模型時(shí),可以使用除競(jìng)賽測(cè)試集以外的其他任何數(shù)據(jù),包括未公開發(fā)布的數(shù)據(jù)。 

依圖團(tuán)隊(duì)以 0.0098 的 EER 值獲得本屆競(jìng)賽冠軍,也是唯一將 EER 值降低到 0.01 以內(nèi)的團(tuán)隊(duì)。 

特別值得一提的是,這個(gè)結(jié)果比其他團(tuán)隊(duì)無約束數(shù)據(jù)集任務(wù)的結(jié)果更好(無約束數(shù)據(jù)集任務(wù)的冠軍 EER 值為 0.0126)。

中國(guó)最好的就是全球最好的

依圖已經(jīng)不是第一次在國(guó)際人工智能公開比賽中獲得第一。 

成立 7 年來,依圖在視覺感知、自然語言處理、語音識(shí)別、智能決策等多算法領(lǐng)域發(fā)展,并且都獨(dú)占鰲頭。這次在全球聲紋識(shí)別權(quán)威競(jìng)賽 VoxSRC 中奪冠,是對(duì)中國(guó)自有 AI 技術(shù)能夠引領(lǐng)世界的又一個(gè)絕佳證明。

今年 5 月,依圖發(fā)布自研云端 AI 芯片求索(questcore?),旨在提升智能密度,結(jié)合世界領(lǐng)先人工智能算法和先進(jìn)芯片設(shè)計(jì)理念,同等功耗下的視覺推理性能是 NVIDIA GPU 的 5 倍。

基于求索構(gòu)建的智能視頻分析系統(tǒng),將原本需要 16 臺(tái)機(jī)柜的方案壓縮到 1 臺(tái),降低數(shù)據(jù)中心整體建設(shè)成本 50%,運(yùn)維成本 80%,讓 10 萬路智能視頻解析系統(tǒng)成標(biāo)配,50 萬路成現(xiàn)實(shí),大幅提升基礎(chǔ)設(shè)施智能水平,為人工智能應(yīng)用落地和普及奠定了堅(jiān)實(shí)的基礎(chǔ)。

8 月 29 日,依圖獲得科技部正式授牌,承建視覺計(jì)算國(guó)家新一代人工智能開放創(chuàng)新平臺(tái),促進(jìn)芯片設(shè)計(jì)與人工智能的融合,同時(shí)針對(duì)不同業(yè)務(wù)場(chǎng)景打造一系列定制化芯片,支持智能城市、智慧醫(yī)療和智慧金融等行業(yè)。

未來,依圖將在多算法領(lǐng)域持續(xù)投入,多模態(tài)技術(shù)融合,軟硬件協(xié)同開發(fā),將世界優(yōu)勝人工智能算法與行業(yè)場(chǎng)景深度結(jié)合,推動(dòng)人工智能應(yīng)用落地。(雷鋒網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

依圖科技聲紋識(shí)別權(quán)威競(jìng)賽奪冠,智能語音再下一城

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說