0
本文作者: 我在思考中 | 2022-09-23 15:08 |
作者 | 黃楠
9月21日,OpenAI 發(fā)布了一個(gè)名為「Whisper 」的神經(jīng)網(wǎng)絡(luò),聲稱其在英語(yǔ)語(yǔ)音識(shí)別方面已接近人類水平的魯棒性和準(zhǔn)確性。
「Whisper 」式一個(gè)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng),研究團(tuán)隊(duì)通過(guò)使用從網(wǎng)絡(luò)上收集的68萬(wàn)個(gè)小時(shí)多語(yǔ)音和多任務(wù)監(jiān)督數(shù)據(jù),來(lái)對(duì)其進(jìn)行訓(xùn)練。
訓(xùn)練過(guò)程中研究團(tuán)隊(duì)發(fā)現(xiàn),使用如此龐大且多樣化的數(shù)據(jù)集可以提高對(duì)口音、背景噪音和技術(shù)語(yǔ)言的魯棒性。
此前有不同研究表明,雖然無(wú)監(jiān)督預(yù)訓(xùn)練可以顯著提高音頻編碼器的質(zhì)量,但由于缺乏同等高質(zhì)量的預(yù)訓(xùn)練解碼器,以及特定于數(shù)據(jù)集中的微調(diào)協(xié)議,因此在一定程度上限制了模型的有效性和魯棒性;而在部分有監(jiān)督的方式預(yù)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)中,其表現(xiàn)會(huì)比單一源訓(xùn)練的模型呈現(xiàn)出更高的魯棒性。
對(duì)此,在「Whisper 」中,OpenAI 在新數(shù)據(jù)集比現(xiàn)有高質(zhì)量數(shù)據(jù)集總和大幾倍的基礎(chǔ)上,將弱監(jiān)督語(yǔ)音識(shí)別的數(shù)量級(jí)擴(kuò)展至68萬(wàn)小時(shí);同時(shí),研究團(tuán)隊(duì)還演示了在這種規(guī)模下,所訓(xùn)練模型在轉(zhuǎn)移現(xiàn)有數(shù)據(jù)集的零射擊表現(xiàn),可消除任何特定于數(shù)據(jù)集微調(diào)的影響,以實(shí)現(xiàn)高質(zhì)量結(jié)果。
在許多不同的語(yǔ)音處理任務(wù)中訓(xùn)練一個(gè)序列到序列的轉(zhuǎn)換器模型,包括多語(yǔ)言語(yǔ)音識(shí)別、語(yǔ)音翻譯、口頭語(yǔ)言識(shí)別和語(yǔ)音活動(dòng)檢測(cè);所有任務(wù)都表示為要由解碼器預(yù)測(cè)的標(biāo)記序列,允許單一模型取代傳統(tǒng)語(yǔ)音處理管道的不同階段;多任務(wù)訓(xùn)練格式使用一組特殊的標(biāo)記,作為任務(wù)指定者或分類目標(biāo)
Whisper 架構(gòu)采用一種簡(jiǎn)單的端到端方法,通過(guò)編碼器-解碼器 Transformer 來(lái)實(shí)現(xiàn):輸入音頻被分成30秒的塊,轉(zhuǎn)換成 log-Mel 頻譜圖后傳遞到編碼器。解碼器可預(yù)測(cè)相應(yīng)的文本標(biāo)題,并與特殊標(biāo)記混合,由這些標(biāo)記指導(dǎo)單個(gè)模型執(zhí)行諸如語(yǔ)言識(shí)別、短語(yǔ)級(jí)時(shí)間戳、多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。
圖注:Whisper 架構(gòu)
值得一提的是,由于「Whisper 」是在一個(gè)龐大且多樣的數(shù)據(jù)集上進(jìn)行,沒(méi)有針對(duì)任何特定的數(shù)據(jù)集進(jìn)行微調(diào),因此它不會(huì)擊敗專門研究 LibriSpeech 性能的模型。
此外研究團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)在許多不同的數(shù)據(jù)集上測(cè)量「Whisper 」的零樣本性能時(shí),「Whisper 」相比其他模型表現(xiàn)更加穩(wěn)健,錯(cuò)誤率降低了 50%。
除了足夠大的數(shù)據(jù)集規(guī)模外,「Whisper 」還支持多種語(yǔ)言的轉(zhuǎn)錄,以及將這些語(yǔ)言翻譯成英語(yǔ)。
當(dāng)前在68萬(wàn)小時(shí)音頻中,共11.7萬(wàn)個(gè)小時(shí)覆蓋了96中其他語(yǔ)言,還包括12.5萬(wàn)個(gè)小時(shí)的轉(zhuǎn)錄和翻譯數(shù)據(jù),即大約有三分之一是非英語(yǔ)的。
「Whisper 」會(huì)交替執(zhí)行以原始語(yǔ)言轉(zhuǎn)錄或翻譯成英語(yǔ)的任務(wù),對(duì)此研究團(tuán)隊(duì)發(fā)現(xiàn),這種方法在學(xué)習(xí)語(yǔ)音到文本的翻譯方面特別有效,并且優(yōu)于 CoVoST2 到英語(yǔ)翻譯零樣本的監(jiān)督 SOTA。
目前,「Whisper 」已開源,可用于對(duì)語(yǔ)音識(shí)別方面的進(jìn)一步研究。
OpenAI 創(chuàng)始人 Ilya Sutskever 對(duì)此表示,“終于有一個(gè)能理解我說(shuō)話的可靠的語(yǔ)音識(shí)別系統(tǒng)?!?/span>
前特斯拉人工智能和自動(dòng)駕駛部門負(fù)責(zé)人 Andrej Karpathy 也轉(zhuǎn)發(fā)了這一消息稱“OpenAI 正處于最好的狀態(tài)中”。
但對(duì)使用 Whisper 上,有不少用戶也還存在疑慮。
網(wǎng)友 Vincent Lordier 提出,“此前在 GTP-3 和 Dalle-2 中出現(xiàn)對(duì)相關(guān)言論禁止行為,是否在使用 Whisper 時(shí)也會(huì)有, 是否會(huì)出現(xiàn) Whisper 編輯/刪除用戶語(yǔ)音的情況?”
那么大家怎么看?
參考鏈接:https://openai.com/blog/whisper/
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。