OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」，英文識別能力可接近人類水平

本文作者：我在思考中

2022-09-23 15:08

導(dǎo)語：68萬小時數(shù)據(jù)庫，可支持多種語言的轉(zhuǎn)錄和翻譯。

作者 | 黃楠

編輯 | 陳彩嫻

9月21日，OpenAI 發(fā)布了一個名為「Whisper 」的神經(jīng)網(wǎng)絡(luò)，聲稱其在英語語音識別方面已接近人類水平的魯棒性和準(zhǔn)確性。

「Whisper 」式一個自動語音識別（ASR）系統(tǒng)，研究團(tuán)隊通過使用從網(wǎng)絡(luò)上收集的68萬個小時多語音和多任務(wù)監(jiān)督數(shù)據(jù)，來對其進(jìn)行訓(xùn)練。

訓(xùn)練過程中研究團(tuán)隊發(fā)現(xiàn)，使用如此龐大且多樣化的數(shù)據(jù)集可以提高對口音、背景噪音和技術(shù)語言的魯棒性。

此前有不同研究表明，雖然無監(jiān)督預(yù)訓(xùn)練可以顯著提高音頻編碼器的質(zhì)量，但由于缺乏同等高質(zhì)量的預(yù)訓(xùn)練解碼器，以及特定于數(shù)據(jù)集中的微調(diào)協(xié)議，因此在一定程度上限制了模型的有效性和魯棒性；而在部分有監(jiān)督的方式預(yù)訓(xùn)練語音識別系統(tǒng)中，其表現(xiàn)會比單一源訓(xùn)練的模型呈現(xiàn)出更高的魯棒性。

對此，在「Whisper 」中，OpenAI 在新數(shù)據(jù)集比現(xiàn)有高質(zhì)量數(shù)據(jù)集總和大幾倍的基礎(chǔ)上，將弱監(jiān)督語音識別的數(shù)量級擴(kuò)展至68萬小時；同時，研究團(tuán)隊還演示了在這種規(guī)模下，所訓(xùn)練模型在轉(zhuǎn)移現(xiàn)有數(shù)據(jù)集的零射擊表現(xiàn)，可消除任何特定于數(shù)據(jù)集微調(diào)的影響，以實現(xiàn)高質(zhì)量結(jié)果。

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」，英文識別能力可接近人類水平

圖注：方法概述

在許多不同的語音處理任務(wù)中訓(xùn)練一個序列到序列的轉(zhuǎn)換器模型，包括多語言語音識別、語音翻譯、口頭語言識別和語音活動檢測；所有任務(wù)都表示為要由解碼器預(yù)測的標(biāo)記序列，允許單一模型取代傳統(tǒng)語音處理管道的不同階段；多任務(wù)訓(xùn)練格式使用一組特殊的標(biāo)記，作為任務(wù)指定者或分類目標(biāo)

Whisper 架構(gòu)采用一種簡單的端到端方法，通過編碼器-解碼器 Transformer 來實現(xiàn)：輸入音頻被分成30秒的塊，轉(zhuǎn)換成 log-Mel 頻譜圖后傳遞到編碼器。解碼器可預(yù)測相應(yīng)的文本標(biāo)題，并與特殊標(biāo)記混合，由這些標(biāo)記指導(dǎo)單個模型執(zhí)行諸如語言識別、短語級時間戳、多語言語音轉(zhuǎn)錄和英語語音翻譯等任務(wù)。