丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平

本文作者: 我在思考中 2022-09-23 15:08
導(dǎo)語:68萬小時數(shù)據(jù)庫,可支持多種語言的轉(zhuǎn)錄和翻譯。

作者 | 黃楠

編輯 | 陳彩嫻

9月21日,OpenAI 發(fā)布了一個名為「Whisper 」的神經(jīng)網(wǎng)絡(luò),聲稱其在英語語音識別方面已接近人類水平的魯棒性和準(zhǔn)確性。

「Whisper 」式一個自動語音識別(ASR)系統(tǒng),研究團隊通過使用從網(wǎng)絡(luò)上收集的68萬個小時多語音和多任務(wù)監(jiān)督數(shù)據(jù),來對其進行訓(xùn)練。

訓(xùn)練過程中研究團隊發(fā)現(xiàn),使用如此龐大且多樣化的數(shù)據(jù)集可以提高對口音、背景噪音和技術(shù)語言的魯棒性。

此前有不同研究表明,雖然無監(jiān)督預(yù)訓(xùn)練可以顯著提高音頻編碼器的質(zhì)量,但由于缺乏同等高質(zhì)量的預(yù)訓(xùn)練解碼器,以及特定于數(shù)據(jù)集中的微調(diào)協(xié)議,因此在一定程度上限制了模型的有效性和魯棒性;而在部分有監(jiān)督的方式預(yù)訓(xùn)練語音識別系統(tǒng)中,其表現(xiàn)會比單一源訓(xùn)練的模型呈現(xiàn)出更高的魯棒性。

對此,在「Whisper 」中,OpenAI 在新數(shù)據(jù)集比現(xiàn)有高質(zhì)量數(shù)據(jù)集總和大幾倍的基礎(chǔ)上,將弱監(jiān)督語音識別的數(shù)量級擴展至68萬小時;同時,研究團隊還演示了在這種規(guī)模下,所訓(xùn)練模型在轉(zhuǎn)移現(xiàn)有數(shù)據(jù)集的零射擊表現(xiàn),可消除任何特定于數(shù)據(jù)集微調(diào)的影響,以實現(xiàn)高質(zhì)量結(jié)果。

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平
圖注:方法概述

在許多不同的語音處理任務(wù)中訓(xùn)練一個序列到序列的轉(zhuǎn)換器模型,包括多語言語音識別、語音翻譯、口頭語言識別和語音活動檢測;所有任務(wù)都表示為要由解碼器預(yù)測的標(biāo)記序列,允許單一模型取代傳統(tǒng)語音處理管道的不同階段;多任務(wù)訓(xùn)練格式使用一組特殊的標(biāo)記,作為任務(wù)指定者或分類目標(biāo)

Whisper 架構(gòu)采用一種簡單的端到端方法,通過編碼器-解碼器 Transformer 來實現(xiàn):輸入音頻被分成30秒的塊,轉(zhuǎn)換成 log-Mel 頻譜圖后傳遞到編碼器。解碼器可預(yù)測相應(yīng)的文本標(biāo)題,并與特殊標(biāo)記混合,由這些標(biāo)記指導(dǎo)單個模型執(zhí)行諸如語言識別、短語級時間戳、多語言語音轉(zhuǎn)錄和英語語音翻譯等任務(wù)。

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平

圖注:Whisper 架構(gòu)

值得一提的是,由于「Whisper 」是在一個龐大且多樣的數(shù)據(jù)集上進行,沒有針對任何特定的數(shù)據(jù)集進行微調(diào),因此它不會擊敗專門研究 LibriSpeech 性能的模型。

此外研究團隊還發(fā)現(xiàn),當(dāng)在許多不同的數(shù)據(jù)集上測量「Whisper 」的零樣本性能時,「Whisper 」相比其他模型表現(xiàn)更加穩(wěn)健,錯誤率降低了 50%。

除了足夠大的數(shù)據(jù)集規(guī)模外,「Whisper 」還支持多種語言的轉(zhuǎn)錄,以及將這些語言翻譯成英語。

當(dāng)前在68萬小時音頻中,共11.7萬個小時覆蓋了96中其他語言,還包括12.5萬個小時的轉(zhuǎn)錄和翻譯數(shù)據(jù),即大約有三分之一是非英語的。

「Whisper 」會交替執(zhí)行以原始語言轉(zhuǎn)錄或翻譯成英語的任務(wù),對此研究團隊發(fā)現(xiàn),這種方法在學(xué)習(xí)語音到文本的翻譯方面特別有效,并且優(yōu)于 CoVoST2 到英語翻譯零樣本的監(jiān)督 SOTA。

目前,「Whisper 」已開源,可用于對語音識別方面的進一步研究。

OpenAI 創(chuàng)始人 Ilya Sutskever 對此表示,“終于有一個能理解我說話的可靠的語音識別系統(tǒng)。”

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平

前特斯拉人工智能和自動駕駛部門負(fù)責(zé)人 Andrej Karpathy 也轉(zhuǎn)發(fā)了這一消息稱“OpenAI 正處于最好的狀態(tài)中”。

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平

但對使用 Whisper 上,有不少用戶也還存在疑慮。

網(wǎng)友 Vincent Lordier 提出,“此前在 GTP-3 和 Dalle-2 中出現(xiàn)對相關(guān)言論禁止行為,是否在使用 Whisper 時也會有, 是否會出現(xiàn) Whisper 編輯/刪除用戶語音的情況?”

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平

那么大家怎么看?

參考鏈接:https://openai.com/blog/whisper/

更多內(nèi)容,點擊下方關(guān)注:
掃碼添加 AI 科技評論 微信號,投稿&進群:

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

OpenAI 發(fā)布新語音系統(tǒng)「Whisper 」,英文識別能力可接近人類水平

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說