IBM語音識(shí)別能力逼近人類水平，獲深度學(xué)習(xí)巨頭Yoshua Bengio盛贊

本文作者：奕欣

2017-03-09 16:10

導(dǎo)語：MILA的Yoshua Bengio認(rèn)可了IBM的這一工作，也表示語音識(shí)別領(lǐng)域的研究工作依然任重道遠(yuǎn)。

你知道嗎？人類每聽20個(gè)詞，其實(shí)就有一兩個(gè)成為“漏網(wǎng)之魚”。而在一段五分鐘的對(duì)話中，這一數(shù)字達(dá)到了80。但對(duì)于我們而言，少聽一兩個(gè)詞并不會(huì)影響我們對(duì)語意的理解，然而想象一下，計(jì)算機(jī)如果要完成這件事有多難？

去年，IBM已經(jīng)在語音識(shí)別領(lǐng)域走到了一個(gè)新的里程碑：系統(tǒng)的錯(cuò)誤率降低為6.9%；而雷鋒網(wǎng)了解到，近日IBM Watson的語音識(shí)別系統(tǒng)將這個(gè)數(shù)字降到了5.5%。

清華大學(xué)的鄧志東教授此前在采訪中向雷鋒網(wǎng)表示，只有AI技術(shù)達(dá)到人類水平，它才有商業(yè)化的可能性。技術(shù)越來越接近人類水平也一直是人工智能的終極目標(biāo)。而在語音識(shí)別領(lǐng)域，要在兩人對(duì)話的語境中降低錯(cuò)誤率，自然也是工業(yè)界努力的方向。包括谷歌、百度在內(nèi)的不少公司也一直在追趕著人類語音識(shí)別的錯(cuò)誤率，IBM此前的最佳表現(xiàn)水平是5.9%。不過人類的識(shí)別錯(cuò)誤率一直是難以超越的5.1%，目前還沒有任何公司能夠達(dá)到這一水平。

以國(guó)內(nèi)頂尖的百度人工智能研究院在語音識(shí)別的進(jìn)展為例，雷鋒網(wǎng)整理了近年來的一些研究進(jìn)展：

在2014年底，吳恩達(dá)及團(tuán)隊(duì)發(fā)布了第一代深度語音識(shí)別系統(tǒng)Deep Speech，系統(tǒng)采用了端對(duì)端的深度學(xué)習(xí)技術(shù)，當(dāng)時(shí)實(shí)現(xiàn)了提高嘈雜環(huán)境下的英語識(shí)別準(zhǔn)確率，實(shí)驗(yàn)顯示比谷歌、微軟及蘋果的語音系統(tǒng)的出錯(cuò)率要低10%。
而在2015年8月，百度研究院新增了漢語的識(shí)別，準(zhǔn)確率高達(dá)94%。這也讓端到端的深度學(xué)習(xí)算法成為語音識(shí)別提升最重要的手段之一。
2015年9月份的百度世界大會(huì)上，吳恩達(dá)也在期間展示了新一代的百度語音識(shí)別技術(shù)，驗(yàn)證在較為嘈雜的情況下，機(jī)器識(shí)別已經(jīng)超過人類。
2015年年底，百度研究院又發(fā)布了論文推出Deep Speech2，它能夠通過深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別嘈雜環(huán)境下的不同語言，所應(yīng)用的HPC技術(shù)將識(shí)別速度提升了7倍。根據(jù)研究院的官方消息，HPC技術(shù)目前已在今年2月成功應(yīng)用于深度學(xué)習(xí)中。

IBM 用于測(cè)試系統(tǒng)的樣本難度很大，音頻內(nèi)容集中于像“買車”這樣的日常話題。而這個(gè)被稱為“SWITCHBOARD”的語料庫，已經(jīng)沿用了近20年，成為語音識(shí)別的“試金石”。

IBM研究院采用深度學(xué)習(xí)技術(shù)進(jìn)行應(yīng)用領(lǐng)域的拓展，結(jié)合了LSTM及三個(gè)WaveNet 音頻模型：

前兩個(gè)模型采用的是六層的雙向LSTM模型：
第一個(gè)模型有多個(gè)特征輸入；
第二個(gè)模型采用了說話者對(duì)抗的多任務(wù)學(xué)習(xí)；
而第三個(gè)模型的特別之處在于，它不僅能夠從積極的模型中學(xué)習(xí)，還能借鑒消極模型——這樣一來，當(dāng)相似的語音模式再次出現(xiàn)時(shí)，系統(tǒng)的表現(xiàn)會(huì)越來越好。

在合作伙伴Appen的協(xié)作下，IBM重新對(duì)語音識(shí)別系統(tǒng)進(jìn)行重新調(diào)整，前者為IBM提供語音及檢索的技術(shù)服務(wù)支持。盡管IBM已經(jīng)達(dá)成了5.5%的巨大突破，但官方表示，人類水平的5.1%才是它們努力前進(jìn)的終極目標(biāo)。

MILA的Yoshua Bengio認(rèn)可了IBM的這一工作，也表示語音識(shí)別領(lǐng)域的研究工作依然任重道遠(yuǎn)：

“盡管像語音識(shí)別或物體識(shí)別這樣的AI任務(wù)過去幾年取得了巨大的進(jìn)展，技術(shù)也已經(jīng)接近人類水平，但它們依然存在著科學(xué)上的挑戰(zhàn)。誠然，標(biāo)準(zhǔn)數(shù)據(jù)并不總是能揭示真實(shí)數(shù)據(jù)的多樣性和復(fù)雜度，比如不同的數(shù)據(jù)集基于不同的任務(wù)上會(huì)呈現(xiàn)不同的敏感性；而只把人類水平作為系統(tǒng)評(píng)估的標(biāo)準(zhǔn)，我覺得也有些苛刻，比如在語音識(shí)別領(lǐng)域參與測(cè)試的都是經(jīng)過專業(yè)訓(xùn)練的聽寫員。IBM持續(xù)在語音識(shí)別領(lǐng)域取得了極大進(jìn)展，在將聲學(xué)與語言模型應(yīng)用于神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)上取得了非常大的飛躍?！?/p>

IBM在實(shí)驗(yàn)過程中也發(fā)現(xiàn)，尋找衡量人類識(shí)別水平的標(biāo)準(zhǔn)方法實(shí)際上比想象中要復(fù)雜許多。除了SWITCHBOARD，另一個(gè)名為“CallHome”的語料庫提供了一組可被測(cè)試的語言數(shù)據(jù)，內(nèi)容是基于家庭成員間未經(jīng)預(yù)先定義的、更為口語化的對(duì)話。比起前者，CallHome的數(shù)據(jù)難度更具挑戰(zhàn)性。IBM的系統(tǒng)用CallHome測(cè)試后呈現(xiàn)的錯(cuò)誤率達(dá)到10.3%，而Appen提供的人類測(cè)試錯(cuò)誤率在6.8%。

此外，即使是用SWITCHBOARD進(jìn)行測(cè)試，在測(cè)試集中，有部分講話者的聲音也與訓(xùn)練數(shù)據(jù)是一致的，而CallHome則沒有這樣的重疊數(shù)據(jù)，這也一定程度造成了錯(cuò)誤率的差異。因?yàn)檫@兩個(gè)實(shí)驗(yàn)的前提條件不同，IBM認(rèn)為兩者并不能相提并論。

IBM認(rèn)為它們?cè)谏疃葘W(xué)習(xí)上取得的進(jìn)步，能夠最終克服目前存在的困難。哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)教授兼主席Julia Hirschberg也對(duì)目前的語音識(shí)別技術(shù)挑戰(zhàn)發(fā)表了評(píng)論：

“要實(shí)現(xiàn)達(dá)到人類水平的語音識(shí)別是一個(gè)持續(xù)的挑戰(zhàn)，（要識(shí)別）人類自發(fā)的對(duì)話尤其困難。人類的表現(xiàn)難以定義，而人類在聽懂他人語言的水平也參差不齊。如果我們要將機(jī)器識(shí)別與人類識(shí)別水平進(jìn)行對(duì)比，我認(rèn)為需要滿足以下兩個(gè)條件：測(cè)試者的識(shí)別水平，以及在同一演講中不同人類的表現(xiàn)差異。IBM最近在SWITCHBOARD和CallHome上的表現(xiàn)都非常驚艷，但我也對(duì)IBM在理解人類水平方面有了新的認(rèn)知。這項(xiàng)科研成果與IBM目前的ASR進(jìn)展同樣令人欣喜，不過我們也深知在語音識(shí)別的研究上需要更加努力?！?/p>

IBM表示，它們的這一最新進(jìn)展能夠與此前的語音識(shí)別技術(shù)相結(jié)合，比如去年12月推出的Watson語音轉(zhuǎn)文字技術(shù)。IBM將繼續(xù)研究出能夠適配聲音、聽覺和大腦交互三者的技術(shù)，基于研究進(jìn)展發(fā)表可靠而準(zhǔn)確的技術(shù)成果。

via IBM，雷鋒網(wǎng)整理

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

奕欣

初心者

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

IBM語音識(shí)別能力逼近人類水平，獲深度學(xué)習(xí)巨頭Yoshua Bengio盛贊

IBM語音識(shí)別能力逼近人類水平，獲深度學(xué)習(xí)巨頭Yoshua Bengio盛贊