0
本文作者: 奕欣 | 2017-03-09 16:10 |
你知道嗎?人類每聽20個詞,其實就有一兩個成為“漏網(wǎng)之魚”。而在一段五分鐘的對話中,這一數(shù)字達到了80。但對于我們而言,少聽一兩個詞并不會影響我們對語意的理解,然而想象一下,計算機如果要完成這件事有多難?
去年,IBM已經(jīng)在語音識別領(lǐng)域走到了一個新的里程碑:系統(tǒng)的錯誤率降低為6.9%;而雷鋒網(wǎng)了解到,近日IBM Watson的語音識別系統(tǒng)將這個數(shù)字降到了5.5%。
清華大學(xué)的鄧志東教授此前在采訪中向雷鋒網(wǎng)表示,只有AI技術(shù)達到人類水平,它才有商業(yè)化的可能性。技術(shù)越來越接近人類水平也一直是人工智能的終極目標(biāo)。而在語音識別領(lǐng)域,要在兩人對話的語境中降低錯誤率,自然也是工業(yè)界努力的方向。包括谷歌、百度在內(nèi)的不少公司也一直在追趕著人類語音識別的錯誤率,IBM此前的最佳表現(xiàn)水平是5.9%。不過人類的識別錯誤率一直是難以超越的5.1%,目前還沒有任何公司能夠達到這一水平。
以國內(nèi)頂尖的百度人工智能研究院在語音識別的進展為例,雷鋒網(wǎng)整理了近年來的一些研究進展:
在2014年底,吳恩達及團隊發(fā)布了第一代深度語音識別系統(tǒng)Deep Speech,系統(tǒng)采用了端對端的深度學(xué)習(xí)技術(shù),當(dāng)時實現(xiàn)了提高嘈雜環(huán)境下的英語識別準確率,實驗顯示比谷歌、微軟及蘋果的語音系統(tǒng)的出錯率要低10%。
而在2015年8月,百度研究院新增了漢語的識別,準確率高達94%。這也讓端到端的深度學(xué)習(xí)算法成為語音識別提升最重要的手段之一。
2015年9月份的百度世界大會上,吳恩達也在期間展示了新一代的百度語音識別技術(shù),驗證在較為嘈雜的情況下,機器識別已經(jīng)超過人類。
2015年年底,百度研究院又發(fā)布了論文推出Deep Speech2,它能夠通過深度學(xué)習(xí)網(wǎng)絡(luò)識別嘈雜環(huán)境下的不同語言,所應(yīng)用的HPC技術(shù)將識別速度提升了7倍。根據(jù)研究院的官方消息,HPC技術(shù)目前已在今年2月成功應(yīng)用于深度學(xué)習(xí)中。
IBM 用于測試系統(tǒng)的樣本難度很大,音頻內(nèi)容集中于像“買車”這樣的日常話題。而這個被稱為“SWITCHBOARD”的語料庫,已經(jīng)沿用了近20年,成為語音識別的“試金石”。
IBM研究院采用深度學(xué)習(xí)技術(shù)進行應(yīng)用領(lǐng)域的拓展,結(jié)合了LSTM及三個WaveNet 音頻模型:
前兩個模型采用的是六層的雙向LSTM模型:
第一個模型有多個特征輸入;
第二個模型采用了說話者對抗的多任務(wù)學(xué)習(xí);
而第三個模型的特別之處在于,它不僅能夠從積極的模型中學(xué)習(xí),還能借鑒消極模型——這樣一來,當(dāng)相似的語音模式再次出現(xiàn)時,系統(tǒng)的表現(xiàn)會越來越好。
在合作伙伴Appen的協(xié)作下,IBM重新對語音識別系統(tǒng)進行重新調(diào)整,前者為IBM提供語音及檢索的技術(shù)服務(wù)支持。盡管IBM已經(jīng)達成了5.5%的巨大突破,但官方表示,人類水平的5.1%才是它們努力前進的終極目標(biāo)。
MILA的Yoshua Bengio認可了IBM的這一工作,也表示語音識別領(lǐng)域的研究工作依然任重道遠:
“盡管像語音識別或物體識別這樣的AI任務(wù)過去幾年取得了巨大的進展,技術(shù)也已經(jīng)接近人類水平,但它們依然存在著科學(xué)上的挑戰(zhàn)。誠然,標(biāo)準數(shù)據(jù)并不總是能揭示真實數(shù)據(jù)的多樣性和復(fù)雜度,比如不同的數(shù)據(jù)集基于不同的任務(wù)上會呈現(xiàn)不同的敏感性;而只把人類水平作為系統(tǒng)評估的標(biāo)準,我覺得也有些苛刻,比如在語音識別領(lǐng)域參與測試的都是經(jīng)過專業(yè)訓(xùn)練的聽寫員。IBM持續(xù)在語音識別領(lǐng)域取得了極大進展,在將聲學(xué)與語言模型應(yīng)用于神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)上取得了非常大的飛躍?!?/p>
IBM在實驗過程中也發(fā)現(xiàn),尋找衡量人類識別水平的標(biāo)準方法實際上比想象中要復(fù)雜許多。除了SWITCHBOARD,另一個名為“CallHome”的語料庫提供了一組可被測試的語言數(shù)據(jù),內(nèi)容是基于家庭成員間未經(jīng)預(yù)先定義的、更為口語化的對話。比起前者,CallHome的數(shù)據(jù)難度更具挑戰(zhàn)性。IBM的系統(tǒng)用CallHome測試后呈現(xiàn)的錯誤率達到10.3%,而Appen提供的人類測試錯誤率在6.8%。
此外,即使是用SWITCHBOARD進行測試,在測試集中,有部分講話者的聲音也與訓(xùn)練數(shù)據(jù)是一致的,而CallHome則沒有這樣的重疊數(shù)據(jù),這也一定程度造成了錯誤率的差異。因為這兩個實驗的前提條件不同,IBM認為兩者并不能相提并論。
IBM認為它們在深度學(xué)習(xí)上取得的進步,能夠最終克服目前存在的困難。哥倫比亞大學(xué)計算機科學(xué)教授兼主席Julia Hirschberg也對目前的語音識別技術(shù)挑戰(zhàn)發(fā)表了評論:
“要實現(xiàn)達到人類水平的語音識別是一個持續(xù)的挑戰(zhàn),(要識別)人類自發(fā)的對話尤其困難。人類的表現(xiàn)難以定義,而人類在聽懂他人語言的水平也參差不齊。如果我們要將機器識別與人類識別水平進行對比,我認為需要滿足以下兩個條件:測試者的識別水平,以及在同一演講中不同人類的表現(xiàn)差異。IBM最近在SWITCHBOARD和CallHome上的表現(xiàn)都非常驚艷,但我也對IBM在理解人類水平方面有了新的認知。這項科研成果與IBM目前的ASR進展同樣令人欣喜,不過我們也深知在語音識別的研究上需要更加努力?!?/p>
IBM表示,它們的這一最新進展能夠與此前的語音識別技術(shù)相結(jié)合,比如去年12月推出的Watson語音轉(zhuǎn)文字技術(shù)。IBM將繼續(xù)研究出能夠適配聲音、聽覺和大腦交互三者的技術(shù),基于研究進展發(fā)表可靠而準確的技術(shù)成果。
via IBM,雷鋒網(wǎng)整理
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。