0
本文作者: 奕欣 | 2017-03-09 16:10 |
你知道嗎?人類每聽20個(gè)詞,其實(shí)就有一兩個(gè)成為“漏網(wǎng)之魚”。而在一段五分鐘的對(duì)話中,這一數(shù)字達(dá)到了80。但對(duì)于我們而言,少聽一兩個(gè)詞并不會(huì)影響我們對(duì)語意的理解,然而想象一下,計(jì)算機(jī)如果要完成這件事有多難?
去年,IBM已經(jīng)在語音識(shí)別領(lǐng)域走到了一個(gè)新的里程碑:系統(tǒng)的錯(cuò)誤率降低為6.9%;而雷鋒網(wǎng)了解到,近日IBM Watson的語音識(shí)別系統(tǒng)將這個(gè)數(shù)字降到了5.5%。
清華大學(xué)的鄧志東教授此前在采訪中向雷鋒網(wǎng)表示,只有AI技術(shù)達(dá)到人類水平,它才有商業(yè)化的可能性。技術(shù)越來越接近人類水平也一直是人工智能的終極目標(biāo)。而在語音識(shí)別領(lǐng)域,要在兩人對(duì)話的語境中降低錯(cuò)誤率,自然也是工業(yè)界努力的方向。包括谷歌、百度在內(nèi)的不少公司也一直在追趕著人類語音識(shí)別的錯(cuò)誤率,IBM此前的最佳表現(xiàn)水平是5.9%。不過人類的識(shí)別錯(cuò)誤率一直是難以超越的5.1%,目前還沒有任何公司能夠達(dá)到這一水平。
以國內(nèi)頂尖的百度人工智能研究院在語音識(shí)別的進(jìn)展為例,雷鋒網(wǎng)整理了近年來的一些研究進(jìn)展:
在2014年底,吳恩達(dá)及團(tuán)隊(duì)發(fā)布了第一代深度語音識(shí)別系統(tǒng)Deep Speech,系統(tǒng)采用了端對(duì)端的深度學(xué)習(xí)技術(shù),當(dāng)時(shí)實(shí)現(xiàn)了提高嘈雜環(huán)境下的英語識(shí)別準(zhǔn)確率,實(shí)驗(yàn)顯示比谷歌、微軟及蘋果的語音系統(tǒng)的出錯(cuò)率要低10%。
而在2015年8月,百度研究院新增了漢語的識(shí)別,準(zhǔn)確率高達(dá)94%。這也讓端到端的深度學(xué)習(xí)算法成為語音識(shí)別提升最重要的手段之一。
2015年9月份的百度世界大會(huì)上,吳恩達(dá)也在期間展示了新一代的百度語音識(shí)別技術(shù),驗(yàn)證在較為嘈雜的情況下,機(jī)器識(shí)別已經(jīng)超過人類。
2015年年底,百度研究院又發(fā)布了論文推出Deep Speech2,它能夠通過深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別嘈雜環(huán)境下的不同語言,所應(yīng)用的HPC技術(shù)將識(shí)別速度提升了7倍。根據(jù)研究院的官方消息,HPC技術(shù)目前已在今年2月成功應(yīng)用于深度學(xué)習(xí)中。
IBM 用于測試系統(tǒng)的樣本難度很大,音頻內(nèi)容集中于像“買車”這樣的日常話題。而這個(gè)被稱為“SWITCHBOARD”的語料庫,已經(jīng)沿用了近20年,成為語音識(shí)別的“試金石”。
IBM研究院采用深度學(xué)習(xí)技術(shù)進(jìn)行應(yīng)用領(lǐng)域的拓展,結(jié)合了LSTM及三個(gè)WaveNet 音頻模型:
前兩個(gè)模型采用的是六層的雙向LSTM模型:
第一個(gè)模型有多個(gè)特征輸入;
第二個(gè)模型采用了說話者對(duì)抗的多任務(wù)學(xué)習(xí);
而第三個(gè)模型的特別之處在于,它不僅能夠從積極的模型中學(xué)習(xí),還能借鑒消極模型——這樣一來,當(dāng)相似的語音模式再次出現(xiàn)時(shí),系統(tǒng)的表現(xiàn)會(huì)越來越好。
在合作伙伴Appen的協(xié)作下,IBM重新對(duì)語音識(shí)別系統(tǒng)進(jìn)行重新調(diào)整,前者為IBM提供語音及檢索的技術(shù)服務(wù)支持。盡管IBM已經(jīng)達(dá)成了5.5%的巨大突破,但官方表示,人類水平的5.1%才是它們努力前進(jìn)的終極目標(biāo)。
MILA的Yoshua Bengio認(rèn)可了IBM的這一工作,也表示語音識(shí)別領(lǐng)域的研究工作依然任重道遠(yuǎn):
“盡管像語音識(shí)別或物體識(shí)別這樣的AI任務(wù)過去幾年取得了巨大的進(jìn)展,技術(shù)也已經(jīng)接近人類水平,但它們依然存在著科學(xué)上的挑戰(zhàn)。誠然,標(biāo)準(zhǔn)數(shù)據(jù)并不總是能揭示真實(shí)數(shù)據(jù)的多樣性和復(fù)雜度,比如不同的數(shù)據(jù)集基于不同的任務(wù)上會(huì)呈現(xiàn)不同的敏感性;而只把人類水平作為系統(tǒng)評(píng)估的標(biāo)準(zhǔn),我覺得也有些苛刻,比如在語音識(shí)別領(lǐng)域參與測試的都是經(jīng)過專業(yè)訓(xùn)練的聽寫員。IBM持續(xù)在語音識(shí)別領(lǐng)域取得了極大進(jìn)展,在將聲學(xué)與語言模型應(yīng)用于神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)上取得了非常大的飛躍。”
IBM在實(shí)驗(yàn)過程中也發(fā)現(xiàn),尋找衡量人類識(shí)別水平的標(biāo)準(zhǔn)方法實(shí)際上比想象中要復(fù)雜許多。除了SWITCHBOARD,另一個(gè)名為“CallHome”的語料庫提供了一組可被測試的語言數(shù)據(jù),內(nèi)容是基于家庭成員間未經(jīng)預(yù)先定義的、更為口語化的對(duì)話。比起前者,CallHome的數(shù)據(jù)難度更具挑戰(zhàn)性。IBM的系統(tǒng)用CallHome測試后呈現(xiàn)的錯(cuò)誤率達(dá)到10.3%,而Appen提供的人類測試錯(cuò)誤率在6.8%。
此外,即使是用SWITCHBOARD進(jìn)行測試,在測試集中,有部分講話者的聲音也與訓(xùn)練數(shù)據(jù)是一致的,而CallHome則沒有這樣的重疊數(shù)據(jù),這也一定程度造成了錯(cuò)誤率的差異。因?yàn)檫@兩個(gè)實(shí)驗(yàn)的前提條件不同,IBM認(rèn)為兩者并不能相提并論。
IBM認(rèn)為它們?cè)谏疃葘W(xué)習(xí)上取得的進(jìn)步,能夠最終克服目前存在的困難。哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)教授兼主席Julia Hirschberg也對(duì)目前的語音識(shí)別技術(shù)挑戰(zhàn)發(fā)表了評(píng)論:
“要實(shí)現(xiàn)達(dá)到人類水平的語音識(shí)別是一個(gè)持續(xù)的挑戰(zhàn),(要識(shí)別)人類自發(fā)的對(duì)話尤其困難。人類的表現(xiàn)難以定義,而人類在聽懂他人語言的水平也參差不齊。如果我們要將機(jī)器識(shí)別與人類識(shí)別水平進(jìn)行對(duì)比,我認(rèn)為需要滿足以下兩個(gè)條件:測試者的識(shí)別水平,以及在同一演講中不同人類的表現(xiàn)差異。IBM最近在SWITCHBOARD和CallHome上的表現(xiàn)都非常驚艷,但我也對(duì)IBM在理解人類水平方面有了新的認(rèn)知。這項(xiàng)科研成果與IBM目前的ASR進(jìn)展同樣令人欣喜,不過我們也深知在語音識(shí)別的研究上需要更加努力?!?/p>
IBM表示,它們的這一最新進(jìn)展能夠與此前的語音識(shí)別技術(shù)相結(jié)合,比如去年12月推出的Watson語音轉(zhuǎn)文字技術(shù)。IBM將繼續(xù)研究出能夠適配聲音、聽覺和大腦交互三者的技術(shù),基于研究進(jìn)展發(fā)表可靠而準(zhǔn)確的技術(shù)成果。
via IBM,雷鋒網(wǎng)整理
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。