1
本文作者: 程弢 | 2016-08-05 21:01 |
2011年年底搜狗組建了一支語(yǔ)音識(shí)別團(tuán)隊(duì);
2012年6月上線了首款語(yǔ)音搜索引擎;
8月3日,搜狗推出語(yǔ)音搜索引擎——“知音”,并融合了吞音優(yōu)化、語(yǔ)音糾錯(cuò)以及多輪交互三個(gè)全新的功能。
第三方的實(shí)測(cè)數(shù)據(jù)顯示,搜狗語(yǔ)音和科大訊飛的性能保持在同一水準(zhǔn),而這樣的成績(jī)顯然超出了搜狗語(yǔ)音團(tuán)隊(duì)創(chuàng)立之初的預(yù)期。
2012年前后,語(yǔ)音識(shí)別的概念還未得到普及,也沒(méi)有太多互聯(lián)網(wǎng)公司涌入進(jìn)來(lái),而科大訊飛在當(dāng)時(shí)已經(jīng)初露鋒芒。
搜狗以輸入法和搜索發(fā)家,在輸入法產(chǎn)品完成了多次迭代并逐步走向成熟之后,搜狗CEO王小川試圖切入語(yǔ)音識(shí)別市場(chǎng),不過(guò)公司最初沒(méi)有打算獨(dú)自研發(fā)。
剛好科大訊飛的高層找到了我們,希望強(qiáng)強(qiáng)聯(lián)合推出一款更好的語(yǔ)音產(chǎn)品。
搜狗語(yǔ)音交互技術(shù)中心負(fù)責(zé)人王硯峰說(shuō)。
搜狗語(yǔ)音交互技術(shù)中心負(fù)責(zé)人
搜狗有輸入法和搜索引擎,科大訊飛有語(yǔ)音技術(shù)儲(chǔ)備,二者合作的確是個(gè)雙贏的局面。但這次談判并不順利,雖然科大訊飛方面答應(yīng)在語(yǔ)音助手產(chǎn)品上展開(kāi)合作,即由搜狗提供后臺(tái)的服務(wù),科大訊飛負(fù)責(zé)前端的產(chǎn)品。不過(guò),雙方利益沒(méi)有達(dá)成平衡,合作談崩。
王硯峰表示,“科大訊飛希望通輸入法切入互聯(lián)網(wǎng)站穩(wěn)腳跟,而我們也準(zhǔn)備進(jìn)軍移動(dòng)互聯(lián)網(wǎng),不可能會(huì)把輸入法的優(yōu)勢(shì)讓給別人?!?/p>
合作的告吹給搜狗留下了第二條路——研發(fā)一款搜狗專屬的語(yǔ)音識(shí)別產(chǎn)品。公司內(nèi)部很快就達(dá)成了一致——“時(shí)間不等人,這件事就快速自己做起來(lái)吧!”
拿定主意后,搜狗便開(kāi)始招兵買(mǎi)馬擴(kuò)張團(tuán)隊(duì)。但語(yǔ)音技術(shù)的積累不是短期內(nèi)可以完成的,所以搜狗第一步還是選擇倚靠有技術(shù)功底的隊(duì)友,即谷歌。2012年上半年,搜狗借助谷歌的引擎,由谷歌負(fù)責(zé)收集數(shù)據(jù),產(chǎn)品的研發(fā)進(jìn)度非常迅速。
“1月份開(kāi)始做這件事,到6月份就做出了一版準(zhǔn)確率還行的引擎,在第三方的實(shí)測(cè)數(shù)據(jù)上顯示,這一版引擎在地圖上的準(zhǔn)確率已經(jīng)超越了百度?!?/p>
地圖引擎后來(lái)居上,準(zhǔn)確率超越了百度,這對(duì)僅在語(yǔ)音識(shí)別涉足半年的搜狗來(lái)說(shuō)是一份趨近完美的答卷。
盡管如此,這版產(chǎn)品依然存在一些問(wèn)題,體驗(yàn)還有很大的提升,與科大訊飛還有一定的差距,所以搜狗沒(méi)有讓其在輸入法上測(cè)試。根據(jù)王硯峰的說(shuō)法,地圖應(yīng)用場(chǎng)景相對(duì)收斂,對(duì)語(yǔ)音的要求比輸入法要低得多。
半年之后(2012年11月),隨著搜狗輸入法數(shù)據(jù)的積累,公司放棄了谷歌的引擎,在輸入法上用上了自家的引擎,并將語(yǔ)音識(shí)別延伸到了輸入法上。
隨著Siri的走紅,語(yǔ)音識(shí)別產(chǎn)品也逐漸俘獲了大量的C端用戶。2013年一年,搜狗輸入法的數(shù)據(jù)量積累到了1.5萬(wàn)個(gè)小時(shí),依靠這些數(shù)據(jù)、深度學(xué)習(xí)以及日漸成熟的團(tuán)隊(duì),搜狗的語(yǔ)音識(shí)別性能已經(jīng)基本保持和科大訊飛持平,微信和百度,而第二梯隊(duì)則是云知聲和思必馳等公司。
擁有輸入入口,對(duì)一家做語(yǔ)音識(shí)別的企業(yè)來(lái)說(shuō)是得天獨(dú)厚的優(yōu)勢(shì)。
在數(shù)據(jù)量上,搜狗、百度都對(duì)其它公司都與明顯的優(yōu)勢(shì)。不過(guò)相比科大訊飛和百度等品牌,業(yè)界鮮見(jiàn)搜狗語(yǔ)音對(duì)外發(fā)聲,直到“知音”的發(fā)布。
“知音”對(duì)搜狗語(yǔ)音的重要性不言而喻,說(shuō)其為后者的代名詞也毫不為過(guò),正如度秘至于百度、GoogleNow之于谷歌、Siri之于蘋(píng)果...
從搜狗官方的介紹來(lái)看,“知音”擁有吞音優(yōu)化、語(yǔ)音糾錯(cuò)以及多輪交互三個(gè)功能。雖然還算不上創(chuàng)新,但從技術(shù)角度而言,這三個(gè)功能都含金量十足。
吞音問(wèn)題來(lái)源于用戶,如果說(shuō)話時(shí)語(yǔ)速過(guò)快會(huì)有吞音問(wèn)題,而機(jī)器自然也不會(huì)適應(yīng)這樣的發(fā)音。
如果需要準(zhǔn)確地識(shí)別快語(yǔ)速的語(yǔ)音,那就需要技術(shù)和豐富的語(yǔ)料支持。王硯峰表示在語(yǔ)言模型訓(xùn)練時(shí)選擇大量吞音的語(yǔ)料,另外在建模上做一些吞音的優(yōu)化,這是解決吞音的基礎(chǔ)。
用“知音”舉個(gè)例子:
知音發(fā)音部分的建模使用的是LSTM+CTC的模型,對(duì)發(fā)音本身以及發(fā)音間的差異性做了細(xì)致的描述;
另外知音還使用了基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型對(duì)識(shí)別結(jié)果進(jìn)行了修正,依賴更長(zhǎng)的歷史信息將吞音對(duì)識(shí)別結(jié)果的影響盡量降低;
除此之外,知音在數(shù)據(jù)層面也做了篩選以及生成的工作,通過(guò)調(diào)整數(shù)據(jù)分布優(yōu)化吞音識(shí)別的效果。
通俗點(diǎn)講,語(yǔ)音修改是為語(yǔ)音識(shí)別錯(cuò)誤填坑而存在的,它可以幫助用戶使用自然語(yǔ)音的方式來(lái)修改錯(cuò)誤的識(shí)別,而不需要手動(dòng)操作。
修改過(guò)程包含了語(yǔ)音識(shí)別(識(shí)別用戶糾錯(cuò)的命令)、語(yǔ)義分析(分析用戶修改的意圖)、文本修正(執(zhí)行相應(yīng)的修改命令)三個(gè)步驟,整個(gè)系統(tǒng)性能的優(yōu)化是一個(gè)聯(lián)合優(yōu)化的過(guò)程,語(yǔ)音識(shí)別盡管面向的是垂直類別,但是語(yǔ)言模型嚴(yán)重依賴于語(yǔ)義分析模塊的知識(shí)。
在語(yǔ)義分析的基礎(chǔ)上,還需要輸入法和搜索的知識(shí),例如輸入法拆字庫(kù)如立早章、海量詞庫(kù)如硯臺(tái)的硯,搜索知識(shí)圖譜如清華的邱勇等。
多輪對(duì)話一直都是語(yǔ)音識(shí)別難點(diǎn),雖然有不少語(yǔ)音產(chǎn)品宣稱自己具備多輪交互的能力,但實(shí)際表現(xiàn)如何又是另一回事了。
如果只表達(dá)一個(gè)命令,只會(huì)涉及到機(jī)器學(xué)習(xí)當(dāng)中的分類問(wèn)題,但多輪交互的問(wèn)題就復(fù)雜了。他需要結(jié)合上下文,而用戶行為往往是不可預(yù)測(cè)的,會(huì)產(chǎn)生出很多新的行為范式,反映出來(lái)的就是狀態(tài)機(jī)會(huì)增加更多的狀態(tài)以及狀態(tài)之間的邊,那么如何根據(jù)用戶產(chǎn)生出來(lái)的數(shù)據(jù),動(dòng)態(tài)的不停的構(gòu)建或者調(diào)整狀態(tài)機(jī),這是多輪交互里面最大的難點(diǎn)。
要實(shí)現(xiàn)多輪交互就需要強(qiáng)大的知識(shí)圖譜以及技術(shù)架構(gòu)。
“如果沒(méi)有好的知識(shí)圖譜和技術(shù)架構(gòu),你的語(yǔ)音產(chǎn)品只會(huì)是一個(gè)玩具?!蓖醭幏迦绱诵稳?。
從各家語(yǔ)音識(shí)別產(chǎn)品的迭代情況來(lái)看,體驗(yàn)的較量已經(jīng)上升到了一個(gè)新的level,但可以確定的是未來(lái)產(chǎn)品的差異不會(huì)體現(xiàn)在技術(shù)上,而是數(shù)據(jù)的積累,至于搜狗會(huì)把“知音”帶到一個(gè)什么樣的高度,我們拭目以待。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。