搜狗版“Siri”是如何煉成的？

本文作者：程弢

2016-08-05 21:01

導(dǎo)語：8月3日，搜狗推出語音搜索引擎——“知音”，融合了吞音優(yōu)化、語音糾錯以及多輪交互三個全新的功能。

搜狗版“Siri”是如何煉成的？

2011年年底搜狗組建了一支語音識別團(tuán)隊；
2012年6月上線了首款語音搜索引擎；
8月3日，搜狗推出語音搜索引擎——“知音”，并融合了吞音優(yōu)化、語音糾錯以及多輪交互三個全新的功能。

第三方的實測數(shù)據(jù)顯示，搜狗語音和科大訊飛的性能保持在同一水準(zhǔn)，而這樣的成績顯然超出了搜狗語音團(tuán)隊創(chuàng)立之初的預(yù)期。

風(fēng)口下的搜狗語音

2012年前后，語音識別的概念還未得到普及，也沒有太多互聯(lián)網(wǎng)公司涌入進(jìn)來，而科大訊飛在當(dāng)時已經(jīng)初露鋒芒。

搜狗以輸入法和搜索發(fā)家，在輸入法產(chǎn)品完成了多次迭代并逐步走向成熟之后，搜狗CEO王小川試圖切入語音識別市場，不過公司最初沒有打算獨自研發(fā)。

剛好科大訊飛的高層找到了我們，希望強(qiáng)強(qiáng)聯(lián)合推出一款更好的語音產(chǎn)品。

搜狗語音交互技術(shù)中心負(fù)責(zé)人王硯峰說。

搜狗版“Siri”是如何煉成的？

搜狗語音交互技術(shù)中心負(fù)責(zé)人

搜狗有輸入法和搜索引擎，科大訊飛有語音技術(shù)儲備，二者合作的確是個雙贏的局面。但這次談判并不順利，雖然科大訊飛方面答應(yīng)在語音助手產(chǎn)品上展開合作，即由搜狗提供后臺的服務(wù)，科大訊飛負(fù)責(zé)前端的產(chǎn)品。不過，雙方利益沒有達(dá)成平衡，合作談崩。

王硯峰表示，“科大訊飛希望通輸入法切入互聯(lián)網(wǎng)站穩(wěn)腳跟，而我們也準(zhǔn)備進(jìn)軍移動互聯(lián)網(wǎng)，不可能會把輸入法的優(yōu)勢讓給別人?！?/p>

合作的告吹給搜狗留下了第二條路——研發(fā)一款搜狗專屬的語音識別產(chǎn)品。公司內(nèi)部很快就達(dá)成了一致——“時間不等人，這件事就快速自己做起來吧！”

拿定主意后，搜狗便開始招兵買馬擴(kuò)張團(tuán)隊。但語音技術(shù)的積累不是短期內(nèi)可以完成的，所以搜狗第一步還是選擇倚靠有技術(shù)功底的隊友，即谷歌。2012年上半年，搜狗借助谷歌的引擎，由谷歌負(fù)責(zé)收集數(shù)據(jù)，產(chǎn)品的研發(fā)進(jìn)度非常迅速。

“1月份開始做這件事，到6月份就做出了一版準(zhǔn)確率還行的引擎，在第三方的實測數(shù)據(jù)上顯示，這一版引擎在地圖上的準(zhǔn)確率已經(jīng)超越了百度。”

地圖引擎后來居上，準(zhǔn)確率超越了百度，這對僅在語音識別涉足半年的搜狗來說是一份趨近完美的答卷。

盡管如此，這版產(chǎn)品依然存在一些問題，體驗還有很大的提升，與科大訊飛還有一定的差距，所以搜狗沒有讓其在輸入法上測試。根據(jù)王硯峰的說法，地圖應(yīng)用場景相對收斂，對語音的要求比輸入法要低得多。

半年之后（2012年11月），隨著搜狗輸入法數(shù)據(jù)的積累，公司放棄了谷歌的引擎，在輸入法上用上了自家的引擎，并將語音識別延伸到了輸入法上。

隨著Siri的走紅，語音識別產(chǎn)品也逐漸俘獲了大量的C端用戶。2013年一年，搜狗輸入法的數(shù)據(jù)量積累到了1.5萬個小時，依靠這些數(shù)據(jù)、深度學(xué)習(xí)以及日漸成熟的團(tuán)隊，搜狗的語音識別性能已經(jīng)基本保持和科大訊飛持平，微信和百度，而第二梯隊則是云知聲和思必馳等公司。

新起點：搜狗版“Siri”降臨

擁有輸入入口，對一家做語音識別的企業(yè)來說是得天獨厚的優(yōu)勢。

在數(shù)據(jù)量上，搜狗、百度都對其它公司都與明顯的優(yōu)勢。不過相比科大訊飛和百度等品牌，業(yè)界鮮見搜狗語音對外發(fā)聲，直到“知音”的發(fā)布。

“知音”對搜狗語音的重要性不言而喻，說其為后者的代名詞也毫不為過，正如度秘至于百度、GoogleNow之于谷歌、Siri之于蘋果...

從搜狗官方的介紹來看，“知音”擁有吞音優(yōu)化、語音糾錯以及多輪交互三個功能。雖然還算不上創(chuàng)新，但從技術(shù)角度而言，這三個功能都含金量十足。

吞音優(yōu)化

吞音問題來源于用戶，如果說話時語速過快會有吞音問題，而機(jī)器自然也不會適應(yīng)這樣的發(fā)音。

如果需要準(zhǔn)確地識別快語速的語音，那就需要技術(shù)和豐富的語料支持。王硯峰表示在語言模型訓(xùn)練時選擇大量吞音的語料，另外在建模上做一些吞音的優(yōu)化，這是解決吞音的基礎(chǔ)。

用“知音”舉個例子：

知音發(fā)音部分的建模使用的是LSTM+CTC的模型，對發(fā)音本身以及發(fā)音間的差異性做了細(xì)致的描述；
另外知音還使用了基于深度神經(jīng)網(wǎng)絡(luò)的語言模型對識別結(jié)果進(jìn)行了修正，依賴更長的歷史信息將吞音對識別結(jié)果的影響盡量降低；
除此之外，知音在數(shù)據(jù)層面也做了篩選以及生成的工作，通過調(diào)整數(shù)據(jù)分布優(yōu)化吞音識別的效果。

語音糾錯（修改）

通俗點講，語音修改是為語音識別錯誤填坑而存在的，它可以幫助用戶使用自然語音的方式來修改錯誤的識別，而不需要手動操作。

修改過程包含了語音識別(識別用戶糾錯的命令)、語義分析(分析用戶修改的意圖)、文本修正（執(zhí)行相應(yīng)的修改命令）三個步驟，整個系統(tǒng)性能的優(yōu)化是一個聯(lián)合優(yōu)化的過程，語音識別盡管面向的是垂直類別，但是語言模型嚴(yán)重依賴于語義分析模塊的知識。

在語義分析的基礎(chǔ)上，還需要輸入法和搜索的知識，例如輸入法拆字庫如立早章、海量詞庫如硯臺的硯，搜索知識圖譜如清華的邱勇等。

多輪交互

多輪對話一直都是語音識別難點，雖然有不少語音產(chǎn)品宣稱自己具備多輪交互的能力，但實際表現(xiàn)如何又是另一回事了。

如果只表達(dá)一個命令，只會涉及到機(jī)器學(xué)習(xí)當(dāng)中的分類問題，但多輪交互的問題就復(fù)雜了。他需要結(jié)合上下文，而用戶行為往往是不可預(yù)測的，會產(chǎn)生出很多新的行為范式，反映出來的就是狀態(tài)機(jī)會增加更多的狀態(tài)以及狀態(tài)之間的邊，那么如何根據(jù)用戶產(chǎn)生出來的數(shù)據(jù)，動態(tài)的不停的構(gòu)建或者調(diào)整狀態(tài)機(jī)，這是多輪交互里面最大的難點。

要實現(xiàn)多輪交互就需要強(qiáng)大的知識圖譜以及技術(shù)架構(gòu)。

“如果沒有好的知識圖譜和技術(shù)架構(gòu)，你的語音產(chǎn)品只會是一個玩具。”王硯峰如此形容。

從各家語音識別產(chǎn)品的迭代情況來看，體驗的較量已經(jīng)上升到了一個新的level，但可以確定的是未來產(chǎn)品的差異不會體現(xiàn)在技術(shù)上，而是數(shù)據(jù)的積累，至于搜狗會把“知音”帶到一個什么樣的高度，我們拭目以待。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章