丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
特寫 正文
發(fā)私信給程弢
發(fā)送

1

搜狗版“Siri”是如何煉成的?

本文作者: 程弢 2016-08-05 21:01
導語:8月3日,搜狗推出語音搜索引擎——“知音”,融合了吞音優(yōu)化、語音糾錯以及多輪交互三個全新的功能。

搜狗版“Siri”是如何煉成的?

2011年年底搜狗組建了一支語音識別團隊;

2012年6月上線了首款語音搜索引擎;

8月3日,搜狗推出語音搜索引擎——“知音”,并融合了吞音優(yōu)化、語音糾錯以及多輪交互三個全新的功能。

第三方的實測數據顯示,搜狗語音和科大訊飛的性能保持在同一水準,而這樣的成績顯然超出了搜狗語音團隊創(chuàng)立之初的預期。

風口下的搜狗語音

2012年前后,語音識別的概念還未得到普及,也沒有太多互聯網公司涌入進來,而科大訊飛在當時已經初露鋒芒。

搜狗以輸入法和搜索發(fā)家,在輸入法產品完成了多次迭代并逐步走向成熟之后,搜狗CEO王小川試圖切入語音識別市場,不過公司最初沒有打算獨自研發(fā)。

剛好科大訊飛的高層找到了我們,希望強強聯合推出一款更好的語音產品。

搜狗語音交互技術中心負責人王硯峰說。

搜狗版“Siri”是如何煉成的?

搜狗語音交互技術中心負責人

搜狗有輸入法和搜索引擎,科大訊飛有語音技術儲備,二者合作的確是個雙贏的局面。但這次談判并不順利,雖然科大訊飛方面答應在語音助手產品上展開合作,即由搜狗提供后臺的服務,科大訊飛負責前端的產品。不過,雙方利益沒有達成平衡,合作談崩。

王硯峰表示,“科大訊飛希望通輸入法切入互聯網站穩(wěn)腳跟,而我們也準備進軍移動互聯網,不可能會把輸入法的優(yōu)勢讓給別人?!?/p>

合作的告吹給搜狗留下了第二條路——研發(fā)一款搜狗專屬的語音識別產品。公司內部很快就達成了一致——“時間不等人,這件事就快速自己做起來吧!”

拿定主意后,搜狗便開始招兵買馬擴張團隊。但語音技術的積累不是短期內可以完成的,所以搜狗第一步還是選擇倚靠有技術功底的隊友,即谷歌。2012年上半年,搜狗借助谷歌的引擎,由谷歌負責收集數據,產品的研發(fā)進度非常迅速。

“1月份開始做這件事,到6月份就做出了一版準確率還行的引擎,在第三方的實測數據上顯示,這一版引擎在地圖上的準確率已經超越了百度?!?/p>

地圖引擎后來居上,準確率超越了百度,這對僅在語音識別涉足半年的搜狗來說是一份趨近完美的答卷。

盡管如此,這版產品依然存在一些問題,體驗還有很大的提升,與科大訊飛還有一定的差距,所以搜狗沒有讓其在輸入法上測試。根據王硯峰的說法,地圖應用場景相對收斂,對語音的要求比輸入法要低得多。

半年之后(2012年11月),隨著搜狗輸入法數據的積累,公司放棄了谷歌的引擎,在輸入法上用上了自家的引擎,并將語音識別延伸到了輸入法上。

隨著Siri的走紅,語音識別產品也逐漸俘獲了大量的C端用戶。2013年一年,搜狗輸入法的數據量積累到了1.5萬個小時,依靠這些數據、深度學習以及日漸成熟的團隊,搜狗的語音識別性能已經基本保持和科大訊飛持平,微信和百度,而第二梯隊則是云知聲和思必馳等公司。

新起點:搜狗版“Siri”降臨

擁有輸入入口,對一家做語音識別的企業(yè)來說是得天獨厚的優(yōu)勢。

在數據量上,搜狗、百度都對其它公司都與明顯的優(yōu)勢。不過相比科大訊飛和百度等品牌,業(yè)界鮮見搜狗語音對外發(fā)聲,直到“知音”的發(fā)布。

“知音”對搜狗語音的重要性不言而喻,說其為后者的代名詞也毫不為過,正如度秘至于百度、GoogleNow之于谷歌、Siri之于蘋果...

從搜狗官方的介紹來看,“知音”擁有吞音優(yōu)化、語音糾錯以及多輪交互三個功能。雖然還算不上創(chuàng)新,但從技術角度而言,這三個功能都含金量十足。

吞音優(yōu)化

吞音問題來源于用戶,如果說話時語速過快會有吞音問題,而機器自然也不會適應這樣的發(fā)音。

如果需要準確地識別快語速的語音,那就需要技術和豐富的語料支持。王硯峰表示在語言模型訓練時選擇大量吞音的語料,另外在建模上做一些吞音的優(yōu)化,這是解決吞音的基礎。

用“知音”舉個例子:

知音發(fā)音部分的建模使用的是LSTM+CTC的模型,對發(fā)音本身以及發(fā)音間的差異性做了細致的描述;

另外知音還使用了基于深度神經網絡的語言模型對識別結果進行了修正,依賴更長的歷史信息將吞音對識別結果的影響盡量降低;

除此之外,知音在數據層面也做了篩選以及生成的工作,通過調整數據分布優(yōu)化吞音識別的效果。

語音糾錯(修改)

通俗點講,語音修改是為語音識別錯誤填坑而存在的,它可以幫助用戶使用自然語音的方式來修改錯誤的識別,而不需要手動操作。

修改過程包含了語音識別(識別用戶糾錯的命令)、語義分析(分析用戶修改的意圖)、文本修正(執(zhí)行相應的修改命令)三個步驟,整個系統性能的優(yōu)化是一個聯合優(yōu)化的過程,語音識別盡管面向的是垂直類別,但是語言模型嚴重依賴于語義分析模塊的知識。

在語義分析的基礎上,還需要輸入法和搜索的知識,例如輸入法拆字庫如立早章、海量詞庫如硯臺的硯,搜索知識圖譜如清華的邱勇等。

多輪交互

多輪對話一直都是語音識別難點,雖然有不少語音產品宣稱自己具備多輪交互的能力,但實際表現如何又是另一回事了。

如果只表達一個命令,只會涉及到機器學習當中的分類問題,但多輪交互的問題就復雜了。他需要結合上下文,而用戶行為往往是不可預測的,會產生出很多新的行為范式,反映出來的就是狀態(tài)機會增加更多的狀態(tài)以及狀態(tài)之間的邊,那么如何根據用戶產生出來的數據,動態(tài)的不停的構建或者調整狀態(tài)機,這是多輪交互里面最大的難點。


要實現多輪交互就需要強大的知識圖譜以及技術架構。

“如果沒有好的知識圖譜和技術架構,你的語音產品只會是一個玩具。”王硯峰如此形容。

從各家語音識別產品的迭代情況來看,體驗的較量已經上升到了一個新的level,但可以確定的是未來產品的差異不會體現在技術上,而是數據的積累,至于搜狗會把“知音”帶到一個什么樣的高度,我們拭目以待。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

分享:
相關文章

略懂技術的小編

關注一切有未來感的產品及技術!
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說