2
本文作者: haoxiaoru | 2016-08-05 10:00 |
(2016年8月3日,搜狗CTO楊洪濤在“知音”引擎發(fā)布會上)
搜狗語音助手app的最后一次更新,停留在兩年前。它誕生于 2012 年,是蘋果 Siri 引發(fā)的語音助理產(chǎn)品浪潮中的一個。后來同類的產(chǎn)品都趨于沉寂。搜狗語音交互技術(shù)中心負(fù)責(zé)人王硯峰,把這類產(chǎn)品稱為“通用型語音助理”。他說,人們使用通用型語音助理的時候,會想著這個軟件應(yīng)該是無所不能、無所不會的,但現(xiàn)在的技術(shù)做不到這一點,而且五年之內(nèi)都不可能做到。
今年上任的搜狗CTO楊洪濤總結(jié)道,通用型語音助理更加注重“廣度”的開發(fā),開發(fā)者想滿足用戶的各種需求,但技術(shù)上又沒法達(dá)到用戶預(yù)期,所以這種語音助理的位置很尷尬。
于是,搜狗很早就放棄了通用型語音助手的開發(fā),轉(zhuǎn)換思路,將精力轉(zhuǎn)移到垂直型的場景中。他們試圖通過對垂直場景的深度優(yōu)化,讓語音交互技術(shù)為更多人所用。
這種做法,與仍然在走通用型語音助理的同業(yè)者截然不同。搜狗CTO楊洪濤,形容這種不同本質(zhì)上非技術(shù)問題,而是產(chǎn)品觀的問題。他認(rèn)為,在基礎(chǔ)語音技術(shù)水準(zhǔn)上,幾家大公司的能力會趨同,不會有本質(zhì)上的差異,但體現(xiàn)在產(chǎn)品上就會有領(lǐng)先有落后。這取決于兩點:一是產(chǎn)品觀;二是數(shù)據(jù)與技術(shù)的配合情況。
按照雷鋒網(wǎng)的理解,這兩點其實是楊洪濤悄悄開了兩槍:一槍打向搜索引擎同業(yè)者,瞄準(zhǔn)其堅持通用型語音助理的產(chǎn)品觀;一槍打向傳統(tǒng)語音技術(shù)供應(yīng)商,瞄準(zhǔn)其為多個合作伙伴提供技術(shù)的方式,缺乏數(shù)據(jù)上的深度優(yōu)化能力。
楊洪濤說,訊飛也在跟高德地圖合作,但這種合作跟搜狗語音團(tuán)隊與搜狗地圖的合作是不一樣的?!拔覀冊诖蚰?dǎo)航里面的語音交互能力的時候,是跟地圖的產(chǎn)品經(jīng)理坐在一起討論這件事情怎么做,友商基本不可能?!?/p>
車內(nèi)導(dǎo)航是搜狗看中的一個垂直場景。8月3日的搜狗“知音”引擎發(fā)布會上,他們展示了針對車內(nèi)導(dǎo)航場景做的優(yōu)化,最明顯的變化是支持多輪對話。比如,用戶想去化工大學(xué)的時候,導(dǎo)航系統(tǒng)會問用戶,去哪個校區(qū)(北校區(qū)還是東校區(qū)),但用戶的回答可能是“昌平的那個校區(qū)”,這時候搜狗的導(dǎo)航系統(tǒng)也可以理解用戶想去哪個校區(qū)。
搜狗語音交互技術(shù)中心負(fù)責(zé)人王硯峰說,用戶習(xí)慣于通過周圍熟悉的建筑物跟地圖進(jìn)行進(jìn)一步的交互,這種交互是非常深度的。你需要有地圖的知識,同時語音系統(tǒng)要知道用戶是通過這種地標(biāo)的方式進(jìn)行查詢。如果你沒有這樣的能力,你在識別階段或者語義理解階段是解決不了這樣的需求的。
語音輸入是另一個搜狗看中的垂直場景。對于以輸入法為核心產(chǎn)品的搜狗來說,這一點幾乎是顯而易見的?;顒又校瑮詈闈F(xiàn)場展示了搜狗實時轉(zhuǎn)寫字幕的功能,楊洪濤的講話內(nèi)容實時出現(xiàn)在屏幕上,這是語音輸入相關(guān)技術(shù)第二次亮相。之前搜狗CEO王小川在上海進(jìn)行過演示。
搜狗針對語音輸入功能做的優(yōu)化,主要是大幅改進(jìn)“語音修改”能力。王硯峰介紹,他們借鑒了人與人之間溝通時怎么向?qū)Ψ浇忉屛淖趾x的方式。并舉例,介紹自己的時候,他會說“我叫王硯峰,硯臺的硯,山峰的峰”。如果機(jī)器可以聽懂人與人之間語言糾錯的話,對于用戶體驗的提升就會非常大,其實就是讓用戶能夠用一種自然語音的方式跟機(jī)器交流。
搜狗目前在iOS版輸入法的語音輸入功能上,已經(jīng)加入了這項被稱為“語音修改”的功能(官方稱 Android 版月內(nèi)也會上線)。語音輸入完一段話之后,可以按照自己的想法進(jìn)行修改。這里有段視頻大家可以了解下。
搜狗看重的第三個垂直場景是家庭娛樂。簡單說,就是在電視和電視盒子上輸入文字是非常麻煩的,語音這時候可以起到更重要的作用。搜狗現(xiàn)場演示了,通過多輪對話和對話中出現(xiàn)的“知識”的語義理解,更好地理解用戶的需求。這方面,其實搜狗沒有展開講,因為還沒有具體的產(chǎn)品落地。搜狗在會后透露了他們的打算,希望找到一家業(yè)內(nèi)技術(shù)最強(qiáng)的電視廠商,一起做針對內(nèi)容數(shù)據(jù)的深度優(yōu)化,打磨產(chǎn)品,滿足家庭娛樂場景下的真實需求。
從通用型到垂直場景,業(yè)務(wù)重點從追求廣度到追求深度。搜狗雖然戰(zhàn)略上放棄了通用型語音助理的開發(fā),但是通過垂直場景下數(shù)據(jù)和技術(shù)的配合,語音交互之樹卻扎根更深。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。