2
本文作者: 硬創(chuàng)公開課 | 2016-10-23 06:00 | 專題:雷峰網(wǎng)公開課 |
據(jù)說,看了錘子手機發(fā)布會的人,印象最深的就是老羅演示訊飛語音輸入那一段(從視頻的第100分鐘開始)。很多人表示自己受到了深深的震撼。但“震撼”之余,我們也應該冷靜下來,清醒地認識到語音輸入的春天,在科技史上已經(jīng)來過 N 次了。究竟是什么,讓2016年的語音輸入變得不一樣,讓訊飛的語音輸入變得不一樣?
為了解答這個問題,雷鋒網(wǎng)請來了訊飛輸入法產(chǎn)品總監(jiān),或者用時髦的說法“訊飛輸入法之父”,為大家解解饞。 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
翟吉博,訊飛輸入法產(chǎn)品總監(jiān)。2009年以碼農(nóng)的身份加入科大訊飛,2010年創(chuàng)建訊飛輸入法并擔任產(chǎn)品總監(jiān)至今,參與了訊飛輸入法從0發(fā)展到4億用戶的全過程,曾經(jīng)3天時間就寫出了訊飛輸入法的Demo,目前訊飛輸入法月活躍用戶超過1億。
背景介紹:
湖北黃岡人,畢業(yè)于上海交大
2009年,以碼農(nóng)身份入職科大訊飛
2010年創(chuàng)建訊飛輸入法,并擔任產(chǎn)品經(jīng)理至今
也許是最會寫代碼的產(chǎn)品經(jīng)理
雷鋒網(wǎng):很多大公司的重要產(chǎn)品,起初可能只是幾個員工的小嘗試,比如 Google 的很多產(chǎn)品是這么誕生的。那么對于訊飛來說,做輸入法的契機是什么,這個產(chǎn)品是怎么誕生的?
訊飛翟吉博:關(guān)于訊飛輸入法的誕生,這里給大家講一段故事。2010年的時候,當時我在訊飛研究院,我記得iPhone4發(fā)布的當天晚上,我跟我上級,就iPhone4做了一個討論,我們認為,iPhone上基于觸屏的全鍵盤輸入體驗,不太好。原因在于屏幕太小,而手指又像,一根蘿卜那么粗。經(jīng)過腦暴,我們考慮到,把訊飛的語音技術(shù)結(jié)合到輸入上來。完了我就自己動手開始做,很快就出了一個demo,因為我原來是做過手寫識別,還有拼音的這個技術(shù),所以這個demo也包含了,語音手寫還有拼音的功能。
這個demo拿出來給他老大看,他覺得,不能僅僅是做個demo,后面我們就對市場進行,研究和分析,寫了一個立項書,而且在公司層面也獲得了通過,其實我們組建幾人的小團隊在杭州封閉開發(fā)了三四個月,然后在10月28號,我們對外發(fā)布了第一個版本。
雷鋒網(wǎng):外界看來,訊飛是一家toB業(yè)務為主的公司,做 toC 的產(chǎn)品,最需要突破的地方是什么?
訊飛翟吉博:我認為最需要突破的地方,還是在思維方式以及配套的團隊體系方面。從面向行業(yè)客戶到直接面向消費者的,需要更多的去考慮用戶的需求。然后整個團隊的開發(fā)運營推廣的流程和體系需要重新構(gòu)建。
在2011年的時候,訊飛,面向消費者成立了一個移動互聯(lián)事業(yè)部?,F(xiàn)在,訊飛輸入法就在這個部門下面。我們部門其他的產(chǎn)品還有,靈犀語音助手(前身叫訊飛語點)、在幾年前iPhone上推出的一款叫訊飛口訊的,也風靡一時當時曾經(jīng),在app store的排行首位。訊飛輸入法的團隊,在這幾年也有一個很大的發(fā)展從最早,只有幾個人的,小的開發(fā)團隊,現(xiàn)在發(fā)展到包含了從前到后,完整的職能,一共接近二百人。
雷鋒網(wǎng):訊飛輸入法早期的用戶群和使用場景有什么特點?
訊飛翟吉博:我們早期的種子用戶,有個典型特征都是偏極客的,他們對語音技術(shù)關(guān)注度比較高,有不少用戶提到他們原來在電腦上,就體驗使用過IBM的語音技術(shù)。然后他們,會全天候的,不停的來測試我們的系統(tǒng),并且提出各種各樣的設(shè)想和改進意見。
雷鋒網(wǎng):講真,這次訊飛的語音輸入法被老羅猛推了一把,你和你的小伙伴們是一種怎樣的感受?
訊飛翟吉博:其實我們事先真沒想到,老羅是以這樣的一種演示方式,足足給了我們這么長的時間,從現(xiàn)場,觀眾的熱烈響應,還有網(wǎng)絡上的,熱烈反響,給了我們團隊充分的信心。
至于數(shù)據(jù)嘛,這個請大家看一下,app store的排行榜,短短幾天,我們現(xiàn)在已經(jīng)在(免費)總榜上沖到了第三,在工具(免費)榜上已經(jīng),排在了第一。在華為,小米等應用商店下面,也看到很多用戶的評論,都是和老羅的發(fā)布會有關(guān)。
雷鋒網(wǎng):一些懂行的人告訴我們,其實老羅在臺上演示的兩段內(nèi)容輸入,還是非常有局限性的,說的幾乎都是常用語,換言之就是機器最容易識別的東西。里邊沒有任何專有詞匯,中英混雜,同音字等等等等。你們怎么看?
訊飛翟吉博:其實老羅現(xiàn)場也提到了在那樣的一個環(huán)境下做語音輸入的演示,本來就是一件很有挑戰(zhàn)的事情,因為環(huán)境的噪聲還有回聲的干擾,對于技術(shù)來說,是比較困難的一個問題。另外大家可以關(guān)注到老羅的一個非常即興的方式,它的語料是很開放的,而且語速也很快。這種方式相比封閉的,比如說繞口令的,這種語料,難度其實大很多。
當然對于專有詞匯還有中英文混合這些,也會加大識別的難度。我理解老羅,也是想保證現(xiàn)場的效果,所以,在即興的語料上,沒有加大這方面的難度。
雷鋒網(wǎng):所以,語音輸入的春天真的又來了嗎?我們報道科技很多年,其實每隔幾年人們就會提語音輸入的突破,但到頭來會發(fā)現(xiàn),路還很長,需要技術(shù)的突破也需要整個大環(huán)境的變化。你們在語音輸入的一線,講講你們的感覺吧?
訊飛翟吉博:那根據(jù)我們現(xiàn)在的理解,目前的語音技術(shù)的應用,可能還是主要分為這幾個場景:
第一個是在即時通訊應用里邊。作為比較實用的就是把語音轉(zhuǎn)成文字;
第二個是語音搜索,他和前者的區(qū)別,更多的是一些關(guān)鍵詞的匹配;
第三個就是在類似siri這樣的語音助手中,做上下文的對話以及理解。
那其實我們輸入法在第一種應用,當中可以看到,整個的語音用戶占比的發(fā)展趨勢,從最早的每天幾個百分點,到現(xiàn)在接近20%,有些語音用戶已經(jīng)養(yǎng)成非常穩(wěn)定的使用習慣,而且這個趨勢仍然在增長中。我認為這個比例現(xiàn)在還沒有到達,應有的用戶覆蓋。不過另一方面,我們認為基于手機這種觸屏為主的設(shè)備,語音不會是完全主流的,那在下一個萬物互聯(lián)和vr設(shè)備流行的時代,我相信語音技術(shù)的春天會,真正到來。
雷鋒網(wǎng):語音輸入的技術(shù)突破有多大?給詳細講講。
訊飛翟吉博:從這幾年發(fā)展來回顧,語音輸入技術(shù)可以分為幾個階段:
第一個階段。在我們,10年剛推出的時候,整個的識別率是初步的達到了使用門檻,字正確率只有70%多還不到80%;
第二個階段。那隨著用戶越來越多積累了大量的數(shù)據(jù),通過大數(shù)據(jù)的訓練來驅(qū)動,使得整個的識別效果穩(wěn)步的提升,能夠到達90%出頭。
第三個階段。2012、13年的時候,那我們,使用了深度學習算法之后,再結(jié)合大數(shù)據(jù)的訓練,使得正確率又有了,更大的突破。
其實,老羅發(fā)布會上宣傳了97%這個數(shù)字,我們達到這個數(shù)字其實已經(jīng)有一兩年時間了。
雷鋒網(wǎng):訊飛的語音輸入強在哪兒?
訊飛翟吉博:首先要說,深度學習算法出來并相繼普及之后,對于安靜的環(huán)境下,日常的句子,大家的語音技術(shù)基本都達到了實用的水平。訊飛相對深入的地方表現(xiàn)在,三個方面:
第一,對于口音的適配。我們知道,在中國說普通話的口音是非常廣泛的,那對于不同的口音語音識別的效果,影響很大,訊飛對于各地的口音都有很好的適用,而且對于一些典型的純正的方言也能夠識別;
第二,對于抗環(huán)境的干擾方面。比如說在開車的時候,如果開著窗戶,那個噪聲是非常大的,訊飛是目前通過國際大車廠測試唯一達到實用水平的,技術(shù)提供商;
第三,對于網(wǎng)絡的依賴方面。我們能夠提供在線和離線無縫結(jié)合的方案,而且在離線的識別上面,也達到了很高的識別效果。
雷鋒網(wǎng):講一個你和你的小伙伴得意的,關(guān)于產(chǎn)品細節(jié)的思考吧?
訊飛翟吉博:還是說一下剛才提到的關(guān)于在線離線無縫結(jié)合的方案吧,那其實我們剛開始推出離線語音的時候就考慮到,在線語音的優(yōu)勢是足夠精準,離線語音的優(yōu)勢是比較可靠,我們能不能在用戶網(wǎng)絡不太穩(wěn)定的時候,能智能地做一個識別和判斷,把兩者的優(yōu)勢有一個很好的結(jié)合,所以我們現(xiàn)在在產(chǎn)品上,會實現(xiàn)一個從在線到離線智能切換的策略,這也算是一個比較貼心的細節(jié)。
雷鋒網(wǎng):iPhone 平臺和 Android 平臺,在產(chǎn)品設(shè)計上,有怎樣不同的考慮?另外,那個牌子的手機更能發(fā)揮訊飛的語音能力?
訊飛翟吉博:首先考慮的是在視覺和交互的規(guī)范上,我們會遵循iPhone和安卓系統(tǒng)特定的規(guī)范,比如說在iPhone系統(tǒng)上保留的地球鍵,又比如說視覺的風格,這些我們不會,強制去做,兩個平臺的完全統(tǒng)一,其次也要考慮系統(tǒng)的能力和特性上的區(qū)別,比如說iPhone系統(tǒng)對于輸入法鍵盤的錄音權(quán)限做了限制,所以我們現(xiàn)在迫不得已也只能采用,跳轉(zhuǎn)的方式來實現(xiàn)語音輸入,當然iPhone也有它的優(yōu)勢,比如我們可以利用3d touch,來實現(xiàn)利用輸入法鍵盤做很方便的光標移動,這個功能在需要定位修改文字的時候比較方便。
語音輸入對于不同手機來說,更多的是看錄音質(zhì)量的區(qū)別,現(xiàn)在很難籠統(tǒng)地說哪個牌子的手機效果好基本上,采用了雙mic或者是多麥克,然后降噪效果做的不錯的手機,對語音輸入效果都有很大的幫助。
雷鋒網(wǎng):語音輸入若想起到更大的作用,被更廣泛地使用,你覺得還應該在哪些方面有所突破?
訊飛翟吉博:首先,在市場教育和用戶習慣培養(yǎng)方面,我覺得羅老師給了我們很好的啟發(fā),比如說從大家比較熟悉的,用微信發(fā)語音的場景,讓大眾明白通過語音輸入文字和直接發(fā)語音的區(qū)別。
另外,在產(chǎn)品和技術(shù)本身,我們覺得在個性化方面有很大的發(fā)展空間,因為現(xiàn)在每個人或多或少都有獨特的發(fā)音習慣和用詞習慣,未來的語音輸入可以為每個人量身打造越用越好,我們現(xiàn)在已經(jīng)在輸入法里,通過個人賬號實現(xiàn)了,通訊錄人名和定制詞庫的個性化識別,將來還將實現(xiàn),更深入的個性化功能。
雷鋒網(wǎng):最后分享一下你的語音輸入使用習慣吧?
訊飛翟吉博:我個人使用語音的過程,也大概經(jīng)歷了幾個階段,可能也代表了不少用戶的路徑。
第一個階段。主要還是在克服自己的心理障礙,一開始總是覺得用語音對著手機說話,感覺有點傻,只敢一個人的時候用。
第二個階段。那后面在大街上也經(jīng)??吹接腥擞脤χ⑿虐l(fā)語音,好像大家也習以為然了,所以心里的障礙慢慢的有所克服,這個階段更多的是對語音識別效果的調(diào)校,自己想想怎么樣能說得更準,而且怎么樣能有一些方面的修改。
第三個階段。也就是現(xiàn)在的階段,可以說已經(jīng)達到一個老司機的水平了,可以相對比較得心應手的使用,特別是在移動的狀態(tài)下,基本上就靠用語音了。
【唯物】開通讀者交流群啦!如果你對相關(guān)話題感興趣,歡迎入群切磋。入群方式:添加微信LF-gkk,備注個人信息附上【唯物】,審核通過之后我們會拉您入群。唯物公眾號 okweiwu。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。