0
早在2016年10月錘子科技新品發(fā)布會(huì)上,訊飛輸入法就因羅永浩的現(xiàn)場(chǎng)演示火了一把,老羅在現(xiàn)場(chǎng)用很快的語(yǔ)速隨口說(shuō)了一段內(nèi)容,訊飛輸入法瞬間“打”出文字,識(shí)別結(jié)果一字不差。
當(dāng)時(shí),訊飛輸入法的語(yǔ)音識(shí)別率是 97%。而在昨天下午舉行的訊飛輸入法媒體見(jiàn)面會(huì)上,產(chǎn)品總監(jiān)翟吉博宣布,這個(gè)數(shù)字變成了 98%。
羅永浩介紹訊飛輸入法
此外,據(jù)市場(chǎng)品牌負(fù)責(zé)人李強(qiáng)軍介紹,訊飛輸入法用戶(hù)規(guī)模突破6億,語(yǔ)音輸入月覆蓋率達(dá)50%,語(yǔ)音滲透率保持逐年上升態(tài)勢(shì)。
至于準(zhǔn)確率是否能夠達(dá)到百分之百,訊飛輸入法產(chǎn)品總監(jiān)翟吉博的回答是:技術(shù)上目前還做不到。
首先,同音字是個(gè)難題,只能盡可能提高命中率,這也是為什么搜狗、百度、訊飛都要給輸入法加入語(yǔ)音修改功能的原因。其次,用戶(hù)非常口語(yǔ)化的表達(dá)機(jī)器無(wú)法精準(zhǔn)識(shí)別,人機(jī)交互習(xí)慣需要磨合。此外,嘈雜環(huán)境下語(yǔ)音識(shí)別會(huì)受到環(huán)境音的影響。
訊飛輸入法產(chǎn)品總監(jiān):翟吉博
訊飛輸入法從人腦神經(jīng)科學(xué)入手對(duì)人類(lèi)記憶進(jìn)行仿生,實(shí)現(xiàn)大量無(wú)監(jiān)督的數(shù)據(jù)去輔助有人工標(biāo)注的數(shù)據(jù)。受圖像領(lǐng)域 CNN 應(yīng)用的啟發(fā),科大訊飛研發(fā)了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network,DFCNN)語(yǔ)音識(shí)別框架,使用大量的卷積層直接將語(yǔ)譜圖作為輸入,相比傳統(tǒng)語(yǔ)音特征作為輸入,降低了信息損失,表達(dá)了語(yǔ)音的長(zhǎng)時(shí)相關(guān)性。
同時(shí),借鑒圖像識(shí)別中效果最好的網(wǎng)絡(luò)配置,每個(gè)卷積層使用 3×3 的小卷積核訓(xùn)練更深的 CNN 模型,輸出單元直接為最終的識(shí)別結(jié)果(比如音節(jié)或漢字),將感知智能、認(rèn)知智能等 AI 技術(shù)應(yīng)用在輸入法上,一分鐘可識(shí)別 400 字,并支持多語(yǔ)種實(shí)時(shí)語(yǔ)音翻譯、超長(zhǎng)語(yǔ)音輸入、耳語(yǔ)輸入、離線(xiàn)語(yǔ)音輸入等功能。
對(duì)于口音和方言識(shí)別的難題,訊飛輸入法提出方言語(yǔ)音輸入方案來(lái)解決。依托科大訊飛對(duì) AI 技術(shù)及語(yǔ)言深度研究的積累,采用 Multi-lingual 多語(yǔ)言建模,通過(guò)多方言數(shù)據(jù)共享方式訓(xùn)練;輔以 Global Phone全球音素集,從聲學(xué)層面的相似性統(tǒng)一各方言的音素定義,對(duì)方言“語(yǔ)圖譜”模型做進(jìn)一步精進(jìn),從而有針對(duì)性地提升方言語(yǔ)種的識(shí)別能力。
目前訊飛輸入法支持 22 種方言,其中粵語(yǔ)、四川話(huà)、東北話(huà)等識(shí)別率均已超過(guò) 90%。2017年對(duì)外發(fā)起“方言保護(hù)計(jì)劃”,建立“中國(guó)方言庫(kù)”,積累海量方言數(shù)據(jù),讓這些數(shù)據(jù)為深度學(xué)習(xí)提供素材。本月底,訊飛輸入法將新增蘇州話(huà)識(shí)別,方言識(shí)別語(yǔ)種將擴(kuò)充至23種。
基于科大訊飛精簡(jiǎn)和優(yōu)化的 Hybrid-DFCNN 全新語(yǔ)音識(shí)別框架,6月底訊飛輸入法將上線(xiàn) Hyper-CNN語(yǔ)音新引擎,隨之通用語(yǔ)音識(shí)別準(zhǔn)確率將相對(duì)提升 15%,此外可以?xún)?yōu)化中英混合語(yǔ)音輸入、粵語(yǔ)等重點(diǎn)方言、標(biāo)點(diǎn)判斷準(zhǔn)確率,提升語(yǔ)音輸入的體驗(yàn)。
重新定義鍵盤(pán),新增面對(duì)面翻譯和 OCR 拍照
在百度輸入法的發(fā)布會(huì)上,AIG 負(fù)責(zé)人王海峰發(fā)表了他對(duì)輸入法的看法,認(rèn)為即便現(xiàn)在有語(yǔ)音輸入的加持,其實(shí)還不足夠,未來(lái)的輸入方式一定是 AI 加持的“全感官輸入”。訊飛的判斷是,輸入法將不再局限于五筆、九宮格、二十六鍵、手寫(xiě)固定鍵盤(pán)形態(tài),從而推出“莫得鍵盤(pán)”、“語(yǔ)音鍵盤(pán)”、“VG 語(yǔ)音交互面板”等人機(jī)交互模式。
莫得鍵盤(pán)即“沒(méi)有”鍵盤(pán),基于訊飛輸入法智能語(yǔ)音技術(shù),支持語(yǔ)音輸入、語(yǔ)音口令控制,實(shí)現(xiàn)無(wú)鍵盤(pán)輸入。為語(yǔ)音重度用戶(hù)量身定制了語(yǔ)音鍵盤(pán),呈現(xiàn)便捷的語(yǔ)音輸入形態(tài),只憑一張嘴就能輕松打字、修改甚至自動(dòng)加標(biāo)點(diǎn)符號(hào),不需學(xué)習(xí)其他技能。基于智能語(yǔ)音應(yīng)用,打造 VG(VoiceGame)語(yǔ)音交互面板,利用 AI 在交互層面進(jìn)行了嘗試。輸入過(guò)程等同“玩游戲”,語(yǔ)速快慢、聲音大小等直接體現(xiàn)了創(chuàng)意交互。
訊飛輸入法將語(yǔ)音識(shí)別、語(yǔ)音合成以及機(jī)器翻譯等新技術(shù)融合在一起,新增面對(duì)面翻譯,支持中文與英日韓俄多語(yǔ)種即時(shí)翻譯,并且將面對(duì)面的交互方式引入語(yǔ)音翻譯應(yīng)用中。例如,在對(duì)話(huà)雙方各講母語(yǔ)時(shí),另一方就會(huì)同步看到翻譯結(jié)果。
基于用戶(hù)剛需,新增了 OCR 拍照輸入,可以識(shí)別書(shū)本、路牌、名片等印刷體上的文字以及手寫(xiě)字體。手寫(xiě)識(shí)別準(zhǔn)確率也高達(dá) 90% 以上。
會(huì)后,雷鋒網(wǎng)分別試用了搜狗輸入法和訊飛輸入法。
訊飛語(yǔ)音可一次性不間斷輸入249個(gè)字,搜狗語(yǔ)音可輸入221個(gè)字。整體來(lái)看,訊飛識(shí)別率更高一些。
在對(duì)詩(shī)歌的識(shí)別方面,兩家輸入法都有很好的表現(xiàn)。讀者也可試試用自己家鄉(xiāng)的方言,看看這些有 AI 加持的輸入法能否精準(zhǔn)識(shí)別。
隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展,可能未來(lái)我們真的不再需要用手打字,至于訊飛對(duì)未來(lái)人工智能語(yǔ)音輸入的展望,翟吉博的回答是:“現(xiàn)在的產(chǎn)品在省時(shí)高效和足夠簡(jiǎn)單自然這些維度上并沒(méi)有做到極致。假如有一天技術(shù)成熟了,我們通過(guò)意念或者腦電波輸入文字,打開(kāi)微信,盯著屏幕看兩秒,文字就發(fā)出去了,我想這會(huì)是一個(gè)更加極致的輸入法?!?/p>
據(jù)速途研究院2017年調(diào)研數(shù)據(jù)顯示,輸入法市場(chǎng)上,搜狗以 63.6% 的市場(chǎng)份額遙遙領(lǐng)先,接下來(lái)是百度和訊飛。王海峰說(shuō),百度輸入法是百度 AI 技術(shù)應(yīng)用的橋頭堡,新的 AI 技術(shù)將會(huì)首先應(yīng)用在輸入法上。搜狗 CEO 王小川也表示將 AI 賦能升級(jí)輸入法列為搜狗 2018 年度 AI 戰(zhàn)略之一,并且輸入法不止可以打字,還將承載信息獲取和流量分發(fā)。在輸入法都打 AI 牌的年代,訊飛的優(yōu)勢(shì)何在?
對(duì)此,翟吉博在接受雷鋒網(wǎng)的采訪(fǎng)時(shí)表示,訊飛一直以來(lái)聚焦于語(yǔ)音輸入,對(duì)于語(yǔ)音輸入的用戶(hù)場(chǎng)景體驗(yàn)和未來(lái)發(fā)展有著更深的理解。此外, 在語(yǔ)音技術(shù)方面持續(xù)創(chuàng)新,會(huì)一直尋找新問(wèn)題并用技術(shù)和產(chǎn)品設(shè)計(jì)解決?!拔覀冇肋h(yuǎn)是往前多走一步,持續(xù)探索?!?/p>
但是,據(jù)雷鋒網(wǎng)了解,目前用戶(hù)的輸入習(xí)慣主要還是以拼音輸入為主。速途研究院的數(shù)據(jù)顯示,六成多的用戶(hù)還是選擇拼音輸入,其中九宮格拼音輸入最接近用戶(hù)的輸入習(xí)慣,可以單手掌控輸入。
隨著技術(shù)的發(fā)展,語(yǔ)音轉(zhuǎn)化成文字的正確率越來(lái)越高,選擇語(yǔ)音輸入的用戶(hù)在不斷增多。對(duì)于語(yǔ)音輸入,訊飛輸入法支持 22 種方言,百度輸入法則提供了語(yǔ)音翻譯,支持 28 種高頻次語(yǔ)言同聲傳譯。
目前輸入法市場(chǎng)格局形成了一超多強(qiáng)的局面,搜狗輸入法長(zhǎng)期保持市場(chǎng)第一,且不斷發(fā)展。百度輸入法借AI 之力奮起直追,訊飛等輸入法也在不斷差異化,努力加強(qiáng)個(gè)性化特色功能。在識(shí)別率方面,頭部廠(chǎng)商在語(yǔ)音識(shí)別準(zhǔn)確率上均達(dá)到 97% 以上的高水準(zhǔn),而百度和搜狗都擁有得天獨(dú)厚的龐大搜索數(shù)據(jù)庫(kù)為深度學(xué)習(xí)算法提供燃料,語(yǔ)音輸入用戶(hù)習(xí)慣的養(yǎng)成卻尚待時(shí)日,主打 AI 語(yǔ)音識(shí)別的訊飛,可能還需要再繼續(xù)探索其他差異化策略。
相關(guān)文章:
搜狗輸入法醫(yī)生版上線(xiàn),解決醫(yī)生群體打字難問(wèn)題
百度輸入法 8.0 版本上線(xiàn),王海峰稱(chēng)其是“百度 AI 的橋頭堡”
為iPhone X加點(diǎn)料,搜狗輸入法iOS新版上線(xiàn)
CNCC 2016 | 搜狗 CEO 王小川:輸入法的未來(lái)是自動(dòng)問(wèn)答
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。