0
早在2016年10月錘子科技新品發(fā)布會(huì)上,訊飛輸入法就因羅永浩的現(xiàn)場(chǎng)演示火了一把,老羅在現(xiàn)場(chǎng)用很快的語(yǔ)速隨口說了一段內(nèi)容,訊飛輸入法瞬間“打”出文字,識(shí)別結(jié)果一字不差。
當(dāng)時(shí),訊飛輸入法的語(yǔ)音識(shí)別率是 97%。而在昨天下午舉行的訊飛輸入法媒體見面會(huì)上,產(chǎn)品總監(jiān)翟吉博宣布,這個(gè)數(shù)字變成了 98%。
羅永浩介紹訊飛輸入法
此外,據(jù)市場(chǎng)品牌負(fù)責(zé)人李強(qiáng)軍介紹,訊飛輸入法用戶規(guī)模突破6億,語(yǔ)音輸入月覆蓋率達(dá)50%,語(yǔ)音滲透率保持逐年上升態(tài)勢(shì)。
至于準(zhǔn)確率是否能夠達(dá)到百分之百,訊飛輸入法產(chǎn)品總監(jiān)翟吉博的回答是:技術(shù)上目前還做不到。
首先,同音字是個(gè)難題,只能盡可能提高命中率,這也是為什么搜狗、百度、訊飛都要給輸入法加入語(yǔ)音修改功能的原因。其次,用戶非??谡Z(yǔ)化的表達(dá)機(jī)器無法精準(zhǔn)識(shí)別,人機(jī)交互習(xí)慣需要磨合。此外,嘈雜環(huán)境下語(yǔ)音識(shí)別會(huì)受到環(huán)境音的影響。
訊飛輸入法產(chǎn)品總監(jiān):翟吉博
訊飛輸入法從人腦神經(jīng)科學(xué)入手對(duì)人類記憶進(jìn)行仿生,實(shí)現(xiàn)大量無監(jiān)督的數(shù)據(jù)去輔助有人工標(biāo)注的數(shù)據(jù)。受圖像領(lǐng)域 CNN 應(yīng)用的啟發(fā),科大訊飛研發(fā)了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network,DFCNN)語(yǔ)音識(shí)別框架,使用大量的卷積層直接將語(yǔ)譜圖作為輸入,相比傳統(tǒng)語(yǔ)音特征作為輸入,降低了信息損失,表達(dá)了語(yǔ)音的長(zhǎng)時(shí)相關(guān)性。
同時(shí),借鑒圖像識(shí)別中效果最好的網(wǎng)絡(luò)配置,每個(gè)卷積層使用 3×3 的小卷積核訓(xùn)練更深的 CNN 模型,輸出單元直接為最終的識(shí)別結(jié)果(比如音節(jié)或漢字),將感知智能、認(rèn)知智能等 AI 技術(shù)應(yīng)用在輸入法上,一分鐘可識(shí)別 400 字,并支持多語(yǔ)種實(shí)時(shí)語(yǔ)音翻譯、超長(zhǎng)語(yǔ)音輸入、耳語(yǔ)輸入、離線語(yǔ)音輸入等功能。
對(duì)于口音和方言識(shí)別的難題,訊飛輸入法提出方言語(yǔ)音輸入方案來解決。依托科大訊飛對(duì) AI 技術(shù)及語(yǔ)言深度研究的積累,采用 Multi-lingual 多語(yǔ)言建模,通過多方言數(shù)據(jù)共享方式訓(xùn)練;輔以 Global Phone全球音素集,從聲學(xué)層面的相似性統(tǒng)一各方言的音素定義,對(duì)方言“語(yǔ)圖譜”模型做進(jìn)一步精進(jìn),從而有針對(duì)性地提升方言語(yǔ)種的識(shí)別能力。
目前訊飛輸入法支持 22 種方言,其中粵語(yǔ)、四川話、東北話等識(shí)別率均已超過 90%。2017年對(duì)外發(fā)起“方言保護(hù)計(jì)劃”,建立“中國(guó)方言庫(kù)”,積累海量方言數(shù)據(jù),讓這些數(shù)據(jù)為深度學(xué)習(xí)提供素材。本月底,訊飛輸入法將新增蘇州話識(shí)別,方言識(shí)別語(yǔ)種將擴(kuò)充至23種。
基于科大訊飛精簡(jiǎn)和優(yōu)化的 Hybrid-DFCNN 全新語(yǔ)音識(shí)別框架,6月底訊飛輸入法將上線 Hyper-CNN語(yǔ)音新引擎,隨之通用語(yǔ)音識(shí)別準(zhǔn)確率將相對(duì)提升 15%,此外可以優(yōu)化中英混合語(yǔ)音輸入、粵語(yǔ)等重點(diǎn)方言、標(biāo)點(diǎn)判斷準(zhǔn)確率,提升語(yǔ)音輸入的體驗(yàn)。
重新定義鍵盤,新增面對(duì)面翻譯和 OCR 拍照
在百度輸入法的發(fā)布會(huì)上,AIG 負(fù)責(zé)人王海峰發(fā)表了他對(duì)輸入法的看法,認(rèn)為即便現(xiàn)在有語(yǔ)音輸入的加持,其實(shí)還不足夠,未來的輸入方式一定是 AI 加持的“全感官輸入”。訊飛的判斷是,輸入法將不再局限于五筆、九宮格、二十六鍵、手寫固定鍵盤形態(tài),從而推出“莫得鍵盤”、“語(yǔ)音鍵盤”、“VG 語(yǔ)音交互面板”等人機(jī)交互模式。
莫得鍵盤即“沒有”鍵盤,基于訊飛輸入法智能語(yǔ)音技術(shù),支持語(yǔ)音輸入、語(yǔ)音口令控制,實(shí)現(xiàn)無鍵盤輸入。為語(yǔ)音重度用戶量身定制了語(yǔ)音鍵盤,呈現(xiàn)便捷的語(yǔ)音輸入形態(tài),只憑一張嘴就能輕松打字、修改甚至自動(dòng)加標(biāo)點(diǎn)符號(hào),不需學(xué)習(xí)其他技能。基于智能語(yǔ)音應(yīng)用,打造 VG(VoiceGame)語(yǔ)音交互面板,利用 AI 在交互層面進(jìn)行了嘗試。輸入過程等同“玩游戲”,語(yǔ)速快慢、聲音大小等直接體現(xiàn)了創(chuàng)意交互。
訊飛輸入法將語(yǔ)音識(shí)別、語(yǔ)音合成以及機(jī)器翻譯等新技術(shù)融合在一起,新增面對(duì)面翻譯,支持中文與英日韓俄多語(yǔ)種即時(shí)翻譯,并且將面對(duì)面的交互方式引入語(yǔ)音翻譯應(yīng)用中。例如,在對(duì)話雙方各講母語(yǔ)時(shí),另一方就會(huì)同步看到翻譯結(jié)果。
基于用戶剛需,新增了 OCR 拍照輸入,可以識(shí)別書本、路牌、名片等印刷體上的文字以及手寫字體。手寫識(shí)別準(zhǔn)確率也高達(dá) 90% 以上。
會(huì)后,雷鋒網(wǎng)分別試用了搜狗輸入法和訊飛輸入法。
訊飛語(yǔ)音可一次性不間斷輸入249個(gè)字,搜狗語(yǔ)音可輸入221個(gè)字。整體來看,訊飛識(shí)別率更高一些。
在對(duì)詩(shī)歌的識(shí)別方面,兩家輸入法都有很好的表現(xiàn)。讀者也可試試用自己家鄉(xiāng)的方言,看看這些有 AI 加持的輸入法能否精準(zhǔn)識(shí)別。
隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展,可能未來我們真的不再需要用手打字,至于訊飛對(duì)未來人工智能語(yǔ)音輸入的展望,翟吉博的回答是:“現(xiàn)在的產(chǎn)品在省時(shí)高效和足夠簡(jiǎn)單自然這些維度上并沒有做到極致。假如有一天技術(shù)成熟了,我們通過意念或者腦電波輸入文字,打開微信,盯著屏幕看兩秒,文字就發(fā)出去了,我想這會(huì)是一個(gè)更加極致的輸入法。”
據(jù)速途研究院2017年調(diào)研數(shù)據(jù)顯示,輸入法市場(chǎng)上,搜狗以 63.6% 的市場(chǎng)份額遙遙領(lǐng)先,接下來是百度和訊飛。王海峰說,百度輸入法是百度 AI 技術(shù)應(yīng)用的橋頭堡,新的 AI 技術(shù)將會(huì)首先應(yīng)用在輸入法上。搜狗 CEO 王小川也表示將 AI 賦能升級(jí)輸入法列為搜狗 2018 年度 AI 戰(zhàn)略之一,并且輸入法不止可以打字,還將承載信息獲取和流量分發(fā)。在輸入法都打 AI 牌的年代,訊飛的優(yōu)勢(shì)何在?
對(duì)此,翟吉博在接受雷鋒網(wǎng)的采訪時(shí)表示,訊飛一直以來聚焦于語(yǔ)音輸入,對(duì)于語(yǔ)音輸入的用戶場(chǎng)景體驗(yàn)和未來發(fā)展有著更深的理解。此外, 在語(yǔ)音技術(shù)方面持續(xù)創(chuàng)新,會(huì)一直尋找新問題并用技術(shù)和產(chǎn)品設(shè)計(jì)解決?!拔覀冇肋h(yuǎn)是往前多走一步,持續(xù)探索。”
但是,據(jù)雷鋒網(wǎng)了解,目前用戶的輸入習(xí)慣主要還是以拼音輸入為主。速途研究院的數(shù)據(jù)顯示,六成多的用戶還是選擇拼音輸入,其中九宮格拼音輸入最接近用戶的輸入習(xí)慣,可以單手掌控輸入。
隨著技術(shù)的發(fā)展,語(yǔ)音轉(zhuǎn)化成文字的正確率越來越高,選擇語(yǔ)音輸入的用戶在不斷增多。對(duì)于語(yǔ)音輸入,訊飛輸入法支持 22 種方言,百度輸入法則提供了語(yǔ)音翻譯,支持 28 種高頻次語(yǔ)言同聲傳譯。
目前輸入法市場(chǎng)格局形成了一超多強(qiáng)的局面,搜狗輸入法長(zhǎng)期保持市場(chǎng)第一,且不斷發(fā)展。百度輸入法借AI 之力奮起直追,訊飛等輸入法也在不斷差異化,努力加強(qiáng)個(gè)性化特色功能。在識(shí)別率方面,頭部廠商在語(yǔ)音識(shí)別準(zhǔn)確率上均達(dá)到 97% 以上的高水準(zhǔn),而百度和搜狗都擁有得天獨(dú)厚的龐大搜索數(shù)據(jù)庫(kù)為深度學(xué)習(xí)算法提供燃料,語(yǔ)音輸入用戶習(xí)慣的養(yǎng)成卻尚待時(shí)日,主打 AI 語(yǔ)音識(shí)別的訊飛,可能還需要再繼續(xù)探索其他差異化策略。
相關(guān)文章:
搜狗輸入法醫(yī)生版上線,解決醫(yī)生群體打字難問題
百度輸入法 8.0 版本上線,王海峰稱其是“百度 AI 的橋頭堡”
為iPhone X加點(diǎn)料,搜狗輸入法iOS新版上線
CNCC 2016 | 搜狗 CEO 王小川:輸入法的未來是自動(dòng)問答
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。