丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給張莉
發(fā)送

0

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破

本文作者: 張莉 2019-01-17 18:09
導(dǎo)語:百度輸入法AI探索版正式亮相,主打全語音輸入,并調(diào)動(dòng)表情、肢體等進(jìn)行全感官輸入。

一年前, All in AI 的百度在北京發(fā)布了百度 AI 輸入法,即百度輸入法的 8.0 版本。當(dāng)時(shí),百度特意將著名主持人、“中國好舌頭”華少請到了現(xiàn)場擔(dān)任主持,在華少的主持之下,百度高級(jí)副總裁王海峰、百度語音技術(shù)部負(fù)責(zé)人高亮以及百度中文輸入法負(fù)責(zé)人蔡玉婷悉數(shù)登場。王海峰向雷鋒網(wǎng)在內(nèi)的媒體表示:

"百度輸入法是百度 AI 技術(shù)應(yīng)用的橋頭堡,新的 AI 技術(shù)將會(huì)首先應(yīng)用在輸入法上,未來將會(huì)賦予更多 AI 能力,提升人機(jī)交互的體驗(yàn)。"

時(shí)隔一年之后,1月16日,百度輸入法在北京舉辦“AI·新輸入 全感官輸入2.0”發(fā)布會(huì),這次,百度請來的主持人變成了現(xiàn)象級(jí)網(wǎng)綜《吐槽大會(huì)》當(dāng)家主持張紹剛,經(jīng)過一年的打磨和發(fā)展,百度輸入法AI探索版正式亮相,據(jù)介紹, 這是一款默認(rèn)輸入方式為全語音輸入,并調(diào)動(dòng)表情、肢體等進(jìn)行全感官輸入的全新輸入產(chǎn)品。

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破

雷鋒網(wǎng)注:百度高級(jí)副總裁王海峰

同時(shí),在語音技術(shù)上,百度輸入法又取得了一項(xiàng)對(duì)全球?qū)W術(shù)界和工業(yè)界都具備重大意義的技術(shù)突破——流式截?cái)嗟亩鄬幼⒁饬#⊿MLTA)將在線語音識(shí)別精度提升了15%,并在世界范圍內(nèi)首次實(shí)現(xiàn)了基于 Attention 技術(shù)的在線語音識(shí)別服務(wù)大規(guī)模上線應(yīng)用。

發(fā)布會(huì)現(xiàn)場,百度高級(jí)副總裁王海峰再一次重申了百度輸入法是百度AI落地“橋頭堡”的戰(zhàn)略定位,也給出了輸入法行業(yè)的“未來畫像”,他認(rèn)為,雖然目前的輸入法產(chǎn)品主要應(yīng)用于手機(jī)端,但未來的輸入法將應(yīng)用于各種智能設(shè)備與用戶的交互,并走向世界,為全球用戶提供更多元的輸入方式。

據(jù)介紹,截至2018年底,百度輸入法月活躍人數(shù)已達(dá)5億,語音日請求量峰值突破5.5億,AR表情使用次數(shù)超過1億。同時(shí),百度海外輸入法全球安裝量超過1億,支持120種語言,覆蓋全球190個(gè)國家地區(qū),并已與超過100個(gè)全球知名IP達(dá)成合作。

概括來說,百度輸入法AI探索版功能創(chuàng)新共有三點(diǎn):新交互、新表達(dá)、新探索。

新交互:首次提出流式截?cái)嗟亩鄬幼⒁饬δP停⊿MLTA)

此次發(fā)布的百度輸入法 AI 探索版,是一款全語音交互的輸入法,其默認(rèn)輸入方式為語音輸入。

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破

雷鋒網(wǎng)注:百度語音技術(shù)部負(fù)責(zé)人 高亮

首先,在線語音識(shí)別領(lǐng)域:百度首次發(fā)布流式截?cái)喽鄬幼⒁饬#⊿MLTA),據(jù)介紹,這是中文在線語音識(shí)別歷史上的兩個(gè)重大突破:

  • 世界上首次實(shí)現(xiàn)了局部注意力建模識(shí)別精度超過全局注意力模型;

  • 世界上第一次大規(guī)模部署在線語音交互注意力模型。

語音領(lǐng)域 Attention 模型(注意力模型)的提出已有好幾年的時(shí)間,注意力模型的核心思想,是通過機(jī)器學(xué)習(xí)的方法,把一句話中每個(gè)音節(jié)或者漢字的音頻特征,從整句話的音頻特征中,通過機(jī)器學(xué)習(xí)的方法,自動(dòng)的挖掘出來。

其建模過程完全拋棄了傳統(tǒng)語音識(shí)別的狀態(tài)建模和按語音幀進(jìn)行解碼等傳統(tǒng)技術(shù)框架。直接實(shí)現(xiàn)了語音和文本一體化的端到端建模,從而成為公認(rèn)的有更高的建模精度的建模方法。

近幾年,不少專家和學(xué)者都在語音識(shí)別任務(wù)中嘗試了注意力模型,實(shí)驗(yàn)室環(huán)境下,相對(duì)于傳統(tǒng)技術(shù),也獲得到了一系列的提升。但是截止目前,注意力模型在在線語音服務(wù)中的大規(guī)模使用,一直鮮有成功案例。主要是因?yàn)檎Z音識(shí)別的注意力模型存在兩個(gè)問題:流式解碼的問題和長句建模的精度下降問題。

針對(duì)以上問題,百度語音技術(shù)團(tuán)隊(duì)提出了 SMLTA 模型(流式多級(jí)截?cái)嘧⒁饬δP?Streaming trancated multi-layer attention),這種建模方法的識(shí)別率不但超越了傳統(tǒng)的全局 Attention 建模,同時(shí)還能夠保持計(jì)算量、解碼速度等在線資源耗費(fèi)和傳統(tǒng)CTC模型持平。

據(jù)介紹,SMLTA模型是基于 CTC 的尖峰信息對(duì)語音流進(jìn)行截?cái)?,然后在每一截?cái)嗟恼Z音小段上進(jìn)行當(dāng)前建模單元的注意力建模。

SMLTA 把原來的全局的整句 Attention 建模,變成了局部語音小段的 Attention 的建模。同時(shí),為了克服 CTC 模型的不可避免的插入刪除錯(cuò)誤對(duì)系統(tǒng)造成的影響,該算法引入一種特殊的多級(jí) Attention 機(jī)制,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇。最終,這種建模方法的識(shí)別率不但超越了傳統(tǒng)的全局 Attention 建模,同時(shí)還能夠保持計(jì)算量、解碼速度等在線資源耗費(fèi)和傳統(tǒng) CTC 模型持平。

這一技術(shù)能夠解決傳統(tǒng) Attention 模型在識(shí)別中的時(shí)延性,以及因此導(dǎo)致的無法進(jìn)行大規(guī)模在線語音實(shí)時(shí)交互的問題,并將在線語音相對(duì)準(zhǔn)確率提升15%,百度輸入法在線語音相對(duì)準(zhǔn)確率依然好于最優(yōu)競品15%。

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破

迄今為止,百度語音識(shí)別模型經(jīng)歷了從 DNN、CNN、LSTM 和深度尖峰一代、二代的迭代再到最新的 SMLTA 模型迭代過程,至于這種演變過程所遵循的依據(jù)是什么,高亮在接受包括雷鋒網(wǎng)在內(nèi)的媒體采訪時(shí)表示:

迭代過程有一些路徑可循,最開始的時(shí)候我們用 RNN 做,然后過渡到 CNN,是因?yàn)?CNN 并行計(jì)算的能力特別強(qiáng)。到后來發(fā)現(xiàn),LSTM 的模型邏輯上對(duì)于我們已經(jīng)說出來的語音回溯性比較強(qiáng),因?yàn)樗幸欢ǖ挠洃浤芰?。后來引?CTC,更多的并不是說在模型上的改變,而是把代價(jià)函數(shù)變了。這樣的話,引入尖峰就會(huì)預(yù)測得更好。這次把這種局部流式的 Attention 又給引進(jìn)來,等于前后的 Correlation,也就是出來一個(gè)字以后,我再打一個(gè)字的話,根據(jù)前面輸入的字來預(yù)測后者出現(xiàn)哪個(gè)字的準(zhǔn)確度會(huì)進(jìn)一步增強(qiáng)。

其次,離線語音輸入領(lǐng)域:過去,離線語音與在線語音相比,準(zhǔn)確率相差懸殊,體驗(yàn)得不到根本解決。面對(duì)這一實(shí)際問題,百度語音技術(shù)團(tuán)隊(duì)優(yōu)化了輸入法上嵌入式識(shí)別的 deep peak2 系統(tǒng),大幅提升了離線語音識(shí)別準(zhǔn)確率。據(jù)介紹,目前百度輸入法「離線語音」輸入準(zhǔn)確率已高于行業(yè)平均水平35%。

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破


除此之外,百度輸入法還推出了「中英自由說」、「方言自由說」功能,前者可以實(shí)現(xiàn)在完全不影響中文語音輸入準(zhǔn)確率的情況下,高精準(zhǔn)的中英文混合語音識(shí)輸入;后者將普通話和六大方言融合成一個(gè)語音識(shí)別模型,實(shí)現(xiàn)了方言與方言、方言與普通話的混合語音輸入。

新表達(dá):表情、動(dòng)作成為輸入新方式

除了語音輸入,百度中文輸入法負(fù)責(zé)人蔡玉婷在現(xiàn)場還介紹了拍立活、秀場、表情秀社區(qū)等新玩法。

“拍立活”功能可以讓用戶通過自己的動(dòng)作“驅(qū)動(dòng)”偶像或?qū)櫸镒龀鱿嗤砬?;發(fā)布會(huì)現(xiàn)場,百度特意邀請來了網(wǎng)紅“發(fā)際線哥”演示了該項(xiàng)功能。

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破

“秀場”功能采取圖像分割技術(shù),配合360度全景動(dòng)態(tài)素材,可以將人物置身于虛擬場景,增加創(chuàng)作表情時(shí)的場景感,用戶提供了更加豐富、生活的表達(dá)方式。

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破

同時(shí),百度輸入法AI探索版開辟了“表情秀”社區(qū),用戶可以把自制好玩的AR表情直接分享到社區(qū),被點(diǎn)贊最多的表情制作者會(huì)被給予“表情帝”的封號(hào),并會(huì)階段性給予獎(jiǎng)勵(lì)。目前“表情秀”社區(qū)已經(jīng)有多個(gè)明星、網(wǎng)紅、以及民間高手入駐。

新探索:推出“凌空手寫”功能

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破

發(fā)布會(huì)現(xiàn)場,蔡玉婷介紹了一款百度自主研發(fā)推出的“炫酷”功能——凌空手寫。雷鋒網(wǎng)編輯現(xiàn)場觀察到,工作人員在沒有任何實(shí)體觸控點(diǎn)的空中用手指寫出了“凌空手寫”幾個(gè)字,接著,又將主持人張紹剛的名字也打了出來。

據(jù)介紹,凌空手寫是一種全新的文字識(shí)別技術(shù),區(qū)別于其它正在實(shí)驗(yàn)室中的類似技術(shù),它不需要特殊的手寫筆,也不需要類似深度攝像頭或多目攝像頭等硬件支持。只需要最普通的 RGB 攝像頭就可以完美支持。

凌空手寫采用雙神經(jīng)網(wǎng)絡(luò)模型的方案:一個(gè)是基于灰度圖的指尖跟蹤模型,另一個(gè)是基于多方向特征文字識(shí)別模型。

此外,研發(fā)團(tuán)隊(duì)發(fā)現(xiàn)鋸齒和連筆在三維空間的手寫識(shí)別中對(duì)識(shí)別率影響較大,于是對(duì)抗鋸齒和連筆消除算法進(jìn)行了大量優(yōu)化工作,在多種模型算法的共同加持下,保證了最終識(shí)別結(jié)果的連續(xù)及穩(wěn)定,整體上接近觸屏手寫方式的順滑、流暢,目前整體識(shí)別率已達(dá)到大規(guī)模應(yīng)用的要求。

目前,百度輸入法已經(jīng)與小天才/小尋手表達(dá)成了合作,會(huì)輸出“凌空手寫”能力給智能手表使用。百度輸入法AI探索版也增加了該功能,只需說出“小度小度,打開凌空手寫”就能開啟該功能。

百度海外輸入法:推出三大創(chuàng)新功能

百度AI輸入法邁入全感官輸入2.0時(shí)代,語音技術(shù)取得世界級(jí)突破

雷鋒網(wǎng)注:百度海外輸入法負(fù)責(zé)人 姜鋒

發(fā)布會(huì)現(xiàn)場,百度海外輸入法負(fù)責(zé)人姜鋒介紹了海外輸入法市場最新進(jìn)展和三大技術(shù)創(chuàng)新。

據(jù)介紹,截至目前,百度海外輸入法已經(jīng)擴(kuò)充到了120門語言,并在全球190多個(gè)國家和地區(qū)分發(fā)。近兩年,百度在語音技術(shù)上持續(xù)發(fā)力,陸續(xù)上線了日語、英語、印地語、印英混輸、西語識(shí)別等,并在日本、美國、印度、印尼、泰國、新加坡等地布局了本地團(tuán)隊(duì)?,F(xiàn)在全球安裝量達(dá)到一億,在美國GP商店輸入法品類排名第一。

百度海外輸入法圍繞海外市場痛點(diǎn)做出三大技術(shù)創(chuàng)新:

  • 智能語音:為了適應(yīng)某些國家語言混用的特點(diǎn),百度輸入法推出本地語言和英語混輸?shù)墓δ埽瑵M足各個(gè)國家日常交流需要。

  • 智能推薦:為了解決場景化的問題,百度海外輸入法提供智能推薦功能;除了在基礎(chǔ)輸入層面的技術(shù)突破,百度海外輸入法基于百度自然語言處理能力,在智能推薦上做了更多的探索,比如表情預(yù)測。

  • 智能表情:百度海外輸入法基于人臉識(shí)別技術(shù)為海外的安卓手機(jī)用戶提供3D AR表情功能。

同時(shí),百度海外輸入法與 hello kitty、懶蛋蛋、輕松熊、LT DUCK、工作細(xì)胞血小板、雙子星、格林奇、大黃蜂等超過100個(gè)知名 IP 進(jìn)行了合作。

雷鋒網(wǎng)總結(jié)

2018年以來,三大輸入法都紛紛打出了AI牌——王海峰前面提到,百度輸入法是百度 AI 技術(shù)應(yīng)用的橋頭堡,新的 AI 技術(shù)將會(huì)首先應(yīng)用在輸入法上;搜狗 CEO 王小川也表示將 AI 賦能升級(jí)輸入法列為搜狗 2018 年度 AI 戰(zhàn)略之一,并且輸入法不止可以打字,還將承載信息獲取和流量分發(fā);科大訊飛最新發(fā)布的輸入法版本也主打AI語音輸入。

語音交互目前已經(jīng)被行業(yè)內(nèi)普遍視為下一個(gè)互聯(lián)網(wǎng)超級(jí)入口,而輸入法又具備高頻次、強(qiáng)導(dǎo)流、全場景使用的產(chǎn)品優(yōu)勢,AI語音輸入,顯然已經(jīng)成為頭部廠商對(duì)決博弈的新戰(zhàn)場,雷鋒網(wǎng)曾經(jīng)在《輸入法都打AI牌的年代,訊飛的先發(fā)優(yōu)勢還在不在?》一文中提到過,目前輸入法市場格局形成了一超多強(qiáng)的局面,搜狗輸入法目前市場份額位列第一;百度輸入法借AI之力奮起直追;訊飛等輸入法也在不斷差異化,努力加強(qiáng)個(gè)性化特色功能。

目前來看,百度發(fā)布的新語音識(shí)別模型在技術(shù)上取得了非常大的突破,而其推出的各種好玩炫酷的個(gè)性化功能也有利于俘獲90后、00后等年輕一代用戶的喜愛,但搜狗和訊飛在語音識(shí)別領(lǐng)域的積累、在整體輸入法和語音輸入市場占有率方面的優(yōu)勢也對(duì)百度輸入法造成了強(qiáng)有力的競爭,未來的市場格局如何,仍需市場進(jìn)一步檢驗(yàn)。

相關(guān)文章:

百度輸入法 8.0 版本上線,王海峰稱其是“百度 AI 的橋頭堡”

在輸入法都打 AI 牌的年代,訊飛的先發(fā)優(yōu)勢還在不在?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

主筆

本人微信:15010591263
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說