丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給周翔
發(fā)送

0

專訪訊飛王士進(jìn):從底層AI技術(shù)解析 ,智能音箱是個(gè)偽命題嗎?

本文作者: 周翔 編輯:劉芳平 2017-05-20 11:00
導(dǎo)語:看完這篇文章后,你會(huì)了解到,在AI領(lǐng)域,科大訊飛到底做了些什么?他們對(duì)整個(gè)行業(yè)又有著怎樣的看法?

2010年10月28日,訊飛語音輸入法發(fā)布,當(dāng)時(shí),還沒有微信。6年之后,著名“相聲演員”羅永浩在錘子M1的發(fā)布會(huì)上展示了這款輸入法,這次,訊飛以一種意想不到的方式刷爆了朋友圈。

雖然訊飛在2014年的時(shí)候推出“超腦計(jì)劃”,開始全面布局AI的各個(gè)領(lǐng)域。但是,這家成立于1999年、市值超400億的公司如今在很多人看來,依然只是一家做“語音輸入法”的公司。

科大訊飛在AI領(lǐng)域有哪些布局?

怎樣看待語音助手?

如何繼續(xù)提高語音識(shí)別的準(zhǔn)確率?

智能音箱是個(gè)偽命題嗎?會(huì)成為智能家居的中心嗎?

如何評(píng)價(jià)亞馬遜的Echo Show?

機(jī)器轉(zhuǎn)錄為何依然難用?

技術(shù)與BAT相比如何?

......

帶著這些疑問,雷鋒網(wǎng)采訪了科大訊飛研究院副院長(zhǎng)王士進(jìn)。在看完這篇文章后,你會(huì)了解到,在AI領(lǐng)域,科大訊飛到底做了些什么?他們對(duì)整個(gè)行業(yè)又有著怎樣的看法?

專訪訊飛王士進(jìn):從底層AI技術(shù)解析 ,智能音箱是個(gè)偽命題嗎?

王士進(jìn):博士,科大訊飛北京研究院院長(zhǎng),兼科大訊飛研究院副院長(zhǎng)。2003年本科畢業(yè)于中國(guó)科技大學(xué),2008年博士畢業(yè)于中科院自動(dòng)化所,長(zhǎng)期從事語音、語言、人工智能方向研究,主持的語音評(píng)測(cè)技術(shù)國(guó)內(nèi)首次應(yīng)用大規(guī)模英語口語考試,主持的機(jī)器翻譯曾兩次獲國(guó)際比賽第一名。作為主要負(fù)責(zé)人參加了863計(jì)劃重點(diǎn)項(xiàng)目、工信部電子信息產(chǎn)業(yè)發(fā)展基金項(xiàng)目等項(xiàng)目,在相關(guān)國(guó)際會(huì)議和期刊上有多篇學(xué)術(shù)論文,擁有十幾項(xiàng)專利和軟件著作權(quán)。

雷鋒網(wǎng)對(duì)采訪全文做了不改變?cè)獾膭h減:

一、語音識(shí)別和自然語言處理

語音識(shí)別

雷鋒網(wǎng):科大訊飛在語音識(shí)別方面有什么進(jìn)展?

王士進(jìn):語音合成方面,我們從去年年底開始發(fā)力,利用深度學(xué)習(xí)的方法實(shí)現(xiàn)了新一代的合成系統(tǒng)?,F(xiàn)在,只需要目標(biāo)用戶半個(gè)小時(shí)到一個(gè)小時(shí)左右的錄音,就可以合成這個(gè)人的聲音,并且自然度非常高。

語音識(shí)別方面,訊飛正面向IOT領(lǐng)域積極拓展。在IOT時(shí)代,面向復(fù)雜場(chǎng)景的語音識(shí)別是一個(gè)非常重要的點(diǎn)。我們?cè)诔掷m(xù)優(yōu)化車載環(huán)境、家居環(huán)境里面語音識(shí)別效果。

同時(shí),“訊飛聽見”系統(tǒng)里面向?qū)崟r(shí)會(huì)議和演講同傳的效果也有了更進(jìn)一步的升級(jí)。第一個(gè)就是轉(zhuǎn)寫的準(zhǔn)確率在持續(xù)提升,第二個(gè),我們會(huì)結(jié)合訊飛口語翻譯的技術(shù),實(shí)現(xiàn)會(huì)場(chǎng)演講的多語種同傳。

雷鋒網(wǎng):訊飛語音識(shí)別的準(zhǔn)確率已經(jīng)做到什么程度了?

王士進(jìn):語音識(shí)別準(zhǔn)確率跟場(chǎng)景和任務(wù)的關(guān)系非常大。如果說具體的數(shù)字,其實(shí)可能并不太客觀,比如在手機(jī)APP的場(chǎng)景里面,我們可以實(shí)現(xiàn)97%的準(zhǔn)確率。像會(huì)議速錄這種場(chǎng)景,我們也能達(dá)到95%的準(zhǔn)確率。

雷鋒網(wǎng):如何再繼續(xù)提升?

王士進(jìn):要解決這個(gè)問題,我覺得可能取決于以下幾點(diǎn):

第一點(diǎn),從語音模型建模的角度來說,怎么使得模型更精確?一方面是數(shù)據(jù),一方面是模型算法。所以我們還在持續(xù)迭代中,原來我們只使用有監(jiān)督的數(shù)據(jù),相當(dāng)于是人工標(biāo)注的數(shù)據(jù),這塊數(shù)據(jù)始終是有限的,現(xiàn)在我們?cè)诳紤]怎么使用大量無監(jiān)督的數(shù)據(jù)去輔助有監(jiān)督的數(shù)據(jù),使得這種模型更加精確。

第二點(diǎn),從語言和語義出發(fā)。比如有一些識(shí)別錯(cuò)誤,我們?nèi)艘谎劬椭肋@個(gè)地方是錯(cuò)的,錯(cuò)在什么地方。所以我們現(xiàn)在希望把自然語言處理技術(shù)和領(lǐng)域知識(shí)相結(jié)合。比如說,如果提前知道這是一個(gè)教育相關(guān)的會(huì)議,那么怎樣結(jié)合跟教育領(lǐng)域相關(guān)的知識(shí),使得語音識(shí)別的一些錯(cuò)誤可以通過知識(shí)和模型進(jìn)行修正。

自然語言處理

雷鋒網(wǎng):自然語言處理(NLP)這一塊呢?

王士進(jìn):NLP方面,訊飛從2014年開始提出“訊飛超腦計(jì)劃”,同時(shí)我們?cè)?015年承擔(dān)科技部863的高考類人答題項(xiàng)目。在NLP這塊,我們主要在做包括語言理解、知識(shí)表達(dá)、聯(lián)想推理、以及自主學(xué)習(xí)方面的相關(guān)工作。

在NLP里面,其中一個(gè)工作是關(guān)于知識(shí)的構(gòu)建和表示,我們參加了NIST KBP的比賽并獲得了第一名,第二個(gè)工作是現(xiàn)在業(yè)界認(rèn)為比較難的常識(shí)表示,我們提出了深度聯(lián)想模型,并參加了第一屆winograd比賽,獲得了第一名。

第三個(gè)工作:知識(shí)圖譜構(gòu)建以后,如何為精準(zhǔn)的問答去做幫助?我們最近在做一個(gè)非常重要的課題,叫機(jī)器閱讀理解,給定一篇或者幾篇文章,對(duì)于這里面的任何一個(gè)問題,機(jī)器要能夠給出精準(zhǔn)的問答。

以上是我們?cè)谧匀徽Z言技術(shù)上面做的一些工作。

雷鋒網(wǎng):自然語言處理這塊,您覺得它主要的難點(diǎn)是什么?

王士進(jìn):自然語言最大的處理難點(diǎn)就是來自于它的歧義,怎么去消除歧義,在于如何引入知識(shí)和表示知識(shí),這塊是我們正在積極探索的。

雷鋒網(wǎng):會(huì)采用哪些最新的技術(shù)去解決這些問題?

王士進(jìn):技術(shù)的話主要是以下幾點(diǎn):

  • 第一點(diǎn)就是語言的深度語義表示。以前我們?cè)谧匀徽Z言處理時(shí)經(jīng)常用到詞表,通過詞表去區(qū)分不同的詞和語義。原來離散表示最大的問題就在于詞跟詞之間的語義它會(huì)表示不出來,現(xiàn)在通過深度學(xué)習(xí)產(chǎn)生的Word Embedding,其實(shí)上就是語義矢量,能更好的表示詞,這是現(xiàn)在NLP中一個(gè)核心的技術(shù)。

  • 在獲得語義矢量之后,可以更精準(zhǔn)的去做知識(shí)的表示、推理等任務(wù)。比如,我們?cè)瓉淼耐评砥鋵?shí)更多是符號(hào)層面的一些推理。符號(hào)層面的推理有一個(gè)非常大的問題:由于歧義和知識(shí)沒辦法表達(dá),所以說這種推理總是有限的。但是我們現(xiàn)在用深度語義,使得這個(gè)問題有了被解決的可能。語義矢量表示為基礎(chǔ)的自然語言處理框架,使得NLP領(lǐng)域很有可能會(huì)實(shí)現(xiàn)非常大的一個(gè)突破。

語音助手

雷鋒網(wǎng):科大訊飛的語音助手做的怎么樣?

王士進(jìn):訊飛在四年前就開始布局語音助手,和咪咕數(shù)媒一起推出的咪咕靈犀經(jīng)過幾年的發(fā)展已經(jīng)在本土語音助手排名第一(注:易觀國(guó)際數(shù)據(jù)),并且訊飛有非常大的一個(gè)團(tuán)隊(duì)在做人機(jī)交互,也就是我們的AIUI系統(tǒng)。我們認(rèn)為這里面需要有幾個(gè)核心功能:

第一個(gè)核心功能跟語音識(shí)別效果相關(guān)。我們?cè)谥悄芗揖拥沫h(huán)境里,在車載的環(huán)境里,在其他很多的場(chǎng)景里都在持續(xù)優(yōu)化語音識(shí)別的能力。

第二個(gè)就是語義糾錯(cuò)和語義理解功能。語音識(shí)別變成文字這只是第一步,第二步是怎樣結(jié)合知識(shí)、常識(shí),怎樣結(jié)合上下文,去對(duì)用戶的內(nèi)容作出更精確的理解,并對(duì)錯(cuò)誤進(jìn)行糾正。

但是這里目前有一個(gè)悖論,因?yàn)閺挠脩舻慕嵌葋碚f,他們希望的是一個(gè)無所不能的助手,但是從現(xiàn)代技術(shù)的角度來看,我們?cè)谝恍┐怪钡念I(lǐng)域和場(chǎng)景才能做到實(shí)用。

第三個(gè)就是多輪對(duì)話。多輪對(duì)話其實(shí)更多地也是結(jié)合上下文和垂直場(chǎng)景,以此在垂直場(chǎng)景里面打造完全一個(gè)可以更智能的助手。

雷鋒網(wǎng):做語音助手的難點(diǎn)在哪兒?怎樣看待其他的語音助手?

王士進(jìn):首先語音助手從提出理念到現(xiàn)在,其實(shí)已經(jīng)經(jīng)過了幾代。

最早第一代是以功能性為主,比如說撥打電話,發(fā)短信,類似這樣的一些基礎(chǔ)功能。大家發(fā)現(xiàn),這里面可能還會(huì)有一些問題,它并不是人用手機(jī)的剛需,因?yàn)闊o論是電話也好,短信也好,基本上用觸控的方式已經(jīng)很方便了,特別是蘋果手機(jī)出來了以后,所以說它不是一個(gè)剛需。

再者,當(dāng)時(shí)那個(gè)年代,語音交互并不是一個(gè)普遍被接受的模式,我們很少看到有人用,因?yàn)榇蠹铱傆X得語音是一個(gè)相對(duì)比較私密的事情,所以很少有人在公共場(chǎng)合下面去用語音跟機(jī)器做交互。

第二代,包括訊飛在內(nèi),很多語音助手都引入了閑聊,后續(xù)的微軟小冰等采取的其實(shí)也是這樣的策略,使得很多人愿意去調(diào)戲語音助手,這個(gè)概念也火了一段時(shí)間。雖然里面也有一些簡(jiǎn)單的知識(shí)問答,但更多的是以閑聊為主。 

現(xiàn)在則是第三代,經(jīng)過前兩輪的思考以后,用戶對(duì)語音助手有什么樣的期望呢?我們認(rèn)為,在語音識(shí)別、視覺識(shí)別準(zhǔn)確率已經(jīng)這么高的情況下,現(xiàn)在的語音助手可以以任務(wù)為中心,協(xié)助人在一些垂直場(chǎng)景里面,去做一些更真實(shí)的應(yīng)用。

我們AIUI系統(tǒng)的多輪對(duì)話,其實(shí)也是想圍繞任務(wù)為中心,通過這種多輪的人機(jī)交互的形式,無論是人還是機(jī)器發(fā)起,滿足用戶的一些真實(shí)需求。

雷鋒網(wǎng):以任務(wù)為中心的,像一個(gè)個(gè)APP那樣?

王士進(jìn):對(duì),類似于一個(gè)APP的功能。亞馬遜的Echo為什么這么火?因?yàn)閬嗰R遜把垂直領(lǐng)域擴(kuò)展的功能開放出來了,APP開發(fā)商、服務(wù)廠家能夠定制自己的服務(wù),使得亞馬遜這個(gè)龐大的平臺(tái)可以承載越來越多的功能,所以我覺得這是大家都非常認(rèn)可的最核心的一點(diǎn)。

雷鋒網(wǎng):訊飛在車載語音助手方面的進(jìn)展如何呢?難點(diǎn)在哪?

王士進(jìn):車載這塊訊飛進(jìn)入的更早,因?yàn)檐囕d離產(chǎn)業(yè)更近一點(diǎn),這種交互方式也更剛需一點(diǎn)。

車載方面,訊飛主要側(cè)重兩點(diǎn):

  • 第一點(diǎn),識(shí)別效果,在車載情況下,怎么把語音識(shí)別做好。車載噪聲太大,包括風(fēng)噪、胎噪等,對(duì)識(shí)別會(huì)造成很大的影響。

  • 第二點(diǎn),怎樣在車載的幾個(gè)垂直場(chǎng)景下把交互做到好用?包括導(dǎo)航、音樂等幾個(gè)主要的功能。其實(shí),更多的還是面向車載里面的幾個(gè)主要應(yīng)用場(chǎng)景做優(yōu)化。

智能音箱

雷鋒網(wǎng):有人認(rèn)為智能音箱在中國(guó)其實(shí)是個(gè)偽命題,您覺得它的前景如何?

王士進(jìn):我認(rèn)為帶引號(hào)的智能音箱一定是剛需,什么意思呢?將來智能家居一定會(huì)有一個(gè)中控來解決這個(gè)問題,但是不是音箱,是不是不帶屏幕的音箱?這個(gè)還不好說。現(xiàn)在業(yè)內(nèi)也并沒有一致的意見,如果有一致意見的話,也就不會(huì)有各種形態(tài)的類似產(chǎn)品推出來了。

雷鋒網(wǎng):智能音箱會(huì)成為智能家居的中心嗎?

王士進(jìn):其實(shí)這個(gè)事情大家都不太好判斷,大家首先覺得將來家居一定會(huì)有一個(gè)中控系統(tǒng)對(duì)吧?這個(gè)中控系統(tǒng)可能有幾種類型。

一種就是現(xiàn)在大家所說的以音箱為中心,至少現(xiàn)在很多廠家都已經(jīng)在做這一方面的東西了。還有一種可能是以彩電為中心,它也有一個(gè)好處,除了語音交互,它還有視覺的交互。也有人認(rèn)為,家庭智能網(wǎng)關(guān)是交互的中心,因?yàn)榧依锼杏布ヂ?lián)可能都要通過一個(gè)網(wǎng)關(guān)。

但我覺得這個(gè)可能更多是讓用戶和市場(chǎng)進(jìn)行選擇,不管是哪種類型的設(shè)備,大家都覺得使用便捷的人機(jī)交互做承載是一個(gè)趨勢(shì)。

雷鋒網(wǎng):亞馬遜的Alexa Skills是一個(gè)趨勢(shì)嗎?訊飛未來會(huì)不會(huì)做自己的技能商店?

王士進(jìn):Alexa的技能商店從長(zhǎng)遠(yuǎn)來看是一個(gè)趨勢(shì),訊飛現(xiàn)在通過訊飛開放云,把我們的能力開放出來,通過眾多的合作伙伴去構(gòu)建這種技能商店。

在智能家居場(chǎng)景中,可能大家都在各個(gè)垂直領(lǐng)域去做各種類型的嘗試,因?yàn)楝F(xiàn)在的技術(shù)沒辦法做成通用的服務(wù)。通過一段時(shí)間技術(shù)和資源的沉淀之后,我們可以提供更通用的服務(wù),構(gòu)建一個(gè)更好的生態(tài)。

雷鋒網(wǎng):帶觸控屏的Echo Show會(huì)是未來的一個(gè)趨勢(shì)呢?其他廠商會(huì)跟隨嗎?

王士進(jìn):其實(shí)我覺得這個(gè)也并不一定。從屏幕趨勢(shì)來講,我認(rèn)為有兩個(gè)趨勢(shì),

  • 第一個(gè)趨勢(shì)就是所有的設(shè)備可以把屏投到家電的大屏上去,而不一定要在Echo上面做一個(gè)多大的屏幕,家里存在很多有屏設(shè)備。

  • 第二,在無屏的場(chǎng)景,我們也可以通過VR/AR等技術(shù)來展示內(nèi)容。

機(jī)器轉(zhuǎn)錄

雷鋒網(wǎng):機(jī)器轉(zhuǎn)錄跟人工轉(zhuǎn)錄的差別還是很大的,為什么會(huì)出現(xiàn)這樣的情況?它的難點(diǎn)在哪兒?如何解決?

王士進(jìn):語音識(shí)別有傳統(tǒng)的兩個(gè)分類,一個(gè)是聽寫,一個(gè)是轉(zhuǎn)寫。

聽寫很簡(jiǎn)單,因?yàn)椋爩懙臅r(shí)候)我知道是在跟機(jī)器溝通,所以無論是講話的語速,講話的流暢程度,還是語言表述方式,我都會(huì)去配合機(jī)器?,F(xiàn)在大家號(hào)稱語音識(shí)別的準(zhǔn)確率在95%以上的,基本上都是在這種場(chǎng)景下,因?yàn)槿藭?huì)去配合機(jī)器。

但現(xiàn)實(shí)中其實(shí)更多的是正常交流這種場(chǎng)景,這里面會(huì)有哪些比較大的問題呢?首先,噪聲是比較大的問題。其次,一些方言的夾雜,甚至多語種的夾雜,比如很多人在講中文的時(shí)候會(huì)講英文,這也一個(gè)問題。

除此之外,還有不流利的現(xiàn)象存在。一個(gè)相當(dāng)于讀新聞,一個(gè)是口語交流,兩者不太一樣。其實(shí)我們?nèi)烁酥g交流,有些東西要用到語意和上下文的信息,才能夠使理解更加準(zhǔn)確。

由于這幾種類型問題的存在,使得機(jī)器在轉(zhuǎn)寫的時(shí)候,效果跟聽寫會(huì)有一些比較大的差距,而且最早的時(shí)候差距是非常大的。所以說大家可以看到,其實(shí)語音識(shí)別最早在聽寫里邊應(yīng)用的比較好。但是在轉(zhuǎn)寫里面,之前一直沒有廠家敢做這方面的嘗試,這塊我們訊飛也是在2015年的時(shí)候,大幅提升了這個(gè)技術(shù)的水平。

那會(huì)兒我們把識(shí)別率能夠做到接近90%左右,90%基本上大家就能看。但是,90%距離我們真正最后轉(zhuǎn)寫,還有10%。10%感覺好象比較少,但其實(shí)仍然有很大的影響。

現(xiàn)在這種使用人機(jī)輔助的場(chǎng)景,已經(jīng)比之前的那個(gè)好很多了,我們現(xiàn)在能做到95%左右的水平,可以讓人更高效地錄入信息。

雷鋒網(wǎng):機(jī)器轉(zhuǎn)錄未來能夠完全取代速記員嗎?

王士進(jìn):從長(zhǎng)期來看,無論是語音識(shí)別也好,機(jī)器識(shí)別也好,它都是概率體系。概率體系下,它要完全取代人,從目前來看,這里面可能是有些困難問題的。

我們跟行業(yè)結(jié)合,也做了各種各樣的東西,我們希望它跟人可以形成一個(gè)有效的人機(jī)協(xié)同,使得人可以更高效的完成某項(xiàng)工作。

機(jī)器翻譯

雷鋒網(wǎng):訊飛的機(jī)器翻譯和谷歌翻譯相比如何?

王士進(jìn):訊飛主要是著重把自己的機(jī)器翻譯的能力跟語音識(shí)別的能力綁定的比較深,所以我們主要是側(cè)重于口語翻譯,包括我們?nèi)粘=涣?、出?guó)旅游的場(chǎng)景,還有會(huì)議轉(zhuǎn)錄的場(chǎng)景。在這些場(chǎng)景下,我們的效果比谷歌要好很多。谷歌最擅長(zhǎng)的是把一種語言的能力擴(kuò)展成非常多的語言能力上面去。

訊飛翻譯支持的語言其實(shí)并不太多,所以我們要做一個(gè)語言翻譯,就會(huì)想在一個(gè)語言上把它做好。所以在同樣的數(shù)據(jù)下,理論上我們的效果一定會(huì)比谷歌強(qiáng)。

雷鋒網(wǎng):機(jī)器翻譯準(zhǔn)確率提升的難點(diǎn)在哪兒?未來有可能完全取代人工翻譯嗎?

王士進(jìn):翻譯涉及到語言和語義,難度比識(shí)別會(huì)更大一點(diǎn),比如翻譯一個(gè)句子,不同的上下文可能使得整個(gè)句子的表述都不太一樣。

從這個(gè)翻譯技術(shù)上來講,雖然說大家用了很多神經(jīng)網(wǎng)絡(luò)相關(guān)的技術(shù),但其實(shí)語義理解的并不是那么深刻的?,F(xiàn)在主流的是end-to-end技術(shù),它本身就是一個(gè)黑箱技術(shù),通過大量數(shù)據(jù)的學(xué)習(xí)實(shí)現(xiàn)翻譯的能力。

從精度上來看是有一些提升,在大部分場(chǎng)景里面,可能已經(jīng)滿足了大部分用戶的需求,比如你要去國(guó)外做一些簡(jiǎn)單的溝通,只要是非商務(wù)的,用現(xiàn)在口譯軟件,基本也能解決問題了。但是怎樣做更精準(zhǔn)的回答,怎樣做到雅,目前來說,技術(shù)上還存在一些困難的。

雷鋒網(wǎng):未來有什么提升的辦法?

王士進(jìn):還在探索的階段,比如有些人在研究通過深度學(xué)習(xí)構(gòu)建更精準(zhǔn)的語義表示,有些人研究更準(zhǔn)確的翻譯模型,還有人研究深度學(xué)習(xí)模型跟傳統(tǒng)知識(shí)模型的結(jié)合等。

機(jī)器口語評(píng)分

雷鋒網(wǎng):對(duì)英語口語評(píng)分的產(chǎn)品做的怎么樣了?

王士進(jìn):訊飛的口語評(píng)測(cè)已經(jīng)產(chǎn)品化了。我們最早是從2009年開始研究口語評(píng)測(cè),像朗讀、或者讀單詞,讀句子、讀篇章這種類型的封閉式體型,是比較好評(píng)的。最關(guān)鍵就是看音準(zhǔn)好不好?有沒有讀?然后從這個(gè)封閉式題型擴(kuò)展到開放式題型,設(shè)立很多自然語言相關(guān)的技術(shù),使用這些技術(shù)機(jī)器去做主觀題型的自動(dòng)評(píng)分。

我們現(xiàn)在口語的自動(dòng)評(píng)分技術(shù),在廣東省的高考、江蘇的中考以及全國(guó)多個(gè)省市地區(qū)的英語口語考試都有應(yīng)用。

雷鋒網(wǎng):怎樣實(shí)現(xiàn)對(duì)英語口語考試進(jìn)行評(píng)分?

王士進(jìn):這個(gè)分封閉式題型和開放式題型。對(duì)于封閉式題型,機(jī)器主要提取口語的幾個(gè)主要特征,包括完整度、發(fā)音準(zhǔn)確度、流利度、韻律等,然后使用學(xué)習(xí)到的參數(shù)去進(jìn)行評(píng)分。對(duì)于開放式題型(主觀題),除了剛提到的那些特征,機(jī)器還要去學(xué)習(xí)評(píng)分專家的語義知識(shí)。 機(jī)器會(huì)要求專家一起先確定一下評(píng)分標(biāo)準(zhǔn),同時(shí)按照這個(gè)標(biāo)準(zhǔn)可能要試評(píng)標(biāo)桿卷,然后機(jī)器就從這里面去學(xué)習(xí)人是怎么評(píng)分的。

我們知道不同的考試評(píng)分標(biāo)準(zhǔn)是不太一樣的。機(jī)器會(huì)自動(dòng)學(xué)習(xí)優(yōu)秀老師對(duì)這些標(biāo)桿卷的評(píng)分,從而形成評(píng)分的標(biāo)準(zhǔn)模型,然后拿這個(gè)評(píng)分模型對(duì)剩下的試卷進(jìn)行評(píng)分。

雷鋒網(wǎng):判斷用戶的發(fā)音是不是標(biāo)準(zhǔn),給出發(fā)音建議,訊飛用了什么技術(shù)?

王士進(jìn):關(guān)于語音是否標(biāo)準(zhǔn),訊飛在最早做漢語水平等級(jí)測(cè)試的時(shí)候就已經(jīng)開始研究,這個(gè)技術(shù)叫CALL(注:Computer-assisted language learning,計(jì)算機(jī)輔助口語學(xué)習(xí) ,核心是發(fā)音評(píng)測(cè)技術(shù)),訊飛在漢語和英語的評(píng)分上做了很多研究工作,包括判斷發(fā)音是否準(zhǔn)確、是否流利、韻律是否準(zhǔn)確等。

二、計(jì)算機(jī)視覺

雷鋒網(wǎng):訊飛從什么時(shí)候開始做計(jì)算機(jī)視覺的,為什么會(huì)做計(jì)算機(jī)視覺?

王士進(jìn):應(yīng)該是從2010年左右開始做的?,F(xiàn)在在深度學(xué)習(xí)發(fā)展起來后,語音所要用到的底層的技術(shù)和圖像所要用到的底層技術(shù),可以說是非常接近的。為了完善訊飛整個(gè)感知智能系統(tǒng),同時(shí)也因?yàn)闃I(yè)務(wù)的需求,訊飛開始做機(jī)器視覺,主要研究?jī)?nèi)容包括人臉識(shí)別和醫(yī)學(xué)圖像處理。

雷鋒網(wǎng):語音和視覺,得哪個(gè)更有前景一些??jī)烧呶磥砟芊窠Y(jié)合起來?

王士進(jìn):首先從前景來說,兩個(gè)的市場(chǎng)都特別大。從結(jié)合上來說,可結(jié)合的地方很多,比如說我們所謂的智能安防里面,怎么去結(jié)合人臉識(shí)別和語音識(shí)別共同去做各種類型的檢測(cè)。身份認(rèn)證方面,也有基于人臉和聲紋的共同的身份認(rèn)證。

雷鋒網(wǎng):訊飛在醫(yī)療領(lǐng)域有做了哪些工作?

王士進(jìn):訊飛在智能醫(yī)療這塊主要有三條路:

  • 第一條路就是通過智能語音方便醫(yī)生實(shí)現(xiàn)電子病例的錄入;

  • 第二條路就是基于視覺的輔助讀片;

  • 第三個(gè)是基于醫(yī)療認(rèn)知協(xié)助醫(yī)生做輔助診療,有點(diǎn)像IBM的沃森。

此外,我們還做了醫(yī)考機(jī)器人,會(huì)閱讀大量醫(yī)學(xué)的知識(shí),包括醫(yī)生診療的方案,以及大量的醫(yī)學(xué)書籍,從而形成一個(gè)相當(dāng)于是醫(yī)療認(rèn)知的大腦,這樣就可以針對(duì)病情自動(dòng)形成一些治療的方案。

雷鋒網(wǎng):在醫(yī)療領(lǐng)域遇到了哪些困難?

王士進(jìn):目前做智慧醫(yī)療,最大的問題可能來自于數(shù)據(jù),也就是電子病例。第一,醫(yī)療數(shù)據(jù)更隱私,怎么合理、合法地采集和獲取到這些數(shù)據(jù),目前來說還是有困難的。第二,醫(yī)療數(shù)據(jù)像一個(gè)個(gè)孤島,沒有連接起來,其實(shí)這也跟隱私有關(guān)系,不同的醫(yī)院之間,可能會(huì)存在信息孤島,一般不會(huì)打通。

三、未來突破和應(yīng)用

雷鋒網(wǎng):跟谷歌、亞馬遜、BAT等巨頭相比,訊飛的人工智能技術(shù)如何?

王士進(jìn):總體來看,各公司都是圍繞自己優(yōu)勢(shì)的業(yè)務(wù)領(lǐng)域布局人工智能,我覺得訊飛相比于谷歌等巨頭:

  • 第一點(diǎn),訊飛其實(shí)在很多相關(guān)的業(yè)務(wù)廠家里面,相對(duì)做的更深一些;

  • 第二點(diǎn),因?yàn)橛嶏w在行業(yè)里面扎的比較深,而且更懂行業(yè),所以訊飛能夠把這個(gè)技術(shù)組合用好,為行業(yè)提供完整的一個(gè)解決方案。

比如一些互聯(lián)網(wǎng)公司,它們可能更多的是提供一些通用的基礎(chǔ)的產(chǎn)品和技術(shù),類似于搭積木,有可能用上這個(gè)積木以后,在行業(yè)也有不錯(cuò)的效果,但是訊飛專注做相關(guān)場(chǎng)景,所以我們是希望在每個(gè)應(yīng)用場(chǎng)景里面,能夠把效果做到極致。

雷鋒網(wǎng):最近有沒有用到什么最新的技術(shù)或者算法?

王士進(jìn):目前比較新的一些,我覺得可能是以下幾點(diǎn):

  • 第一點(diǎn)實(shí)際上是對(duì)一些傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型(包括RNN、CNN)的持續(xù)優(yōu)化。

  • 第二點(diǎn)就是無監(jiān)督的學(xué)習(xí),包括剛才提到的GAN相關(guān)的東西,以及基于GAN各種擴(kuò)展的算法,這個(gè)其實(shí)用的還是蠻多的。

雷鋒網(wǎng):未來還有哪些突破的點(diǎn)?

王士進(jìn):我個(gè)人覺得是兩點(diǎn):

  • 第一點(diǎn),到了IOT時(shí)代以后,這種交互場(chǎng)景一定是更復(fù)雜的,在這種復(fù)雜情況下,怎樣做到更好的語音識(shí)別?我們認(rèn)為,未來需要軟硬件結(jié)合的整體解決方案。如果只通過軟件的話,它的很多的信號(hào)疊加以后,噪聲就已經(jīng)形成了,就沒辦法了。如果通過這種硬件,比如說麥克風(fēng)陣列或者其他一些方法的話,就可以在信號(hào)層面可以做更多的一些處理,有可能會(huì)使語音識(shí)別效果更好。

  • 第二點(diǎn),因?yàn)楝F(xiàn)在自然語言處理技術(shù),本身也在突飛猛進(jìn),怎樣使用更多自然語言的技術(shù)去協(xié)助做好語言理解,這個(gè)應(yīng)該也是一個(gè)突破點(diǎn)。比如我們一個(gè)個(gè)領(lǐng)域,或者一個(gè)個(gè)垂直場(chǎng)景,逐個(gè)突破,從而慢慢形成知識(shí)的積累,使得機(jī)器未來有可能與更多的、更通用的場(chǎng)景做結(jié)合。

同時(shí),怎樣圍繞不同行業(yè)的特點(diǎn)去形成一個(gè)整體解決方案,并且能夠解決真正的問題,我覺得這也是下一個(gè)階段要做的一個(gè)重點(diǎn)。

雷鋒網(wǎng):未來人工智能有哪些落地場(chǎng)景?

王士進(jìn):從行業(yè)和產(chǎn)品結(jié)合來說,我們認(rèn)為人工智能,其實(shí)有兩大落地的場(chǎng)景:

  • 第一個(gè)就是使用語音技術(shù)和自然語言的技術(shù),使得我們?nèi)藱C(jī)的溝通更便捷,可以實(shí)現(xiàn)接近人與人之間的溝通效果?,F(xiàn)在的智能家居、車載、手機(jī)交互都是這類場(chǎng)景。

  • 第二個(gè)就是使用將語音技術(shù)、圖像技術(shù)、自然語言的技術(shù)組合起來,跟行業(yè)進(jìn)行深度的結(jié)合,學(xué)習(xí)行業(yè)領(lǐng)域的專家知識(shí),來解決行業(yè)里面一些經(jīng)典的問題。

比如說教育領(lǐng)域,就可以采用認(rèn)知智能技術(shù),使得它可以學(xué)習(xí)優(yōu)秀老師的評(píng)分經(jīng)驗(yàn),可以對(duì)主觀題進(jìn)行自動(dòng)評(píng)價(jià),可以對(duì)它口語的內(nèi)容進(jìn)行自動(dòng)評(píng)價(jià)。同時(shí),我們能夠采集學(xué)生的過程化數(shù)據(jù),能夠知道這個(gè)學(xué)生精準(zhǔn)的畫像,然后就可以向他精準(zhǔn)推薦自適應(yīng)學(xué)習(xí)素材。

比如說,在司法領(lǐng)域里面,我們?cè)诟罡叻ㄔ汉献?,通過自然語言處理技術(shù)做輔助量刑。智慧醫(yī)療這塊,我們也在使用智能語音、智能圖像、還有認(rèn)知技術(shù),輔助醫(yī)生來做病情診斷。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

專訪訊飛王士進(jìn):從底層AI技術(shù)解析 ,智能音箱是個(gè)偽命題嗎?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說