0
2010年10月28日,訊飛語音輸入法發(fā)布,當(dāng)時,還沒有微信。6年之后,著名“相聲演員”羅永浩在錘子M1的發(fā)布會上展示了這款輸入法,這次,訊飛以一種意想不到的方式刷爆了朋友圈。
雖然訊飛在2014年的時候推出“超腦計劃”,開始全面布局AI的各個領(lǐng)域。但是,這家成立于1999年、市值超400億的公司如今在很多人看來,依然只是一家做“語音輸入法”的公司。
科大訊飛在AI領(lǐng)域有哪些布局?
怎樣看待語音助手?
如何繼續(xù)提高語音識別的準(zhǔn)確率?
智能音箱是個偽命題嗎?會成為智能家居的中心嗎?
如何評價亞馬遜的Echo Show?
機(jī)器轉(zhuǎn)錄為何依然難用?
技術(shù)與BAT相比如何?
......
帶著這些疑問,雷鋒網(wǎng)采訪了科大訊飛研究院副院長王士進(jìn)。在看完這篇文章后,你會了解到,在AI領(lǐng)域,科大訊飛到底做了些什么?他們對整個行業(yè)又有著怎樣的看法?
王士進(jìn):博士,科大訊飛北京研究院院長,兼科大訊飛研究院副院長。2003年本科畢業(yè)于中國科技大學(xué),2008年博士畢業(yè)于中科院自動化所,長期從事語音、語言、人工智能方向研究,主持的語音評測技術(shù)國內(nèi)首次應(yīng)用大規(guī)模英語口語考試,主持的機(jī)器翻譯曾兩次獲國際比賽第一名。作為主要負(fù)責(zé)人參加了863計劃重點項目、工信部電子信息產(chǎn)業(yè)發(fā)展基金項目等項目,在相關(guān)國際會議和期刊上有多篇學(xué)術(shù)論文,擁有十幾項專利和軟件著作權(quán)。
雷鋒網(wǎng)對采訪全文做了不改變原意的刪減:
雷鋒網(wǎng):科大訊飛在語音識別方面有什么進(jìn)展?
王士進(jìn):語音合成方面,我們從去年年底開始發(fā)力,利用深度學(xué)習(xí)的方法實現(xiàn)了新一代的合成系統(tǒng)。現(xiàn)在,只需要目標(biāo)用戶半個小時到一個小時左右的錄音,就可以合成這個人的聲音,并且自然度非常高。
語音識別方面,訊飛正面向IOT領(lǐng)域積極拓展。在IOT時代,面向復(fù)雜場景的語音識別是一個非常重要的點。我們在持續(xù)優(yōu)化車載環(huán)境、家居環(huán)境里面語音識別效果。
同時,“訊飛聽見”系統(tǒng)里面向?qū)崟r會議和演講同傳的效果也有了更進(jìn)一步的升級。第一個就是轉(zhuǎn)寫的準(zhǔn)確率在持續(xù)提升,第二個,我們會結(jié)合訊飛口語翻譯的技術(shù),實現(xiàn)會場演講的多語種同傳。
雷鋒網(wǎng):訊飛語音識別的準(zhǔn)確率已經(jīng)做到什么程度了?
王士進(jìn):語音識別準(zhǔn)確率跟場景和任務(wù)的關(guān)系非常大。如果說具體的數(shù)字,其實可能并不太客觀,比如在手機(jī)APP的場景里面,我們可以實現(xiàn)97%的準(zhǔn)確率。像會議速錄這種場景,我們也能達(dá)到95%的準(zhǔn)確率。
雷鋒網(wǎng):如何再繼續(xù)提升?
王士進(jìn):要解決這個問題,我覺得可能取決于以下幾點:
第一點,從語音模型建模的角度來說,怎么使得模型更精確?一方面是數(shù)據(jù),一方面是模型算法。所以我們還在持續(xù)迭代中,原來我們只使用有監(jiān)督的數(shù)據(jù),相當(dāng)于是人工標(biāo)注的數(shù)據(jù),這塊數(shù)據(jù)始終是有限的,現(xiàn)在我們在考慮怎么使用大量無監(jiān)督的數(shù)據(jù)去輔助有監(jiān)督的數(shù)據(jù),使得這種模型更加精確。
第二點,從語言和語義出發(fā)。比如有一些識別錯誤,我們?nèi)艘谎劬椭肋@個地方是錯的,錯在什么地方。所以我們現(xiàn)在希望把自然語言處理技術(shù)和領(lǐng)域知識相結(jié)合。比如說,如果提前知道這是一個教育相關(guān)的會議,那么怎樣結(jié)合跟教育領(lǐng)域相關(guān)的知識,使得語音識別的一些錯誤可以通過知識和模型進(jìn)行修正。
雷鋒網(wǎng):自然語言處理(NLP)這一塊呢?
王士進(jìn):NLP方面,訊飛從2014年開始提出“訊飛超腦計劃”,同時我們在2015年承擔(dān)科技部863的高考類人答題項目。在NLP這塊,我們主要在做包括語言理解、知識表達(dá)、聯(lián)想推理、以及自主學(xué)習(xí)方面的相關(guān)工作。
在NLP里面,其中一個工作是關(guān)于知識的構(gòu)建和表示,我們參加了NIST KBP的比賽并獲得了第一名,第二個工作是現(xiàn)在業(yè)界認(rèn)為比較難的常識表示,我們提出了深度聯(lián)想模型,并參加了第一屆winograd比賽,獲得了第一名。
第三個工作:知識圖譜構(gòu)建以后,如何為精準(zhǔn)的問答去做幫助?我們最近在做一個非常重要的課題,叫機(jī)器閱讀理解,給定一篇或者幾篇文章,對于這里面的任何一個問題,機(jī)器要能夠給出精準(zhǔn)的問答。
以上是我們在自然語言技術(shù)上面做的一些工作。
雷鋒網(wǎng):自然語言處理這塊,您覺得它主要的難點是什么?
王士進(jìn):自然語言最大的處理難點就是來自于它的歧義,怎么去消除歧義,在于如何引入知識和表示知識,這塊是我們正在積極探索的。
雷鋒網(wǎng):會采用哪些最新的技術(shù)去解決這些問題?
王士進(jìn):技術(shù)的話主要是以下幾點:
第一點就是語言的深度語義表示。以前我們在自然語言處理時經(jīng)常用到詞表,通過詞表去區(qū)分不同的詞和語義。原來離散表示最大的問題就在于詞跟詞之間的語義它會表示不出來,現(xiàn)在通過深度學(xué)習(xí)產(chǎn)生的Word Embedding,其實上就是語義矢量,能更好的表示詞,這是現(xiàn)在NLP中一個核心的技術(shù)。
在獲得語義矢量之后,可以更精準(zhǔn)的去做知識的表示、推理等任務(wù)。比如,我們原來的推理其實更多是符號層面的一些推理。符號層面的推理有一個非常大的問題:由于歧義和知識沒辦法表達(dá),所以說這種推理總是有限的。但是我們現(xiàn)在用深度語義,使得這個問題有了被解決的可能。語義矢量表示為基礎(chǔ)的自然語言處理框架,使得NLP領(lǐng)域很有可能會實現(xiàn)非常大的一個突破。
雷鋒網(wǎng):科大訊飛的語音助手做的怎么樣?
王士進(jìn):訊飛在四年前就開始布局語音助手,和咪咕數(shù)媒一起推出的咪咕靈犀經(jīng)過幾年的發(fā)展已經(jīng)在本土語音助手排名第一(注:易觀國際數(shù)據(jù)),并且訊飛有非常大的一個團(tuán)隊在做人機(jī)交互,也就是我們的AIUI系統(tǒng)。我們認(rèn)為這里面需要有幾個核心功能:
第一個核心功能跟語音識別效果相關(guān)。我們在智能家居的環(huán)境里,在車載的環(huán)境里,在其他很多的場景里都在持續(xù)優(yōu)化語音識別的能力。
第二個就是語義糾錯和語義理解功能。語音識別變成文字這只是第一步,第二步是怎樣結(jié)合知識、常識,怎樣結(jié)合上下文,去對用戶的內(nèi)容作出更精確的理解,并對錯誤進(jìn)行糾正。
但是這里目前有一個悖論,因為從用戶的角度來說,他們希望的是一個無所不能的助手,但是從現(xiàn)代技術(shù)的角度來看,我們在一些垂直的領(lǐng)域和場景才能做到實用。
第三個就是多輪對話。多輪對話其實更多地也是結(jié)合上下文和垂直場景,以此在垂直場景里面打造完全一個可以更智能的助手。
雷鋒網(wǎng):做語音助手的難點在哪兒?怎樣看待其他的語音助手?
王士進(jìn):首先語音助手從提出理念到現(xiàn)在,其實已經(jīng)經(jīng)過了幾代。
最早第一代是以功能性為主,比如說撥打電話,發(fā)短信,類似這樣的一些基礎(chǔ)功能。大家發(fā)現(xiàn),這里面可能還會有一些問題,它并不是人用手機(jī)的剛需,因為無論是電話也好,短信也好,基本上用觸控的方式已經(jīng)很方便了,特別是蘋果手機(jī)出來了以后,所以說它不是一個剛需。
再者,當(dāng)時那個年代,語音交互并不是一個普遍被接受的模式,我們很少看到有人用,因為大家總覺得語音是一個相對比較私密的事情,所以很少有人在公共場合下面去用語音跟機(jī)器做交互。
第二代,包括訊飛在內(nèi),很多語音助手都引入了閑聊,后續(xù)的微軟小冰等采取的其實也是這樣的策略,使得很多人愿意去調(diào)戲語音助手,這個概念也火了一段時間。雖然里面也有一些簡單的知識問答,但更多的是以閑聊為主。
現(xiàn)在則是第三代,經(jīng)過前兩輪的思考以后,用戶對語音助手有什么樣的期望呢?我們認(rèn)為,在語音識別、視覺識別準(zhǔn)確率已經(jīng)這么高的情況下,現(xiàn)在的語音助手可以以任務(wù)為中心,協(xié)助人在一些垂直場景里面,去做一些更真實的應(yīng)用。
我們AIUI系統(tǒng)的多輪對話,其實也是想圍繞任務(wù)為中心,通過這種多輪的人機(jī)交互的形式,無論是人還是機(jī)器發(fā)起,滿足用戶的一些真實需求。
雷鋒網(wǎng):以任務(wù)為中心的,像一個個APP那樣?
王士進(jìn):對,類似于一個APP的功能。亞馬遜的Echo為什么這么火?因為亞馬遜把垂直領(lǐng)域擴(kuò)展的功能開放出來了,APP開發(fā)商、服務(wù)廠家能夠定制自己的服務(wù),使得亞馬遜這個龐大的平臺可以承載越來越多的功能,所以我覺得這是大家都非常認(rèn)可的最核心的一點。
雷鋒網(wǎng):訊飛在車載語音助手方面的進(jìn)展如何呢?難點在哪?
王士進(jìn):車載這塊訊飛進(jìn)入的更早,因為車載離產(chǎn)業(yè)更近一點,這種交互方式也更剛需一點。
車載方面,訊飛主要側(cè)重兩點:
第一點,識別效果,在車載情況下,怎么把語音識別做好。車載噪聲太大,包括風(fēng)噪、胎噪等,對識別會造成很大的影響。
第二點,怎樣在車載的幾個垂直場景下把交互做到好用?包括導(dǎo)航、音樂等幾個主要的功能。其實,更多的還是面向車載里面的幾個主要應(yīng)用場景做優(yōu)化。
雷鋒網(wǎng):有人認(rèn)為智能音箱在中國其實是個偽命題,您覺得它的前景如何?
王士進(jìn):我認(rèn)為帶引號的智能音箱一定是剛需,什么意思呢?將來智能家居一定會有一個中控來解決這個問題,但是不是音箱,是不是不帶屏幕的音箱?這個還不好說。現(xiàn)在業(yè)內(nèi)也并沒有一致的意見,如果有一致意見的話,也就不會有各種形態(tài)的類似產(chǎn)品推出來了。
雷鋒網(wǎng):智能音箱會成為智能家居的中心嗎?
王士進(jìn):其實這個事情大家都不太好判斷,大家首先覺得將來家居一定會有一個中控系統(tǒng)對吧?這個中控系統(tǒng)可能有幾種類型。
一種就是現(xiàn)在大家所說的以音箱為中心,至少現(xiàn)在很多廠家都已經(jīng)在做這一方面的東西了。還有一種可能是以彩電為中心,它也有一個好處,除了語音交互,它還有視覺的交互。也有人認(rèn)為,家庭智能網(wǎng)關(guān)是交互的中心,因為家里所有硬件互聯(lián)可能都要通過一個網(wǎng)關(guān)。
但我覺得這個可能更多是讓用戶和市場進(jìn)行選擇,不管是哪種類型的設(shè)備,大家都覺得使用便捷的人機(jī)交互做承載是一個趨勢。
雷鋒網(wǎng):亞馬遜的Alexa Skills是一個趨勢嗎?訊飛未來會不會做自己的技能商店?
王士進(jìn):Alexa的技能商店從長遠(yuǎn)來看是一個趨勢,訊飛現(xiàn)在通過訊飛開放云,把我們的能力開放出來,通過眾多的合作伙伴去構(gòu)建這種技能商店。
在智能家居場景中,可能大家都在各個垂直領(lǐng)域去做各種類型的嘗試,因為現(xiàn)在的技術(shù)沒辦法做成通用的服務(wù)。通過一段時間技術(shù)和資源的沉淀之后,我們可以提供更通用的服務(wù),構(gòu)建一個更好的生態(tài)。
雷鋒網(wǎng):帶觸控屏的Echo Show會是未來的一個趨勢呢?其他廠商會跟隨嗎?
王士進(jìn):其實我覺得這個也并不一定。從屏幕趨勢來講,我認(rèn)為有兩個趨勢,
第一個趨勢就是所有的設(shè)備可以把屏投到家電的大屏上去,而不一定要在Echo上面做一個多大的屏幕,家里存在很多有屏設(shè)備。
第二,在無屏的場景,我們也可以通過VR/AR等技術(shù)來展示內(nèi)容。
雷鋒網(wǎng):機(jī)器轉(zhuǎn)錄跟人工轉(zhuǎn)錄的差別還是很大的,為什么會出現(xiàn)這樣的情況?它的難點在哪兒?如何解決?
王士進(jìn):語音識別有傳統(tǒng)的兩個分類,一個是聽寫,一個是轉(zhuǎn)寫。
聽寫很簡單,因為(聽寫的時候)我知道是在跟機(jī)器溝通,所以無論是講話的語速,講話的流暢程度,還是語言表述方式,我都會去配合機(jī)器?,F(xiàn)在大家號稱語音識別的準(zhǔn)確率在95%以上的,基本上都是在這種場景下,因為人會去配合機(jī)器。
但現(xiàn)實中其實更多的是正常交流這種場景,這里面會有哪些比較大的問題呢?首先,噪聲是比較大的問題。其次,一些方言的夾雜,甚至多語種的夾雜,比如很多人在講中文的時候會講英文,這也一個問題。
除此之外,還有不流利的現(xiàn)象存在。一個相當(dāng)于讀新聞,一個是口語交流,兩者不太一樣。其實我們?nèi)烁酥g交流,有些東西要用到語意和上下文的信息,才能夠使理解更加準(zhǔn)確。
由于這幾種類型問題的存在,使得機(jī)器在轉(zhuǎn)寫的時候,效果跟聽寫會有一些比較大的差距,而且最早的時候差距是非常大的。所以說大家可以看到,其實語音識別最早在聽寫里邊應(yīng)用的比較好。但是在轉(zhuǎn)寫里面,之前一直沒有廠家敢做這方面的嘗試,這塊我們訊飛也是在2015年的時候,大幅提升了這個技術(shù)的水平。
那會兒我們把識別率能夠做到接近90%左右,90%基本上大家就能看。但是,90%距離我們真正最后轉(zhuǎn)寫,還有10%。10%感覺好象比較少,但其實仍然有很大的影響。
現(xiàn)在這種使用人機(jī)輔助的場景,已經(jīng)比之前的那個好很多了,我們現(xiàn)在能做到95%左右的水平,可以讓人更高效地錄入信息。
雷鋒網(wǎng):機(jī)器轉(zhuǎn)錄未來能夠完全取代速記員嗎?
王士進(jìn):從長期來看,無論是語音識別也好,機(jī)器識別也好,它都是概率體系。概率體系下,它要完全取代人,從目前來看,這里面可能是有些困難問題的。
我們跟行業(yè)結(jié)合,也做了各種各樣的東西,我們希望它跟人可以形成一個有效的人機(jī)協(xié)同,使得人可以更高效的完成某項工作。
雷鋒網(wǎng):訊飛的機(jī)器翻譯和谷歌翻譯相比如何?
王士進(jìn):訊飛主要是著重把自己的機(jī)器翻譯的能力跟語音識別的能力綁定的比較深,所以我們主要是側(cè)重于口語翻譯,包括我們?nèi)粘=涣鳌⒊鰢糜蔚膱鼍?,還有會議轉(zhuǎn)錄的場景。在這些場景下,我們的效果比谷歌要好很多。谷歌最擅長的是把一種語言的能力擴(kuò)展成非常多的語言能力上面去。
訊飛翻譯支持的語言其實并不太多,所以我們要做一個語言翻譯,就會想在一個語言上把它做好。所以在同樣的數(shù)據(jù)下,理論上我們的效果一定會比谷歌強(qiáng)。
雷鋒網(wǎng):機(jī)器翻譯準(zhǔn)確率提升的難點在哪兒?未來有可能完全取代人工翻譯嗎?
王士進(jìn):翻譯涉及到語言和語義,難度比識別會更大一點,比如翻譯一個句子,不同的上下文可能使得整個句子的表述都不太一樣。
從這個翻譯技術(shù)上來講,雖然說大家用了很多神經(jīng)網(wǎng)絡(luò)相關(guān)的技術(shù),但其實語義理解的并不是那么深刻的。現(xiàn)在主流的是end-to-end技術(shù),它本身就是一個黑箱技術(shù),通過大量數(shù)據(jù)的學(xué)習(xí)實現(xiàn)翻譯的能力。
從精度上來看是有一些提升,在大部分場景里面,可能已經(jīng)滿足了大部分用戶的需求,比如你要去國外做一些簡單的溝通,只要是非商務(wù)的,用現(xiàn)在口譯軟件,基本也能解決問題了。但是怎樣做更精準(zhǔn)的回答,怎樣做到雅,目前來說,技術(shù)上還存在一些困難的。
雷鋒網(wǎng):未來有什么提升的辦法?
王士進(jìn):還在探索的階段,比如有些人在研究通過深度學(xué)習(xí)構(gòu)建更精準(zhǔn)的語義表示,有些人研究更準(zhǔn)確的翻譯模型,還有人研究深度學(xué)習(xí)模型跟傳統(tǒng)知識模型的結(jié)合等。
雷鋒網(wǎng):對英語口語評分的產(chǎn)品做的怎么樣了?
王士進(jìn):訊飛的口語評測已經(jīng)產(chǎn)品化了。我們最早是從2009年開始研究口語評測,像朗讀、或者讀單詞,讀句子、讀篇章這種類型的封閉式體型,是比較好評的。最關(guān)鍵就是看音準(zhǔn)好不好?有沒有讀?然后從這個封閉式題型擴(kuò)展到開放式題型,設(shè)立很多自然語言相關(guān)的技術(shù),使用這些技術(shù)機(jī)器去做主觀題型的自動評分。
我們現(xiàn)在口語的自動評分技術(shù),在廣東省的高考、江蘇的中考以及全國多個省市地區(qū)的英語口語考試都有應(yīng)用。
王士進(jìn):這個分封閉式題型和開放式題型。對于封閉式題型,機(jī)器主要提取口語的幾個主要特征,包括完整度、發(fā)音準(zhǔn)確度、流利度、韻律等,然后使用學(xué)習(xí)到的參數(shù)去進(jìn)行評分。對于開放式題型(主觀題),除了剛提到的那些特征,機(jī)器還要去學(xué)習(xí)評分專家的語義知識。 機(jī)器會要求專家一起先確定一下評分標(biāo)準(zhǔn),同時按照這個標(biāo)準(zhǔn)可能要試評標(biāo)桿卷,然后機(jī)器就從這里面去學(xué)習(xí)人是怎么評分的。
我們知道不同的考試評分標(biāo)準(zhǔn)是不太一樣的。機(jī)器會自動學(xué)習(xí)優(yōu)秀老師對這些標(biāo)桿卷的評分,從而形成評分的標(biāo)準(zhǔn)模型,然后拿這個評分模型對剩下的試卷進(jìn)行評分。
雷鋒網(wǎng):判斷用戶的發(fā)音是不是標(biāo)準(zhǔn),給出發(fā)音建議,訊飛用了什么技術(shù)?
王士進(jìn):關(guān)于語音是否標(biāo)準(zhǔn),訊飛在最早做漢語水平等級測試的時候就已經(jīng)開始研究,這個技術(shù)叫CALL(注:Computer-assisted language learning,計算機(jī)輔助口語學(xué)習(xí) ,核心是發(fā)音評測技術(shù)),訊飛在漢語和英語的評分上做了很多研究工作,包括判斷發(fā)音是否準(zhǔn)確、是否流利、韻律是否準(zhǔn)確等。
雷鋒網(wǎng):訊飛從什么時候開始做計算機(jī)視覺的,為什么會做計算機(jī)視覺?
王士進(jìn):應(yīng)該是從2010年左右開始做的?,F(xiàn)在在深度學(xué)習(xí)發(fā)展起來后,語音所要用到的底層的技術(shù)和圖像所要用到的底層技術(shù),可以說是非常接近的。為了完善訊飛整個感知智能系統(tǒng),同時也因為業(yè)務(wù)的需求,訊飛開始做機(jī)器視覺,主要研究內(nèi)容包括人臉識別和醫(yī)學(xué)圖像處理。
雷鋒網(wǎng):語音和視覺,得哪個更有前景一些?兩者未來能否結(jié)合起來?
王士進(jìn):首先從前景來說,兩個的市場都特別大。從結(jié)合上來說,可結(jié)合的地方很多,比如說我們所謂的智能安防里面,怎么去結(jié)合人臉識別和語音識別共同去做各種類型的檢測。身份認(rèn)證方面,也有基于人臉和聲紋的共同的身份認(rèn)證。
雷鋒網(wǎng):訊飛在醫(yī)療領(lǐng)域有做了哪些工作?
王士進(jìn):訊飛在智能醫(yī)療這塊主要有三條路:
第一條路就是通過智能語音方便醫(yī)生實現(xiàn)電子病例的錄入;
第二條路就是基于視覺的輔助讀片;
第三個是基于醫(yī)療認(rèn)知協(xié)助醫(yī)生做輔助診療,有點像IBM的沃森。
此外,我們還做了醫(yī)考機(jī)器人,會閱讀大量醫(yī)學(xué)的知識,包括醫(yī)生診療的方案,以及大量的醫(yī)學(xué)書籍,從而形成一個相當(dāng)于是醫(yī)療認(rèn)知的大腦,這樣就可以針對病情自動形成一些治療的方案。
雷鋒網(wǎng):在醫(yī)療領(lǐng)域遇到了哪些困難?
王士進(jìn):目前做智慧醫(yī)療,最大的問題可能來自于數(shù)據(jù),也就是電子病例。第一,醫(yī)療數(shù)據(jù)更隱私,怎么合理、合法地采集和獲取到這些數(shù)據(jù),目前來說還是有困難的。第二,醫(yī)療數(shù)據(jù)像一個個孤島,沒有連接起來,其實這也跟隱私有關(guān)系,不同的醫(yī)院之間,可能會存在信息孤島,一般不會打通。
雷鋒網(wǎng):跟谷歌、亞馬遜、BAT等巨頭相比,訊飛的人工智能技術(shù)如何?
王士進(jìn):總體來看,各公司都是圍繞自己優(yōu)勢的業(yè)務(wù)領(lǐng)域布局人工智能,我覺得訊飛相比于谷歌等巨頭:
第一點,訊飛其實在很多相關(guān)的業(yè)務(wù)廠家里面,相對做的更深一些;
第二點,因為訊飛在行業(yè)里面扎的比較深,而且更懂行業(yè),所以訊飛能夠把這個技術(shù)組合用好,為行業(yè)提供完整的一個解決方案。
比如一些互聯(lián)網(wǎng)公司,它們可能更多的是提供一些通用的基礎(chǔ)的產(chǎn)品和技術(shù),類似于搭積木,有可能用上這個積木以后,在行業(yè)也有不錯的效果,但是訊飛專注做相關(guān)場景,所以我們是希望在每個應(yīng)用場景里面,能夠把效果做到極致。
雷鋒網(wǎng):最近有沒有用到什么最新的技術(shù)或者算法?
王士進(jìn):目前比較新的一些,我覺得可能是以下幾點:
第一點實際上是對一些傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型(包括RNN、CNN)的持續(xù)優(yōu)化。
第二點就是無監(jiān)督的學(xué)習(xí),包括剛才提到的GAN相關(guān)的東西,以及基于GAN各種擴(kuò)展的算法,這個其實用的還是蠻多的。
雷鋒網(wǎng):未來還有哪些突破的點?
王士進(jìn):我個人覺得是兩點:
第一點,到了IOT時代以后,這種交互場景一定是更復(fù)雜的,在這種復(fù)雜情況下,怎樣做到更好的語音識別?我們認(rèn)為,未來需要軟硬件結(jié)合的整體解決方案。如果只通過軟件的話,它的很多的信號疊加以后,噪聲就已經(jīng)形成了,就沒辦法了。如果通過這種硬件,比如說麥克風(fēng)陣列或者其他一些方法的話,就可以在信號層面可以做更多的一些處理,有可能會使語音識別效果更好。
第二點,因為現(xiàn)在自然語言處理技術(shù),本身也在突飛猛進(jìn),怎樣使用更多自然語言的技術(shù)去協(xié)助做好語言理解,這個應(yīng)該也是一個突破點。比如我們一個個領(lǐng)域,或者一個個垂直場景,逐個突破,從而慢慢形成知識的積累,使得機(jī)器未來有可能與更多的、更通用的場景做結(jié)合。
同時,怎樣圍繞不同行業(yè)的特點去形成一個整體解決方案,并且能夠解決真正的問題,我覺得這也是下一個階段要做的一個重點。
雷鋒網(wǎng):未來人工智能有哪些落地場景?
王士進(jìn):從行業(yè)和產(chǎn)品結(jié)合來說,我們認(rèn)為人工智能,其實有兩大落地的場景:
第一個就是使用語音技術(shù)和自然語言的技術(shù),使得我們?nèi)藱C(jī)的溝通更便捷,可以實現(xiàn)接近人與人之間的溝通效果。現(xiàn)在的智能家居、車載、手機(jī)交互都是這類場景。
第二個就是使用將語音技術(shù)、圖像技術(shù)、自然語言的技術(shù)組合起來,跟行業(yè)進(jìn)行深度的結(jié)合,學(xué)習(xí)行業(yè)領(lǐng)域的專家知識,來解決行業(yè)里面一些經(jīng)典的問題。
比如說教育領(lǐng)域,就可以采用認(rèn)知智能技術(shù),使得它可以學(xué)習(xí)優(yōu)秀老師的評分經(jīng)驗,可以對主觀題進(jìn)行自動評價,可以對它口語的內(nèi)容進(jìn)行自動評價。同時,我們能夠采集學(xué)生的過程化數(shù)據(jù),能夠知道這個學(xué)生精準(zhǔn)的畫像,然后就可以向他精準(zhǔn)推薦自適應(yīng)學(xué)習(xí)素材。
比如說,在司法領(lǐng)域里面,我們在跟最高法院合作,通過自然語言處理技術(shù)做輔助量刑。智慧醫(yī)療這塊,我們也在使用智能語音、智能圖像、還有認(rèn)知技術(shù),輔助醫(yī)生來做病情診斷。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。