科大訊飛胡郁：再過(guò)四到五年時(shí)間，機(jī)器語(yǔ)音識(shí)別就能達(dá)到人類水準(zhǔn)

本文作者：林藠頭

2016-06-28 13:59

導(dǎo)語(yǔ)：語(yǔ)音識(shí)別的錯(cuò)誤率正在以每年30%的水平下降，我相信再過(guò)四到五年的時(shí)間，我們最后的語(yǔ)音識(shí)別系統(tǒng)就能跟人整個(gè)的感覺(jué)完全一樣了。

按：這是科大訊飛輪值總裁胡郁在2016網(wǎng)易科技未來(lái)峰會(huì)上發(fā)表的題為《“人工智能”以語(yǔ)音和語(yǔ)言為入口的認(rèn)知革命》的演講。雷鋒網(wǎng)整理，有刪改。

剛才（華大基因董事長(zhǎng)）汪建老師說(shuō)，將來(lái)的世界是一個(gè)生命科技的時(shí)代，我非常同意這一點(diǎn)。將來(lái)人類的命運(yùn)掌握在我們自己手里，我們可以改造自己。

人類也想扮演上帝的角色。人類能夠在地球上統(tǒng)治整個(gè)世界，是因?yàn)槲覀冇兄悄?，現(xiàn)在不僅僅自己有智能，還希望能夠創(chuàng)造出新的智能。在當(dāng)前世界，各種各樣的智能層出不窮，甚至有段時(shí)間“智能”一詞都被用濫了，到底智能應(yīng)該向什么方向發(fā)展，智能到底應(yīng)該給我們帶來(lái)什么？今天我們帶著這個(gè)疑問(wèn)想跟大家探討一下。

今年3月份時(shí)有個(gè)非常著名的AlphaGo大戰(zhàn)李世石，在此之前很多人都給出了預(yù)測(cè)，包括我自己在內(nèi)，我當(dāng)時(shí)的預(yù)測(cè)是機(jī)器人一定能夠戰(zhàn)勝人類。為什么呢？其實(shí)在研究界有句很有名的話，機(jī)器人在智能方面戰(zhàn)勝人類一定用它最擅長(zhǎng)的方式，而不是用人類思維的方式。我們?cè)瓉?lái)在討論時(shí)總想著下圍棋是一個(gè)非常高尚的運(yùn)動(dòng)，并不是每個(gè)人都能把圍棋下得很好，但其實(shí)機(jī)器根本不是這么想的，在下完這個(gè)比賽時(shí)，鳳凰衛(wèi)視《一虎一席談》請(qǐng)我和古力九段和柯潔九段去討論AlphaGo和李世石對(duì)打的情況，柯潔九段在“一虎一席談”上就比較謙虛了（按：比賽之前他曾經(jīng)放話“就算阿法狗戰(zhàn)勝了李世石，但它贏不了我”），他說(shuō)這個(gè)東西還是要好好準(zhǔn)備。

AlphaGo為什么能夠戰(zhàn)勝人類，因?yàn)樗玫拇_實(shí)不是人類所擅長(zhǎng)的方法，而是機(jī)器所擅長(zhǎng)的方法，AlphaGo能夠同時(shí)計(jì)算每部棋下幾十步甚至上百步的可能性，而且AlphaGo能夠記住三千萬(wàn)種法的對(duì)弈，而這是我們?nèi)祟愃簧瞄L(zhǎng)的。但是人工智能是不是能夠在所有方面超越人類呢？我覺(jué)得這也不一定，因?yàn)槲覀兛吹絿迨且粋€(gè)完全信息透明情況下的公開(kāi)博弈，就像以前的國(guó)際象棋，機(jī)器是占有很大優(yōu)勢(shì)的。

很多人會(huì)問(wèn)，人工智能到底體現(xiàn)在什么方面呢？我們知道人類有農(nóng)業(yè)革命、工業(yè)革命，還有現(xiàn)在講的信息革命，但可能很多人不知道的是，人類在統(tǒng)治地球的過(guò)程中其實(shí)經(jīng)過(guò)了漫長(zhǎng)的歷史發(fā)展。有一本書(shū)《人類簡(jiǎn)史》，這本書(shū)里寫到：人類在地球上已經(jīng)出現(xiàn)兩百萬(wàn)到三百萬(wàn)年了，但這些人類在全球各地，就是我們講的猿人、歐洲的原始人，中國(guó)的山頂洞人、元謀人和藍(lán)因人；但經(jīng)過(guò)歷史學(xué)家和基因工作者的研究發(fā)現(xiàn)，七萬(wàn)年前，智人從非洲走出來(lái)把其他猿人都給滅種了，現(xiàn)在不管是黑人白人還是棕色人種、黃種人，都是智人的后代。

在這個(gè)過(guò)程中，好像智人突然開(kāi)竅了一樣，人的智能在經(jīng)過(guò)兩三百萬(wàn)年的發(fā)展中突然邁上一大步，是什么讓他們走到這一點(diǎn)？歷史學(xué)家把他們叫做“認(rèn)知的革命”，因?yàn)樗麄儼l(fā)現(xiàn)這些人跟其他猿人最大的不同是在他們的語(yǔ)言得到了極大的豐富，先有對(duì)話，然后產(chǎn)生文字，產(chǎn)生文字后有幾個(gè)好處：

第一個(gè)好處，它可以更好地描述周圍的自然世界，比如河邊有只獅子，他們知道獅子長(zhǎng)多大，身上有沒(méi)有病，處于什么樣的狀態(tài)。更重要的是因?yàn)橛辛苏Z(yǔ)言、有了語(yǔ)音，我們可以描述團(tuán)隊(duì)和團(tuán)隊(duì)之間的關(guān)系，如果沒(méi)有語(yǔ)言，現(xiàn)在動(dòng)物群種里面的黑猩猩，一個(gè)團(tuán)隊(duì)最大不能超過(guò)50頭，超過(guò)50頭就無(wú)法管理；但智人因?yàn)橛辛苏Z(yǔ)言，因他們可以組織上千人的團(tuán)隊(duì)。
第二個(gè)好處，有了語(yǔ)言以后我們可以描述我們共同想像的內(nèi)容，一些虛構(gòu)的概念，“公司”、“夢(mèng)想”都是從此得來(lái)。所以我們可以看到，現(xiàn)在歷史學(xué)家一個(gè)非常重要的觀點(diǎn)就是人類的認(rèn)知革命將人類的智能帶到一個(gè)新的高度。

機(jī)器擅長(zhǎng)的運(yùn)算智能，但如果講到感知智能，機(jī)器其實(shí)比我們差得很遠(yuǎn)。這也是科大訊飛現(xiàn)在正在踐行的以語(yǔ)音和語(yǔ)言為入口的計(jì)算機(jī)的認(rèn)知革命。我們所執(zhí)行的訊飛超腦計(jì)劃想要做的事情，就是讓機(jī)器通過(guò)傳感器和算法感知世界，并且能夠?qū)ψ匀坏娜祟愂澜邕M(jìn)行認(rèn)知，作為我們?nèi)斯ぶ悄芤粋€(gè)非常重要的突破點(diǎn)。

怎樣實(shí)現(xiàn)這種突破，其實(shí)我們有兩種不同的途徑，一種和我們的腦科學(xué)非常有關(guān)，我們可以對(duì)大腦所有的神經(jīng)元構(gòu)造和它的工作機(jī)理進(jìn)行分析，甚至可以根據(jù)大腦的整個(gè)工作機(jī)理重構(gòu)出來(lái)真正和大腦相同的機(jī)制，這是一條思路，但這條思路時(shí)間比較長(zhǎng)；另外一條思路就是用互聯(lián)網(wǎng)的思維，利用我們機(jī)器學(xué)習(xí)算法和大數(shù)據(jù)，不完全模仿大腦，但利用機(jī)器運(yùn)算的方法能夠模擬我們的感知和認(rèn)知。

我們研究鳥(niǎo)類飛行造出了飛機(jī)，但我們并沒(méi)有造一個(gè)鳥(niǎo)出來(lái)，是因?yàn)槲覀兪侵懒锁B(niǎo)在飛行中的空氣動(dòng)力學(xué)；我們研究大腦，其實(shí)并不是把大腦完成復(fù)制，而是希望找到大腦中的智力動(dòng)力學(xué)，進(jìn)一步優(yōu)化我們整個(gè)學(xué)習(xí)的算法。

從另一個(gè)角度，如果用互聯(lián)網(wǎng)思維來(lái)解決、改進(jìn)我們的人工智能，要感謝三個(gè)方面的進(jìn)展：一是人工神經(jīng)網(wǎng)絡(luò)，這個(gè)人工神經(jīng)網(wǎng)絡(luò)就像我剛剛說(shuō)的，只是學(xué)到了大腦一些簡(jiǎn)單的機(jī)理，沒(méi)有大腦那么復(fù)雜，但已經(jīng)可以很好地工作了；另外拜互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)所賜，我們可以得到大量大數(shù)據(jù)；更重要的是我們有千千萬(wàn)萬(wàn)的算法，有直達(dá)用戶的產(chǎn)品，這些產(chǎn)品把用戶的使用習(xí)慣源源不斷傳入后臺(tái)，我們可以利用網(wǎng)絡(luò)的效應(yīng)不斷地優(yōu)化它。正是因?yàn)橛羞@三者的支撐，我們得到了非常好的結(jié)果。

真正人工智能的框架應(yīng)該是什么樣的呢？再給大家舉個(gè)例子，人類大腦皮層在工作過(guò)程中分為兩個(gè)層面：一個(gè)叫感知層面，就是我們講的視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)，還有一個(gè)層面是認(rèn)知層面，當(dāng)我們看到一只貓，聽(tīng)到貓的叫聲，或者是摸貓的皮毛，人腦里有一個(gè)概念，這些概念形成了我們語(yǔ)言中的單詞和詞匯，就是“貓”這個(gè)概念，它們匯聚到我們講的語(yǔ)言和理解的大腦的認(rèn)知皮層層面。所以在訊飛超腦里分兩個(gè)層面：感知智能是對(duì)我們聽(tīng)到的、看到的、觸覺(jué)到的東西進(jìn)行識(shí)別，同時(shí)把識(shí)別結(jié)果上升到我們認(rèn)知智能的層面，形成一個(gè)概念空間的表示和推理，在過(guò)去五年中我們相繼把深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用在剛才我們講的感知和認(rèn)知，包括視覺(jué)、包括聽(tīng)覺(jué)，包括自然語(yǔ)言，包括翻譯的各個(gè)方面。

（工作人員播放了三個(gè)語(yǔ)音片段）

這是一段語(yǔ)音片斷，大家聽(tīng)到第一個(gè)好像是“休息”，第二個(gè)好像是“休息室”，但當(dāng)聽(tīng)完完整片斷時(shí)你會(huì)知道（按：類似于大腦自動(dòng)“校正畸變”），原來(lái)這句話說(shuō)的是“《西游記》之大鬧天宮”。人腦是怎么工作的呢？人腦能夠記下短時(shí)或中間的或長(zhǎng)時(shí)的記憶，通過(guò)一種遞歸的方法識(shí)別語(yǔ)音，現(xiàn)在最新型的遞歸神經(jīng)網(wǎng)絡(luò)能夠模擬我們?cè)诖竽X方面的感覺(jué)，這個(gè)過(guò)程非常復(fù)雜，我就不一一介紹了。

但光有遞歸還不夠，光能夠存儲(chǔ)記憶還不夠，現(xiàn)在最新的一個(gè)方式是用我們講的圖像的方法識(shí)別語(yǔ)音，當(dāng)語(yǔ)音進(jìn)入我們的耳朵時(shí)，我們耳朵里的纖毛會(huì)根據(jù)它的長(zhǎng)度不同與語(yǔ)音中不同的頻率進(jìn)行共振，如果把共振的頻率分析出來(lái)，我們可以得到一張語(yǔ)譜圖，這個(gè)圖形里的信息很豐富，在MIT專門有科學(xué)家可以根據(jù)這些圖形就能夠跟你說(shuō)這句話里用的是什么樣的文字。我們的識(shí)別系統(tǒng)如果能夠讀這些圖，整個(gè)性能的穩(wěn)定性就會(huì)有很大提高。

如果你是一個(gè)盲人，你的耳朵就會(huì)特別靈，因?yàn)樗栌昧宋覀冊(cè)谝暽窠?jīng)方面的一些神經(jīng)系統(tǒng)和細(xì)胞，這樣可以把它的一些能力借用過(guò)來(lái)。我們應(yīng)用一個(gè)新型的卷積神經(jīng)網(wǎng)絡(luò)，它原來(lái)是專門用來(lái)做圖像的，來(lái)處理我們的語(yǔ)音圖像，我們得到了一些非常令人驚訝的結(jié)果：即使是跟最新的遞歸神經(jīng)網(wǎng)絡(luò)相比，用卷積神經(jīng)網(wǎng)絡(luò)——也就是用識(shí)別圖像的方法，我們?nèi)匀荒苋〉靡粋€(gè)48%的提高。

可以說(shuō)，現(xiàn)在我們的語(yǔ)音不僅可以聽(tīng)到，而且可以看到。因?yàn)檫@樣的結(jié)果，我們大家會(huì)越來(lái)越多地看到，在我們各種各樣的輸入法里，在我們的語(yǔ)音搜索里，還有在我們各種各樣的語(yǔ)音交互式系統(tǒng)里，語(yǔ)音識(shí)別的錯(cuò)誤率正在以每年30%的水平下降，我相信再過(guò)四到五年的時(shí)間，我們最后的語(yǔ)音識(shí)別系統(tǒng)就能跟人整個(gè)的感覺(jué)完全一樣了。

在感知方面，我們語(yǔ)音識(shí)別技術(shù)不斷取得提升，但是在認(rèn)知方面，它有幾個(gè)非常核心的任務(wù)要完成，訊飛超腦關(guān)于語(yǔ)言理解及深層、知識(shí)表述及推理，還有自主學(xué)習(xí)，要實(shí)現(xiàn)這些技術(shù)必須要有兩個(gè)層面的東西：第一是要解決自然語(yǔ)言描述的問(wèn)題，在此基礎(chǔ)上我們要解決語(yǔ)言理解及深層，還有我們講的知識(shí)表述及推理各個(gè)方面。

剛才我們提到了大腦在大腦皮層中關(guān)于概念的表示，它是一張圖，不同的詞語(yǔ)它們之間概念是有空間的，我給大家舉個(gè)例子，比如“大家好”，傳統(tǒng)的表達(dá)，每個(gè)詞就代表了一個(gè)空間，我們把每個(gè)詞的出現(xiàn)看成“1”，不出現(xiàn)的地方看成“0”，這是傳統(tǒng)表現(xiàn)詞語(yǔ)的一種方法，詞語(yǔ)和詞語(yǔ)之間，要不就是距離相同，要不就是不同。現(xiàn)在我們采用一種連續(xù)的空間來(lái)表現(xiàn)詞語(yǔ)，每個(gè)字、每個(gè)詞都可以用“詞語(yǔ)卷積”的方法，用一段連續(xù)的數(shù)字，相當(dāng)于一個(gè)空間里的坐標(biāo)系，這樣每?jī)蓚€(gè)單詞之間的距離就可以把它計(jì)算出來(lái)。

科大訊飛胡郁：再過(guò)四到五年時(shí)間，機(jī)器語(yǔ)音識(shí)別就能達(dá)到人類水準(zhǔn)

我們把所有詞聚了一下類就可以看到這么一個(gè)結(jié)果，比如我們可以看到新浪、網(wǎng)易、騰訊，這些東西是連在一起的；我們可以看到呂布、張飛、關(guān)羽、諸葛亮，他們是比較接近的。如果通過(guò)醫(yī)學(xué)的方法來(lái)測(cè)量，我們也會(huì)發(fā)現(xiàn)相關(guān)詞語(yǔ)在大腦皮層中存儲(chǔ)的位置也是非常接近的。

利用這種方法，我們就建立了一種表現(xiàn)詞語(yǔ)的空間概念的表達(dá)體系，在這樣的表達(dá)體系之下，我們可以進(jìn)一步地去分析詞語(yǔ)層面、句子層面和篇章層面，他們?cè)诟鱾€(gè)層面上的連接和計(jì)算的距離。有了這個(gè)以后，我們來(lái)看一些實(shí)際的作用，他們能做什么樣的事情呢？

首先我們看一下語(yǔ)言的理解及深層。首先來(lái)看翻譯，在翻譯方面，我們知道他們要進(jìn)行語(yǔ)句的練習(xí)，因?yàn)椴煌Z(yǔ)言是不一樣的，這時(shí)候用到人腦中一個(gè)非常重要的概念，關(guān)注度模型，比如我們?nèi)嗽诳匆环鶊D像，海邊有一個(gè)燈塔，我們看的時(shí)候注意力是集中在燈塔上而不是其它方面。

科大訊飛胡郁：再過(guò)四到五年時(shí)間，機(jī)器語(yǔ)音識(shí)別就能達(dá)到人類水準(zhǔn)

這張圖比較有意思，上面這張圖是一個(gè)男司機(jī)在開(kāi)車時(shí)觀察各種各樣的東西，下面這張圖是一個(gè)女司機(jī)，她的思路就比較狹窄。

如果我們來(lái)看一段文字，這兩天正好歐洲杯，我們的注意力其實(shí)也是集中在那些文字中比較有信息量的地方，這種關(guān)注度模型，其實(shí)它的方法是能夠把我們最關(guān)注的那些輸入量自動(dòng)尋找出來(lái)，與我們最終的結(jié)果進(jìn)行對(duì)應(yīng)。

我們來(lái)看一下基于機(jī)器翻譯的實(shí)際例子：大家都知道，不同的語(yǔ)言之間，他們的機(jī)器翻譯，比如有很多謂語(yǔ)、主語(yǔ)、賓語(yǔ)，它們的位置是不同的，會(huì)進(jìn)行倒裝，順序也會(huì)發(fā)生很多變化，原來(lái)用規(guī)則的方法來(lái)描述這些變化非常復(fù)雜，通過(guò)我們現(xiàn)在講的這個(gè)神經(jīng)網(wǎng)絡(luò)，大家可以看到下面，輸入“我是誰(shuí)”，“誰(shuí)”和“我”，它們的位置是有差異的，但利用attention這個(gè)神經(jīng)網(wǎng)絡(luò)，它們可以自動(dòng)找到對(duì)應(yīng)關(guān)系。采用全新的神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng)，相比傳統(tǒng)系統(tǒng)，提高會(huì)非常多。

再看下一個(gè)具體的例子，我們都知道最近科大訊飛在教育方面做了非常多的工作，我們希望能夠利用機(jī)器人幫助我們的老師進(jìn)行卷面批改，比如我們寫了一個(gè)作文，這篇作文，我們希望機(jī)器人也能給它打出分?jǐn)?shù)并給出它的評(píng)語(yǔ)。大家看這個(gè)樣例，右邊94分是這篇文章的得分，右邊有評(píng)語(yǔ)，而且從這篇文章中可以看到它用到了排比，用到了一些語(yǔ)句的引用，我們?nèi)绾蝸?lái)做，讓機(jī)器也能看懂這些東西？機(jī)器的關(guān)注度如何自動(dòng)落在這些關(guān)鍵的地方呢？其實(shí)很簡(jiǎn)單，右邊是一個(gè)范文，剛才我們講了，用連續(xù)空間把它表示出來(lái)，這些范文和作文之間的向量，利用我們的關(guān)注度模型，會(huì)自動(dòng)找到之間比較對(duì)接的地方，應(yīng)該講，現(xiàn)在我們這方面的結(jié)果在中考和高考的作文評(píng)卷，不管是中文還是英文，都取得了很好的效果，比普通老師改得還要準(zhǔn)確，當(dāng)然這是大規(guī)模的結(jié)果。

最后我們來(lái)看一個(gè)閱讀理解題。我們看一段話，“月牙的影子在水中晃動(dòng)小鴨子看見(jiàn)了，以為是條魚(yú)，趕緊游過(guò)去”，現(xiàn)在題目是我把“小鴨子”摳掉，讓機(jī)器看完這段話以后自動(dòng)在上面填出來(lái)這地方應(yīng)該填什么，利用我們現(xiàn)在的系統(tǒng)，我們會(huì)把篇章和問(wèn)題進(jìn)行attention的規(guī)劃，“小鴨子”也在其它地方也出現(xiàn)過(guò)，它可以計(jì)算出每個(gè)地方熱力度（關(guān)注度）的情況，后來(lái)我們發(fā)現(xiàn)“小鴨子”的關(guān)注度最高，這樣我們就可以把“小鴨子”填在這個(gè)地方，而且是填對(duì)的。

現(xiàn)在它在閱讀理解方面能達(dá)到6歲兒童的水平，大家不要小看6歲兒童，6歲兒童在常識(shí)的理解達(dá)到了一個(gè)水平，而在6歲以后主要是學(xué)各種各樣的知識(shí)，這就跟我們認(rèn)知到的，2歲、3歲、4歲形成個(gè)人最重要的學(xué)習(xí)能力，這方面是最一致的。相信隨著6歲兒童常識(shí)的學(xué)習(xí)能力達(dá)到以后，我們?cè)俳o他灌輸小學(xué)、初中、高中的知識(shí)以后，它最后就能考上大學(xué)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

林藠頭

編輯

你先說(shuō)有什么事，我好決定在不在。

發(fā)私信

當(dāng)月熱門文章

科大訊飛胡郁：再過(guò)四到五年時(shí)間，機(jī)器語(yǔ)音識(shí)別就能達(dá)到人類水準(zhǔn)

科大訊飛胡郁：再過(guò)四到五年時(shí)間，機(jī)器語(yǔ)音識(shí)別就能達(dá)到人類水準(zhǔn)