丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給林藠頭
發(fā)送

4

科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準(zhǔn)

本文作者: 林藠頭 2016-06-28 13:59
導(dǎo)語:語音識別的錯誤率正在以每年30%的水平下降,我相信再過四到五年的時間,我們最后的語音識別系統(tǒng)就能跟人整個的感覺完全一樣了。

按:這是科大訊飛輪值總裁胡郁在2016網(wǎng)易科技未來峰會上發(fā)表的題為《“人工智能”以語音和語言為入口的認(rèn)知革命》的演講。雷鋒網(wǎng)整理,有刪改。 

剛才(華大基因董事長)汪建老師說,將來的世界是一個生命科技的時代,我非常同意這一點。將來人類的命運掌握在我們自己手里,我們可以改造自己。 

人類也想扮演上帝的角色。人類能夠在地球上統(tǒng)治整個世界,是因為我們有智能,現(xiàn)在不僅僅自己有智能,還希望能夠創(chuàng)造出新的智能。在當(dāng)前世界,各種各樣的智能層出不窮,甚至有段時間“智能”一詞都被用濫了,到底智能應(yīng)該向什么方向發(fā)展,智能到底應(yīng)該給我們帶來什么?今天我們帶著這個疑問想跟大家探討一下。 

今年3月份時有個非常著名的AlphaGo大戰(zhàn)李世石,在此之前很多人都給出了預(yù)測,包括我自己在內(nèi),我當(dāng)時的預(yù)測是機器人一定能夠戰(zhàn)勝人類。為什么呢?其實在研究界有句很有名的話,機器人在智能方面戰(zhàn)勝人類一定用它最擅長的方式,而不是用人類思維的方式。我們原來在討論時總想著下圍棋是一個非常高尚的運動,并不是每個人都能把圍棋下得很好,但其實機器根本不是這么想的,在下完這個比賽時,鳳凰衛(wèi)視《一虎一席談》請我和古力九段和柯潔九段去討論AlphaGo和李世石對打的情況,柯潔九段在“一虎一席談”上就比較謙虛了(按:比賽之前他曾經(jīng)放話“就算阿法狗戰(zhàn)勝了李世石,但它贏不了我”),他說這個東西還是要好好準(zhǔn)備。 

AlphaGo為什么能夠戰(zhàn)勝人類,因為它用的確實不是人類所擅長的方法,而是機器所擅長的方法,AlphaGo能夠同時計算每部棋下幾十步甚至上百步的可能性,而且AlphaGo能夠記住三千萬種法的對弈,而這是我們?nèi)祟愃簧瞄L的。 但是人工智能是不是能夠在所有方面超越人類呢?我覺得這也不一定,因為我們看到圍棋是一個完全信息透明情況下的公開博弈,就像以前的國際象棋,機器是占有很大優(yōu)勢的。 

很多人會問,人工智能到底體現(xiàn)在什么方面呢?我們知道人類有農(nóng)業(yè)革命、工業(yè)革命,還有現(xiàn)在講的信息革命,但可能很多人不知道的是,人類在統(tǒng)治地球的過程中其實經(jīng)過了漫長的歷史發(fā)展。有一本書《人類簡史》,這本書里寫到:人類在地球上已經(jīng)出現(xiàn)兩百萬到三百萬年了,但這些人類在全球各地,就是我們講的猿人、歐洲的原始人,中國的山頂洞人、元謀人和藍(lán)因人;但經(jīng)過歷史學(xué)家和基因工作者的研究發(fā)現(xiàn),七萬年前,智人從非洲走出來把其他猿人都給滅種了,現(xiàn)在不管是黑人白人還是棕色人種、黃種人,都是智人的后代。 

在這個過程中,好像智人突然開竅了一樣,人的智能在經(jīng)過兩三百萬年的發(fā)展中突然邁上一大步,是什么讓他們走到這一點?歷史學(xué)家把他們叫做“認(rèn)知的革命”,因為他們發(fā)現(xiàn)這些人跟其他猿人最大的不同是在他們的語言得到了極大的豐富,先有對話,然后產(chǎn)生文字,產(chǎn)生文字后有幾個好處: 

  • 第一個好處,它可以更好地描述周圍的自然世界,比如河邊有只獅子,他們知道獅子長多大,身上有沒有病,處于什么樣的狀態(tài)。更重要的是因為有了語言、有了語音,我們可以描述團隊和團隊之間的關(guān)系,如果沒有語言,現(xiàn)在動物群種里面的黑猩猩,一個團隊最大不能超過50頭,超過50頭就無法管理;但智人因為有了語言,因他們可以組織上千人的團隊。 

  • 第二個好處,有了語言以后我們可以描述我們共同想像的內(nèi)容,一些虛構(gòu)的概念,“公司”、“夢想”都是從此得來。所以我們可以看到,現(xiàn)在歷史學(xué)家一個非常重要的觀點就是人類的認(rèn)知革命將人類的智能帶到一個新的高度。 

 機器擅長的運算智能,但如果講到感知智能,機器其實比我們差得很遠(yuǎn)。 這也是科大訊飛現(xiàn)在正在踐行的以語音和語言為入口的計算機的認(rèn)知革命。我們所執(zhí)行的訊飛超腦計劃想要做的事情,就是讓機器通過傳感器和算法感知世界,并且能夠?qū)ψ匀坏娜祟愂澜邕M行認(rèn)知,作為我們?nèi)斯ぶ悄芤粋€非常重要的突破點。

 怎樣實現(xiàn)這種突破,其實我們有兩種不同的途徑,一種和我們的腦科學(xué)非常有關(guān),我們可以對大腦所有的神經(jīng)元構(gòu)造和它的工作機理進行分析,甚至可以根據(jù)大腦的整個工作機理重構(gòu)出來真正和大腦相同的機制,這是一條思路,但這條思路時間比較長;另外一條思路就是用互聯(lián)網(wǎng)的思維,利用我們機器學(xué)習(xí)算法和大數(shù)據(jù),不完全模仿大腦,但利用機器運算的方法能夠模擬我們的感知和認(rèn)知。 

我們研究鳥類飛行造出了飛機,但我們并沒有造一個鳥出來,是因為我們是知道了鳥在飛行中的空氣動力學(xué);我們研究大腦,其實并不是把大腦完成復(fù)制,而是希望找到大腦中的智力動力學(xué),進一步優(yōu)化我們整個學(xué)習(xí)的算法。 

從另一個角度,如果用互聯(lián)網(wǎng)思維來解決、改進我們的人工智能,要感謝三個方面的進展:一是人工神經(jīng)網(wǎng)絡(luò),這個人工神經(jīng)網(wǎng)絡(luò)就像我剛剛說的,只是學(xué)到了大腦一些簡單的機理,沒有大腦那么復(fù)雜,但已經(jīng)可以很好地工作了;另外拜互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)所賜,我們可以得到大量大數(shù)據(jù);更重要的是我們有千千萬萬的算法,有直達用戶的產(chǎn)品,這些產(chǎn)品把用戶的使用習(xí)慣源源不斷傳入后臺,我們可以利用網(wǎng)絡(luò)的效應(yīng)不斷地優(yōu)化它。正是因為有這三者的支撐,我們得到了非常好的結(jié)果。

 真正人工智能的框架應(yīng)該是什么樣的呢?再給大家舉個例子,人類大腦皮層在工作過程中分為兩個層面:一個叫感知層面,就是我們講的視覺、聽覺和觸覺,還有一個層面是認(rèn)知層面,當(dāng)我們看到一只貓,聽到貓的叫聲,或者是摸貓的皮毛,人腦里有一個概念,這些概念形成了我們語言中的單詞和詞匯,就是“貓”這個概念,它們匯聚到我們講的語言和理解的大腦的認(rèn)知皮層層面。所以在訊飛超腦里分兩個層面:感知智能是對我們聽到的、看到的、觸覺到的東西進行識別,同時把識別結(jié)果上升到我們認(rèn)知智能的層面,形成一個概念空間的表示和推理,在過去五年中我們相繼把深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用在剛才我們講的感知和認(rèn)知,包括視覺、包括聽覺,包括自然語言,包括翻譯的各個方面。 

(工作人員播放了三個語音片段)

 這是一段語音片斷,大家聽到第一個好像是“休息”,第二個好像是“休息室”,但當(dāng)聽完完整片斷時你會知道(按:類似于大腦自動“校正畸變”),原來這句話說的是“《西游記》之大鬧天宮”。人腦是怎么工作的呢?人腦能夠記下短時或中間的或長時的記憶,通過一種遞歸的方法識別語音,現(xiàn)在最新型的遞歸神經(jīng)網(wǎng)絡(luò)能夠模擬我們在大腦方面的感覺,這個過程非常復(fù)雜,我就不一一介紹了。 

但光有遞歸還不夠,光能夠存儲記憶還不夠,現(xiàn)在最新的一個方式是用我們講的圖像的方法識別語音,當(dāng)語音進入我們的耳朵時,我們耳朵里的纖毛會根據(jù)它的長度不同與語音中不同的頻率進行共振,如果把共振的頻率分析出來,我們可以得到一張語譜圖,這個圖形里的信息很豐富,在MIT專門有科學(xué)家可以根據(jù)這些圖形就能夠跟你說這句話里用的是什么樣的文字。我們的識別系統(tǒng)如果能夠讀這些圖,整個性能的穩(wěn)定性就會有很大提高。 

如果你是一個盲人,你的耳朵就會特別靈,因為它借用了我們在視神經(jīng)方面的一些神經(jīng)系統(tǒng)和細(xì)胞,這樣可以把它的一些能力借用過來。我們應(yīng)用一個新型的卷積神經(jīng)網(wǎng)絡(luò),它原來是專門用來做圖像的,來處理我們的語音圖像,我們得到了一些非常令人驚訝的結(jié)果:即使是跟最新的遞歸神經(jīng)網(wǎng)絡(luò)相比,用卷積神經(jīng)網(wǎng)絡(luò)——也就是用識別圖像的方法,我們?nèi)匀荒苋〉靡粋€48%的提高。 

可以說,現(xiàn)在我們的語音不僅可以聽到,而且可以看到。因為這樣的結(jié)果,我們大家會越來越多地看到,在我們各種各樣的輸入法里,在我們的語音搜索里,還有在我們各種各樣的語音交互式系統(tǒng)里,語音識別的錯誤率正在以每年30%的水平下降,我相信再過四到五年的時間,我們最后的語音識別系統(tǒng)就能跟人整個的感覺完全一樣了。 

在感知方面,我們語音識別技術(shù)不斷取得提升,但是在認(rèn)知方面,它有幾個非常核心的任務(wù)要完成,訊飛超腦關(guān)于語言理解及深層、知識表述及推理,還有自主學(xué)習(xí),要實現(xiàn)這些技術(shù)必須要有兩個層面的東西:第一是要解決自然語言描述的問題,在此基礎(chǔ)上我們要解決語言理解及深層,還有我們講的知識表述及推理各個方面。

 剛才我們提到了大腦在大腦皮層中關(guān)于概念的表示,它是一張圖,不同的詞語它們之間概念是有空間的,我給大家舉個例子,比如“大家好”,傳統(tǒng)的表達,每個詞就代表了一個空間,我們把每個詞的出現(xiàn)看成“1”,不出現(xiàn)的地方看成“0”,這是傳統(tǒng)表現(xiàn)詞語的一種方法,詞語和詞語之間,要不就是距離相同,要不就是不同。 現(xiàn)在我們采用一種連續(xù)的空間來表現(xiàn)詞語,每個字、每個詞都可以用“詞語卷積”的方法,用一段連續(xù)的數(shù)字,相當(dāng)于一個空間里的坐標(biāo)系,這樣每兩個單詞之間的距離就可以把它計算出來。

 科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準(zhǔn)

我們把所有詞聚了一下類就可以看到這么一個結(jié)果,比如我們可以看到新浪、網(wǎng)易、騰訊,這些東西是連在一起的;我們可以看到呂布、張飛、關(guān)羽、諸葛亮,他們是比較接近的。如果通過醫(yī)學(xué)的方法來測量,我們也會發(fā)現(xiàn)相關(guān)詞語在大腦皮層中存儲的位置也是非常接近的。 

利用這種方法,我們就建立了一種表現(xiàn)詞語的空間概念的表達體系,在這樣的表達體系之下,我們可以進一步地去分析詞語層面、句子層面和篇章層面,他們在各個層面上的連接和計算的距離。 有了這個以后,我們來看一些實際的作用,他們能做什么樣的事情呢?

首先我們看一下語言的理解及深層。首先來看翻譯,在翻譯方面,我們知道他們要進行語句的練習(xí),因為不同語言是不一樣的,這時候用到人腦中一個非常重要的概念,關(guān)注度模型,比如我們?nèi)嗽诳匆环鶊D像,海邊有一個燈塔,我們看的時候注意力是集中在燈塔上而不是其它方面。 

 科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準(zhǔn)

 科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準(zhǔn)

這張圖比較有意思,上面這張圖是一個男司機在開車時觀察各種各樣的東西,下面這張圖是一個女司機,她的思路就比較狹窄。

 如果我們來看一段文字,這兩天正好歐洲杯,我們的注意力其實也是集中在那些文字中比較有信息量的地方,這種關(guān)注度模型,其實它的方法是能夠把我們最關(guān)注的那些輸入量自動尋找出來,與我們最終的結(jié)果進行對應(yīng)。

我們來看一下基于機器翻譯的實際例子: 大家都知道,不同的語言之間,他們的機器翻譯,比如有很多謂語、主語、賓語,它們的位置是不同的,會進行倒裝,順序也會發(fā)生很多變化,原來用規(guī)則的方法來描述這些變化非常復(fù)雜,通過我們現(xiàn)在講的這個神經(jīng)網(wǎng)絡(luò),大家可以看到下面,輸入“我是誰”,“誰”和“我”,它們的位置是有差異的,但利用attention這個神經(jīng)網(wǎng)絡(luò),它們可以自動找到對應(yīng)關(guān)系。采用全新的神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),相比傳統(tǒng)系統(tǒng),提高會非常多。 

再看下一個具體的例子,我們都知道最近科大訊飛在教育方面做了非常多的工作,我們希望能夠利用機器人幫助我們的老師進行卷面批改,比如我們寫了一個作文,這篇作文,我們希望機器人也能給它打出分?jǐn)?shù)并給出它的評語。 大家看這個樣例,右邊94分是這篇文章的得分,右邊有評語,而且從這篇文章中可以看到它用到了排比,用到了一些語句的引用,我們?nèi)绾蝸碜?,讓機器也能看懂這些東西?機器的關(guān)注度如何自動落在這些關(guān)鍵的地方呢?其實很簡單,右邊是一個范文,剛才我們講了,用連續(xù)空間把它表示出來,這些范文和作文之間的向量,利用我們的關(guān)注度模型,會自動找到之間比較對接的地方,應(yīng)該講,現(xiàn)在我們這方面的結(jié)果在中考和高考的作文評卷,不管是中文還是英文,都取得了很好的效果,比普通老師改得還要準(zhǔn)確,當(dāng)然這是大規(guī)模的結(jié)果。 

最后我們來看一個閱讀理解題。我們看一段話,“月牙的影子在水中晃動小鴨子看見了,以為是條魚,趕緊游過去”,現(xiàn)在題目是我把“小鴨子”摳掉,讓機器看完這段話以后自動在上面填出來這地方應(yīng)該填什么,利用我們現(xiàn)在的系統(tǒng),我們會把篇章和問題進行attention的規(guī)劃,“小鴨子”也在其它地方也出現(xiàn)過,它可以計算出每個地方熱力度(關(guān)注度)的情況,后來我們發(fā)現(xiàn)“小鴨子”的關(guān)注度最高,這樣我們就可以把“小鴨子”填在這個地方,而且是填對的。 

現(xiàn)在它在閱讀理解方面能達到6歲兒童的水平,大家不要小看6歲兒童,6歲兒童在常識的理解達到了一個水平,而在6歲以后主要是學(xué)各種各樣的知識,這就跟我們認(rèn)知到的,2歲、3歲、4歲形成個人最重要的學(xué)習(xí)能力,這方面是最一致的。相信隨著6歲兒童常識的學(xué)習(xí)能力達到以后,我們再給他灌輸小學(xué)、初中、高中的知識以后,它最后就能考上大學(xué)。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

你先說有什么事,我好決定在不在。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說