0
本文作者: 奕欣 | 2017-09-19 15:11 |
雷鋒網(wǎng) AI 科技評論按:7 月 31 日在清華大學(xué)舉辦的「人工智能與信息安全」清華前沿論壇暨得意音通信息技術(shù)研究院成立大會上,有 6 位來自不同領(lǐng)域的特邀嘉賓受邀前來,為大家?guī)砭实难葜v。
本章為莊炳湟院士演講實錄。按照莊院士要求,文章僅采用文字形式發(fā)布。本文經(jīng)莊炳湟院士審改,以下為講座文字整理版。本文首發(fā)于「北京得意音通」(d-EarTech),雷鋒網(wǎng) AI 科技評論獲授權(quán)轉(zhuǎn)載。
莊炳湟,美國喬治亞理工學(xué)院教授暨喬治亞州研究聯(lián)盟杰出學(xué)者、美國國家工程院院士、美國發(fā)明家學(xué)院院士、IEEE 會士、中央研究院院士,數(shù)家著名大學(xué)的榮譽講座教授。原美國貝爾實驗室資訊研究部門主任,負(fù)責(zé)聲音和語音以及人類資訊模式化的研究。學(xué)術(shù)貢獻甚豐,包括語音編碼與識別、多頻回聲控制等,其所著《語音識別基礎(chǔ)》一書被公認(rèn)為經(jīng)典之作。曾獲貝爾實驗室金牌獎、IEEE 信號處理學(xué)會技術(shù)成就獎等。
在 7 月 31 日得意音通信息技術(shù)研究院成立大會上,莊炳湟院士接受得意音通邀請,出任研究院學(xué)術(shù)委員會聯(lián)席主任。以下為演講全文整理,全文共 8045 字,閱讀時間約 12 分鐘。
莊炳湟:很高興能夠到清華來給各位作報告,也感謝鄭方老師邀我來這邊共襄盛舉。我今天報告的題目是《Artificial Intelligence,Scientifically Speaking》,其實我要講的,剛剛張院士點點滴滴都稍微有一點談到了。
我在過去一兩年里,在世界各地旅行,常常聽到收音機里、電視機里很多人在討論人工智能。但是碰到討論的人數(shù)中通常沒有科研基礎(chǔ)的都比有科研基礎(chǔ)的人數(shù)還多,所以這個聽起來非常有意思。我們講「瞎子摸象」,當(dāng)做故事聽聽是蠻有娛樂價值的。
張院士講基本上很長時間我們是知其然不知其所以然,是「黑箱」學(xué)習(xí)。今天的報告最主要的出發(fā)點是希望從科普的角度,給這個黑箱造一點光,看能不能幫大家從歷史的角度、從科技進展的角度來多了解一些最近所謂的深度學(xué)習(xí),並引起大家對人工智能正確的興趣。
人工智能確實過去一兩年非?;馃幔? 月份,美國川普總統(tǒng)召開了一個美國科技界主管總統(tǒng)級的匯報,在會議中,亞馬遜老板(杰夫·貝索斯)當(dāng)場跟川普總統(tǒng)說:「美國各階層都應(yīng)該進行人工智能研發(fā)的工作,希望能夠深入到政府的每一個階層,促進政府對人民服務(wù)的效能?!顾缘拇_是很重要的一個課題。
既然是這么一個重要的課題,我們?nèi)绾瘟私馊斯ぶ悄??在座或多或少都有一些科技背景,怎么擺脫人們對人工智能的揣測,稍微有一些比較科學(xué)上的根據(jù)和了解。
我們希望人工智能替我們做事情,今天講到人工智能,很多人會認(rèn)為我們以后可能一個人被機器人代替,可以當(dāng)我們的玩伴。但是我們今天希望講的是另外一個層面,它能帶給我們真正的工效,就是自動化。自動化從早期的機械化,今天還有機械化,但是在程式方面、復(fù)雜度更高,從機械化到控制、電子控制,對環(huán)境參數(shù)的掌握,引起管理控制上面的變化,到最近智能化的工作。請大家記住我們做人工智能不是好玩的,它是有實際功效的。
什么是智能?
智能包括許多不同的能力,論理能力、聯(lián)想能力、假設(shè)能力以及很多不同的能力,我舉的這幾項只是其中一部分。人類的智能包含很多不同的能力,這是我希望大家了解的第一點。
過去我們講用機器獲取智能,有兩種方法來達到目的:
第一,希望能夠建立人腦的模型;
第二,能夠模擬人腦的功能。
模型的建立,要由生理上的研究來引導(dǎo),但是功能上,希望從計算上來表達,這兩者相輔相成。
在提到智能計算機化的過程中,大家一定會提到圖靈這個科學(xué)家,他有兩個觀點:
第一,計算基本是符號的處理;
第二,跟智能有關(guān)系,當(dāng)一個機器表現(xiàn)的跟人一樣時,它就有人的智能。
圖靈講的是一個基本的概念,稍嫌籠統(tǒng)。比如,今天不懂電腦的人大概也都會講電腦就是 0 與 1 的處理,但是很多人不知道,除非你是計算機系的,可能不知道 3+5,在計算機里面是怎么做的,你知道是 0 與 1,但怎么搭配出來變成 8,可能很多人,特別是沒有科技背景的討論人工智能的人可能不知道,在這么小的計算器里怎么得到 8 的。所以講根本是一回事,講實現(xiàn)又是另外一回事。
在這個過程中,最出名的是圖靈測試,一個機器是不是有智能,讓一個機器在一個屏幕之后做某一些動作,在屏幕之外的人判斷是人做的還是機器做的。假如我們沒有看到真正做這些反應(yīng)的人或機器,但是猜測是人的話,就算通過圖靈測試。但是圖靈測試是非?;\統(tǒng)的觀念,對智能并沒有非常精細的界定。精細的意思是沒有教你怎么達成,只是說用人來判斷這個機器到底做的像不像人。
1964-1966 年 MIT 有一個年輕的教授寫了一個程式:ELISA,這是早期寫的一個計算機程式,跟人可以對話。如:
ELISA :我是一個心理治療師,你告訴我你到底有什么問題?
人:我頭痛。
ELISA :你應(yīng)該去找一個醫(yī)生,我只是一個心理專家,不是醫(yī)生。
人:好,我就去找醫(yī)生。
ELISA :你能不能多講一點?
人:我不再講了,再見。
ELISA :你為什么這樣講?
這個程式是這個教授用很簡單的規(guī)則寫出來的而已,這是早期通過圖靈測試的一個人機對話的系統(tǒng)。這樣的人機對話有智能嗎?假如有智能的話,幾行 code 就能寫出來,智能這么廉價嗎?
先前提到電腦是 0 與 1 之間,但要電腦能達成 3+5=8,有一段距離,這個細節(jié)怎么做,還需要很多工程師做設(shè)計。這個差別在于判斷智能的根本或智能的實用。
在人工智能發(fā)展過程中,大部分人都會提到 1956 年的 Dartmouth workshop 的主張,智能可以用符號邏輯來達成,早期人工智能的研究很多是屬于符號邏輯,包括所謂計算機程式針對符號邏輯做處理的設(shè)計,比如有一個程式語言叫 lisp,這是早期符號處理語言,聽說最近又有人重啟 lisp 的興趣。
在人工智能發(fā)展過程中,經(jīng)過好幾個人工智能的「冬天」,起起落落出現(xiàn)過好多次,所以本身不是一個非常穩(wěn)定的學(xué)科,常常因為有一些進展,大家就非常興奮,但是真正的進展和了解是我們每一個人應(yīng)該加強的地方。今天希望在這個部分提供給大家一些參考。
以符號邏輯為人工智能的根本之外,其他的工作也有很多跟人工智能非常有關(guān)系的,這些工作過去經(jīng)常不包括在傳統(tǒng)的人工智能中,但由功能來看,今天的人工智能已經(jīng)將許多這類的工作包括進去了。
Claude Shannon 在 50 年代初做了很多工作。舉兩個例子,Shannon game 和老鼠走迷宮的例子。另外在 50 年代,在實驗室里,70 年代、80 年代、90 年代,我們做了很多數(shù)學(xué)上的工作,對語音識別有很多的促進,到 2007 年 siri 的出現(xiàn),于是被認(rèn)為這是人工智能的一部分。我們做語音識別工作時,幾乎沒有想到我們是屬于人工智能的,但是今天,大部分的人會把我們歸類成人工智能的一部分。其他像 Fuzzy set 在 1965 年提出來,還有今天要講的人工神經(jīng)網(wǎng)絡(luò),其中包括好幾個在歷史發(fā)展里比較重要的事件等等,都不甚符合傳統(tǒng)比較嚴(yán)謹(jǐn)?shù)娜斯ぶ悄艿亩x,現(xiàn)在回頭看,很多工作都可以算是人工智能的一部分。
什么是 Shannon Game?我寫一個句子,不告訴你是什么,要你一個字母一個字母來猜。如:THERE, 很多句子開頭都是 T,你猜對了,就算 1,下面數(shù)字是你猜的數(shù)字,你看到了 T,猜 T,一次就猜對了,接下來很可能就是 H,這是很常出現(xiàn)的,你也猜一次就出現(xiàn)了。再接著是 E,也猜對了,但是到第四個可能猜了 5 次才猜對,THE 之后很多人可能就猜「空格」,要么就是 Y,猜了 5 次才到"R"。
Shannon 是用猜測的次數(shù)來界定信息量,信息量是另外一個題目。當(dāng)機器假如保留這個概率,看到前面 3 個字母,后面 26 個字母,加上空格的概率都掌握到了,機器不懂這句子,但機器會猜的比你好,猜的次數(shù)會比你少??墒俏覀儾粫J(rèn)為這個機器有智能。這是在 1951 年的時候。后來 Shannon 參加了 1956 年這個會議,半天就回去了,沒有再參加。根據(jù)一些文件,我們可以硏判,從派系來講,似乎他并不認(rèn)為他屬于傳統(tǒng)的人工智能學(xué)者。今天講猜字,計算機掌握很簡單的方式就可以猜的比人好,是不是也有人類的智能?
Shannon 當(dāng)時研究電子交換機的問題,設(shè)計了一個機器,放機械老鼠進去,老鼠自己走到目的地,好像老鼠有智能一樣。但這里并沒有任何智能在其中,只是簡單的 relay 而已。
人工智能在發(fā)展過程中,有比較嚴(yán)謹(jǐn)?shù)挠嬎銠C科學(xué)的角度,有一些比較實際的從別的方面解決一些自動化的問題。當(dāng)初雖然有一些分割,以今天大家通稱的人工智能來說是合為一體的。目前盡量兩邊互相有一些對接。當(dāng)初神經(jīng)網(wǎng)絡(luò)并沒有真正被包括在人工智能里,可是今天大家希望神經(jīng)網(wǎng)絡(luò)能納入傳統(tǒng)的符號邏輯互相影響,現(xiàn)在在做一些深層研究的項目。
人的智能并不是一個單一的能力,智能包含了很多能力,不同的智慧能力事實上有不同的目標(biāo)。智能優(yōu)化目標(biāo)跟我們做決定的目標(biāo)可能是不一致的,需要的算法很可能也是不一樣的。假如認(rèn)定這一點的話,就可以從不同智慧功能的角度來看過去這 10 年深度學(xué)習(xí)方面的進展到底在什么地方。
過去幾年,人工智能的進展有一大部分是因為大量的數(shù)據(jù)加上深層學(xué)習(xí)所引起的一些辨識功能的增進,引起大家很多的興趣。從這個角度來解釋,過去深層學(xué)習(xí)的進展引起大家對人工智能的興趣,中間除了計算機數(shù)據(jù)量增加以外,有沒有更深層次學(xué)習(xí)方面的根據(jù)?這里跟大家分享一下心得。
人工智能的進展是得力于大量的數(shù)據(jù),但是數(shù)據(jù)怎么驅(qū)動人工智能的發(fā)展?以辨識的問題來做解釋。從辨識問題的目標(biāo)是需要辨識率最高或錯誤率最低角度來講,傳統(tǒng)的辨識理論已經(jīng)告訴我們怎么做了,我們必須掌握到它的分布。當(dāng)確定以最小錯誤率當(dāng)做目標(biāo)時,辨識理論就引導(dǎo)我們必須從數(shù)據(jù)里學(xué)習(xí)分布模式。辨識理論容易講,不容易實現(xiàn),從數(shù)據(jù)里學(xué)習(xí)也是容易講,不容易實現(xiàn),問題在哪里?叫做 3Ds。
第一個,觀測維度的問題。維度高時,要專家來告訴你特征在哪里。問題是這個特征有可能已經(jīng)主觀上忽略了一些或沒有辦法關(guān)照到一些細節(jié),先入為主的觀念有時候就限制了我們系統(tǒng)的功能。深的數(shù)據(jù)本身觀測的維度很高,有可能計算不下去。
第二,掌握統(tǒng)計的分析。這個分布怎么代表?要把它數(shù)學(xué)模式化。數(shù)學(xué)模式化的時候,要學(xué)什么模式?是正常分布或者其他分布,單一尖峰值的分布夠不夠,這些都是應(yīng)該討論的,但是很可惜過去深度討論這些模式的妥善性不夠。再加上有了模式的選擇,要參數(shù)化,要從數(shù)據(jù)里能夠?qū)W到參數(shù)的值,怎么學(xué)?會有層層困難。
第三,數(shù)據(jù)量夠不夠。這些實際的問題,雖然我們相信辨識理論,但是在實行時鞭長莫及,常常達不到最好的結(jié)果。
觀測維度問題非常重要,這個問題對于了解深層學(xué)習(xí)的進展也是關(guān)鍵。例如,這裡手寫數(shù)字的數(shù)據(jù),2,是 28×28 的觀測,本身這個維度是 784,假如要做常態(tài)分布的分析來套這個數(shù)據(jù)的話,馬上碰到一個問題,即有多少個參數(shù)值?平均值先擺一邊,784 任取 2,是 307720 個參數(shù)。這是相當(dāng)高的參數(shù)量。我們現(xiàn)在一般掌握到號稱最大量的 MNIST 的數(shù)據(jù),每一個數(shù)字差不多 10 萬個而已,數(shù)據(jù)量比參數(shù)量還少,那統(tǒng)計的估計不會太精準(zhǔn)。這問題,怎么解決?
這是 NIST Digits 的例子。面對 784 維的觀測值,怎么建立統(tǒng)計的模式,這是第一個課題。剛剛提到當(dāng)選最簡單的常態(tài)分布的話,産生了數(shù)據(jù)量不夠去估計這個參數(shù)值的問題。在過去,我們常假設(shè)這觀測值有 Markovian 性質(zhì),以簡化分佈函數(shù)。通常高緯度觀測象量里,非常常見的情形是隨便抓兩個維度算相關(guān)性,其實是非常低的,只是你不知道哪一對。30 萬對里,哪一些對,是不值得你顧慮的,不容易事先知道。但是講數(shù)學(xué)的話,可以用代表,當(dāng)把 784 任取 2 的對簡化,知道如何簡化,寫成一個圖,比如這個五個維度的例子中有關(guān)聯(lián)的只是 1 和 5、2 和 5、3 和 3,1 和 2 是沒有的。假如你知道的話,就可以簡化,問題是你不易事先知道?,F(xiàn)在有一個方法可以讓數(shù)據(jù)自己說話,把有相關(guān)度、值得重視的維對之間做比較可靠的選取。當(dāng)要處理維度很高的觀測值時,過去做不到,傳統(tǒng)統(tǒng)計的方法不容易做,現(xiàn)在神經(jīng)網(wǎng)絡(luò)里有一種可以做得到。
神經(jīng)網(wǎng)絡(luò)。今天講深層學(xué)習(xí),就是深層神經(jīng)網(wǎng)絡(luò),這里基本的構(gòu)成是 McCulloch Pitt 神經(jīng)元,我們將人腦模擬成由這些神經(jīng)元互相連接構(gòu)成的。Y 是輸出值,Y 是一個神經(jīng)元,跟這個神經(jīng)元連接有好幾個神經(jīng)元,根據(jù)輸入神經(jīng)元的狀態(tài)強弱,經(jīng)過一個計算法則可以得出 Y 是 0 還是 1,為什么這個也變成邏輯推導(dǎo)的共通點,當(dāng)初 McCulloch 和 Pitt 的文章是定義邏輯的微積分。這個又跟生理上腦的神經(jīng)元概念雖然不完全精準(zhǔn),但是符合的,所以接受的人很多。
我們希望能夠模擬人腦或模擬人腦的功能,在神經(jīng)網(wǎng)絡(luò)進展里,已提出很多不同的模式,其中有兩個最值得重視的:
第一,是 Recurrent Neural networks,在圖中這個例子,當(dāng)五個維度的觀測值輸入給這個人腦模式,隨著時間演變,五個神經(jīng)元最后會各回歸到一個值,就是把所有的神經(jīng)元連接起來,輸入每一個神經(jīng)元,讓它自己回歸到固定的值。
第二,是 feedforward neural networks, 從左到右,比如這里輸入的值有四個,輸出的有五個,這個人腦模式處理輸入的信號是階段性的,一層一層,比如聲音從耳朵進來以后,或是有視覺的輸入,從眼睛進來,層層往上,到最后看到了什么、聽到了什么,是用這個方式來建構(gòu)人腦模式的。這個模式可用來作識別的工作。例如,把 FNN 作為一個模擬人腦辨識物形的計算法,輸入一個幾何圖形,三角形由第一個 Y 輸出代表,圓形、方形是由其他的輸出神經(jīng)元代表,希望它的權(quán)重學(xué)到什么程度呢?比如一有三角形的輸入,三角形的神經(jīng)元就亮起來了,這樣我看到了一個三角形,這樣可以當(dāng)做一個近似函數(shù)的作用。剛才談神經(jīng)網(wǎng)絡(luò)時,提到 1974 年,提出錯誤回流訓(xùn)練法的觀念,就可以讓你學(xué)習(xí)這些權(quán)重,達到識別的目的。
另一方面在 RNN 的概念里,人腦是一堆神經(jīng)元,每一個都接受輸入,反復(fù)計算,自動回歸到每一個神經(jīng)元的終止?fàn)顟B(tài)。1980 年就已經(jīng)提出來了,比如要用圖中四個聯(lián)結(jié)的神經(jīng)元來學(xué) 0、1、1、1,用 Hebbian 學(xué)習(xí)法,學(xué)了以后,所有權(quán)重都掌握到了,用這個方程式來代表。以后,若用 0、1、1、0 輸入,自己回歸以后,取得 0、1、1、1,變成記憶選取的功能,所以可以用神經(jīng)網(wǎng)絡(luò)來做記憶。
后來的發(fā)展,四個神經(jīng)元,4 的 2 次方,有 16 個,真正記憶的可能只有 2 個,不是太有效的。有人提出來,不要讓所有的神經(jīng)元都接入輸入,增加一些看不見的神經(jīng)元,讓它的記憶量增加,同時因為增加其他看不見的神經(jīng)元,輸入的部份就很可能允許一般性的輸入,不需限定 0 和 1,有可能一些小數(shù)點或數(shù)目的大小比較通用。這個結(jié)果隱含著能夠跟剛剛提到的 Markov random field 結(jié)合在一起。
結(jié)論是,有了 Boltzmann Machine(BM)& Restricted BM (RBM),可以提供數(shù)據(jù),讓你做這種學(xué)習(xí),所隱含的統(tǒng)計模式就比較簡單,但是也符合數(shù)據(jù)所能夠提供給你的資訊,而不是專家或漫無目的的學(xué)習(xí)。
來看一些例子。比如現(xiàn)在輸入的是兩維的,中間看不見的神經(jīng)元有 8 個,輸入 2 個常態(tài)分布,學(xué)習(xí)完了以后,隨便用兩維的數(shù)放進去,都跑到這條線上,基本上記憶中心點。遠看的話,跟這個角度是有關(guān)聯(lián)的,所以有一些輸入就會跑到這條線上來。所以 RBM 可以想象成是保留相關(guān)度的一個結(jié)構(gòu),學(xué)習(xí)以后保留數(shù)據(jù)里的相關(guān)結(jié)構(gòu)。這個意義在哪里?當(dāng)維度很大時,不易建立統(tǒng)計模式,可是又要能夠算出概率,只能近似,怎么近似?只能保留在數(shù)值上比較重要的、相關(guān)度比較高的維對。這些功能,能夠讓你很快得到一些結(jié)果。雖然不見得真正準(zhǔn)確,但是比起傳統(tǒng)的統(tǒng)計方法,至少很快有結(jié)果讓你用。
例如,現(xiàn)在有 784 維輸入的神經(jīng)元,中間用了 2000 個看不見的神經(jīng)元,RBM 學(xué)完了以后,把 0 到 9 放進去,讓它自己回歸,6 次以后,得到的結(jié)果如圖顯示。另一例,現(xiàn)在用的輸入含有大量的雜訊,肉眼很難看出其中的數(shù)字。你把記憶里最相關(guān)的部分整理出來,這些數(shù)字里唯一你比較能夠認(rèn)識的就是 2。放的是 2,經(jīng)過學(xué)習(xí)以后,放進輸入,第二段像 2,8 放到 2 里,雖然噪聲不相干的部分被去掉,但是剩下部分像 8,但不完全,因為繼續(xù)做的話,離 8 越來越遠,因為你所學(xué)習(xí)的是 2。所謂相關(guān)結(jié)構(gòu)的保留,把一個高緯度的輸入經(jīng)過處理,把不相關(guān)的部分去除掉或減少,保留高相關(guān)度來做下一級的處理,這是一個很重要的現(xiàn)象。層層轉(zhuǎn)換,聯(lián)想,以算出較準(zhǔn)的可信度。
所以,在模擬人腦里,出現(xiàn)兩個功能,從相關(guān)度引出聯(lián)想;微調(diào)辯證,減少錯誤。用 RBM 相關(guān)度引出聯(lián)想,但是聯(lián)想并不見得達到最高的辯證效果,須再接用 FNN 微調(diào)辨識。
現(xiàn)在回來看深層神經(jīng)網(wǎng)絡(luò)。從結(jié)構(gòu)上來講,與早期的神經(jīng)網(wǎng)絡(luò)相比,只是寬度和深度的增加,并沒有任何奇妙的地方,為什么要 60 年?原因是深層神經(jīng)網(wǎng)絡(luò)不同的層次包含著不同的意義,而且有不同的學(xué)習(xí)目標(biāo)。初步的幾層是從聯(lián)想引發(fā)轉(zhuǎn)換,變成比較抽象的代表,抽象代表里再加以統(tǒng)計的考慮,一直到上層,上層保留辯證功能。假設(shè)第一個神經(jīng)元應(yīng)該是 1,但算出是 0 的話,可以朝那個方向去調(diào)權(quán)重去學(xué)習(xí),讓它的輸出靠近 1,那就是促進辯證的功能。
RBM 輸入以后,會把不相關(guān)的去掉,結(jié)構(gòu)上來講是跟 FNN 層層處理是不一樣的,可是 RBM 翻轉(zhuǎn)以后,看起來就像 FNN,所以 RBM 功能訓(xùn)練的法則不一樣,可是翻轉(zhuǎn)以后,結(jié)構(gòu)就跟 FNN 很類似,所以可以跟 FNN 作為一個辯證功能的神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。
今天我們講深層神經(jīng)網(wǎng)絡(luò)包含聯(lián)想的部分和辯證的部分,聯(lián)想的部分是用不同的法則來做學(xué)習(xí)的目標(biāo)。如圖,以辯證角度,以 FNN 角度,用錯誤回流的方式來學(xué)習(xí)權(quán)重。今天我們講深層神經(jīng)網(wǎng)絡(luò)其實包含著不同的學(xué)習(xí)法則、不同的學(xué)習(xí)意義就在這里面。
我有一個朋友,最近很生氣,為什么很生氣?他說這些東西 60 年代就做過了。我想他并沒有想到雖然是同樣的結(jié)構(gòu),但是內(nèi)涵事實上有可能不一樣。
結(jié)論:到底最近的進展怎么樣?
1. DNN 可以處理高維度觀測值,在很多識別工作里,把維度增加了,是有很顯然的益處。如聲音識別,同時把時間的因素拉長的話,我們很早就知道是有好處的,只是過去傳統(tǒng)統(tǒng)計的做法,因為計算上有一些難度,做不下去。但是現(xiàn)在有了 RBM/DBN 來估算 Markov Random Field 的簡化模式,就解決了這個問題,雖然在低維度觀測值的問題里,深層神經(jīng)網(wǎng)絡(luò)不見得比較好,可是到高維度時,就一定比傳統(tǒng)的好,因為傳統(tǒng)的由于數(shù)據(jù)量不夠做不下去。
2. DNN 包含了兩個有關(guān)智能的動作:聯(lián)想和辨識。這兩個目標(biāo)不太一樣。
3. RBM 讓你聯(lián)想,F(xiàn)NN 讓你辨識。RBM 翻轉(zhuǎn)以后,兩個串成一氣,可以不用更改計算結(jié)構(gòu)就可以達成最終的目的。我們過去也做,但是沒有像現(xiàn)在這么統(tǒng)一的計算法,就是一層一層的以神經(jīng)網(wǎng)絡(luò)的計算法來進行。
最后我對得意音通有一些期許,到底人工智能是不是會超越人?有一些人認(rèn)為人的智能是最高的,其實在很多特定功能下,人工智能是做得比人還要好。在聲音方面,如 1991 年就已經(jīng)證明連續(xù)數(shù)字的識別,講一連串?dāng)?shù)字,超過 10-11 個,機器一定做得比人好,因為人要識別然后再轉(zhuǎn)換記錄,沒有辦法記憶太長的數(shù)字串,這個過程中會出錯。聲紋的確認(rèn),現(xiàn)在只要 1 秒鐘的聲音可以做到錯誤率只是在 3-5% 的結(jié)果。一般 1 秒鐘的聲音太短,對人耳來講,不足以讓人判斷。希望得意音通將來有許多比人的智能更好的技術(shù)。
最后回應(yīng)一下張院士講的 Alpha Go 第一個打敗人類的觀點,我非常同意。但是有一點,我們?nèi)诉€是贏過 Alpha Go 的,假如允許有一個條件的話,Alpha Go 用 GPU、CPU 大概 2000 多個,每一個 CPU 至少 300W,人腦大概消耗 100W,所以 Alpha Go 那個機器消耗的功率相當(dāng)于 6000 多個人。假定圍棋比賽有規(guī)定,我們定功率不能超過 100W,Alpha Go 就完了。
提問:現(xiàn)在有一個詞匯叫機器智能,想請教一下機器智能和人工智能之間的區(qū)別如何理解?
莊炳湟:機器智能跟人工智能在我看來是沒有區(qū)別的,因為「機器」本身這個名詞是電子計算,通常 99% 以上都是電子的,有一些機械,可能有一些智能的表現(xiàn),不過中間的分割并不是太值得去追究。我個人覺得機器智能跟人工智能幾乎劃等號。
張鈸:同意。
提問:剛才您把 Markov random field 和 Neural network 結(jié)合在一起,覺得兩者有相關(guān)一致性,我們通過一種方法去解決維度之間的相關(guān)性,這是非常有意思的一個想法。您現(xiàn)在把 Markov random field 翻轉(zhuǎn)之后成為 Neural networks,但是這里缺失了一個東西,就是統(tǒng)計模型部分少了,變成一個固定的計算。事實上會帶來很大的問題,您對這個問題有什么想法?
莊炳湟:要講到統(tǒng)計模型的話,我常常在想針對實際問題,世界上沒有真正的統(tǒng)計模型,只是精神上是統(tǒng)計模型,但實際做不到,因為真正實際的數(shù)據(jù)本身沒有人知道分布怎么樣。這是第一。
第二,用 RBM 轉(zhuǎn)換成 DNN,針對 RBM 可以做 Markov random field 來講,事實上只是幫我們解決了怎么保留高相關(guān)度維對的問題,所學(xué)到的參數(shù)值,跟數(shù)據(jù)本身真正的分布是不是非常靠近?我們也沒有辦法去證明。這是從實際的結(jié)果角來看,而不是理論上的精準(zhǔn)度,是不是我們真正掌握到它的數(shù)據(jù)的分布,我們并沒有做這樣一個主張。只是傳統(tǒng)的做不下去,當(dāng)現(xiàn)在維度增加時,用這個方法,RBM 到 DNN,放在整個 DNN 里,維度高也不是太大的問題。
另外一個有意思的概念,系統(tǒng)可靠度跟數(shù)據(jù)量有關(guān)系,但是深層神經(jīng)網(wǎng)絡(luò)有一個特點,數(shù)據(jù)量少,還是可以作出一些結(jié)果,只是這個結(jié)果有多少可信度?有些人會批評,雖然有結(jié)果出來,但是沒有相對錯誤的分析。今天絕大部分的人,因為很容易取得工具,結(jié)果也很容易出來,大家一窩蜂去做這個事情,當(dāng)以后大家比較冷靜的時候,現(xiàn)在每一年報的結(jié)果里有多少能夠沉淀下來的,我們可以等著瞧。謝謝!
提問:其實這里面涉及到一個問題,因為最近所謂 S-network 比較火,我有一個思路,怎么把知識和數(shù)據(jù)結(jié)合在一起的問題。您說通過數(shù)據(jù)驅(qū)動去做特性學(xué)習(xí),其實還是數(shù)據(jù)驅(qū)動部分占很大比例。
莊炳湟:這個在精神上跟剛剛是一致的,到目前為止很多人用工具,遇到這些問題就可以報一些結(jié)果。但是現(xiàn)在又有一點回顧,因為現(xiàn)在在美國已經(jīng)出現(xiàn)立項目時不要只追求最終識別結(jié)果,可以犧牲 10%-15%,但是要能了解這個結(jié)構(gòu)里的意義,至少怎么把一些知其所以然部分做出來,希望人做這方面的工作。傳統(tǒng)專家就說這個維度太高,就減掉,減成多少維,找這個特征?,F(xiàn)在不要這個專家,純粹從數(shù)據(jù)方面來,就把意義丟了。這中間有沒有可能取得一個平衡。讓中間每一層物理意義都能夠顯現(xiàn)了解,希望中間能夠取得一個平衡。這是一個正確的方向。
本文首發(fā)于「北京得意音通」(d-EarTech),雷鋒網(wǎng) AI 科技評論獲授權(quán)轉(zhuǎn)載,欲了解更多大會演講資訊,敬請關(guān)注。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。