丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給恒亮
發(fā)送

1

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡算法為什么不適合自然語言處理

本文作者: 恒亮 2017-01-11 10:05
導語:神經(jīng)網(wǎng)絡算法真的適合于處理自然語言問題么?業(yè)內(nèi)存在著不同的看法。

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡算法為什么不適合自然語言處理

谷歌在2016年發(fā)布了全新的神經(jīng)機器翻譯系統(tǒng)(GNMT),并表示由于神經(jīng)網(wǎng)絡算法的介入,該系統(tǒng)相比傳統(tǒng)機器翻譯降低了80%的錯誤率,已接近人工翻譯的水平。

但對于谷歌的這項發(fā)布,以及神經(jīng)網(wǎng)絡(或者深度學習)算法是否真的適合自然語言處理,業(yè)內(nèi)存在著不同的看法。

日前美國AI公司exClone創(chuàng)始人,超導材料公司Epoch Wires主席Riza C. Berkan在博客中發(fā)布了一篇文章,圍繞這一問題表達了自己的看法。他認為谷歌GNMT系統(tǒng)僅僅是一個噱頭,而且由于自然語言本身并的特性,根本不適合用現(xiàn)有的神經(jīng)網(wǎng)絡算法來處理。

  自然語言并非連續(xù)過程

作者認為,神經(jīng)網(wǎng)絡算法本身的技術特點決定了它更適合于處理連續(xù)型變量,或者連續(xù)型過程,即自變量和因變量之間存在一種連續(xù)的變化關系(如氣溫變化),而非跳躍式的變化(如一個人的銀行余額變化)。但自然語言,單純從字詞組成的角度來看,卻并非一種連續(xù)型的過程,自然語言是由語法規(guī)則、邏輯思考和漸進式的決策邊界等各種非連續(xù)過程產(chǎn)生的一種非連續(xù)的變化。

舉例來說,“Mary愛她的貓(Mary loves her cats)”這句話,單從字詞組成的角度看就是非連續(xù)的。因為Mary和貓之間并不是一種邏輯上連續(xù)的關系,而是一種隨機的偶發(fā)性關系(Mary可以愛任何東西,并不一定是貓)。如果直接用這種偶發(fā)性的變化關系來訓練神經(jīng)網(wǎng)絡系統(tǒng),那么系統(tǒng)會抓不到訓練的重點,也就得不到預期的輸出效果。

但如果換一種方式,將上面那句話重新組織:{專有名詞-Mary:人類女性}{動詞-愛:情感寄托}{名詞-貓:寵物},那么就能得到一種相對更連續(xù)的數(shù)據(jù)。因為從認知上說“人類女性對寵物具有情感寄托”比“Mary愛貓”具有更好的一致性。而如果以這樣的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡系統(tǒng)展開訓練,那么就能得到一個理想的效果。

需要指出的是,后一種組織方式并非簡單的詞性解析,而是一種邏輯性的認知識別,要做到這一點需要大量的人力和物力投入,目前還沒有可靠的機器替代人工的方法,這也解釋了在過去30年中,為什么基于字詞組成的角度訓練神經(jīng)網(wǎng)絡系統(tǒng)并未取得重大突破的原因。

  堅持用神經(jīng)網(wǎng)絡處理會怎樣?

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡算法為什么不適合自然語言處理

如圖所示為一個典型的多層神經(jīng)網(wǎng)絡模型,假設這里的輸入和輸出都是基于自然語言的文本數(shù)據(jù)(例如機器翻譯或者機器聊天等場景),然后利用反向傳播算法等常見的神經(jīng)網(wǎng)絡算法對該系統(tǒng)進行訓練,或許最終這個系統(tǒng)也能收斂,但其處理問題的效果究竟如何,作者認為并不能保證。

假如以上文提到的第一種數(shù)據(jù)組織方式對該系統(tǒng)進行訓練,即基于字詞組成的分析方法,那么由于數(shù)據(jù)的非連續(xù)性,最終只能得到一種基于數(shù)理統(tǒng)計的詞匯搭配,這時的神經(jīng)網(wǎng)絡并未“理解”文本的真正含義。也就是說:最終只得到了一種詞匯和詞匯間的簡單映射,而且這種映射并不會隨著語義的變化而變化。

即使對數(shù)據(jù)做矢量化的處理,或者采用其他一些神經(jīng)網(wǎng)絡的實現(xiàn)架構,也不會改變這一現(xiàn)象。因為從根本上說,數(shù)據(jù)本身的不連續(xù)性,會在訓練中強制神經(jīng)網(wǎng)絡系統(tǒng)為每一種決策邊界(針對每一種非連續(xù)狀態(tài))分配存儲單元(就像人類神經(jīng)網(wǎng)絡系統(tǒng)中的神經(jīng)元)。就好像在數(shù)據(jù)庫處理中為每個數(shù)據(jù)元素單獨分配一個存儲空間那樣,這種運行方式本身就悖離了神經(jīng)網(wǎng)絡系統(tǒng)的最大優(yōu)勢之一:數(shù)據(jù)之間高度的相關性。

采用這種數(shù)據(jù)的訓練結果就是:當輸入與訓練數(shù)據(jù)高度相似的樣本時,或許可以得到一些可接受的結果。可一旦輸入樣本與訓練數(shù)據(jù)差異性變大,那么很可能得到一堆亂碼,因為在可供分析和利用的不連續(xù)數(shù)據(jù)中并沒有找到之前訓練中得到的映射關系。換句話說,系統(tǒng)輸出的有效性將非常局限于輸入樣本與訓練數(shù)據(jù)集的相似性。

相反,如果使用連續(xù)型數(shù)據(jù)進行訓練,即上文提到的第二種數(shù)據(jù)組織方式,基于認知概念的分析方法,神經(jīng)網(wǎng)絡系統(tǒng)就會對訓練中得到的邏輯聯(lián)系保持強大的復現(xiàn)能力和靈活性,就好像人類的大腦一樣,在保證一定容錯能力的同時,可以在每個存儲單元之間建立普遍的關聯(lián)性。這樣的神經(jīng)網(wǎng)絡系統(tǒng)實際上就具備了一定的邏輯推斷能力,這也是神經(jīng)網(wǎng)絡系統(tǒng)被廣泛應用于工程應用領域的原因。

一些工程師可能會嘗試用矢量化和降維等方法預處理,將原始數(shù)據(jù)強制轉換成連續(xù)性的數(shù)據(jù)。但這可能會帶來一個不可忽視的副作用:信息量的丟失。一定程度的信息量丟失在特征檢測和歸類等領域或許是可以接受的(例如圖像處理),但在語言領域卻完全不同。因為不論是整篇文本還是一句話,語言并非一種簡單的詞匯量的數(shù)理統(tǒng)計,而是一種基于概念和認知的副產(chǎn)品。數(shù)理統(tǒng)計或許有助于自然語言的處理,例如解決語言處理中的“肥尾”現(xiàn)象,或者借助矢量化在訓練數(shù)據(jù)之外助力神經(jīng)網(wǎng)絡算法,但絕不是最終的解決方案。這里需要澄清的一點是:無論神經(jīng)網(wǎng)絡還是數(shù)理統(tǒng)計,基于字詞組成的分析方法都無法覆蓋自然語言處理中的所有問題,有些場景必須要借助基于認知概念的分析方法。

  谷歌翻譯是噱頭么?

這里作者順便提及了谷歌最新發(fā)布的GNMT系統(tǒng),作者表示:由于我們無法獲取谷歌訓練神經(jīng)網(wǎng)絡系統(tǒng)的原始數(shù)據(jù),因此也就無法判斷谷歌給出的樣本翻譯語句是否與原始訓練數(shù)據(jù)緊密相關,那么也就無從判斷其超高的翻譯準確率是否具有參考價值了。

另一方面,谷歌也并未公布GNMT系統(tǒng)的具體訓練參數(shù),包括神經(jīng)網(wǎng)絡模型的收斂程度,是否只能對訓練數(shù)據(jù)集的一部分起作用,如果翻譯出錯了,錯誤原因是什么,以及錯誤出現(xiàn)的頻率等等。

從這些細節(jié)我們可以確定:谷歌發(fā)布GNMT系統(tǒng)并非為了顛覆學術界,否則如果不是出于技術細節(jié)的安全性考慮的話,谷歌一定會公布神經(jīng)網(wǎng)絡內(nèi)部的各項訓練參數(shù)。

這一點在谷歌的公報中也能得到驗證,下面是公報原文:Rekimoto在Twitter上向他的十多萬粉絲推送了這項發(fā)現(xiàn),在接下來的幾個小時,有成千上萬的用戶在Twitter上廣播他們使用谷歌機器翻譯的測試結果,其中有些翻譯是正確的,有些則為了搞笑故意拼錯了單詞。

  數(shù)據(jù)量的問題

在使用神經(jīng)網(wǎng)絡算法處理自然語言問題時,另一個非常容易被忽視的問題就是數(shù)據(jù)量。

這里作者打了個比方:假設我們使用一萬頁的文本數(shù)據(jù)量來訓練神經(jīng)網(wǎng)絡模型。那么全球范圍內(nèi)人類完整的知識儲備又有多少呢?這顯然是一個無法計算的天文數(shù)字,這里不妨假設這些知識的總量有10的21次方頁。那么問題來了,僅僅通過一萬頁的訓練數(shù)據(jù),如何讓神經(jīng)網(wǎng)絡掌握全部10的21次方頁的全部知識呢?答案是:可用的訓練數(shù)據(jù)量實在太小了。

另一方面,對于語法規(guī)則和語義理解領域的專家來說,人類的大腦顯然能夠完全掌握這10的21次方頁的全部知識(因為這些知識就是那些專家寫出來的)。而且更關鍵的是,任何一個普通人,只要具備最基本的讀寫能力,就都能通過自主學習逐漸掌握這10的21次方頁的完整知識,作者認為,這才是人腦與現(xiàn)階段的神經(jīng)網(wǎng)絡模型相比最可怕的地方,即真正的學習能力。

  關于“磚”和“橋”

作者認為,要完美解決自然語言處理的問題,就必須找到一種能掌握語法和語義的全新的機器學習方法,而不是詞匯與詞匯之間的簡單映射,甚至也不是現(xiàn)階段的神經(jīng)網(wǎng)絡模型。這里作者用“磚”和“橋”的例子做了說明。

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡算法為什么不適合自然語言處理

目前,科學家們只是從人類大腦神經(jīng)網(wǎng)絡處理現(xiàn)實問題的基本原理中得到啟發(fā),構造了當前的神經(jīng)網(wǎng)絡模型。就好像上圖中磚和橋的關系,由于并沒有理解人腦處理問題的深層機制,就好像沒有看到橋,只看到了磚一樣,因此當前的神經(jīng)網(wǎng)絡模型只是在微觀結構上模擬人腦,并沒有實現(xiàn)完整的問題解決框架,而這種宏觀的框架可能才是處理如自然語言理解這類困難問題的關鍵。這里作者將這一框架稱為建立在神經(jīng)網(wǎng)絡之上的網(wǎng)絡,即“網(wǎng)絡之網(wǎng)絡”(network of networks)。需要強調(diào)的是,這種“網(wǎng)絡之網(wǎng)絡”并非簡單的增加現(xiàn)有神經(jīng)網(wǎng)絡模型的層次或者改變網(wǎng)絡內(nèi)部的反饋方向,而是一種更高級的組織形式。

作者表示,人類大腦這種宏觀的問題解決框架至關重要,在生物學家們破解這一深層奧秘之前,我們只能耐心等待。而在此之前,所謂的“深度學習”也許只能稱為“深度黑暗”(deep darkness)了。

那么回到谷歌翻譯的問題,谷歌究竟是在炒作么?答案可能是肯定的。作者認為:由于目前我們對人腦神經(jīng)網(wǎng)絡系統(tǒng)的理解尚處于非常淺薄的階段,因此幾乎所有關于我們已經(jīng)完全掌握了其中的關鍵技術,并取得了重大突破的表述也就都可以認為是“炒作”。作者同時調(diào)侃道:當然也有例外,比如谷歌已經(jīng)領先競爭對手一個世紀,秘密地破譯了人腦神經(jīng)網(wǎng)絡系統(tǒng)的深層工作原理,也即發(fā)現(xiàn)了那座由為數(shù)眾多的“磚”組成的“橋”。

來源:linkedin,由雷鋒網(wǎng)編譯  雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡算法為什么不適合自然語言處理

分享:
相關文章

編輯

歡迎交流,微信:whl123465
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說