丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給王金許
發(fā)送

0

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

本文作者: 王金許 2017-07-26 19:29
導(dǎo)語:?深度學(xué)習(xí)(神經(jīng)處理)給自然語言處理帶來了革命性的進(jìn)步,基于深度學(xué)習(xí)的機(jī)器翻譯等任務(wù)的性能優(yōu)良大幅度的提升。面向未來,自然語言處理技術(shù)將如何發(fā)展和演進(jìn)?

雷鋒網(wǎng)按:深度學(xué)習(xí)(神經(jīng)處理)給自然語言處理帶來了革命性的進(jìn)步,基于深度學(xué)習(xí)的機(jī)器翻譯等任務(wù)的性能優(yōu)良大幅度的提升。面向未來,自然語言處理技術(shù)將如何發(fā)展和演進(jìn)?在哪些方面會有新突破?7 月 23 日,第二屆語言與智能高峰論壇在北京舉行,華為諾亞方舟實驗室主任李航以《神經(jīng)符號處理開啟自然語言處理新篇章》為題作了報告,就自然語言領(lǐng)域的發(fā)展、神經(jīng)符號處理對自然語言處理的影響等方面闡述了他的看法。 

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

李航博士,華為諾亞方舟實驗室主任,北京大學(xué)、南京大學(xué)客座教授,IEEE Fellow、ACM 杰出科學(xué)家,研究方向包括信息檢索、自然語言處理、統(tǒng)計機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘。

以下為李航博士演講內(nèi)容實錄,雷鋒網(wǎng)做了不改變原意的編輯。

今天想跟大家一起看一下,我們現(xiàn)在一個主要研究方向,也希望跟大家一起推動這個研究方向,它是神經(jīng)符號處理。

神經(jīng)符號處理是未來自然語言處理非常重要的一個方向,這個報告大概分以下幾個部分:

一,對自然語言領(lǐng)域做一個概述。從我的角度把最近幾個報告的主要觀點(diǎn),再重新梳理一下。

二,為什么我們覺得神經(jīng)符號處理是未來重要的一個研究方向,它的主要應(yīng)用就是更廣義的問答(我們叫智能信息知識管理系統(tǒng))。同時,介紹一些業(yè)界相關(guān)工作和我們自己做的一些研究。

三,拋磚引玉,大家一起探討一些相關(guān)問題。

自然語言處理的終極目標(biāo)是做自然語言理解,就是讓計算機(jī)能夠理解人類的語言。具體來說有兩個方面:像人一樣能夠去說話;像人一樣能去閱讀。理解大概有兩層定義:基于表示的;基于行為的。

如果計算機(jī)系統(tǒng)聽到一句話,它能夠?qū)?yīng)它內(nèi)部的表示,我們就認(rèn)為這個計算機(jī)理解了這個語言?;蛘呤腔谛袨榈?,機(jī)器人聽到一句話,能夠按照話的內(nèi)容去做一些行為,就認(rèn)為這個機(jī)器人理解了這個自然語言。我們這個領(lǐng)域終極目標(biāo)就是,期望我們能夠開發(fā)出這個技術(shù),使計算機(jī)能達(dá)到這樣的智能識別。

但我們也知道,語言其實是一個非常復(fù)雜的現(xiàn)象,不做自然語言處理、人工智能,可能人類自己都不知道,我們自己的語言是這么復(fù)雜的一個現(xiàn)象。讓我來總結(jié)的話,語言有五個特性,使得我們把語言放在計算機(jī)上,變得非常具有挑戰(zhàn)性。

  • 既有規(guī)律又有很多例外;

  • 組合性;

  • 遞歸性,造成了語言非常復(fù)雜;

  • 比喻性;

語言的本質(zhì)就是產(chǎn)生新的語言進(jìn)行表示,其實都是在做比喻。所以,比喻性是語言非常重要的特性。語言的理解跟世界知識是密切相關(guān)的,如果你撇開了知識這些東西談?wù)Z言,其實都是無從談起的。

  • 交互性。

我們?nèi)祟惖恼Z言其實是人跟外界做互動的一種手段,離開了對外環(huán)境的交互,談?wù)撜Z言其實也是沒有意義的。所以,因為語言有這么復(fù)雜的特性,使得我們在計算機(jī)上去實現(xiàn)自然語言理解,非常具有挑戰(zhàn)性的。這就相當(dāng)于這些特性使得我們要用現(xiàn)在的技術(shù)做計算的話,基本上都是做全局搜索,全局的這種計算還不知道該怎么做。這是非常復(fù)雜,具有挑戰(zhàn)性的。

主要原因有以下幾點(diǎn):

原因一,最近寫的一篇文章,在計算機(jī)學(xué)會通訊上,叫做迎接自然語言處理新時代,有這樣一些觀點(diǎn),做了比較詳細(xì)的介紹和總結(jié)。而在去年在中文信息處理大會上報告的內(nèi)容,也是這個觀點(diǎn)。

原因二,我們現(xiàn)在總結(jié)看的話,為什么自然語言處理這么難,因為本質(zhì)的原因就是,我們還不知道,是不是能夠用數(shù)學(xué)的模型刻畫語言現(xiàn)象,這個是自然語言處理的本質(zhì)。這件事情可能不可能做我們不知道,我們只能是部分地實現(xiàn)這個目標(biāo)。

所以,這是為什么自然語言處理(甚至是廣義的人工智能)都非常具有挑戰(zhàn)性的原因。

現(xiàn)實當(dāng)中大家采用的辦法,我們不叫自然語言理解,而是叫自然語言處理。我們的策略是,把人類做語言理解的這個復(fù)雜過程進(jìn)行簡化。

第一個,我們現(xiàn)在能去做的事情。人類要是理解語言的話,比如人做這種問答,問我姚明身高是多少,我想一想可能是 2 米 29。我回答的這個過程,可能包含了多個步驟。比如語言的分析、理解、推理、知識的檢索,最后做判斷,最后產(chǎn)生我的回答,是一個非常復(fù)雜的過程。

但是,我們現(xiàn)在要用計算機(jī)來做這種智能問答或者知識問答的時候,其實我們大幅度地簡化了這個過程。就是只做分析、檢索和生成。今天大會里面有很多老師做報告,介紹自然語言處理相關(guān)的技術(shù),基本上做問答的時候,都是把這個問答的過程簡化。 華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

第二個,現(xiàn)在自然語言處理,非常主流的做法就是數(shù)據(jù)驅(qū)動。我們主要的核心技術(shù)是機(jī)器學(xué)習(xí),現(xiàn)在是用深度學(xué)習(xí)來做。同時,我們把人的知識放進(jìn)去。深度學(xué)習(xí)的重要的特點(diǎn)是,整個技術(shù)其實是一種機(jī)器學(xué)習(xí),但是它的模型是從人的大腦處理機(jī)制中得到啟發(fā),然后我們定義這個模型。

所以,現(xiàn)在人工智能、自然語言處理,我們采用的基本工具是機(jī)器學(xué)習(xí),盡量能夠把人的知識導(dǎo)入進(jìn)來,同時讓這個模型盡量去參考跟人一樣的處理機(jī)制,實現(xiàn)自然語言處理。

現(xiàn)實當(dāng)中,我們看到深度學(xué)習(xí)、大數(shù)據(jù),確實給自然語言處理帶來了很多新契機(jī)。這條路到目前為止看,是最有希望能夠再往前推進(jìn)的一條路。

這個觀點(diǎn)前年在一次大會上我作報告介紹的觀點(diǎn),也是在計算機(jī)學(xué)會通訊上有寫過一篇文章,簡論 AI,就是這里面介紹的觀點(diǎn)。 華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

大家也看到,我們現(xiàn)在的自然語言處理包括人工智能都是這樣一個過程?;跀?shù)據(jù),我們的系統(tǒng)有了用戶,之后我們根據(jù)數(shù)據(jù)改進(jìn)算法、改進(jìn)系統(tǒng),使系統(tǒng)的性能不斷提高。在人工智能閉環(huán)的時候,我們就可以不斷地去給用戶提供更好的服務(wù),使得我們這個系統(tǒng)變得更加智能化。

我們看一些自然語言處理技術(shù),就是說數(shù)據(jù)驅(qū)動,自然語言處理大概有五類技術(shù),我們用數(shù)學(xué)建模,用統(tǒng)計機(jī)器學(xué)習(xí)辦法建模,基本上就是這五類模型。主要的應(yīng)用、方法基本上都屬于這五類技術(shù)。

  • 分類。文字的序列,我們要打印標(biāo)簽,這是我們常做的最基本的自然語言處理。

  • 匹配。兩個文字序列都匹配,看它們匹配的程度,最后輸出一個非負(fù)的實數(shù)值,判斷這兩個文字序列它們的匹配程度。

  • 翻譯。把一個文字序列,轉(zhuǎn)換成另外一個文字序列。

  • 結(jié)構(gòu)預(yù)測。你給我一個文字序列,讓它形成內(nèi)部結(jié)構(gòu)的一個信息。

  • 序列決策過程。在一個復(fù)雜的動態(tài)變化環(huán)境里面,我們怎么樣不斷去決策。比如描述序列決策過程的馬爾可夫隨機(jī)過程,這是一個有效的、非常常用的數(shù)學(xué)工具。

我們看自然語言處理的大部分問題,基本上做得比較成功、實用的都是基于這樣的技術(shù)做出來的。比如:分類,有文本分類、情感分析;匹配,有搜索、問答、單輪對話、基于檢索的單輪對話;翻譯,有機(jī)器翻譯、語音識別、手寫體識別、基于生成方法的單輪對話;結(jié)構(gòu)預(yù)測,有專名識別、詞性標(biāo)注、語意分析;序列決策過程,有多輪對話。

我們看到所有的這些重要的自然語言應(yīng)用,其實是這五種最基本的技術(shù),基本上都能夠做得還不錯。不過,自然語言處理我們現(xiàn)在做得并不完美,離理想中的情況還差得非常遠(yuǎn)。

這是從另一個角度看這個問題,我們把它叫做技術(shù)的上界和需求的下界。這個綠線表示技術(shù)能夠達(dá)到的性能上界,比如機(jī)器翻譯、專名識別,不可能達(dá)到一個上界。這個藍(lán)線表示,用戶對需求要求的下界。用戶肯定是有一個最基本的要求,你這個機(jī)器翻譯如果達(dá)不到,或者太低的話,我們是不能夠給用戶提供滿意服務(wù)的,用戶是不會去用這個自然語言處理系統(tǒng)的。所以,一定有一個用戶要求的最低下界,對任何一個實際的應(yīng)用,都可能有這樣的一個下界。 華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

我們這個技術(shù)的上界就是,如果能夠碰到需求要求的下界的話,實際上這個系統(tǒng)就有可能被用戶用起來。大家覺得這個已經(jīng)能夠滿足實際的需求了,否則的話,你這個做得再好,用戶要求的下界更高,實際的技術(shù)也不可能實用。自然語言處理,大家現(xiàn)在在做的事情就是剛才看的這個綠線部分,怎么樣不斷往上提高,使技術(shù)的上界——紅色的這部分,能夠再往上提高,使得我們有更多的技術(shù)能夠去滿足用戶需求,使得用戶能夠使用起來。

我們可以看到,現(xiàn)實當(dāng)中自然語言處理很熱,上午還有人問,自然語言處理里面哪些技術(shù)已經(jīng)比較實用了,可以看到機(jī)器翻譯和語音識別已經(jīng)越來越實用化。但是我們可以清楚地看到,這個機(jī)制和人做的機(jī)器翻譯、或者人去做語言識別完全不是一回事。我們還是用數(shù)學(xué)模型、數(shù)據(jù)驅(qū)動的方法。這個模型是參考了人類大腦的機(jī)制,用大數(shù)據(jù)做出這樣的東西。

這塊的話,我們還會看到有很多新的技術(shù),比如說,Sequence Learning(序列學(xué)習(xí))這樣的技術(shù),不斷有新技術(shù)出來改進(jìn)。至少現(xiàn)在看,主流的研究方向、發(fā)展方向是這個,但是我們已經(jīng)越來越能夠碰到用戶需求要求的下界,所以我們這些技術(shù)能夠變得越來越實用化。單獨(dú)對話包括單獨(dú)的這種問答,也是越來越實用化。

我們看到各種各樣的工業(yè)產(chǎn)品、服務(wù)出來,能夠單輪對話?;蛘呦鄬碚f已經(jīng)比較成熟,未來能做得越來越好。但是,多輪對話還是相對比較有挑戰(zhàn)。最主要的原因是,多人對話的數(shù)據(jù)還非常缺少。其實數(shù)據(jù)驅(qū)動這個模型做好的話,沒有足夠的數(shù)據(jù),就是一個很大的挑戰(zhàn)?,F(xiàn)在做研究也是非常困難。

所以,我們可以看到,未來自然語言的發(fā)展,可能會有大的改變。我們剛才說這五種最基本技術(shù),大家不斷往前推進(jìn),能夠使得技術(shù)上界不斷往上提高,整個業(yè)界趨勢是這樣的。

下面看一下神經(jīng)符號處理。

自然語言的本質(zhì)特點(diǎn)就是符號,符號表示的一個最重要的優(yōu)點(diǎn)就是它可解釋性和可操作性好。我們在計算機(jī)上進(jìn)行符號處理的話,就會用符號來表示我們所有的東西。但是,我們同時也看到,自然語言的特性,它本身是具有歧義性,有不確定性。我們?nèi)绻颜Z言搬到計算機(jī),多半都還擁有噪音。

另一方面,我們看到深度學(xué)習(xí),更廣義的統(tǒng)計學(xué)習(xí)能夠比較成功的原因就是,這些機(jī)器學(xué)習(xí)方法它能夠很好地應(yīng)對不確定性、處理好語言里面的歧義和噪音。另一方面,我們叫神經(jīng)表示(向量表示),用向量來表示語義,它有很強(qiáng)大的優(yōu)勢。

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

我們現(xiàn)在可以明顯看到,符號表示和神經(jīng)表示其實是互補(bǔ)的。大家自然會想到這樣一個問題,我們能不能把這兩個結(jié)合起來,這就是我們說的神經(jīng)符號處理。我們希望通過這樣的手段,能夠把自然語言處理能做得更好,把這個技術(shù)往前推動。

不過我說的話,大家可能不太相信。正好今年年初的時候去了一個大學(xué)訪問,拜訪了深度學(xué)習(xí)大師 Yoshua Bengio 教授,我還專門跟他探討了他對神經(jīng)符號處理的看法,這是他基本的 Comments,不是原話,總結(jié)一下就是有三點(diǎn):

第一,如果把符號放到神經(jīng)網(wǎng)絡(luò)里面,他覺得這很難,可能不 Work。神經(jīng)網(wǎng)絡(luò)本身就是一個向量矩陣表示的東西,在這個模型里,把符號塞進(jìn)去其實是挺難塞的。

第二,如果把符號處理和神經(jīng)處理在外圍有效地、不斷地結(jié)合起來,這是很有道理的,是可以考慮的。

第三,他說這種問答對話,其實應(yīng)該是一個重要的應(yīng)用。

至少我們也得到他的認(rèn)可,最基本的觀點(diǎn)跟 Bengio 教授的想法也是一致的。

我們下面看一下,智能信息知識管理系統(tǒng)。大家可以認(rèn)為這是一個知識問答系統(tǒng),但是我這樣叫的原因是它跟我們一般的問答系統(tǒng)還略微有點(diǎn)不同,我們希望一定程度上,參考人類大腦的機(jī)制。

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

這個系統(tǒng)有幾個模塊,有語言處理單元、中央處理單元、短期記憶、長期記憶。比如說我們來了一個問句,語言處理單元對它進(jìn)行分析,把這個結(jié)果放到短期記憶力,然后在長期記憶力找到相關(guān)的知識或者信息,接著把檢索到的內(nèi)容放到短期記憶力,最后再通過語言處理單元產(chǎn)生出回答。這個是我們在使用過程當(dāng)中的系統(tǒng)。

還有學(xué)習(xí),這塊我們希望用深度學(xué)習(xí)技術(shù),進(jìn)行端到端的系統(tǒng)構(gòu)建。這個系統(tǒng)本身同樣有語言處理單位、中央處理單元、短期記憶、長期記憶。我們在學(xué)習(xí)的過程中進(jìn)行假設(shè),這個輸入是大量的信息知識和問答數(shù)據(jù),就是有非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù),也有大量問答,就是一問一答,形成這樣的訓(xùn)練數(shù)據(jù)。我們最理想的狀況,只使用完全數(shù)據(jù)驅(qū)動的方法,端到端地自動構(gòu)建整個問答系統(tǒng)。我們構(gòu)建整個長期記憶里面的信息和知識,這是我們所構(gòu)想的,或者建議大家考慮這樣的智能信息知識處理系統(tǒng)。

它有幾個特點(diǎn)。首先,能夠不斷去積累信息和知識。這點(diǎn)跟我們?nèi)耸窍嗨频摹D軌蛉ゲ粩嗟乜吹叫轮R加到自己長期記憶里。同時,如果有人用自然語言來問問題的時候,它能夠準(zhǔn)確地回答。當(dāng)自己不知道的時候,就說我不知道。我們?nèi)艘彩沁@樣,不是什么都知道,就是我們不知道的時候,能夠準(zhǔn)確地告訴用戶我不知道。

其次,希望這個系統(tǒng)盡量完全沒有人干預(yù),而是自動地去能夠把它建立起來。這樣的系統(tǒng)將來會非常有用,而且非常強(qiáng)大。大家可以想象,我們?nèi)绻磉呌幸粋€智能助手,有什么問題你不知道,過去問它,它可能會告訴你,這個會有多么方便。當(dāng)然這個愿景不光是我在這兒說的,我們也可以看到業(yè)界很多人描述出了類似愿景。

我覺得這非常重要,如果人類能夠做到這一點(diǎn)的話,就是一個質(zhì)的飛躍。人類發(fā)明了語言,是第一個質(zhì)的飛躍,有了語言,大家可以交流、傳遞信息,互相傳授知識。第二個質(zhì)的飛躍就是,我們?nèi)绻幸粋€智能系統(tǒng)放在自己身邊,我想要問什么知識都能準(zhǔn)確告訴我。

然后,換另外一個角度看,計算機(jī)有兩個地方是非常強(qiáng)大的:計算能力和存儲能力。計算能力已經(jīng)發(fā)揮得淋漓盡致了,但是存儲能力發(fā)揮到一半,概念上講,它能存儲無窮多的信息,計算機(jī)現(xiàn)在可以把人類所有的知識信息全部存儲下來。但是我們現(xiàn)在遇到的瓶頸是我們不能有效地去訪問這些信息。這塊如果我們在自然語言處理、人工智能研究方面有重大突破的話,我們真的是可以把整個人類的能力又推進(jìn)一步。

大家可以從另一個角度看,我們這樣的智能系統(tǒng)很理想,現(xiàn)實當(dāng)中其實已經(jīng)有這樣的雛形,也不是說幾乎是渺茫的?,F(xiàn)在的搜索引擎,一定程度上已經(jīng)扮演了這樣的角色,搜索引擎有爬蟲、索引、機(jī)器學(xué)習(xí)機(jī)制幫助我們?nèi)プ雠判?,給我反饋結(jié)果。一定程度上已經(jīng)在做類似的事情了,但只是沒有做得更好,我們相信這是一個演進(jìn)過程,會不斷地往前推動,技術(shù)不斷地會進(jìn)步。我們相信,未來的話擁有這樣一個智能助手能夠幫助到我們。

我們再看一下,為什么神經(jīng)符號處理和智能信息管理是密切結(jié)合的。這個跟 Bengio 教授的想法是相關(guān)的。這個技術(shù)和這個應(yīng)用有一些天然的關(guān)系,另一方面的話,它倆真正是互補(bǔ)、強(qiáng)烈相關(guān)的。

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

我們可以考慮用這樣的技術(shù),神經(jīng)符號處理實現(xiàn)智能信息知識管理系統(tǒng)。就是說,你先來了一個問題,通過語言處理模塊,它有編碼器和解碼器,編碼器把這個問題轉(zhuǎn)換成中間的表示,中間表示放在短期記憶里,這個問題是有兩部分,既有符號表示又有神經(jīng)表示?,F(xiàn)在自然語言處理內(nèi),很多系統(tǒng)類似在做這樣的事情,大家可能沒有明確說這個事。

知識信息都放在長期記憶里,也是有兩種表示,既有信息表示又有符號表示。但這兩者中間的話也是分開的,其實應(yīng)該是密切相關(guān)的,但是這個怎么去做,還有很多要去解決的問題。

但是,我們可以想象,長期記憶里的信息和知識,都是既有符號表示又有神經(jīng)表示。做問答的時候來了個問題,做了分析有了內(nèi)部表示以后,可以通過在短期記憶里的表示,通過表示之間的匹配,在長期記憶里找到相關(guān)的信息和知識,在短期記憶里也產(chǎn)生對應(yīng)的符號和神經(jīng)表示。這時候還有一個解碼器,把這個表示轉(zhuǎn)換成自然語言、答案,這樣我們就可以構(gòu)建一個非常智能的自然語言問答系統(tǒng)。

這個想法其實大家已經(jīng)在各個層面上看到很多了,相關(guān)的工作有很多。例如:語義分析,Semantic Parsing,在 Semantic Parsing 里面要做的事情,就要把自然語言的語句,轉(zhuǎn)換成結(jié)構(gòu)化內(nèi)容的表示,這個 Semantic Parsing 到目前為止,最主要的想法還是通過人寫的規(guī)則,定義語法、定義模型,然后做語意的解析。但是,我們假設(shè)完全不用人來參與,更要去學(xué)習(xí)內(nèi)部的表示該怎么去做。

還有,CMU 的這個項目大家知道,叫 Never Ending Language Learning(NELL),這些想法就是,互聯(lián)網(wǎng)里抓取的知識,不斷擴(kuò)大知識,開始的時候,有最基本的 Ontology(本體論)。然后有一些例子,比如北京是中國的首都,這樣的例子,希望從互聯(lián)網(wǎng)里面找到更多的知識,把它加入到 Ontology 里去,希望這個過程機(jī)器能夠不斷抓取,抓取的準(zhǔn)確率和效率能夠不斷提升。這是 NELL 這個項目。

還有 Facebook 的 Memory Network,能做一些簡單的問答,比如里面有一個系統(tǒng)用自然語言的,比如—John is in the playground.—Bob is in the office.—John picked up the football.—Bob went to the kitchen.然后就問這個系統(tǒng),Where is the football?回答 Playground 就是對的。

Facebook 推出這種模型的話,可以去做這樣簡單的問答。當(dāng)然現(xiàn)在準(zhǔn)確率還不是特別高,它最基本的想法就是,把這些用自然語言表示的信息,能夠把它放到長期記憶里,這個長期記憶也是神經(jīng)表示,把內(nèi)容表示放到里面,來了一個新問題,把新問題直接轉(zhuǎn)換成神經(jīng)表示然后再做匹配,找到相關(guān)答案,然后返回回來?,F(xiàn)在這個模型還比較簡單,但是這個方向很多人都已經(jīng)在做了。

還有大家也知道,Differentiable Neural Computers 這樣的模型,它基本的想法也是,覺得現(xiàn)在神經(jīng)網(wǎng)絡(luò)很弱的地方,就是沒有長期記憶,希望能夠更好地利用長期記憶。長期記憶在 DNBD 的模型里,它實際上就是一個大矩陣,每一行向量其實是比較深的一個語義表示。這個模型本身有三種神經(jīng)網(wǎng)絡(luò),能夠去控制訪問這個長期記憶機(jī)制,因為有長期記憶的話,一個重要事情是要從長期記憶里進(jìn)行讀取。這個讀取的控制,有三個神經(jīng)網(wǎng)絡(luò)能夠去進(jìn)行。我們大家也在朝這個方向在做。

下面簡短介紹一下,我們在諾亞方舟實驗室做的一些基礎(chǔ)研究。有呂正東博士、尚利峰博士,還有其他合作的老師一起做的工作。

主要有兩個工作,都是研究我們順著這個思路來做的。

第一個是在知識圖譜里面進(jìn)行知識問答。假設(shè)我們有大量數(shù)據(jù),比如說姚明身高是多少,2 米 29,我們能夠有這種觀點(diǎn),說出答案的話,具體是對應(yīng)著知識庫里的哪一個單元,我們有大量數(shù)據(jù)的話,我們的目標(biāo)就是有一個學(xué)習(xí)系統(tǒng),就是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的,然后構(gòu)建自動問答系統(tǒng)。來了一個新問句的話,我們能夠從數(shù)據(jù)庫、知識庫里面找到答案。然后就這么產(chǎn)生自然語言回答,這是我們現(xiàn)在做的一個工作。

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

這種 Setting 如果大家能夠做得非常好的話,真正就能夠自動地構(gòu)建這個問答系統(tǒng),一個知識庫的例子,能夠自動地構(gòu)建問答系統(tǒng)。

這個思想的話,基本上也是剛才我介紹的我們想做的這種神經(jīng)符號處理的思想。就是來了問句以后,我們有編碼器,轉(zhuǎn)換成內(nèi)部的表示,它既有符號,又有神經(jīng)表示(向量表示),這個三角是一個符號,這個黃色長條表示神經(jīng)表示(向量),我們這個知識庫里的單元圖,也是由符號單元圖表示,也有對應(yīng)向量表示。整個知識,有兩種表示,問答過程中,確實像剛才描述一樣,我們在知識庫里找到答案,產(chǎn)生中間表示,解碼器通過答案還有編碼器產(chǎn)生問句的表示,最后產(chǎn)生一個回答。

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

我們剛開始從知識圖庫里面找到答案,第二個可能就是關(guān)系數(shù)據(jù)庫。我們的知識不是在網(wǎng)絡(luò)表示里面給的,而是在數(shù)據(jù)庫的表里給出,這樣我們其實也可以做類似事情。就是我們提出了一個模型,可以把這個關(guān)系數(shù)據(jù)庫既做符號表示又做神經(jīng)表示。有這樣一個長期記憶力的整個知識表示。來了問句以后,把它轉(zhuǎn)換成中間的神經(jīng)表示,然后去做檢索、匹配找到答案,最后產(chǎn)生答案。這塊的話,我們進(jìn)一步改進(jìn)了這個模型,希望能夠更或地結(jié)合符號和神經(jīng)處理。

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

下面就是對報告的總結(jié),今天跟大家一起看的神經(jīng)符號處理,我覺得是重要的研究方向。要我來說的話,是自然語言處理未來發(fā)展最重要的方向之一。

它最主要的應(yīng)用,應(yīng)該是這種廣義的知識問答,這塊智能的信息和知識管理。我們也都看到,業(yè)界大家都是往這個方向走,已經(jīng)取得了一些成果,但是真正把這些技術(shù)實用化,還有很多具體的問題要去解決,還有很多實際的工作需要去做。但是,我覺得,我們對這個方向還是充滿信心,還是覺得將來會是非常令人振奮的。

問:您剛才報告中有一句話我覺得非常好,就是我們現(xiàn)在要懷疑一下,人工智能能不能用數(shù)學(xué)模擬到人的智能的情況。這里我想聊一下當(dāng)今比較熱門的 Chatbot,大家在做對話的時候,都是局限于單輪對話,或者說不特定領(lǐng)域的,對多輪對話和開放領(lǐng)域的問答,我們都做得非常不好,對于多輪對話開放性的問題,您覺得人工智能目前它能夠?qū)崿F(xiàn)到一個什么樣的程度?以及用目前的技術(shù)的話,它有個大致的解決時間嗎?

李航:我覺得還是數(shù)據(jù)是一個瓶頸,現(xiàn)在大家都沒有數(shù)據(jù),其實一定程度上,不管大公司小公司,大家數(shù)據(jù)都不夠,因為多輪對話的時候,它的復(fù)雜度一下子增加很多。它不是一個簡單地從單輪到多輪,大數(shù)據(jù)增加了一些,它應(yīng)該是指數(shù)級地增加這些大數(shù)據(jù)。

我個人觀點(diǎn)是,Open Domain 的這種閑聊,做成多輪是很難的??赡芏紱]有什么短期看到的可能性。但是如果基于任務(wù)驅(qū)動的,有一定的數(shù)據(jù)以后,應(yīng)該是能夠做的,真的需要有數(shù)據(jù)才能夠往前推動。

問:您剛才提到兩種表示方式,一種是傳統(tǒng)符號的表示方式,現(xiàn)在是知識圖譜中間的一種表示,另外一種是向量化的表示。我覺得向量化的表示方式一種好處是,雖然我覺得我們有很多知識,很難用目前這種邏輯符號方式來描述,用向量化的表示方法,不一定很準(zhǔn),但可以從大量語料里頭學(xué)習(xí)到一定的東西,我們雖然不知道它是對的。但對于傳統(tǒng)符號很難表示的這種情況下,像您剛才說的這種,怎么來互相結(jié)合?

李航:應(yīng)用驅(qū)動比較難,你就不知道用向量表示到底是不是合理,那只有通過最后應(yīng)用的結(jié)果進(jìn)行判斷。其實大家對知識的理解,我們自己日常工作生活當(dāng)中使用的一些知識都是下意識的,真的是不知道它具體是個什么樣形式,有什么樣內(nèi)容。這些東西,如果我們放在計算機(jī)里就會發(fā)現(xiàn),語言有眾多歧義,知識有更多不確定性。

這些東西就是你說的,我們現(xiàn)在只能在一些頁目能看到,可以怎么把它表示出來。比如說,我們現(xiàn)在默認(rèn) Binding 還是非常簡單粗暴的方法。但在這里面能看到,它能解決一些問題,就說明應(yīng)用啟動能夠幫助我們找到這些更好的表示方法,更好地去學(xué)習(xí)這些表示方法。

反正我覺得對知識的認(rèn)識有兩個很重要:一個是應(yīng)用驅(qū)動,一個是具體的領(lǐng)域。

一定要把領(lǐng)域跟應(yīng)用分清楚。當(dāng)然你也可以說我就是 General Domain,那也是一個,但是一般來說知識要用的話,可能是在金融、醫(yī)療甚至更細(xì)的領(lǐng)域這樣去做,能更加在現(xiàn)實當(dāng)中能夠用起來,也更容易去對這種應(yīng)用的評價,看這個表示方法到底好不好。

雷鋒網(wǎng)后續(xù)還將發(fā)布芝加哥伊利諾伊大學(xué)劉兵教授的演講內(nèi)容實錄,敬請期待。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

華為諾亞方舟實驗室主任李航:神經(jīng)符號處理開啟自然語言處理新篇章

分享:
相關(guān)文章

編輯

關(guān)注人工智能的放牛娃
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說