0
本文作者: 恒亮 | 2016-08-12 18:24 | 專題:CCF-GAIR | 全球人工智能與機器人峰會 |
作為華為諾亞方舟實驗室的主任, 北京大學(xué)、 南京大學(xué)的兼職教授,我們能夠很輕易地發(fā)現(xiàn),在李航身上兼具著一種學(xué)者的探索精神和華為公司特有的研發(fā)氣質(zhì)。在今天下午進行的GAIR大會“人工智能的商業(yè)場景”這一議程中,李航以“智能化信息助手”這一愿景為切入口,為大家分享了世界500強之一,中國科技界的領(lǐng)軍企業(yè),華為公司在人工智能和深度學(xué)習(xí)領(lǐng)域的發(fā)展和思考。
首先,李航闡明了諾亞方舟實驗室的概況。他說,實驗室成立4年多以來,主要關(guān)注人工智能、機器學(xué)習(xí)、數(shù)據(jù)挖掘等前沿科技領(lǐng)域的研究。同時,也面對華為三大BG事業(yè)群聚焦一些前沿產(chǎn)品的開發(fā),例如智能通訊網(wǎng)絡(luò),企業(yè)BG的大數(shù)據(jù)應(yīng)用,消費者BG的智能語音助手等。
其次,他重點表示,華為諾亞方舟實驗室的愿景之一,就是打造一個全智能化的智能移動手機終端,用戶將通過自然語言的方式從終端獲取一切想要的信息和協(xié)助。
然后他以該愿景為目標(biāo),介紹了目前在諾亞方舟實驗室研發(fā)的兩款終端類軟件產(chǎn)品,以及三個智能信息化檢索技術(shù)。
兩款產(chǎn)品
第一款產(chǎn)品是華為手機上的App市場。他表示,面對3億用戶,每天3千萬次檢索,1億次下載總量的大數(shù)據(jù)挑戰(zhàn),諾亞方舟實驗室一直在聯(lián)合華為終端公司共同努力,智能化地為客戶提供檢索結(jié)果和推薦App。
第二款產(chǎn)品是華為“手機服務(wù)”。該產(chǎn)品是華為手機上的一個App,用戶可以用自然語言的方式向它求助在手機使用過程中遇到的各種問題,在每天10萬次當(dāng)量的問題求助中,有超過90%的用戶都可以得到滿意的回答。
其次是三個利用深度學(xué)習(xí)算法實現(xiàn)的智能化檢索技術(shù)。
第一個是用自然語言檢索分類照片。該方式不使用人工或機器學(xué)習(xí)的形式預(yù)先為每個照片設(shè)置一個標(biāo)簽,然后通過標(biāo)簽來處理照片。而是采用深度學(xué)習(xí)模型的方式處理照片,利用照片承載的內(nèi)容產(chǎn)生自然分類。
第二個是神經(jīng)機器翻譯。
第三個是神經(jīng)響應(yīng)機,即一個自動生成式系統(tǒng),李航表示這是業(yè)界第一臺公開發(fā)表的能夠自動生成回復(fù)的智能應(yīng)答機,而不是通過大數(shù)據(jù)搜索配對實現(xiàn)的。
據(jù)李航介紹,后面兩款檢索技術(shù)都是基于序列到序列的學(xué)習(xí)模型而實現(xiàn),將待翻譯語句和神經(jīng)響應(yīng)機中的提問視為序列1,將目標(biāo)翻譯結(jié)果和神經(jīng)響應(yīng)機中的問題回復(fù)視為序列2。所謂的序列到序列是指,在兩個序列之間存在一種中間變量態(tài),該中間變量通過加權(quán)和attention(關(guān)注機制)來進行最優(yōu)目標(biāo)匹配,同時能有效防止重復(fù)和遺漏現(xiàn)象,最終完成了業(yè)界最優(yōu)的深度模型之一。其中第三款神經(jīng)響應(yīng)機可以輸出76%的正常對話,和高達(dá)95%的正確語句,需要強調(diào)的一點:這些都是自動生成的。
最后李航再度總結(jié)說,諾亞方實驗室在進行人工智能研究和未來技術(shù)探索的同時,主要還將關(guān)注終端產(chǎn)品的智能化研發(fā)。
以下是演講實錄:
大家好!下面我就介紹一下華為,特別是諾亞方舟實驗室在人工智能方面做的研究和技術(shù)開發(fā)。重點放在智能手機這塊的應(yīng)用。
我先介紹一下我們在智能手機上面的愿景,介紹一下我們相關(guān)的產(chǎn)品和我們的研究,最后介紹一下我們的技術(shù)。
諾亞方舟實驗室成立4年,楊強教授是我們實驗室第一人主任,我們研究的方向主要是人工智能、機器學(xué)習(xí),數(shù)據(jù)挖掘,更進一步來說我們現(xiàn)在圍繞華為三個BG的產(chǎn)品做研究開發(fā),大概來說我們有4個方向:
第一個是智能通訊網(wǎng)絡(luò),大家知道通訊設(shè)備是華為非常重要的產(chǎn)品,未來的通訊設(shè)備一定是基于數(shù)據(jù)挖掘的,所以我們在這方面做了很多的技術(shù)開發(fā)。另一方面是大數(shù)據(jù),還有我們聚焦在華為的智能手機上,主要是在語義語音,推薦搜索這方面的技術(shù),幫助我們的用戶能夠更好的使用手機。簡單說一下我們未來的愿景。我們用智能信息數(shù)據(jù)來概括我們的愿景。未來的華為的智能手機首先通過語言能夠很自然的跟用戶做交流,能夠去幫助用戶克服語言障礙,能夠幫助做翻譯,能夠理解用戶做需求,給用戶做推薦,能夠幫助用戶管理信息,同時能夠很好的幫助用戶得到外界的信息。
下面介紹兩個我們圍繞華為手機做的產(chǎn)品,我們諾亞方舟實驗室跟終端的部門有密切的合作,我們在一起開發(fā)幾個重要的產(chǎn)品,比如說華為的應(yīng)用市場,大家用華為手機的用戶知道到華為的應(yīng)用市場我們有應(yīng)用的推薦和搜索,這個推薦和搜索的算法是我們?nèi)A為諾亞方舟實驗室和終端的產(chǎn)品線的同事們一起開發(fā)的,這里面的挑戰(zhàn)就是一個大數(shù)據(jù)的挑戰(zhàn),這里面有3億的注冊用戶,每天有3000萬的用戶訪問我們這個市場,下載的用戶每天有1億,這里面怎么能夠幫助用戶很好很快的找到他們的應(yīng)用,這個是比較挑戰(zhàn)性的問題,大家知道搜索和推薦都是在大數(shù)據(jù)的環(huán)境下都是極具挑戰(zhàn)性的,怎么樣能夠時時的更新模型,能夠更好的滿足用戶的需求,現(xiàn)在用業(yè)界最新近的技術(shù)做推薦和搜索。
另外,我們做的大家有華為手機的話可以有看手機服務(wù)這個部分,我們有智能問答,回答怎么樣更好的使用華為的手機,用自然語言的方式來問答,比如說怎么給手機做備份,我們可以找到答案,有的是我們的技術(shù)手冊里面找到的答案,準(zhǔn)確率能夠達(dá)到90%,能夠給用戶提供更好的幫助,大家不用去網(wǎng)上去搜華為的使用了。
下面我做幾個演示,我們諾亞方舟實驗室一方面在跟產(chǎn)品部門一起開發(fā)產(chǎn)品,另外一方面未來在做一些技術(shù)的研發(fā),特別是深度學(xué)習(xí)這方面我們做了一些工作,我現(xiàn)在演示三個演示:第一個是圖片搜索,假設(shè)你是一個手機用戶,你在手機上可以用語音或者是拼音的方式輸入你的問題,比如說在飛機上看到云彩的照片,現(xiàn)在這個場景是由2萬張圖片,可以用自然語言的方式搜這些圖片,這些圖片沒有做任何的圖象處理,比如說吃火鍋的照片,或者是爬山的照片可以通過自然語言自動的找到這些照片,現(xiàn)在手機上有成千上萬的照片,怎么樣做好照片的管理,這個是非常有用的應(yīng)用,我們現(xiàn)在在做這方面的技術(shù)開發(fā)。
下一個是在做機器翻譯,特別是用深度學(xué)習(xí),大家叫做神經(jīng)技術(shù)翻譯,這塊也開發(fā)了業(yè)界領(lǐng)先的技術(shù),因為時間的關(guān)系我就不放了。
這個演示是神經(jīng)響應(yīng)機,這個是基于深度學(xué)習(xí)做單輪的自然語言的對話,這個是我們在業(yè)界第一個開發(fā)出來的,生成式自對話系統(tǒng),這個系統(tǒng)可以自動的去產(chǎn)生回答,并不是像傳統(tǒng)的問答系統(tǒng),我們有大量的數(shù)據(jù),有44萬的數(shù)據(jù)去建立這樣一個系統(tǒng),這個系統(tǒng)比谷歌其他的公司開發(fā)的產(chǎn)品,我們早發(fā)表,并且在ACL的頂級的會議上發(fā)表了這個論文。我介紹一下里面的內(nèi)容,比如說你輸入一句話,我們到諾亞方舟實驗室來訪問的話,我們可以給你看看時時的,前天我們?nèi)A為的總裁來諾亞方舟實驗室參觀我們就給他展示這個,比如我想買一部三星的手機,這個系統(tǒng)會說還是支持一下國產(chǎn)的吧,比如說你說占中終于結(jié)束了,系統(tǒng)會說下一個是不是鹿角嘴,產(chǎn)生一些非常有意思你完全想象不到的回答。
我們下面看一下這個技術(shù),我們在圍繞終端這樣的應(yīng)用場景在做技術(shù)開發(fā),這塊列出來的是我們主要在做的技術(shù)研究,包括問答、推薦、語音識別、對話、翻譯、圖片、檢索、深度學(xué)習(xí),就是說我們在特別是深度學(xué)習(xí)這方面做了業(yè)界一系列比較領(lǐng)先的一些工作,這塊介紹一些具有代表性的工作。第一個是MulimodalCNN,第一個是圖片搜索的演示,你說一句話就找到相關(guān)的圖片,我們現(xiàn)在有2萬張圖片,每張圖片大概有3句的描述,比如說一個小孩在游泳照片,有15萬對數(shù)據(jù),我們就可以訓(xùn)練這樣一個模型,大家知道卷神經(jīng)網(wǎng)絡(luò)是一個比較有代表性的網(wǎng)絡(luò),左邊的是可以把這個圖片抽取出來,這個CNN有多層,可以從圖片里面抽取里面的輪廓和物體,另外一個是從文本里面抽取特征,直觀的就是單詞和詞組的特征,你說這句話小孩的照片,這個小孩可能就會被抽取出來作為特征,在這個照片里面正好有一個小孩,這個小孩會作為一個物體抽取出來,通過大量的學(xué)習(xí)可以做到剛好看到的效果,這個可以看一下,我們的實驗的結(jié)果,這個是英語的30K的數(shù)據(jù),我們做了比較實驗,我們比較了跟業(yè)界的其他部門的方法的結(jié)果,可以看到諾亞方舟實驗室提出的剛才MulimodalCNN在檢索方面可以達(dá)到最好的效果,有些模型不一定很公平,大家為了所謂的Exprimental上面,可以達(dá)到更好的水平,這個工作在去年的圖象識別的大會上訓(xùn)讀了我們的論文。
下一個介紹的工作,我們看一下機器翻譯和對話里面我們用了序列到序列的學(xué)習(xí),最早的模型是谷歌和蒙特利爾大學(xué)提出來的,我們對他進行了改進,用在對話和翻譯上取得了非常好的效果。序列到序列的學(xué)習(xí)到底是什么樣好的方法。大家問自然語言里面哪個深度學(xué)習(xí)的工具給我們帶來最大的革命性的變化,讓我來說的話就是序列到序列的學(xué)習(xí),基本的想法是這樣,用翻譯來做例子,現(xiàn)在把中文的一句話,一只貓坐在墊子上“A cat sit a cushion”,序列對序列的模型,從左到右一個詞一個詞的去看我們的中文,把它轉(zhuǎn)換成一個語義的表示,這個是一個向量,我們現(xiàn)在看到的HE、HT-E,HT,就是這個一只貓坐在一個墊子上得到的語義的表示,我們叫編碼,這個翻譯到目標(biāo)語言,翻譯成英語的話這個T-1,表示說英語產(chǎn)生這樣的句子在每個位置上對應(yīng)的語義表示是什么,我們翻譯要做的就是要把這個原文,中文做一個編碼,表示成中間的表示,再從中間的表示轉(zhuǎn)換成另外的一個中間的表示,是一個解碼,把它轉(zhuǎn)換成英文的句子,中間的C的這一行就是所謂的叫注意力模型,注意力就是幫助我們?nèi)ミx擇,當(dāng)我產(chǎn)生英文的某一個單詞,我要做翻譯要一個一個的產(chǎn)生英文單詞,我要有選擇性的去決定,我現(xiàn)在在任何一個位置我要決定產(chǎn)生解碼的表示的時候我是要選擇中文的語言里面的哪個表示更好,這個C實際上做了一個平衡,我在每個位置上我要重新判斷,我現(xiàn)在要產(chǎn)生一個英文的單詞的時候?qū)?yīng)的中文是哪個好,直觀上來說是這樣的解釋,我們可以通過這樣的模型,實際上是相當(dāng)復(fù)雜的,通過這個模型你給我任何一個單詞的序列我可以產(chǎn)生另外的序列,這個數(shù)據(jù)是中英文我可以產(chǎn)生翻譯,這個模型的效果是非常好的。
我們剛才演示的神經(jīng)響應(yīng)機實際上也是用的序列到序列學(xué)習(xí)的模型,這個時候我們有一點不同是中文到中文的句子,但是它不像翻譯,翻譯是在兩句話不同的語言,但是語義是一樣的幾兩句話才同一個語言他們形成同一輪的對話,我們最核心的想法就是用注意力的機制,但是我們有一個全球的機制,直觀上解釋這個C實際上表示我讀完這句話整體的語義就是一個10數(shù)值的向量,每個位置上的編碼得到的結(jié)果是得到每個位置上得到的語義是什么,這兩者的語義結(jié)合起來就變成中間C的這一行的語義,再把它轉(zhuǎn)換成要對應(yīng)的話的語義的表示,最后再解碼變成一句話,這個模型我們有400萬的對應(yīng)的數(shù)據(jù)的話就可以把這個模型對應(yīng)得比較好,能夠做這樣轉(zhuǎn)換。我們看到正確的句子大概有95%,大概有76%的回答是能夠形成自然的對話,就是剛才我舉的例子。
我們現(xiàn)在可以把它用在機器翻譯上,機器翻譯我們用的機制就是我們說序列對序列是很強大了,但是我們可以把它做得更好,用傳統(tǒng)的序列對序列的模型的話會把原文的東西漏掉,或者是翻譯多次,我們這邊有一個機制,翻譯的時候我哪些東西翻譯過了就不用翻了,哪些沒有翻,同時這個機制可以把它變得更強,直觀上說我要產(chǎn)生英文下面是一個實詞和虛詞的話是不一樣的,就中文的話就好了,如果產(chǎn)生一個實詞,cat,這樣的話我就要看哪個詞影響我,如果兩個結(jié)合的話會產(chǎn)生很好的效果,這個禮拜ACL頂級會議上我們發(fā)表了一個論文,其中有一個就是解決漏譯或者是過譯的問題。
諾亞方舟實驗室在手機方面做產(chǎn)品方面的開發(fā),做圖片檢索等技術(shù)方面的研究,就到這里,謝謝大家!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。