0
本文作者: 恒亮 | 2016-08-12 18:24 | 專題:CCF-GAIR | 全球人工智能與機(jī)器人峰會(huì) |
作為華為諾亞方舟實(shí)驗(yàn)室的主任, 北京大學(xué)、 南京大學(xué)的兼職教授,我們能夠很輕易地發(fā)現(xiàn),在李航身上兼具著一種學(xué)者的探索精神和華為公司特有的研發(fā)氣質(zhì)。在今天下午進(jìn)行的GAIR大會(huì)“人工智能的商業(yè)場(chǎng)景”這一議程中,李航以“智能化信息助手”這一愿景為切入口,為大家分享了世界500強(qiáng)之一,中國科技界的領(lǐng)軍企業(yè),華為公司在人工智能和深度學(xué)習(xí)領(lǐng)域的發(fā)展和思考。
首先,李航闡明了諾亞方舟實(shí)驗(yàn)室的概況。他說,實(shí)驗(yàn)室成立4年多以來,主要關(guān)注人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等前沿科技領(lǐng)域的研究。同時(shí),也面對(duì)華為三大BG事業(yè)群聚焦一些前沿產(chǎn)品的開發(fā),例如智能通訊網(wǎng)絡(luò),企業(yè)BG的大數(shù)據(jù)應(yīng)用,消費(fèi)者BG的智能語音助手等。
其次,他重點(diǎn)表示,華為諾亞方舟實(shí)驗(yàn)室的愿景之一,就是打造一個(gè)全智能化的智能移動(dòng)手機(jī)終端,用戶將通過自然語言的方式從終端獲取一切想要的信息和協(xié)助。
然后他以該愿景為目標(biāo),介紹了目前在諾亞方舟實(shí)驗(yàn)室研發(fā)的兩款終端類軟件產(chǎn)品,以及三個(gè)智能信息化檢索技術(shù)。
兩款產(chǎn)品
第一款產(chǎn)品是華為手機(jī)上的App市場(chǎng)。他表示,面對(duì)3億用戶,每天3千萬次檢索,1億次下載總量的大數(shù)據(jù)挑戰(zhàn),諾亞方舟實(shí)驗(yàn)室一直在聯(lián)合華為終端公司共同努力,智能化地為客戶提供檢索結(jié)果和推薦App。
第二款產(chǎn)品是華為“手機(jī)服務(wù)”。該產(chǎn)品是華為手機(jī)上的一個(gè)App,用戶可以用自然語言的方式向它求助在手機(jī)使用過程中遇到的各種問題,在每天10萬次當(dāng)量的問題求助中,有超過90%的用戶都可以得到滿意的回答。
其次是三個(gè)利用深度學(xué)習(xí)算法實(shí)現(xiàn)的智能化檢索技術(shù)。
第一個(gè)是用自然語言檢索分類照片。該方式不使用人工或機(jī)器學(xué)習(xí)的形式預(yù)先為每個(gè)照片設(shè)置一個(gè)標(biāo)簽,然后通過標(biāo)簽來處理照片。而是采用深度學(xué)習(xí)模型的方式處理照片,利用照片承載的內(nèi)容產(chǎn)生自然分類。
第二個(gè)是神經(jīng)機(jī)器翻譯。
第三個(gè)是神經(jīng)響應(yīng)機(jī),即一個(gè)自動(dòng)生成式系統(tǒng),李航表示這是業(yè)界第一臺(tái)公開發(fā)表的能夠自動(dòng)生成回復(fù)的智能應(yīng)答機(jī),而不是通過大數(shù)據(jù)搜索配對(duì)實(shí)現(xiàn)的。
據(jù)李航介紹,后面兩款檢索技術(shù)都是基于序列到序列的學(xué)習(xí)模型而實(shí)現(xiàn),將待翻譯語句和神經(jīng)響應(yīng)機(jī)中的提問視為序列1,將目標(biāo)翻譯結(jié)果和神經(jīng)響應(yīng)機(jī)中的問題回復(fù)視為序列2。所謂的序列到序列是指,在兩個(gè)序列之間存在一種中間變量態(tài),該中間變量通過加權(quán)和attention(關(guān)注機(jī)制)來進(jìn)行最優(yōu)目標(biāo)匹配,同時(shí)能有效防止重復(fù)和遺漏現(xiàn)象,最終完成了業(yè)界最優(yōu)的深度模型之一。其中第三款神經(jīng)響應(yīng)機(jī)可以輸出76%的正常對(duì)話,和高達(dá)95%的正確語句,需要強(qiáng)調(diào)的一點(diǎn):這些都是自動(dòng)生成的。
最后李航再度總結(jié)說,諾亞方實(shí)驗(yàn)室在進(jìn)行人工智能研究和未來技術(shù)探索的同時(shí),主要還將關(guān)注終端產(chǎn)品的智能化研發(fā)。
以下是演講實(shí)錄:
大家好!下面我就介紹一下華為,特別是諾亞方舟實(shí)驗(yàn)室在人工智能方面做的研究和技術(shù)開發(fā)。重點(diǎn)放在智能手機(jī)這塊的應(yīng)用。
我先介紹一下我們?cè)谥悄苁謾C(jī)上面的愿景,介紹一下我們相關(guān)的產(chǎn)品和我們的研究,最后介紹一下我們的技術(shù)。
諾亞方舟實(shí)驗(yàn)室成立4年,楊強(qiáng)教授是我們實(shí)驗(yàn)室第一人主任,我們研究的方向主要是人工智能、機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,更進(jìn)一步來說我們現(xiàn)在圍繞華為三個(gè)BG的產(chǎn)品做研究開發(fā),大概來說我們有4個(gè)方向:
第一個(gè)是智能通訊網(wǎng)絡(luò),大家知道通訊設(shè)備是華為非常重要的產(chǎn)品,未來的通訊設(shè)備一定是基于數(shù)據(jù)挖掘的,所以我們?cè)谶@方面做了很多的技術(shù)開發(fā)。另一方面是大數(shù)據(jù),還有我們聚焦在華為的智能手機(jī)上,主要是在語義語音,推薦搜索這方面的技術(shù),幫助我們的用戶能夠更好的使用手機(jī)。簡單說一下我們未來的愿景。我們用智能信息數(shù)據(jù)來概括我們的愿景。未來的華為的智能手機(jī)首先通過語言能夠很自然的跟用戶做交流,能夠去幫助用戶克服語言障礙,能夠幫助做翻譯,能夠理解用戶做需求,給用戶做推薦,能夠幫助用戶管理信息,同時(shí)能夠很好的幫助用戶得到外界的信息。
下面介紹兩個(gè)我們圍繞華為手機(jī)做的產(chǎn)品,我們諾亞方舟實(shí)驗(yàn)室跟終端的部門有密切的合作,我們?cè)谝黄痖_發(fā)幾個(gè)重要的產(chǎn)品,比如說華為的應(yīng)用市場(chǎng),大家用華為手機(jī)的用戶知道到華為的應(yīng)用市場(chǎng)我們有應(yīng)用的推薦和搜索,這個(gè)推薦和搜索的算法是我們?nèi)A為諾亞方舟實(shí)驗(yàn)室和終端的產(chǎn)品線的同事們一起開發(fā)的,這里面的挑戰(zhàn)就是一個(gè)大數(shù)據(jù)的挑戰(zhàn),這里面有3億的注冊(cè)用戶,每天有3000萬的用戶訪問我們這個(gè)市場(chǎng),下載的用戶每天有1億,這里面怎么能夠幫助用戶很好很快的找到他們的應(yīng)用,這個(gè)是比較挑戰(zhàn)性的問題,大家知道搜索和推薦都是在大數(shù)據(jù)的環(huán)境下都是極具挑戰(zhàn)性的,怎么樣能夠時(shí)時(shí)的更新模型,能夠更好的滿足用戶的需求,現(xiàn)在用業(yè)界最新近的技術(shù)做推薦和搜索。
另外,我們做的大家有華為手機(jī)的話可以有看手機(jī)服務(wù)這個(gè)部分,我們有智能問答,回答怎么樣更好的使用華為的手機(jī),用自然語言的方式來問答,比如說怎么給手機(jī)做備份,我們可以找到答案,有的是我們的技術(shù)手冊(cè)里面找到的答案,準(zhǔn)確率能夠達(dá)到90%,能夠給用戶提供更好的幫助,大家不用去網(wǎng)上去搜華為的使用了。
下面我做幾個(gè)演示,我們諾亞方舟實(shí)驗(yàn)室一方面在跟產(chǎn)品部門一起開發(fā)產(chǎn)品,另外一方面未來在做一些技術(shù)的研發(fā),特別是深度學(xué)習(xí)這方面我們做了一些工作,我現(xiàn)在演示三個(gè)演示:第一個(gè)是圖片搜索,假設(shè)你是一個(gè)手機(jī)用戶,你在手機(jī)上可以用語音或者是拼音的方式輸入你的問題,比如說在飛機(jī)上看到云彩的照片,現(xiàn)在這個(gè)場(chǎng)景是由2萬張圖片,可以用自然語言的方式搜這些圖片,這些圖片沒有做任何的圖象處理,比如說吃火鍋的照片,或者是爬山的照片可以通過自然語言自動(dòng)的找到這些照片,現(xiàn)在手機(jī)上有成千上萬的照片,怎么樣做好照片的管理,這個(gè)是非常有用的應(yīng)用,我們現(xiàn)在在做這方面的技術(shù)開發(fā)。
下一個(gè)是在做機(jī)器翻譯,特別是用深度學(xué)習(xí),大家叫做神經(jīng)技術(shù)翻譯,這塊也開發(fā)了業(yè)界領(lǐng)先的技術(shù),因?yàn)闀r(shí)間的關(guān)系我就不放了。
這個(gè)演示是神經(jīng)響應(yīng)機(jī),這個(gè)是基于深度學(xué)習(xí)做單輪的自然語言的對(duì)話,這個(gè)是我們?cè)跇I(yè)界第一個(gè)開發(fā)出來的,生成式自對(duì)話系統(tǒng),這個(gè)系統(tǒng)可以自動(dòng)的去產(chǎn)生回答,并不是像傳統(tǒng)的問答系統(tǒng),我們有大量的數(shù)據(jù),有44萬的數(shù)據(jù)去建立這樣一個(gè)系統(tǒng),這個(gè)系統(tǒng)比谷歌其他的公司開發(fā)的產(chǎn)品,我們?cè)绨l(fā)表,并且在ACL的頂級(jí)的會(huì)議上發(fā)表了這個(gè)論文。我介紹一下里面的內(nèi)容,比如說你輸入一句話,我們到諾亞方舟實(shí)驗(yàn)室來訪問的話,我們可以給你看看時(shí)時(shí)的,前天我們?nèi)A為的總裁來諾亞方舟實(shí)驗(yàn)室參觀我們就給他展示這個(gè),比如我想買一部三星的手機(jī),這個(gè)系統(tǒng)會(huì)說還是支持一下國產(chǎn)的吧,比如說你說占中終于結(jié)束了,系統(tǒng)會(huì)說下一個(gè)是不是鹿角嘴,產(chǎn)生一些非常有意思你完全想象不到的回答。
我們下面看一下這個(gè)技術(shù),我們?cè)趪@終端這樣的應(yīng)用場(chǎng)景在做技術(shù)開發(fā),這塊列出來的是我們主要在做的技術(shù)研究,包括問答、推薦、語音識(shí)別、對(duì)話、翻譯、圖片、檢索、深度學(xué)習(xí),就是說我們?cè)谔貏e是深度學(xué)習(xí)這方面做了業(yè)界一系列比較領(lǐng)先的一些工作,這塊介紹一些具有代表性的工作。第一個(gè)是MulimodalCNN,第一個(gè)是圖片搜索的演示,你說一句話就找到相關(guān)的圖片,我們現(xiàn)在有2萬張圖片,每張圖片大概有3句的描述,比如說一個(gè)小孩在游泳照片,有15萬對(duì)數(shù)據(jù),我們就可以訓(xùn)練這樣一個(gè)模型,大家知道卷神經(jīng)網(wǎng)絡(luò)是一個(gè)比較有代表性的網(wǎng)絡(luò),左邊的是可以把這個(gè)圖片抽取出來,這個(gè)CNN有多層,可以從圖片里面抽取里面的輪廓和物體,另外一個(gè)是從文本里面抽取特征,直觀的就是單詞和詞組的特征,你說這句話小孩的照片,這個(gè)小孩可能就會(huì)被抽取出來作為特征,在這個(gè)照片里面正好有一個(gè)小孩,這個(gè)小孩會(huì)作為一個(gè)物體抽取出來,通過大量的學(xué)習(xí)可以做到剛好看到的效果,這個(gè)可以看一下,我們的實(shí)驗(yàn)的結(jié)果,這個(gè)是英語的30K的數(shù)據(jù),我們做了比較實(shí)驗(yàn),我們比較了跟業(yè)界的其他部門的方法的結(jié)果,可以看到諾亞方舟實(shí)驗(yàn)室提出的剛才MulimodalCNN在檢索方面可以達(dá)到最好的效果,有些模型不一定很公平,大家為了所謂的Exprimental上面,可以達(dá)到更好的水平,這個(gè)工作在去年的圖象識(shí)別的大會(huì)上訓(xùn)讀了我們的論文。
下一個(gè)介紹的工作,我們看一下機(jī)器翻譯和對(duì)話里面我們用了序列到序列的學(xué)習(xí),最早的模型是谷歌和蒙特利爾大學(xué)提出來的,我們對(duì)他進(jìn)行了改進(jìn),用在對(duì)話和翻譯上取得了非常好的效果。序列到序列的學(xué)習(xí)到底是什么樣好的方法。大家問自然語言里面哪個(gè)深度學(xué)習(xí)的工具給我們帶來最大的革命性的變化,讓我來說的話就是序列到序列的學(xué)習(xí),基本的想法是這樣,用翻譯來做例子,現(xiàn)在把中文的一句話,一只貓坐在墊子上“A cat sit a cushion”,序列對(duì)序列的模型,從左到右一個(gè)詞一個(gè)詞的去看我們的中文,把它轉(zhuǎn)換成一個(gè)語義的表示,這個(gè)是一個(gè)向量,我們現(xiàn)在看到的HE、HT-E,HT,就是這個(gè)一只貓坐在一個(gè)墊子上得到的語義的表示,我們叫編碼,這個(gè)翻譯到目標(biāo)語言,翻譯成英語的話這個(gè)T-1,表示說英語產(chǎn)生這樣的句子在每個(gè)位置上對(duì)應(yīng)的語義表示是什么,我們翻譯要做的就是要把這個(gè)原文,中文做一個(gè)編碼,表示成中間的表示,再從中間的表示轉(zhuǎn)換成另外的一個(gè)中間的表示,是一個(gè)解碼,把它轉(zhuǎn)換成英文的句子,中間的C的這一行就是所謂的叫注意力模型,注意力就是幫助我們?nèi)ミx擇,當(dāng)我產(chǎn)生英文的某一個(gè)單詞,我要做翻譯要一個(gè)一個(gè)的產(chǎn)生英文單詞,我要有選擇性的去決定,我現(xiàn)在在任何一個(gè)位置我要決定產(chǎn)生解碼的表示的時(shí)候我是要選擇中文的語言里面的哪個(gè)表示更好,這個(gè)C實(shí)際上做了一個(gè)平衡,我在每個(gè)位置上我要重新判斷,我現(xiàn)在要產(chǎn)生一個(gè)英文的單詞的時(shí)候?qū)?yīng)的中文是哪個(gè)好,直觀上來說是這樣的解釋,我們可以通過這樣的模型,實(shí)際上是相當(dāng)復(fù)雜的,通過這個(gè)模型你給我任何一個(gè)單詞的序列我可以產(chǎn)生另外的序列,這個(gè)數(shù)據(jù)是中英文我可以產(chǎn)生翻譯,這個(gè)模型的效果是非常好的。
我們剛才演示的神經(jīng)響應(yīng)機(jī)實(shí)際上也是用的序列到序列學(xué)習(xí)的模型,這個(gè)時(shí)候我們有一點(diǎn)不同是中文到中文的句子,但是它不像翻譯,翻譯是在兩句話不同的語言,但是語義是一樣的幾兩句話才同一個(gè)語言他們形成同一輪的對(duì)話,我們最核心的想法就是用注意力的機(jī)制,但是我們有一個(gè)全球的機(jī)制,直觀上解釋這個(gè)C實(shí)際上表示我讀完這句話整體的語義就是一個(gè)10數(shù)值的向量,每個(gè)位置上的編碼得到的結(jié)果是得到每個(gè)位置上得到的語義是什么,這兩者的語義結(jié)合起來就變成中間C的這一行的語義,再把它轉(zhuǎn)換成要對(duì)應(yīng)的話的語義的表示,最后再解碼變成一句話,這個(gè)模型我們有400萬的對(duì)應(yīng)的數(shù)據(jù)的話就可以把這個(gè)模型對(duì)應(yīng)得比較好,能夠做這樣轉(zhuǎn)換。我們看到正確的句子大概有95%,大概有76%的回答是能夠形成自然的對(duì)話,就是剛才我舉的例子。
我們現(xiàn)在可以把它用在機(jī)器翻譯上,機(jī)器翻譯我們用的機(jī)制就是我們說序列對(duì)序列是很強(qiáng)大了,但是我們可以把它做得更好,用傳統(tǒng)的序列對(duì)序列的模型的話會(huì)把原文的東西漏掉,或者是翻譯多次,我們這邊有一個(gè)機(jī)制,翻譯的時(shí)候我哪些東西翻譯過了就不用翻了,哪些沒有翻,同時(shí)這個(gè)機(jī)制可以把它變得更強(qiáng),直觀上說我要產(chǎn)生英文下面是一個(gè)實(shí)詞和虛詞的話是不一樣的,就中文的話就好了,如果產(chǎn)生一個(gè)實(shí)詞,cat,這樣的話我就要看哪個(gè)詞影響我,如果兩個(gè)結(jié)合的話會(huì)產(chǎn)生很好的效果,這個(gè)禮拜ACL頂級(jí)會(huì)議上我們發(fā)表了一個(gè)論文,其中有一個(gè)就是解決漏譯或者是過譯的問題。
諾亞方舟實(shí)驗(yàn)室在手機(jī)方面做產(chǎn)品方面的開發(fā),做圖片檢索等技術(shù)方面的研究,就到這里,謝謝大家!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章