京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

本文作者：陳彩嫻

2020-08-10 18:32

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導(dǎo)語：可往知識驅(qū)動的復(fù)雜任務(wù)導(dǎo)向人機對話和超出文本的多模態(tài)數(shù)據(jù)和信息融合兩個方向發(fā)力~

8月7日-8月9日，2020年全球人工智能和機器人峰會（簡稱“CCF-GAIR 2020”）在深圳如期舉辦！CCF-GAIR由中國計算機學(xué)會（CCF）主辦，香港中文大學(xué)（深圳）、雷鋒網(wǎng)聯(lián)合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦，以“AI新基建產(chǎn)業(yè)新機遇”為大會主題，致力打造國內(nèi)人工智能和機器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。

8月7日下午，在「人工智能前沿專場」上，京東集團副總裁、人工智能研究院常務(wù)副院長、及智能人機交互業(yè)務(wù)負責(zé)人何曉冬博士進行了題為「多模態(tài)人機對話與交互: 理解、創(chuàng)作、決策」的演講。

何曉冬博士的演講圍繞人機對話系統(tǒng)的發(fā)展與應(yīng)用展開，結(jié)合對“AI新秀”GPT-3的技術(shù)探討，針對GPT-3等超大規(guī)模語言模型缺少知識和邏輯推理能力以及主要還局限于文本數(shù)據(jù)的短板，提出將高復(fù)雜的知識推理與決策任務(wù)及多模態(tài)的信息處理技術(shù)作為人工智能未來發(fā)展的驅(qū)動力。何博士還著重強調(diào)了下一步可在知識驅(qū)動的復(fù)雜任務(wù)導(dǎo)向人機對話和超出文本的多模態(tài)數(shù)據(jù)和信息融合兩個方向發(fā)力，推動多模態(tài)人機對話與交互，并將人機對話系統(tǒng)落實到產(chǎn)業(yè)應(yīng)用上，包括智能客服、智能交互營銷、智能消費媒體等。

以下是何曉冬博士在大會的演講實錄，AI 科技評論進行了不修改原意的整理和編輯：

一、人機對話的構(gòu)想與進展

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

70年前提出圖靈測試時，圖靈選擇將人與機器之間的對話作為判斷機器是否具有智能的標準。他的選擇并不是隨意的。圖靈認為對話是人特有的高級智能，只有當(dāng)機器能夠與人進行長時間對話時，才稱得上是擁有了類人的智能。

人機對話不但是一個科學(xué)問題，也是一個技術(shù)問題。

自計算機發(fā)明以來，研究人員一直在致力于如何克服“人機交流障礙”，如何使人和機器的交流變得越來越簡單。人機交互技術(shù)每往前進一步，使用計算機的人就增加幾個數(shù)量級，產(chǎn)業(yè)價值也往往隨著快速增長。下一步，我們希望計算機能與人類進行更加自如的智能的交流，從而讓機器能更好的幫我們完成更多更復(fù)雜的任務(wù)。

距離圖靈測試提出16年后，MIT開發(fā)出第一個人機對話機器人Eliza。但當(dāng)時它只是簡單模仿人的行為，談不上智能。到上世紀90年代，人機對話進入了一個新的發(fā)展階段，大家開始討論怎么讓計算機理解人類意圖與執(zhí)行命令。2012年，以蘋果的Siri為代表的智能個人助理成為主流，隨后出現(xiàn)更多的對話機器人，如微軟小冰等等。這些機器人不但能完成你下達的任務(wù)，還能逐漸跟用戶建立情感上的聯(lián)系。我們預(yù)想，今后會出現(xiàn)越來越多能與人自由交互的機器人，人類將真正與機器人共存。

人機對話領(lǐng)域一直十分活躍。今年1月，谷歌開發(fā)了一個大規(guī)模端到端的對話模型，F(xiàn)acebook也在4月發(fā)布了一個對話模型。這些對話模型都是基于深度學(xué)習(xí)結(jié)構(gòu)和Transformer變種的模型大規(guī)模訓(xùn)練出來的，在閑聊等場景表現(xiàn)出很強的應(yīng)答有效性和精確性。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

二、GPT-3的機遇與挑戰(zhàn)

人機交互在文字自動生成方面也有了較大進展，如GPT-3。我認為GPT-3是研究和工程結(jié)合的一個典范。雖然GPT-3本質(zhì)上仍基于Transformer模型，但OpenAI在開發(fā)的過程中運用了3000億單詞進行訓(xùn)練，模型內(nèi)含1750億參數(shù)，覆蓋50多個任務(wù)，用到28.5萬個CPU核和1萬個V100GPU做訓(xùn)練，最終取得了一個非常好的表現(xiàn)。GPT-3讓大家開始幻想：機器還有多久能模擬人的智能？

目前來看，仍是長路漫漫。僅僅從“硬件”角度來看，人類大腦有860億神經(jīng)元、100-1000萬億聯(lián)接，能處理的任務(wù)也遠遠超過GPT-3。

GPT-3的強大有目共睹。它可以執(zhí)行很多任務(wù)。如果讓它生成某個特定的網(wǎng)頁，它不但能生成網(wǎng)頁，還能生成網(wǎng)頁對應(yīng)的HTML代碼。它也可以直接轉(zhuǎn)換語言的風(fēng)格。比如你寫一個很幽默的句子，GPT-3很容易就能將句子的風(fēng)格轉(zhuǎn)變成嚴肅的style。它還可以寫作、聊天、翻譯、問答等等。如果給它看棋譜，它還會下象棋。按照Open AI的統(tǒng)計，如果讓GPT-3生成一段很長的故事，再讓人判斷這段故事是人寫還是機器寫，發(fā)現(xiàn)人類判斷準確的概率只有52%左右。這是一個令人非常感嘆的結(jié)果。

但GPT-3處理另外一些簡單工作的表現(xiàn)并不是特別好。如果你讓它做一位數(shù)、兩位數(shù)的加法，正確率基本能達到百分之百，但如果你讓它用5位數(shù)加5位數(shù)，它的正確率就會迅速下降。這一點很奇怪。如果一個小孩已經(jīng)學(xué)會加法，一般不會再出現(xiàn)很大的錯誤，除非是粗心。但是計算機是不會粗心的。再比如，如果用戶去問GPT-3新冠疫情會在什么時候結(jié)束，它會給你一個答案: 2023年12月31日。當(dāng)然，我們現(xiàn)在沒法驗證這個答案的可信度，但這不是關(guān)鍵，關(guān)鍵是GPT-3依據(jù)什么樣的證據(jù)來給出這個答案？如果它給不出證據(jù)的話，我們怎么相信這個答案是有效的？這說明計算機并沒有真正做到邏輯理解和推理，它只是通過模式的匹配和某種泛化的規(guī)范的記憶來得到結(jié)果。

諸如GPT-3之類的超大規(guī)模語言模型實驗給我們帶來非常有趣的思考和挑戰(zhàn)：

1、技術(shù)路線

人類智能/AI的許多問題與不完備規(guī)則相關(guān)。對話系統(tǒng)就是一個典例。它不像圍棋也不像撲克。它沒有完備的規(guī)則和知識邊界。因此，我們可能會問：端到端的架構(gòu)能力邊界在哪里？超大規(guī)模的模型對知識有海量的記憶能力，展現(xiàn)出很強的泛化能力，在開放領(lǐng)域的對話能力出色，精確性、有效性的表現(xiàn)還不錯。但這是因為它有很強的歸納能力和泛化記憶能力。在推演和演繹方面，超大規(guī)模語言模型在符號推理、輸出可控和可解釋方面還較弱。這是我們下一步需要聚焦的。

2、評測指標

我們希望機器擁有擬人的智能，但我們怎么判斷擬人呢？是在對話層次上還是整體體驗上判斷？在實現(xiàn)傳統(tǒng)的閑聊時，我們希望機器所說的每句話都能像人一樣，分辨不出是人寫的還是機器寫的。如果從端到端來看，我們做閑聊的社交機器人，我們希望它在交流層次上能夠擬人，讓我們有一種陪伴的感覺。在做任務(wù)導(dǎo)向的機器人的時候，我們更關(guān)注的是任務(wù)達成，并希望機器人能在達成和效率上反映整體的對話體驗，而不是簡單評估每一個回復(fù)是不是對的。

3、系統(tǒng)任務(wù)

什么是任務(wù)？對話的一個核心問題是理解語言，但理解語言并不是對話的最終極目標。在很多的復(fù)雜人機對話和交互里面，交互是多模態(tài)的，另外目的也超過了簡單的理解意圖。比如說咨詢導(dǎo)購，這是一種很常見的人和人之間對話的任務(wù)，但這個任務(wù)的目的不只是為了理解用戶、回答用戶咨詢，很多時候是要完成一個“銷售”的任務(wù)。這是更深層次的一個系列的博弈和決策，最后使得銷售的任務(wù)可以達成。從這個角度來說，文本只是一種呈現(xiàn)形式。

三、GPT-3后，人機交互何去何從？

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

我認為AI不僅可以進行簡單的淺層的任務(wù)，還可以嘗試更多需要知識驅(qū)動的任務(wù)，比如復(fù)雜的任務(wù)型的對話系統(tǒng)。這類任務(wù)需要領(lǐng)域知識及基礎(chǔ)常識的支撐，需要深度的推理與決策，不能通過簡單泛化記憶模型來解決。另外一個是多模態(tài)數(shù)據(jù)。模態(tài)交叉將帶來比目前高幾個數(shù)量級的數(shù)據(jù)，而跨模態(tài)的數(shù)據(jù)信息融合 (pooling)和聯(lián)接(grounding)將能使無監(jiān)督學(xué)習(xí)(predictive learning) 更高效的獲得更通用的模型。比如通過海量文本、語音、圖像、視頻數(shù)據(jù)建設(shè)跨模態(tài)數(shù)據(jù)集和知識庫。多模態(tài)數(shù)據(jù)可能可以幫助我們的模型超越語言，跟實體世界進一步結(jié)合，幫助我們更好地獲得人類世界的知識。

1）知識驅(qū)動的復(fù)雜任務(wù)導(dǎo)向人機對話

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

在用戶在與機器人導(dǎo)購或銷售聊天時，表層是交互、關(guān)懷、交流，但在底層則需要大量的技術(shù)支撐，包括多輪對話管理、認知智能、情感智能和推理與決策等。

比方說，如果顧客表示想給他的父母買一臺電視機當(dāng)節(jié)日禮物，客服機器人馬上判斷出來，并會結(jié)合情景判斷父母的年齡可能比較大，推薦更合適的商品。接著客戶可能會驚訝為什么推薦的電視機這么貴，這時對話機器人能夠理解客戶的真實意圖——他不是不買，而是對價格有點失望，需要一個解釋。于是機器人通過信息的挖掘，解釋為什么這個商品更適合他，甚至進一步給用戶推薦超值優(yōu)惠活動，幫助顧客開心地完成禮物購買，整個對話達到雙贏的結(jié)局。

對話不光是語言理解，還是一種博弈和決策。比如說，我們需要AI學(xué)會怎么做金牌銷售，從大量數(shù)據(jù)中學(xué)習(xí)銷售的語言技巧和對話策略以優(yōu)化全局銷售的結(jié)果為模型學(xué)習(xí)的目標。我們在看對話的時候不止是看到語義理解和語音識別，更多的是了解對話的具體目的和任務(wù)。這一目標的實現(xiàn)需要具體的技術(shù)支持。

自然語言任務(wù)的決策優(yōu)化是一個很難的問題。AlphaGo是一項很偉大的工作，但圍棋的執(zhí)行空間比較有限，每一步只能選361個點。從語言的角度來說，對話的每一句話可以有無限的選擇，在這種情況下你怎么進行強化學(xué)習(xí)、掌握最好的規(guī)劃策略？這是一個比較open的問題。

此外，人機對話能否基于很長的上下文做意圖識別。比如說，用戶說了很多話，哪些字或者哪些句子是真正定義這個用戶的意圖的，我們需要精確分辨出來并給予一定的可解釋性。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

除了分辨意圖之外，我們還要對自然語言的語義進行表征。我們需要把每一個自然語言的描述（最好能把它的語義）用一個向量提取出來，在同一個語義空間表示。當(dāng)不同的人表達不同的方式時，只要意圖相近就很容易判斷出來。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

另外，我們可以通過在連續(xù)空間里面投影我們的知識，再把這個知識的點和整個知識圖譜都投影到一個連續(xù)語義空間里面，在這個空間里面做很多直接的計算，判斷這個知識的一致性，并進行知識的補全。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

2）超出文本的多模態(tài)數(shù)據(jù)和信息處理

多模態(tài)的智能和多模態(tài)的數(shù)據(jù)迎來了很多新的機會。

如果我們想理解一個實體，比如說奧巴馬，我們可以通過讀文字、看圖片或者聽他的演講來理解他，甚至可以通過看他和他周圍的親戚、黨派、出生地等等知識對他有一個更好的了解。這些信息以前分屬于不同的模態(tài)，所以研究起來很分裂。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

基于新的深度學(xué)習(xí)模型，我們有可能把不同模態(tài)的信息投影到統(tǒng)一的語義空間，在這個空間里面做很多計算，幫助我們從各個角度理解這些信息。比如說，把文字和圖片投向同一個空間，這樣很快就可以知道文字和圖片是不是描述同樣的意思，然后生成一張圖片，迅速用語言模型來描述它真正的視覺信息，幫助我們更好地理解語言和視覺之間的互相管理。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

我們還可以通過建立跨模態(tài)知識庫連接視覺、語言和實體的信息。這是我們之前做的一個全球名人數(shù)據(jù)庫 “MS-Celeb-1M”（見下圖），把人的圖像信息和知識圖譜里面的實體信息進行連接。在這張圖片里，我們不光識別出一個人，我們還知道她是1982年出生的，是一個美國人，在某一個劇里演了某個角色，這樣我們對這個實體的人的了解知識迅速豐富起來。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

除此之外，我們可以通過多模體做視覺信息到語義推理的問答?；谝粡埡唵蔚膱D片或者問題，我們有沒有可能建造一個模型幫助我們回答疑問？這就意味著我們需要建設(shè)一系列語言模型、視覺模型，特別是需要建立一個多層的語言和視覺信息交換的模型，可以提取出最好的信息，幫助我們在語言和視覺之間聯(lián)合理解蘊涵的多模態(tài)信息。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

我們還模擬人的注意力機制提出了“bottom-up and top-down attention “ 機制，讓語言和視覺跨模態(tài)的信息融合和理解更高效。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

我們還可以先理解語言再創(chuàng)作圖畫。我們把“一只紅羽毛白肚子點短咀小鳥”這句話梳理文字給AI的時候，有沒有可能AI在畫這只小鳥的時候，學(xué)會對應(yīng)看那個語言對應(yīng)的語義，知道什么地方應(yīng)該畫什么顏色，比如肚子上要畫白色，羽毛上畫紅色，在頭部畫一個短嘴，最后憑空合成這么一張小鳥圖片。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

通過一系列的模型，我們可以在視覺和語言這兩個最重要的模態(tài)中間建立信息的交換、融合。我們也可基于這類模型做藝術(shù)創(chuàng)作，讓計算機學(xué)會怎么創(chuàng)作一個藝術(shù)地圖、怎么寫書法。

大家知道《蘭亭集序》開頭的4個字“永和九年”（如下圖）。這里面有4個字是王羲之寫的，另外四個是AI模仿王羲之的風(fēng)格寫的。大家能看出哪些是王羲之脅的，哪些是AI寫的？確切來說，圈出來的字是AI寫的。AI書寫還有一些瑕疵，比如“九”字是有瑕疵的，“和”“年”這兩個字則十分完美。而且AI還可以寫出帶有不同情緒的書法，興奮時寫得比較輕快，悲傷時寫得比較頓挫。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

基于這種新的多模態(tài)交互技術(shù)，配上之前的人機對話任務(wù)，有可能讓我們的模型在GPT-3后更向前走一步。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

【圖片來源：null 所有者：null 】

上圖所示是京東的一個人類顧客與機器客服的交流，交流過程中雙方使用了大量圖片直接表達信息。

這是一個實際的產(chǎn)業(yè)應(yīng)用的例子。在我們生活中，人和人、人和客戶交互，肯定不止是語言和對話，肯定有多模態(tài)、視頻、圖像。有時候圖片表達比文字表達更直接有效，這也從應(yīng)用角度反過來驅(qū)動我們更好地把對話或者語言模型進一步向多模態(tài)智能模型提升。

四、人機對話系統(tǒng)落地

產(chǎn)業(yè)界對人機對話系統(tǒng)的需求很大。在過去的幾年里也出現(xiàn)了一些特定領(lǐng)域的應(yīng)用，比如京東的智能客服、微軟小冰、亞馬遜智能音箱等等。我們發(fā)現(xiàn)在特定領(lǐng)域確實對話系統(tǒng)通常表現(xiàn)好，在很多時候能提升我們的工作效率，降低工作成本，甚至可以提升顧客體驗。但是在開放領(lǐng)域、對可靠性有很高要求的時候，對話系統(tǒng)還是一個很大的挑戰(zhàn)。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

京東深耕智能對話與交互平臺的應(yīng)用，比如智能客服、智能營銷、導(dǎo)購、智能消費媒體等等，希望把人機對話技術(shù)在產(chǎn)業(yè)界落地，創(chuàng)造新價值，引發(fā)新思考。

我們將TTS、ASR、語義理解跟工單結(jié)合，打通工單系統(tǒng)與快遞系統(tǒng)，謀求一體化，給客戶提供一個比較無縫的售中/售后服務(wù)體驗。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

銷售AI比客服AI的發(fā)明過程更難?？头回撠?zé)讓你滿意，銷售必須讓顧客下單。我們在銷售智能這一塊投入了許多，比如摸索如何通過多模態(tài)的賣點營銷，把商品最亮的亮點給用戶一下提出來；如何通過對話式的商品推薦，把最合適的商品推薦給用戶；我們甚至可以通過智能系統(tǒng)促進下單成交。比如用戶咨詢以后，如果有一段時間沒有反應(yīng)，我們可以再跟進一下。比如上次咨詢某個產(chǎn)品很好，現(xiàn)在它的優(yōu)惠快過期了，用戶要不要下單。這是我們從金牌銷售的技巧中學(xué)到的，但我們并不是讓金牌銷售手把手教AI，而是通過大量的學(xué)習(xí)、甚至通過某種程度的強化學(xué)習(xí)，讓AI從金牌銷售那里學(xué)到該怎么交流，怎么對話能更有效。我們內(nèi)部也在看人工導(dǎo)購和通過機器輔助導(dǎo)購的轉(zhuǎn)化率，發(fā)現(xiàn)機器導(dǎo)購可以帶來轉(zhuǎn)化率的直接提升。

在衡量對話系統(tǒng)成功的指標時，我們發(fā)現(xiàn)，在導(dǎo)購場景下，顧客和客服聊的時間越長，他下單的概率越大；但如果是售后場景，顧客跟客服聊得越長，他越不滿意。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

除了對話營銷之外，我們還可以通過多模態(tài)的交互技術(shù)生成消費媒體。這個可以看成是廣義的對話，它不是一輪一輪的應(yīng)答，而是某種程度上產(chǎn)生信息的交互，使得用戶感知到這些信息，促進用戶做下一輪的行為。這些是針對新的商品在不同的情況下給出不同的銷售文案（如下圖），在京東網(wǎng)頁客服對話的情景下，用不同的形式、不同的風(fēng)格、不同的語氣來表達商品的特點，使用戶更能體會到商品的優(yōu)點。我們達到了風(fēng)格多變、可控的結(jié)果。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

我們還可以通過數(shù)字人多模態(tài)交互，綜合語音、情緒、視覺形象等等做一種更加自然、更加擬人化的人和機器的交互。通過人工智能技術(shù)，我們希望可以為數(shù)以億計的每一個商品都配上一個帶貨主播和專屬客服。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

此外，我們通過智能對話技術(shù)賦能IoT設(shè)備，使得硬件更好地連接起來，使得我們可以開拓更多的新市場。

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

從研究到應(yīng)用之間往往存在一個期望的不匹配，一個“技術(shù)應(yīng)用鴻溝”。很多時候，當(dāng)一個新技術(shù)剛出來，人們往往希望在短時間內(nèi)就看到它的爆發(fā)或者巨大的價值增長，但實際上，我們往往高估了它短期帶來的價值，但低估了它的長遠價值。因為很多時候，單項新技術(shù)的價值往往是有限的，需要跟其他技術(shù)連接之后，才能構(gòu)成一個技術(shù)的網(wǎng)格、真正解決我們的問題，提高價值。比如很多年前語音識別就能提供API，但是價值一直沒有得到很好的體現(xiàn)。如果我們把語音識別、語言理解、計算機視覺、IoT和云計算綜合起來，就可以創(chuàng)造更大的能力，解決更大的問題，帶來更大的價值。

另一方面，新的技術(shù)是需要一個應(yīng)用生態(tài)的。如果一項技術(shù)只是為了服務(wù)單一的應(yīng)用，開發(fā)技術(shù)的成本往往會顯得特別高，沒有被攤平。如果有一個繁榮的應(yīng)用生態(tài)，技術(shù)可以復(fù)用，那么技術(shù)開發(fā)成本就會迅速降低，產(chǎn)生的價值也會繼續(xù)增長。所以在探索智能對話和交互技術(shù)的時候，我們會考慮客服、交互營銷、消費媒體、創(chuàng)意產(chǎn)業(yè)、智能硬件。長期來看，未來10年AI技術(shù)帶來的價值將呈非線性的迅速增長，而目前來看，我們需要進一步促進技術(shù)聯(lián)接和培養(yǎng)應(yīng)用生態(tài)。參考文獻：

Computing Machinery and Intelligence (Alan Turing, 1950)

Anderson, He, Buehler, Teney, Johnson, Gould, Zhang, “Bottom-Up and Top-Down Attention”, CVPR 2018

Adiwardana, Luong, So, Hall, Fiedel, Thoppilan, Yang, Kulshreshtha, Nemade, Lu, Le, "Towards a Human-like Open-Domain Chatbot", https://arxiv.org/abs/2001.09977

Brown et al., “Language Models are Few-shot learners,” 2020.

Vaswani et al., "Attention is all you need." 2017

Fang, Gupta, Iandola, Srivastava, Deng, Dollar, Gao, He, et al., “From Captions to Visual Concepts and Back,” CVPR2015

Guo, Zhang, Hu, He, Gao, “MS-Celeb-1M”, ECCV 2016

He, Chen, He, Gao, Li, Deng, Ostendorf, “Deep Reinforcement Learning with a Natural Language Action Space,” ACL2016

Huang, He, Gao, Deng, Acero, Heck, “Deep Structured Semantic Model”, CIKM2013

Liu et al., Mappa Mundi: An Interactive Artistic Mind Map Generator with Artificial Imagination, IJCAI 2019雷鋒網(wǎng)

Chen et al., MaLiang: An Emotion-Driven Chinese Calligraphy Artwork Composition System, ACM MM 2020雷鋒網(wǎng)

Smith, Williamson, Shuster, Weston, Boureau, “Can You Put it All Together: Evaluating Conversational Agents' Ability to Blend Skills," ACL 2020

Xu, Zhang, Huang, Zhang, Gan, Huang, He, “AttnGAN,” CVPR 2018

Yang, He, Gao, Deng, Smola, “Stacked Attention Networks,” CVPR 2016

Yang, Yang, Dyer, He, Smola, Hovy, “Hierarchical Attention Networks”, NAACL 2016

Yang, Yih, He, Gao, Deng, “Embedding entitles and relations for learning and inference in knowledge bases”, ICLR 2015雷鋒網(wǎng)

Zhang, Yang, He, Deng, “Multimodal Intelligence: Representation Learning, Information Fusion, and Applications”, IEEE JSTSP, March 2020

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

專題

CCF-GAIR 2020 全球人工智能與機器人峰會

本專題其他文章

陳彩嫻

編輯

發(fā)私信

當(dāng)月熱門文章

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020

CCF-GAIR 2020 全球人工智能與機器人峰會

京東副總裁何曉冬：GPT-3后，人機對話與交互何去何從？| CCF-GAIR 2020