0
本文作者: 陳彩嫻 | 2020-08-10 18:32 | 專題:CCF-GAIR 2020 全球人工智能與機(jī)器人峰會 |
8月7日-8月9日,2020年全球人工智能和機(jī)器人峰會(簡稱“CCF-GAIR 2020”)在深圳如期舉辦!CCF-GAIR由中國計(jì)算機(jī)學(xué)會(CCF)主辦,香港中文大學(xué)(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦,以“AI新基建 產(chǎn)業(yè)新機(jī)遇”為大會主題,致力打造國內(nèi)人工智能和機(jī)器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。
8月7日下午,在「人工智能前沿專場」上,京東集團(tuán)副總裁、人工智能研究院常務(wù)副院長、及智能人機(jī)交互業(yè)務(wù)負(fù)責(zé)人何曉冬博士進(jìn)行了題為「多模態(tài)人機(jī)對話與交互: 理解、創(chuàng)作、決策」的演講。
何曉冬博士的演講圍繞人機(jī)對話系統(tǒng)的發(fā)展與應(yīng)用展開,結(jié)合對“AI新秀”GPT-3的技術(shù)探討,針對GPT-3等超大規(guī)模語言模型缺少知識和邏輯推理能力以及主要還局限于文本數(shù)據(jù)的短板,提出將高復(fù)雜的知識推理與決策任務(wù)及多模態(tài)的信息處理技術(shù)作為人工智能未來發(fā)展的驅(qū)動力。何博士還著重強(qiáng)調(diào)了下一步可在知識驅(qū)動的復(fù)雜任務(wù)導(dǎo)向人機(jī)對話和超出文本的多模態(tài)數(shù)據(jù)和信息融合兩個(gè)方向發(fā)力,推動多模態(tài)人機(jī)對話與交互,并將人機(jī)對話系統(tǒng)落實(shí)到產(chǎn)業(yè)應(yīng)用上,包括智能客服、智能交互營銷、智能消費(fèi)媒體等。
以下是何曉冬博士在大會的演講實(shí)錄,AI 科技評論進(jìn)行了不修改原意的整理和編輯:
一、人機(jī)對話的構(gòu)想與進(jìn)展
70年前提出圖靈測試時(shí),圖靈選擇將人與機(jī)器之間的對話作為判斷機(jī)器是否具有智能的標(biāo)準(zhǔn)。他的選擇并不是隨意的。圖靈認(rèn)為對話是人特有的高級智能,只有當(dāng)機(jī)器能夠與人進(jìn)行長時(shí)間對話時(shí),才稱得上是擁有了類人的智能。
人機(jī)對話不但是一個(gè)科學(xué)問題,也是一個(gè)技術(shù)問題。
自計(jì)算機(jī)發(fā)明以來,研究人員一直在致力于如何克服“人機(jī)交流障礙”,如何使人和機(jī)器的交流變得越來越簡單。人機(jī)交互技術(shù)每往前進(jìn)一步,使用計(jì)算機(jī)的人就增加幾個(gè)數(shù)量級,產(chǎn)業(yè)價(jià)值也往往隨著快速增長。下一步,我們希望計(jì)算機(jī)能與人類進(jìn)行更加自如的智能的交流,從而讓機(jī)器能更好的幫我們完成更多更復(fù)雜的任務(wù)。
距離圖靈測試提出16年后,MIT開發(fā)出第一個(gè)人機(jī)對話機(jī)器人Eliza。但當(dāng)時(shí)它只是簡單模仿人的行為,談不上智能。到上世紀(jì)90年代,人機(jī)對話進(jìn)入了一個(gè)新的發(fā)展階段,大家開始討論怎么讓計(jì)算機(jī)理解人類意圖與執(zhí)行命令。2012年,以蘋果的Siri為代表的智能個(gè)人助理成為主流,隨后出現(xiàn)更多的對話機(jī)器人,如微軟小冰等等。這些機(jī)器人不但能完成你下達(dá)的任務(wù),還能逐漸跟用戶建立情感上的聯(lián)系。我們預(yù)想,今后會出現(xiàn)越來越多能與人自由交互的機(jī)器人,人類將真正與機(jī)器人共存。
人機(jī)對話領(lǐng)域一直十分活躍。今年1月,谷歌開發(fā)了一個(gè)大規(guī)模端到端的對話模型,F(xiàn)acebook也在4月發(fā)布了一個(gè)對話模型。這些對話模型都是基于深度學(xué)習(xí)結(jié)構(gòu)和Transformer變種的模型大規(guī)模訓(xùn)練出來的,在閑聊等場景表現(xiàn)出很強(qiáng)的應(yīng)答有效性和精確性。
二、GPT-3的機(jī)遇與挑戰(zhàn)
人機(jī)交互在文字自動生成方面也有了較大進(jìn)展,如GPT-3。我認(rèn)為GPT-3是研究和工程結(jié)合的一個(gè)典范。雖然GPT-3本質(zhì)上仍基于Transformer模型,但OpenAI在開發(fā)的過程中運(yùn)用了3000億單詞進(jìn)行訓(xùn)練,模型內(nèi)含1750億參數(shù),覆蓋50多個(gè)任務(wù),用到28.5萬個(gè)CPU核和1萬個(gè)V100GPU做訓(xùn)練,最終取得了一個(gè)非常好的表現(xiàn)。GPT-3讓大家開始幻想:機(jī)器還有多久能模擬人的智能?
目前來看,仍是長路漫漫。僅僅從“硬件”角度來看,人類大腦有860億神經(jīng)元、100-1000萬億聯(lián)接,能處理的任務(wù)也遠(yuǎn)遠(yuǎn)超過GPT-3。
GPT-3的強(qiáng)大有目共睹。它可以執(zhí)行很多任務(wù)。如果讓它生成某個(gè)特定的網(wǎng)頁,它不但能生成網(wǎng)頁,還能生成網(wǎng)頁對應(yīng)的HTML代碼。它也可以直接轉(zhuǎn)換語言的風(fēng)格。比如你寫一個(gè)很幽默的句子,GPT-3很容易就能將句子的風(fēng)格轉(zhuǎn)變成嚴(yán)肅的style。它還可以寫作、聊天、翻譯、問答等等。如果給它看棋譜,它還會下象棋。按照Open AI的統(tǒng)計(jì),如果讓GPT-3生成一段很長的故事,再讓人判斷這段故事是人寫還是機(jī)器寫,發(fā)現(xiàn)人類判斷準(zhǔn)確的概率只有52%左右。這是一個(gè)令人非常感嘆的結(jié)果。
但GPT-3處理另外一些簡單工作的表現(xiàn)并不是特別好。如果你讓它做一位數(shù)、兩位數(shù)的加法,正確率基本能達(dá)到百分之百,但如果你讓它用5位數(shù)加5位數(shù),它的正確率就會迅速下降。這一點(diǎn)很奇怪。如果一個(gè)小孩已經(jīng)學(xué)會加法,一般不會再出現(xiàn)很大的錯(cuò)誤,除非是粗心。但是計(jì)算機(jī)是不會粗心的。再比如,如果用戶去問GPT-3新冠疫情會在什么時(shí)候結(jié)束,它會給你一個(gè)答案: 2023年12月31日。當(dāng)然,我們現(xiàn)在沒法驗(yàn)證這個(gè)答案的可信度,但這不是關(guān)鍵,關(guān)鍵是GPT-3依據(jù)什么樣的證據(jù)來給出這個(gè)答案?如果它給不出證據(jù)的話,我們怎么相信這個(gè)答案是有效的?這說明計(jì)算機(jī)并沒有真正做到邏輯理解和推理,它只是通過模式的匹配和某種泛化的規(guī)范的記憶來得到結(jié)果。
諸如GPT-3之類的超大規(guī)模語言模型實(shí)驗(yàn)給我們帶來非常有趣的思考和挑戰(zhàn):
1、技術(shù)路線
人類智能/AI的許多問題與不完備規(guī)則相關(guān)。對話系統(tǒng)就是一個(gè)典例。它不像圍棋也不像撲克。它沒有完備的規(guī)則和知識邊界。因此,我們可能會問:端到端的架構(gòu)能力邊界在哪里?超大規(guī)模的模型對知識有海量的記憶能力,展現(xiàn)出很強(qiáng)的泛化能力,在開放領(lǐng)域的對話能力出色,精確性、有效性的表現(xiàn)還不錯(cuò)。但這是因?yàn)樗泻軓?qiáng)的歸納能力和泛化記憶能力。在推演和演繹方面,超大規(guī)模語言模型在符號推理、輸出可控和可解釋方面還較弱。這是我們下一步需要聚焦的。
2、評測指標(biāo)
我們希望機(jī)器擁有擬人的智能,但我們怎么判斷擬人呢?是在對話層次上還是整體體驗(yàn)上判斷?在實(shí)現(xiàn)傳統(tǒng)的閑聊時(shí),我們希望機(jī)器所說的每句話都能像人一樣,分辨不出是人寫的還是機(jī)器寫的。如果從端到端來看,我們做閑聊的社交機(jī)器人,我們希望它在交流層次上能夠擬人,讓我們有一種陪伴的感覺。在做任務(wù)導(dǎo)向的機(jī)器人的時(shí)候,我們更關(guān)注的是任務(wù)達(dá)成,并希望機(jī)器人能在達(dá)成和效率上反映整體的對話體驗(yàn),而不是簡單評估每一個(gè)回復(fù)是不是對的。
3、系統(tǒng)任務(wù)
什么是任務(wù)?對話的一個(gè)核心問題是理解語言,但理解語言并不是對話的最終極目標(biāo)。在很多的復(fù)雜人機(jī)對話和交互里面,交互是多模態(tài)的,另外目的也超過了簡單的理解意圖。比如說咨詢導(dǎo)購,這是一種很常見的人和人之間對話的任務(wù),但這個(gè)任務(wù)的目的不只是為了理解用戶、回答用戶咨詢,很多時(shí)候是要完成一個(gè)“銷售”的任務(wù)。這是更深層次的一個(gè)系列的博弈和決策,最后使得銷售的任務(wù)可以達(dá)成。從這個(gè)角度來說,文本只是一種呈現(xiàn)形式。
三、GPT-3后,人機(jī)交互何去何從?
我認(rèn)為AI不僅可以進(jìn)行簡單的淺層的任務(wù),還可以嘗試更多需要知識驅(qū)動的任務(wù),比如復(fù)雜的任務(wù)型的對話系統(tǒng)。這類任務(wù)需要領(lǐng)域知識及基礎(chǔ)常識的支撐,需要深度的推理與決策,不能通過簡單泛化記憶模型來解決。另外一個(gè)是多模態(tài)數(shù)據(jù)。模態(tài)交叉將帶來比目前高幾個(gè)數(shù)量級的數(shù)據(jù),而跨模態(tài)的數(shù)據(jù)信息融合 (pooling)和聯(lián)接(grounding)將能使無監(jiān)督學(xué)習(xí)(predictive learning) 更高效的獲得更通用的模型。比如通過海量文本、語音、圖像、視頻數(shù)據(jù)建設(shè)跨模態(tài)數(shù)據(jù)集和知識庫。多模態(tài)數(shù)據(jù)可能可以幫助我們的模型超越語言,跟實(shí)體世界進(jìn)一步結(jié)合,幫助我們更好地獲得人類世界的知識。
1)知識驅(qū)動的復(fù)雜任務(wù)導(dǎo)向人機(jī)對話
在用戶在與機(jī)器人導(dǎo)購或銷售聊天時(shí),表層是交互、關(guān)懷、交流,但在底層則需要大量的技術(shù)支撐,包括多輪對話管理、認(rèn)知智能、情感智能和推理與決策等。
比方說,如果顧客表示想給他的父母買一臺電視機(jī)當(dāng)節(jié)日禮物,客服機(jī)器人馬上判斷出來,并會結(jié)合情景判斷父母的年齡可能比較大,推薦更合適的商品。接著客戶可能會驚訝為什么推薦的電視機(jī)這么貴,這時(shí)對話機(jī)器人能夠理解客戶的真實(shí)意圖——他不是不買,而是對價(jià)格有點(diǎn)失望,需要一個(gè)解釋。于是機(jī)器人通過信息的挖掘,解釋為什么這個(gè)商品更適合他,甚至進(jìn)一步給用戶推薦超值優(yōu)惠活動,幫助顧客開心地完成禮物購買,整個(gè)對話達(dá)到雙贏的結(jié)局。
對話不光是語言理解,還是一種博弈和決策。比如說,我們需要AI學(xué)會怎么做金牌銷售,從大量數(shù)據(jù)中學(xué)習(xí)銷售的語言技巧和對話策略 以優(yōu)化全局銷售的結(jié)果為模型學(xué)習(xí)的目標(biāo)。我們在看對話的時(shí)候不止是看到語義理解和語音識別,更多的是了解對話的具體目的和任務(wù)。這一目標(biāo)的實(shí)現(xiàn)需要具體的技術(shù)支持。
自然語言任務(wù)的決策優(yōu)化是一個(gè)很難的問題。AlphaGo是一項(xiàng)很偉大的工作,但圍棋的執(zhí)行空間比較有限,每一步只能選361個(gè)點(diǎn)。從語言的角度來說,對話的每一句話可以有無限的選擇,在這種情況下你怎么進(jìn)行強(qiáng)化學(xué)習(xí)、掌握最好的規(guī)劃策略?這是一個(gè)比較open的問題。
此外,人機(jī)對話能否基于很長的上下文做意圖識別。比如說,用戶說了很多話,哪些字或者哪些句子是真正定義這個(gè)用戶的意圖的,我們需要精確分辨出來并給予一定的可解釋性。
除了分辨意圖之外,我們還要對自然語言的語義進(jìn)行表征。我們需要把每一個(gè)自然語言的描述(最好能把它的語義)用一個(gè)向量提取出來,在同一個(gè)語義空間表示。當(dāng)不同的人表達(dá)不同的方式時(shí),只要意圖相近就很容易判斷出來。
另外,我們可以通過在連續(xù)空間里面投影我們的知識,再把這個(gè)知識的點(diǎn)和整個(gè)知識圖譜都投影到一個(gè)連續(xù)語義空間里面,在這個(gè)空間里面做很多直接的計(jì)算,判斷這個(gè)知識的一致性,并進(jìn)行知識的補(bǔ)全。
2)超出文本的多模態(tài)數(shù)據(jù)和信息處理
多模態(tài)的智能和多模態(tài)的數(shù)據(jù)迎來了很多新的機(jī)會。
如果我們想理解一個(gè)實(shí)體,比如說奧巴馬,我們可以通過讀文字、看圖片或者聽他的演講來理解他,甚至可以通過看他和他周圍的親戚、黨派、出生地等等知識對他有一個(gè)更好的了解。這些信息以前分屬于不同的模態(tài),所以研究起來很分裂。
基于新的深度學(xué)習(xí)模型,我們有可能把不同模態(tài)的信息投影到統(tǒng)一的語義空間,在這個(gè)空間里面做很多計(jì)算,幫助我們從各個(gè)角度理解這些信息。比如說,把文字和圖片投向同一個(gè)空間,這樣很快就可以知道文字和圖片是不是描述同樣的意思,然后生成一張圖片,迅速用語言模型來描述它真正的視覺信息,幫助我們更好地理解語言和視覺之間的互相管理。
我們還可以通過建立跨模態(tài)知識庫連接視覺、語言和實(shí)體的信息。這是我們之前做的一個(gè)全球名人數(shù)據(jù)庫 “MS-Celeb-1M”(見下圖),把人的圖像信息和知識圖譜里面的實(shí)體信息進(jìn)行連接。在這張圖片里,我們不光識別出一個(gè)人,我們還知道她是1982年出生的,是一個(gè)美國人,在某一個(gè)劇里演了某個(gè)角色,這樣我們對這個(gè)實(shí)體的人的了解知識迅速豐富起來。
除此之外,我們可以通過多模體做視覺信息到語義推理的問答?;谝粡埡唵蔚膱D片或者問題,我們有沒有可能建造一個(gè)模型幫助我們回答疑問?這就意味著我們需要建設(shè)一系列語言模型、視覺模型,特別是需要建立一個(gè)多層的語言和視覺信息交換的模型,可以提取出最好的信息,幫助我們在語言和視覺之間聯(lián)合理解蘊(yùn)涵的多模態(tài)信息。
我們還模擬人的注意力機(jī)制提出了“bottom-up and top-down attention “ 機(jī)制,讓語言和視覺跨模態(tài)的信息融合和理解更高效。
我們還可以先理解語言再創(chuàng)作圖畫。我們把“一只紅羽毛白肚子點(diǎn)短咀小鳥”這句話梳理文字給AI的時(shí)候,有沒有可能AI在畫這只小鳥的時(shí)候,學(xué)會對應(yīng)看那個(gè)語言對應(yīng)的語義,知道什么地方應(yīng)該畫什么顏色,比如肚子上要畫白色,羽毛上畫紅色,在頭部畫一個(gè)短嘴,最后憑空合成這么一張小鳥圖片。
通過一系列的模型,我們可以在視覺和語言這兩個(gè)最重要的模態(tài)中間建立信息的交換、融合。我們也可基于這類模型做藝術(shù)創(chuàng)作,讓計(jì)算機(jī)學(xué)會怎么創(chuàng)作一個(gè)藝術(shù)地圖、怎么寫書法。
大家知道《蘭亭集序》開頭的4個(gè)字“永和九年”(如下圖)。這里面有4個(gè)字是王羲之寫的,另外四個(gè)是AI模仿王羲之的風(fēng)格寫的。大家能看出哪些是王羲之脅的,哪些是AI寫的?確切來說,圈出來的字是AI寫的。AI書寫還有一些瑕疵,比如“九”字是有瑕疵的,“和”“年”這兩個(gè)字則十分完美。而且AI還可以寫出帶有不同情緒的書法,興奮時(shí)寫得比較輕快,悲傷時(shí)寫得比較頓挫。
基于這種新的多模態(tài)交互技術(shù),配上之前的人機(jī)對話任務(wù),有可能讓我們的模型在GPT-3后更向前走一步。
【 圖片來源:null 所有者:null 】
上圖所示是京東的一個(gè)人類顧客與機(jī)器客服的交流,交流過程中雙方使用了大量圖片直接表達(dá)信息。
這是一個(gè)實(shí)際的產(chǎn)業(yè)應(yīng)用的例子。在我們生活中,人和人、人和客戶交互,肯定不止是語言和對話,肯定有多模態(tài)、視頻、圖像。有時(shí)候圖片表達(dá)比文字表達(dá)更直接有效,這也從應(yīng)用角度反過來驅(qū)動我們更好地把對話或者語言模型進(jìn)一步向多模態(tài)智能模型提升。
四、人機(jī)對話系統(tǒng)落地
產(chǎn)業(yè)界對人機(jī)對話系統(tǒng)的需求很大。在過去的幾年里也出現(xiàn)了一些特定領(lǐng)域的應(yīng)用,比如京東的智能客服、微軟小冰、亞馬遜智能音箱等等。我們發(fā)現(xiàn)在特定領(lǐng)域確實(shí)對話系統(tǒng)通常表現(xiàn)好,在很多時(shí)候能提升我們的工作效率,降低工作成本,甚至可以提升顧客體驗(yàn)。但是在開放領(lǐng)域、對可靠性有很高要求的時(shí)候,對話系統(tǒng)還是一個(gè)很大的挑戰(zhàn)。
京東深耕智能對話與交互平臺的應(yīng)用,比如智能客服、智能營銷、導(dǎo)購、智能消費(fèi)媒體等等,希望把人機(jī)對話技術(shù)在產(chǎn)業(yè)界落地,創(chuàng)造新價(jià)值,引發(fā)新思考。
我們將TTS、ASR、語義理解跟工單結(jié)合,打通工單系統(tǒng)與快遞系統(tǒng),謀求一體化,給客戶提供一個(gè)比較無縫的售中/售后服務(wù)體驗(yàn)。
銷售AI比客服AI的發(fā)明過程更難??头回?fù)責(zé)讓你滿意,銷售必須讓顧客下單。我們在銷售智能這一塊投入了許多,比如摸索如何通過多模態(tài)的賣點(diǎn)營銷,把商品最亮的亮點(diǎn)給用戶一下提出來;如何通過對話式的商品推薦,把最合適的商品推薦給用戶;我們甚至可以通過智能系統(tǒng)促進(jìn)下單成交。比如用戶咨詢以后,如果有一段時(shí)間沒有反應(yīng),我們可以再跟進(jìn)一下。比如上次咨詢某個(gè)產(chǎn)品很好,現(xiàn)在它的優(yōu)惠快過期了,用戶要不要下單。這是我們從金牌銷售的技巧中學(xué)到的,但我們并不是讓金牌銷售手把手教AI,而是通過大量的學(xué)習(xí)、甚至通過某種程度的強(qiáng)化學(xué)習(xí),讓AI從金牌銷售那里學(xué)到該怎么交流,怎么對話能更有效。我們內(nèi)部也在看人工導(dǎo)購和通過機(jī)器輔助導(dǎo)購的轉(zhuǎn)化率,發(fā)現(xiàn)機(jī)器導(dǎo)購可以帶來轉(zhuǎn)化率的直接提升。
在衡量對話系統(tǒng)成功的指標(biāo)時(shí),我們發(fā)現(xiàn),在導(dǎo)購場景下,顧客和客服聊的時(shí)間越長,他下單的概率越大;但如果是售后場景,顧客跟客服聊得越長,他越不滿意。
除了對話營銷之外,我們還可以通過多模態(tài)的交互技術(shù)生成消費(fèi)媒體。這個(gè)可以看成是廣義的對話,它不是一輪一輪的應(yīng)答,而是某種程度上產(chǎn)生信息的交互,使得用戶感知到這些信息,促進(jìn)用戶做下一輪的行為。這些是針對新的商品在不同的情況下給出不同的銷售文案(如下圖),在京東網(wǎng)頁客服對話的情景下,用不同的形式、不同的風(fēng)格、不同的語氣來表達(dá)商品的特點(diǎn),使用戶更能體會到商品的優(yōu)點(diǎn)。我們達(dá)到了風(fēng)格多變、可控的結(jié)果。
我們還可以通過數(shù)字人多模態(tài)交互,綜合語音、情緒、視覺形象等等做一種更加自然、更加擬人化的人和機(jī)器的交互。通過人工智能技術(shù),我們希望可以為數(shù)以億計(jì)的每一個(gè)商品都配上一個(gè)帶貨主播和專屬客服。
此外,我們通過智能對話技術(shù)賦能IoT設(shè)備,使得硬件更好地連接起來,使得我們可以開拓更多的新市場。
從研究到應(yīng)用之間往往存在一個(gè)期望的不匹配,一個(gè)“技術(shù)應(yīng)用鴻溝”。很多時(shí)候,當(dāng)一個(gè)新技術(shù)剛出來,人們往往希望在短時(shí)間內(nèi)就看到它的爆發(fā)或者巨大的價(jià)值增長,但實(shí)際上,我們往往高估了它短期帶來的價(jià)值,但低估了它的長遠(yuǎn)價(jià)值。因?yàn)楹芏鄷r(shí)候,單項(xiàng)新技術(shù)的價(jià)值往往是有限的,需要跟其他技術(shù)連接之后,才能構(gòu)成一個(gè)技術(shù)的網(wǎng)格、真正解決我們的問題,提高價(jià)值。比如很多年前語音識別就能提供API,但是價(jià)值一直沒有得到很好的體現(xiàn)。如果我們把語音識別、語言理解、計(jì)算機(jī)視覺、IoT和云計(jì)算綜合起來,就可以創(chuàng)造更大的能力,解決更大的問題,帶來更大的價(jià)值。
另一方面,新的技術(shù)是需要一個(gè)應(yīng)用生態(tài)的。如果一項(xiàng)技術(shù)只是為了服務(wù)單一的應(yīng)用,開發(fā)技術(shù)的成本往往會顯得特別高,沒有被攤平。如果有一個(gè)繁榮的應(yīng)用生態(tài),技術(shù)可以復(fù)用,那么技術(shù)開發(fā)成本就會迅速降低,產(chǎn)生的價(jià)值也會繼續(xù)增長。所以在探索智能對話和交互技術(shù)的時(shí)候,我們會考慮客服、交互營銷、消費(fèi)媒體、創(chuàng)意產(chǎn)業(yè)、智能硬件。長期來看,未來10年AI技術(shù)帶來的價(jià)值將呈非線性的迅速增長,而目前來看,我們需要進(jìn)一步促進(jìn)技術(shù)聯(lián)接和培養(yǎng)應(yīng)用生態(tài)。參考文獻(xiàn):
Computing Machinery and Intelligence (Alan Turing, 1950)
Anderson, He, Buehler, Teney, Johnson, Gould, Zhang, “Bottom-Up and Top-Down Attention”, CVPR 2018
Adiwardana, Luong, So, Hall, Fiedel, Thoppilan, Yang, Kulshreshtha, Nemade, Lu, Le, "Towards a Human-like Open-Domain Chatbot", https://arxiv.org/abs/2001.09977
Brown et al., “Language Models are Few-shot learners,” 2020.
Vaswani et al., "Attention is all you need." 2017
Fang, Gupta, Iandola, Srivastava, Deng, Dollar, Gao, He, et al., “From Captions to Visual Concepts and Back,” CVPR2015
Guo, Zhang, Hu, He, Gao, “MS-Celeb-1M”, ECCV 2016
He, Chen, He, Gao, Li, Deng, Ostendorf, “Deep Reinforcement Learning with a Natural Language Action Space,” ACL2016
Huang, He, Gao, Deng, Acero, Heck, “Deep Structured Semantic Model”, CIKM2013
Liu et al., Mappa Mundi: An Interactive Artistic Mind Map Generator with Artificial Imagination, IJCAI 2019雷鋒網(wǎng)
Chen et al., MaLiang: An Emotion-Driven Chinese Calligraphy Artwork Composition System, ACM MM 2020雷鋒網(wǎng)
Smith, Williamson, Shuster, Weston, Boureau, “Can You Put it All Together: Evaluating Conversational Agents' Ability to Blend Skills," ACL 2020
Xu, Zhang, Huang, Zhang, Gan, Huang, He, “AttnGAN,” CVPR 2018
Yang, He, Gao, Deng, Smola, “Stacked Attention Networks,” CVPR 2016
Yang, Yang, Dyer, He, Smola, Hovy, “Hierarchical Attention Networks”, NAACL 2016
Yang, Yih, He, Gao, Deng, “Embedding entitles and relations for learning and inference in knowledge bases”, ICLR 2015雷鋒網(wǎng)
Zhang, Yang, He, Deng, “Multimodal Intelligence: Representation Learning, Information Fusion, and Applications”, IEEE JSTSP, March 2020
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章