0
本文作者: 楊曉凡 | 2019-09-06 00:36 | 專題:NeurIPS 2019 |
雷鋒網(wǎng) AI 科技評論按:9 月 4 日,被譽(yù)為機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)領(lǐng)域的頂級會議之一的 NeurIPS 2019 揭曉收錄論文名單,創(chuàng)新工場人工智能工程院的論文《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》(深度困惑:一種利用自編碼器生成惡意訓(xùn)練樣本的方法)被接收在列。這篇論文的三位作者為:馮霽(創(chuàng)新工場南京國際人工智能研究院執(zhí)行院長)、蔡其志(創(chuàng)新工場南京國際人工智能研究院研究員) 、周志華(南京大學(xué)人工智能學(xué)院院長)。
這篇論文圍繞現(xiàn)階段人工智能系統(tǒng)的安全性展開研究,具體而言,文章提出了一種高效生成對抗訓(xùn)練樣本的方法 DeepConfuse,通過微弱擾動數(shù)據(jù)庫的方式,徹底破壞對應(yīng)的學(xué)習(xí)系統(tǒng)的性能,達(dá)到「數(shù)據(jù)下毒」的目的。這一技術(shù)的研究并不單單是為了揭示類似的 AI 入侵或攻擊技術(shù)對系統(tǒng)安全的威脅,而是致力于在深入研究相關(guān)的入侵或攻擊技術(shù)的基礎(chǔ)上,有針對性地制定防范「AI 黑客」的完善方案,對 AI 安全攻防這一前沿研究方向的推動與發(fā)展具有積極指導(dǎo)作用。
NeurIPS,全稱神經(jīng)信息處理系統(tǒng)大會 (Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有 32 年的歷史,一直以來備受學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。該會議固定在每年的 12 月舉行,由 NIPS 基金會主辦。在中國計(jì)算機(jī)學(xué)會的國際學(xué)術(shù)會議排名中,NeurIPS 為人工智能領(lǐng)域的A類會議,同時(shí)也是人工智能領(lǐng)域最富盛名的年度會議之一,會議門票動輒在數(shù)分鐘內(nèi)售磬。
一直以來,NeurIPS 都以重視論文質(zhì)量著稱,并保持著相對較低的錄取率。今年,NeurIPS 會議的論文投稿量再創(chuàng)造新高,共收到 6743 篇投稿,最終錄取 1428 篇論文,錄取率為 21.2%。
目前這篇論文還不是最終狀態(tài),Camera Ready 將版本在 1 個月后通過 NeurIPS 正式途徑放出。下面我們介紹一下論文的主要內(nèi)容。
近年來,機(jī)器學(xué)習(xí)熱度不斷攀升,并逐漸在不同應(yīng)用領(lǐng)域解決各式各樣的問題。不過,卻很少有人意識到,其實(shí)機(jī)器學(xué)習(xí)本身也很容易受到攻擊,模型并非想象中堅(jiān)不可摧。
例如,在訓(xùn)練 (學(xué)習(xí)階段) 或是預(yù)測 (推理階段) 這兩個過程中,機(jī)器學(xué)習(xí)模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。創(chuàng)新工場 AI 工程院為此專門成立了 AI 安全實(shí)驗(yàn)室,針對人工智能系統(tǒng)的安全性,進(jìn)行了深入對評估和研究。
《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》這篇論文的主要貢獻(xiàn),就是提出了高效生成對抗訓(xùn)練數(shù)據(jù)的最先進(jìn)方法之一—— DeepConfuse,通過劫持神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,教會噪聲生成器為訓(xùn)練樣本添加一個有界的擾動,使得該訓(xùn)練樣本訓(xùn)練得到的機(jī)器學(xué)習(xí)模型在面對測試樣本時(shí)的泛化能力盡可能地差,非常巧妙地實(shí)現(xiàn)了「數(shù)據(jù)下毒」。
顧名思義,「數(shù)據(jù)下毒」即讓訓(xùn)練數(shù)據(jù)「中毒」,具體的攻擊策略是通過干擾模型的訓(xùn)練過程,對其完整性造成影響,進(jìn)而讓模型的后續(xù)預(yù)測過程出現(xiàn)偏差。(「數(shù)據(jù)下毒」與常見的「對抗樣本攻擊」是不同的攻擊手段,存在于不同的威脅場景:前者通過修改訓(xùn)練數(shù)據(jù)讓模型「中毒」,后者通過修改待測試的樣本讓模型「受騙」。)
舉例來說,假如一家從事機(jī)器人視覺技術(shù)開發(fā)的公司希望訓(xùn)練機(jī)器人識別現(xiàn)實(shí)場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓(xùn)練數(shù)據(jù)。研發(fā)人員在目視檢查訓(xùn)練數(shù)據(jù)時(shí),通常不會感知到異常(因?yàn)槭箶?shù)據(jù)「中毒」的噪音數(shù)據(jù)在圖像層面很難被肉眼識別),訓(xùn)練過程也一如既往地順利。但這時(shí)訓(xùn)練出來的深度學(xué)習(xí)模型在泛化能力上會大幅退化,用這樣的模型驅(qū)動的機(jī)器人在真實(shí)場景中會徹底「懵圈」,陷入什么也認(rèn)不出的尷尬境地。更有甚者,攻擊者還可以精心調(diào)整「下毒」時(shí)所用的噪音數(shù)據(jù),使得訓(xùn)練出來的機(jī)器人視覺模型「故意認(rèn)錯」某些東西,比如將障礙認(rèn)成是通路,或?qū)⑽kU(xiǎn)場景標(biāo)記成安全場景等。
為了達(dá)成這一目的,這篇論文設(shè)計(jì)了一種可以生成對抗噪聲的自編碼器神經(jīng)網(wǎng)絡(luò) DeepConfuse,通過觀察一個假想分類器的訓(xùn)練過程更新自己的權(quán)重,產(chǎn)生「有毒性」的噪聲,從而為「受害的」分類器帶來最低下的泛化效率,而這個過程可以被歸結(jié)為一個具有非線性等式約束的非凸優(yōu)化問題。
從實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),在 MNIST、CIFAR-10 以及縮減版的 IMAGENET 這些不同數(shù)據(jù)集上,使用「未被下毒」的訓(xùn)練數(shù)據(jù)集和「中毒」的訓(xùn)練數(shù)據(jù)集所訓(xùn)練的系統(tǒng)模型在分類精度上存在較大的差異,效果非??捎^。
與此同時(shí),從實(shí)驗(yàn)結(jié)果來看,該方法生成的對抗噪聲具有通用性,即便是在隨機(jī)森林和支持向量機(jī)這些非神經(jīng)網(wǎng)絡(luò)上也有較好表現(xiàn)。(其中藍(lán)色為使用「未被下毒」的訓(xùn)練數(shù)據(jù)訓(xùn)練出的模型在泛化能力上的測試表現(xiàn),橙色為使用「中毒」訓(xùn)練數(shù)據(jù)訓(xùn)練出的模型的在泛化能力上的測試表現(xiàn))
在 CIFAR 和 IMAGENET 數(shù)據(jù)集上的表現(xiàn)也具有相似效果,證明該方法所產(chǎn)生的對抗訓(xùn)練樣本在不同的網(wǎng)絡(luò)結(jié)構(gòu)上具有很高的遷移能力。
此外,論文中提出的方法還能有效擴(kuò)展至針對特定標(biāo)簽的情形下,即攻擊者希望通過一些預(yù)先指定的規(guī)則使模型分類錯誤,例如將「貓」錯誤分類成「狗」,讓模型按照攻擊者計(jì)劃,定向發(fā)生錯誤。
例如,下圖為 MINIST 數(shù)據(jù)集上,不同場景下測試集上混淆矩陣的表現(xiàn),分別為干凈訓(xùn)練數(shù)據(jù)集、無特定標(biāo)簽的訓(xùn)練數(shù)據(jù)集、以及有特定標(biāo)簽的訓(xùn)練數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果有力證明了,為有特定標(biāo)簽的訓(xùn)練數(shù)據(jù)集做相應(yīng)設(shè)置的有效性,未來有機(jī)會通過修改設(shè)置以實(shí)現(xiàn)更多特定的任務(wù)。
對數(shù)據(jù)「下毒」技術(shù)的研究并不單單是為了揭示類似的 AI 入侵或攻擊技術(shù)對系統(tǒng)安全的威脅,更重要的是,只有深入研究相關(guān)的入侵或攻擊技術(shù),才能有針對性地制定防范「AI 黑客」的完善方案。隨著 AI 算法、AI 系統(tǒng)在國計(jì)民生相關(guān)的領(lǐng)域逐漸得到普及與推廣,科研人員必須透徹地掌握 AI 安全攻防的前沿技術(shù),并有針對性地為自動駕駛、AI 輔助醫(yī)療、AI 輔助投資等涉及生命安全、財(cái)富安全的領(lǐng)域研發(fā)最有效的防護(hù)手段。
除了安全問題之外,人工智能應(yīng)用的數(shù)據(jù)隱私問題,也是創(chuàng)新工場AI安全實(shí)驗(yàn)室重點(diǎn)關(guān)注的議題之一。 近年來,隨著人工智能技術(shù)的高速發(fā)展,社會各界對隱私保護(hù)及數(shù)據(jù)安全的需求加強(qiáng),聯(lián)邦學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生,并開始越來越多地受到學(xué)術(shù)界和工業(yè)界的關(guān)注。
具體而言,聯(lián)邦學(xué)習(xí)系統(tǒng)是一個分布式的具有多個參與者的機(jī)器學(xué)習(xí)框架,每一個聯(lián)邦學(xué)習(xí)的參與者不需要與其余幾方共享自己的訓(xùn)練數(shù)據(jù),但仍然能利用其余幾方參與者提供的信息更好的訓(xùn)練聯(lián)合模型。換言之,各方可以在在不共享數(shù)據(jù)的情況下,共享數(shù)據(jù)產(chǎn)生的知識,達(dá)到共贏。
創(chuàng)新工場 AI 工程院十分看好聯(lián)邦學(xué)習(xí)技術(shù)的巨大應(yīng)用潛力,今年3月,「數(shù)據(jù)下毒」論文作者、創(chuàng)新工場南京國際人工智能研究院執(zhí)行院長馮霽代表創(chuàng)新工場當(dāng)選為 IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)制定委員會副主席,著手推進(jìn)制定 AI 協(xié)同及大數(shù)據(jù)安全領(lǐng)域首個國際標(biāo)準(zhǔn)。創(chuàng)新工場也將成為聯(lián)邦學(xué)習(xí)這一技術(shù)「立法」的直接參與者。
9 月 5 日上午,創(chuàng)新工場 AI 工程院組織了一場問答,解答雷鋒網(wǎng) AI 科技評論等各家媒體提出的關(guān)于這篇「數(shù)據(jù)下毒」論文的問題。創(chuàng)新工場CTO、人工智能工程院執(zhí)行院長王詠剛,以及這篇論文第一作者、創(chuàng)新工場南京國際人工智能研究院執(zhí)行院長馮霽進(jìn)行了在線解答。
問:「數(shù)據(jù)下毒」研究的目的是什么?
王詠剛:這類似于網(wǎng)絡(luò)安全工程師研究黑客入侵技術(shù)、攻擊技術(shù),只有對攻擊技術(shù)有了全面充分的了解,才能制定有效的防范措施,開發(fā)相應(yīng)的安全標(biāo)準(zhǔn)、安全工具。
馮霽:目的是對人工智能系統(tǒng)的安全性做一個技術(shù)性評估,假設(shè)數(shù)據(jù)庫被惡意篡改的話,對應(yīng)的系統(tǒng)會壞成什么樣。這篇工作的另一個目的,也是希望呼吁引起對該問題的重視。
問:在這項(xiàng)研究中,先假定一個被攻擊的模型,針對假定的模型就可以開始生成對抗性訓(xùn)練樣本;而且這些生成的樣本對于其他的模型也有明顯的效果。也就是說,假如這個方法被實(shí)際使用,我甚至不需要知道別人使用的是什么樣的模型就有機(jī)會對別人造成危害。我這樣理解對嗎?
馮霽:對。下毒的人不需要知道對方用什么模型,只需要得到數(shù)據(jù)庫權(quán)限,即可進(jìn)行破壞。
問:目前還有哪些有效防護(hù)AI算法、AI系統(tǒng)的手段?
王詠剛:目前的 AI 系統(tǒng)攻防處于非常早期的研發(fā)階段,與傳統(tǒng)安全領(lǐng)域已經(jīng)相對成熟的方法論、算法、工具、平臺等相比,AI 安全攻防還處于探索期。目前的主流攻擊方法,如對抗樣本攻擊,數(shù)據(jù)下毒攻擊等,雖然已經(jīng)有一些防范思路,但無論是攻擊技術(shù),還是安全防護(hù)技術(shù)都在發(fā)展中。
馮霽: 目前防護(hù)的技術(shù)還處于較為初期的情況,類似于網(wǎng)絡(luò)安全,不存在一個包治百病的「疫苗」,對于人工智能企業(yè),我們建議需要建立專門的安全團(tuán)隊(duì),對自家的系統(tǒng)進(jìn)行全方位的保護(hù)。
問:目前有沒有利用這個方法實(shí)際去挖掘無人駕駛系統(tǒng)等領(lǐng)域的漏洞(類似科恩實(shí)驗(yàn)室成功攻擊特斯拉系統(tǒng)那樣)?
王詠剛:這個不算很難,其實(shí)有不少技術(shù)強(qiáng)的研究機(jī)構(gòu)或?qū)嶒?yàn)室都可以做出類似的結(jié)果。可以說今天的很多無人駕駛系統(tǒng)使用的 AI 算法,在設(shè)計(jì)和實(shí)現(xiàn)的時(shí)候,是較少考慮安全防護(hù)的。另一方面,新的 AI 安全攻擊方法、威脅形式也在不斷涌現(xiàn)出來。黑盒模式在外部偽造交通標(biāo)志進(jìn)行攻擊,白盒模式針對具體模型進(jìn)行攻擊,入侵模式針對數(shù)據(jù)進(jìn)行「下毒」方式的數(shù)據(jù)污染,攻擊方法會越來越多。我的感覺是目前業(yè)界對 AI 安全的整體認(rèn)知和重視程度并不足夠,這種情況下,一旦與人身安全或財(cái)產(chǎn)安全相關(guān)的 AI 系統(tǒng)大量上線運(yùn)行,大量的安全事件就會暴露出來。我們建議盡早對 AI 安全防護(hù)進(jìn)行透徹研究,盡早投入足夠資源研發(fā) AI 安全防護(hù)工具與防護(hù)技術(shù)。
馮霽: 針對無人車的攻擊是有的,但是目前公布出來的主要是產(chǎn)生對抗樣本。數(shù)據(jù)下毒的工作剛推出來 24 小時(shí),尚未見到應(yīng)用。我們需要提醒這項(xiàng)技術(shù)的破壞性很大,請讀者不要做違法犯罪的活動。
問:「數(shù)據(jù)下毒」給 AI 安全性帶來警醒。目前,AI 技術(shù)已經(jīng)在很多領(lǐng)域得到應(yīng)用,這種應(yīng)用是不是已經(jīng)遠(yuǎn)遠(yuǎn)超前于 AI 技術(shù)安全性的研究?
馮霽:是的,像任何一個新的技術(shù)一樣,目前的應(yīng)用走在安全性前面,我們認(rèn)為無論是 AI 安全,還是 AI 隱私保護(hù),在未來將會受到比傳統(tǒng)計(jì)算機(jī)安全更大的重視。
問:目前針對人工智能系統(tǒng)的安全事件多么?
王詠剛:最近剛剛出現(xiàn)的利用 AI 模擬語音來詐騙錢財(cái)?shù)陌讣?,就是AI安全的相對嚴(yán)重的事件。AI 技術(shù)必然會被應(yīng)用于各種核心業(yè)務(wù)領(lǐng)域,甚至涉及財(cái)產(chǎn)或生命安全(如醫(yī)療、自動駕駛、金融等),未來隨著 AI 攻擊技術(shù)的發(fā)展,相關(guān)的事件必然越來越多。
馮霽:目前安全事件還不像傳統(tǒng)計(jì)算機(jī)系統(tǒng)的病毒一樣普遍,但是有理由相信,隨著時(shí)間的推移,未來這件將會成為一個獨(dú)立的產(chǎn)業(yè),另外,針對安全或數(shù)據(jù)隱私的法律也會逐步出臺,例如歐盟的 GDPR 法案。
問:AI安全會對技術(shù)的落地與發(fā)展產(chǎn)生什么樣的影響?
馮霽:我認(rèn)為AI系統(tǒng)的安全性和隱私性保證,是人工智能發(fā)展的必經(jīng)之路。類似于計(jì)算機(jī)網(wǎng)絡(luò)/計(jì)算機(jī)系統(tǒng)發(fā)展初期,當(dāng)時(shí)病毒不多,但是隨著時(shí)間的推移,必將催生出一系列的AI安全產(chǎn)業(yè)。我們認(rèn)為,AI安全的威脅,要比目前的計(jì)算機(jī)病毒嚴(yán)重得多。
問:目前國內(nèi)和國際在AI安全性的研究上的差距有多大,差距體現(xiàn)在哪些方面?
王詠剛:AI 安全性的理論研究層面:國內(nèi)和國際的差距不大,國內(nèi)如南京大學(xué)周志華團(tuán)隊(duì),在機(jī)器學(xué)習(xí)魯棒性、安全性的核心理論層面,就有著非常前沿的研究成果。
AI 安全性的工程應(yīng)用層面:應(yīng)該說國內(nèi)、國際目前都處于非常早期的階段。從使用系統(tǒng)角度將,Google、Facebook 等巨頭在工程、產(chǎn)品和系統(tǒng)里的AI安全技術(shù)使用上,有一定先發(fā)優(yōu)勢,比如 Google 已經(jīng)在好幾個具體的客戶端、服務(wù)端產(chǎn)品中應(yīng)用了聯(lián)邦學(xué)習(xí)等保護(hù)數(shù)據(jù)安全的技術(shù)。但是隨著國內(nèi)對 AI 安全的逐漸重視,相信國內(nèi)的應(yīng)用級研發(fā)也會慢慢跟上來。
馮霽:目前 AI 安全性的研究十分新穎,大家?guī)缀踉谕粋€起跑線上,具體體現(xiàn)是最前沿技術(shù)的研制,中美平分秋色。我們認(rèn)為安全無小事,國家需要重視。
問:對于近日備受爭議的 ZAO,您怎么看?創(chuàng)新工場認(rèn)為人工智能安全方面的邊界是哪里呢
王詠剛:不談具體 ZAO 的問題。但本質(zhì)上這一類問題是在發(fā)展和利用 AI 技術(shù)的時(shí)候,如何保護(hù)知識產(chǎn)權(quán)、用戶隱私的綜合問題。今天的 AI 技術(shù)發(fā)展必須考慮法律和道德合規(guī)性的問題,不能觸犯用戶底線,就像在歐洲做 AI 就必須符合 GDPR 規(guī)范一樣。AI 安全攻防相關(guān)的技術(shù)可以為法律和道德合規(guī)性提供足夠的技術(shù)保障,但這僅僅是技術(shù)層面的事情。人工智能安全,事實(shí)上必須由技術(shù)手段、法律手段、道德手段、行業(yè)規(guī)范手段等一起來維護(hù)。
馮霽:對于用戶隱私數(shù)據(jù)造成的安全威脅,在人工智能時(shí)代將會被越來越重視,產(chǎn)生的威脅也會越來越多,ZAO 就是一例。聯(lián)邦學(xué)習(xí)技術(shù)其實(shí)就是為解決此類問題提出的解決之道。類似于安全領(lǐng)域的「白帽子」,我們呼吁更多的 AI 安全「白帽子」的出現(xiàn),共同對人工智能系統(tǒng)的安全漏洞進(jìn)行評估和分析。
問:人工智能領(lǐng)域是否有可能建立一些行業(yè)的安全標(biāo)準(zhǔn)?
王詠剛:是的,人工智能領(lǐng)域不但有可能,也完全應(yīng)該建立一系列行業(yè)安全標(biāo)準(zhǔn),來規(guī)范人工智能技術(shù)的使用。這些安全標(biāo)準(zhǔn)可能包括:AI 系統(tǒng)魯棒性和安全性的評估標(biāo)準(zhǔn),AI 系統(tǒng)交換數(shù)據(jù)時(shí)的數(shù)據(jù)安全標(biāo)準(zhǔn),AI系統(tǒng)涉及用戶隱私數(shù)據(jù)時(shí)的隱私保護(hù)標(biāo)準(zhǔn),AI 系統(tǒng)涉及人身安全時(shí)的強(qiáng)制性行業(yè)標(biāo)準(zhǔn)等等。創(chuàng)新工場AI工程院目前參加的 IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)委員會,就是 AI 數(shù)據(jù)和隱私安全的標(biāo)準(zhǔn)之一。
馮霽:目前正在做,包括針對用戶數(shù)據(jù)隱私保護(hù)的技術(shù)聯(lián)邦學(xué)習(xí),是 IEEE 推出的第一個人工智能協(xié)同合作方面的國際標(biāo)準(zhǔn),創(chuàng)新工場正是負(fù)責(zé)其中的安全評估部分。
創(chuàng)新工場憑借獨(dú)特的 VC+AI(風(fēng)險(xiǎn)投資與AI研發(fā)相結(jié)合)的架構(gòu),致力于扮演前沿科研與AI商業(yè)化之間的橋梁角色。創(chuàng)新工場 2019 年廣泛開展科研合作,與其他國際科研機(jī)構(gòu)合作的論文在多項(xiàng)國際頂級會議中嶄露頭角,除上述介紹的「數(shù)據(jù)下毒」論文入選 NeurlPS 之外,還有 8 篇收錄至五大學(xué)術(shù)頂會。
1、兩篇論文入選計(jì)算機(jī)視覺領(lǐng)域國際頂會 ICCV
ICCV,全稱國際計(jì)算機(jī)視覺大會( IEEE International Conference on Computer Vision),由IEEE主辦,與計(jì)算機(jī)視覺模式識別會議(CVPR)和歐洲計(jì)算機(jī)視覺會議(ECCV)并稱計(jì)算機(jī)視覺方向的三大頂級會議,在業(yè)內(nèi)具有極高的評價(jià)。
今年,創(chuàng)新工場AI工程院與加州大學(xué)伯克利分校、清華大學(xué)等單位合作的2篇論文收錄其中。
Disentangling Propagation and Generation for Video Prediction
這篇論文的主要工作圍繞一個視頻預(yù)測的任務(wù)展開,即在一個視頻中,給定前幾幀的圖片預(yù)測接下來的一幀或多幀的圖片。
視頻中的動態(tài)場景可以被劃分成以下兩種情況:第一種是移動相對平滑的畫面,它們可以通過上一幀的畫面使用比較簡單的預(yù)測方式得到;第二種是有遮擋發(fā)生,通常難以直接通過外插得到的畫面。此前關(guān)于這類視頻預(yù)測的工作,只能考慮對之前圖片的外插,或是使所有像素均由生成模型得到。
本文提出了一種組合式的模型來完成該任務(wù),將視頻預(yù)測任務(wù)解耦成運(yùn)動相關(guān)的圖片傳播和運(yùn)動無關(guān)的圖片生成兩個任務(wù),并分別通過光流預(yù)測和圖片生成的方法完成這兩個任務(wù),最后提出了一個基于置信度的圖片轉(zhuǎn)換算子將這兩個操作融合起來。
實(shí)驗(yàn)證明,在動畫場景和真實(shí)場景下,論文提出的方法都能產(chǎn)生更加精確的遮擋區(qū)域和更加銳利和真實(shí)的圖片。
Joint Monocular 3D Vehicle Detection and Tracking
這篇論文提出了一種全新的在線三維車輛檢測與跟蹤的聯(lián)合框架,不僅能隨著時(shí)間關(guān)聯(lián)車輛的檢測結(jié)果,同時(shí)可以利用單目攝像機(jī)獲取的二維移動信息估計(jì)三維的車輛信息。
在此基礎(chǔ)上,論文還提出了基于深度的三維檢測框匹配方法,并利用三維軌跡預(yù)測對遮擋目標(biāo)進(jìn)行重識別,該方法能夠利用三維信息做到更加魯棒的軌跡跟蹤。
此外,論文設(shè)計(jì)了一個基于長短期記憶網(wǎng)絡(luò)的運(yùn)動預(yù)測模型,它能更加準(zhǔn)確地預(yù)測長期運(yùn)動。
基于模擬數(shù)據(jù),KITTI和Argoverse數(shù)據(jù)集的實(shí)驗(yàn)驗(yàn)證了該方法的魯棒性。同時(shí)發(fā)現(xiàn),在Argoverse數(shù)據(jù)集上,對30m以內(nèi)的物體,僅使用視覺輸入的方法的性能顯著優(yōu)于基于激光雷達(dá)輸入的基線方法。
2、一篇論文入選機(jī)器人與自動化領(lǐng)域國際頂會IROS
IROS,全稱國際智能機(jī)器人與系統(tǒng)大會(International Conference on Intelligent Robots and Systems),是國際機(jī)器人與自動化領(lǐng)域的兩大影響最大的學(xué)術(shù)會議之一。
自機(jī)器人技術(shù)發(fā)展初期的1988年開始,IROS每年舉辦一屆,迄今已經(jīng)是第30屆。每年,來自世界各個頂尖機(jī)器人研究機(jī)構(gòu)的專家和業(yè)界人士匯聚在這個盛會,探討和展示機(jī)器人行業(yè)最前沿的技術(shù)。
今年,創(chuàng)新工場AI工程院與加州大學(xué)伯克利分校等單位合作的1篇論文收錄其中。
Monocular Plan View Networks for Autonomous Driving
通常情況下,在單目視頻上的卷積神經(jīng)網(wǎng)絡(luò)方法能夠有效的捕獲圖片的空間信息,但是卻對深度信息難以有效利用,這也是一直以來有待業(yè)內(nèi)攻克的難點(diǎn)之一。
本文針對端到端的控制學(xué)習(xí)問題提出了一個對當(dāng)前觀察的視角轉(zhuǎn)換,將其稱之為規(guī)劃視角,它把將當(dāng)前的觀察視角轉(zhuǎn)化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛并將其投影至一個俯瞰視角。
本文認(rèn)為,這種人工設(shè)計(jì)的表征能夠提供了一個對環(huán)境信息的抽象,使得神經(jīng)網(wǎng)絡(luò)能夠更有效的推斷物體的位置,朝向等信息。
在GTA 5模擬器上進(jìn)行的實(shí)驗(yàn)驗(yàn)證,一個同時(shí)使用規(guī)劃視角和正面視角作為輸入的神經(jīng)網(wǎng)絡(luò)比起純基于正面視角的基線方法碰撞率下降了一個數(shù)量級,和之前的基于檢測結(jié)果的方法,本文中提出的方法降低了一半的碰撞率。
3、三篇論文入選自然語言處理領(lǐng)域國際頂會EMNLP
EMNLP,全稱自然語言處理中的經(jīng)驗(yàn)方法會議(Conference on Empirical Methods in Natural Language Processing),是自然語言處理領(lǐng)域的頂級會議。
今年,創(chuàng)新工場AI工程院與香港科技大學(xué)、中科院計(jì)算所、清華大學(xué)、中國科學(xué)院大學(xué)等單位合作的3篇論文收錄其中。
Multiplex Word Embeddings for Selectional Preference Acquisition
本論文的主要工作是與香港科技大學(xué)聯(lián)合完成。
傳統(tǒng)的詞向量模型通常利用靜態(tài)向量來表示詞與詞之間共現(xiàn)關(guān)系,然而這種模型無法很好地捕捉詞語之間(在不同場景下)的不同關(guān)系,例如,這類靜態(tài)向量無法有效分辨“食物”應(yīng)該作為“吃”的主語還是賓語。
為了解決這個問題,文本提出了一種multiplex詞向量模型。在該模型中,對于每個詞而言,其向量包含兩部分,主向量和關(guān)系向量,其中主向量代表總體語義,關(guān)系向量用于表達(dá)這個詞在不同關(guān)系上的特征,每個詞的最終向量由這兩種向量融合得到。
為了有效使用這種多向量表達(dá),文本提出的模型還包含了一個向量壓縮模塊,能夠?qū)⑾蛄繅嚎s至原始尺寸的十分之一而不損失效果。
本文提出的模型在多個實(shí)驗(yàn)中均證明了其有效性,尤其是在一些需要句法信息的場景下超越了當(dāng)前最優(yōu)的預(yù)訓(xùn)練模型。
可以說,文本表征一直是自然語言理解在深度學(xué)習(xí)時(shí)代的重要基礎(chǔ)技術(shù)和前沿陣地。近年來預(yù)訓(xùn)練模型的廣泛使用以及其在多數(shù)任務(wù)上的優(yōu)良性能證明了其可以更好地表達(dá)一段文本在特定上下文中的語義。然而,作為語言表達(dá)的基本單元,詞語一直是研究語義和理解的重要基礎(chǔ),尤其對于很多復(fù)雜場景中需要句法和各類關(guān)系信息的支撐,預(yù)訓(xùn)練模型也無法很好地表達(dá)這些文本中的詞匯語義信息。
因此,本文延續(xù)了傳統(tǒng)詞向量方面的研究,將關(guān)系信息加入到詞向量建模過程中,得以顯示區(qū)分不同場景下的詞的不同表征,并在一系列任務(wù)中證明了其有效性,同時(shí)借助于模型中的壓縮模塊可以將詞向量規(guī)??s小至原始尺寸的十分之一,將極大改善使用該詞向量的運(yùn)行環(huán)境對于資源的需求。
What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues
本論文的主要工作是與香港科技大學(xué)、清華大學(xué)聯(lián)合完成。
在實(shí)際語言使用中,將一個代詞鏈接到其指代的物體需要多種知識的支持。例如,當(dāng)兩個人談話時(shí),當(dāng)他們共同看見一個物體,他們可能會直接用代詞(例如“它”)來指代而不會在文字中先行描述。
該現(xiàn)象給現(xiàn)有的指代消解模型帶來了巨大的挑戰(zhàn),為此,本文提出了一個新模型(VisCoref)及一個配套數(shù)據(jù)集(VisPro),用以研究如何將代詞指代與視覺信息進(jìn)行整合。
其中,數(shù)據(jù)集部分,本文從一個含有視覺信息支撐的對話數(shù)據(jù)中隨機(jī)挑選了5000個對話,然后邀請眾包平臺上的標(biāo)注者標(biāo)注代詞和它們指代的名詞短語之間的關(guān)聯(lián)關(guān)系,并經(jīng)過一系列的清洗之后,得到了高質(zhì)量的標(biāo)注數(shù)據(jù);模型部分,為了整合對話中的文字信息和圖片中的信息,首先對于文字和圖片進(jìn)行信息抽取,并分別獲得對應(yīng)的向量表達(dá),然后使用這些向量對于抽取的圖像信息進(jìn)行基于注意力機(jī)制的整合,并將得到的結(jié)果通過一個全連接神經(jīng)網(wǎng)絡(luò)預(yù)測基于視覺和文字的分?jǐn)?shù)用于預(yù)測指代關(guān)系。
本文研究表明,加入視覺信息能夠有效地幫助到對話中的代詞指代消解任務(wù)。
事實(shí)上,多模態(tài)一直是人工智能各個領(lǐng)域的研究熱點(diǎn)。尤其對于人類溝通場景(對話)而言,這個過程中需要利用和產(chǎn)生的很多信號都不僅僅只是文本,視覺信息在其中占據(jù)了重要成分。作為自然語言理解中的一個重要任務(wù),指代消解也對于視覺信號有極強(qiáng)依賴。
為了研究這一問題,本文首次提出聯(lián)合建模視覺信號和指代消解中的代詞及被指代的名詞,將視覺信息加入到經(jīng)典的指代消解任務(wù)中,并證明了其有效性。同時(shí),本文還構(gòu)建了一個帶有視覺信號的指代消解數(shù)據(jù)集,為學(xué)界和業(yè)界提供了一個基準(zhǔn)測試對象,以助于將來這方面的研究。
Reading Like HER: Human Reading Inspired Extractive Summarization
本論文的主要工作是與中科院計(jì)算所聯(lián)合完成,本項(xiàng)研究重新審視了長文檔的抽取式摘要問題。
人類通過閱讀進(jìn)行文本語義的摘要總結(jié)大體上可以分為兩個階段:1)通過粗略地閱讀獲取文本的概要信息,2)進(jìn)而進(jìn)行細(xì)致的閱讀選取關(guān)鍵句子形成摘要。
本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文檔抽取式摘要形式化為一個帶有上下文的多臂老虎機(jī)問題,并采用策略梯度方法來求解。
首先,采用卷積神經(jīng)網(wǎng)絡(luò)對段落要點(diǎn)進(jìn)行編碼以模擬粗略閱讀階段。隨后,利用一種帶有自適應(yīng)終止機(jī)制的決策策略模擬細(xì)致閱讀階段。
在CNN和DailyMail數(shù)據(jù)集上的實(shí)驗(yàn)表明,論文提出的方法不僅在ROUGE-1、2、L等度量上明顯優(yōu)于當(dāng)前最好的抽取式摘要方法,并且能夠抽取出具有不同長度的高質(zhì)量摘要。
一直以來,模擬人的行為習(xí)慣執(zhí)行自然語言處理任務(wù)都是NLP和AI學(xué)界的努力方向,特別對于像文本摘要這樣對于人類而言也屬于高級和復(fù)雜的任務(wù),需要級強(qiáng)地自然語言理解和文本組織能力。
本文在這一方面做了有益的嘗試,將閱讀理解過程拆分成類似人類閱讀的兩階段進(jìn)行建模,并證明這樣做可以得到更好地抽取式摘要生成效果。
以及,論文《sPortfolio: Strati?ed Visual Analysis of Stock Portfolios》入選計(jì)算機(jī)圖形學(xué)和可視化領(lǐng)域國際頂級期刊 IEEE TVCG,本文主要是對于金融市場中的投資組合和多因子模型進(jìn)行可視分析的研究。論文《Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones》入選計(jì)算機(jī)網(wǎng)絡(luò)頂級學(xué)術(shù)會議 NSDI,這是國際主流學(xué)術(shù)界首次認(rèn)可區(qū)塊鏈擴(kuò)容方案的相關(guān)研究,是該會議今年錄取的唯一一篇與區(qū)塊鏈相關(guān)的論文。
創(chuàng)新工場「VC+AI」模式的最獨(dú)特之處在于,創(chuàng)新工場的 AI 工程院可以通過廣泛的科研合作以及自身的科研團(tuán)隊(duì),密切跟蹤前沿科研領(lǐng)域里最有可能轉(zhuǎn)變?yōu)槲磥砩虡I(yè)價(jià)值的科研方向。這種「科研助推商業(yè)」的思路力圖盡早發(fā)現(xiàn)有未來商業(yè)價(jià)值的學(xué)術(shù)研究,然后在保護(hù)各方知識產(chǎn)權(quán)和商業(yè)利益的前提下積極與相關(guān)科研方開展合作,同時(shí)由 AI 工程院的產(chǎn)品研發(fā)團(tuán)隊(duì)嘗試該項(xiàng)技術(shù)在不同商業(yè)場景里可能的產(chǎn)品方向、研發(fā)產(chǎn)品原型,并由商務(wù)拓展團(tuán)隊(duì)推動產(chǎn)品在真實(shí)商業(yè)領(lǐng)域的落地測試,繼而可以為創(chuàng)新工場的風(fēng)險(xiǎn)投資團(tuán)隊(duì)帶來早期識別、投資高價(jià)值賽道的寶貴機(jī)會。
「科研助推商業(yè)」并不是簡單地尋找有前景的科研項(xiàng)目,而是將技術(shù)跟蹤、人才跟蹤、實(shí)驗(yàn)室合作、知識產(chǎn)權(quán)合作、技術(shù)轉(zhuǎn)化、原型產(chǎn)品快速迭代、商務(wù)拓展、財(cái)務(wù)投資等多維度的工作整合在一個統(tǒng)一的資源體系內(nèi),用市場價(jià)值為導(dǎo)向,有計(jì)劃地銜接學(xué)術(shù)科研與商業(yè)實(shí)踐。
以 AI 為代表的高新技術(shù)目前正進(jìn)入商業(yè)落地優(yōu)先的深入發(fā)展期,產(chǎn)業(yè)大環(huán)境亟需前沿科研技術(shù)與實(shí)際商業(yè)場景的有機(jī)結(jié)合。創(chuàng)新工場憑借在風(fēng)險(xiǎn)投資領(lǐng)域積累的豐富經(jīng)驗(yàn),以及在創(chuàng)辦 AI 工程院的過程中積累的技術(shù)人才優(yōu)勢,特別適合扮演科研與商業(yè)化之間的橋梁角色。
創(chuàng)新工場于 2016 年 9 月成立創(chuàng)新工場人工智能工程院,以「科研+工程實(shí)驗(yàn)室」模式,規(guī)劃研發(fā)方向,組建研發(fā)團(tuán)隊(duì)。目前已經(jīng)設(shè)有醫(yī)療 AI、機(jī)器人、機(jī)器學(xué)習(xí)理論、計(jì)算金融、計(jì)算機(jī)感知等面向前沿科技與應(yīng)用方向的研發(fā)實(shí)驗(yàn)室,還先后設(shè)立了創(chuàng)新工場南京國際人工智能研究院、創(chuàng)新工場大灣區(qū)人工智能研究院,致力于培養(yǎng)人工智能高端科研與工程人才,研發(fā)以機(jī)器學(xué)習(xí)為核心的前沿人工智能技術(shù),并同各行業(yè)領(lǐng)域相結(jié)合,為行業(yè)場景提供一流的產(chǎn)品和解決方案。
創(chuàng)新工場與國內(nèi)外著名的科研機(jī)構(gòu)廣泛開展科研合作,例如,今年 3 月 20 日,香港科技大學(xué)和創(chuàng)新工場宣布成立計(jì)算機(jī)感知與智能控制聯(lián)合實(shí)驗(yàn)室(Computer Perception and Intelligent Control Lab)。此外,創(chuàng)新工場也積極參與國際相關(guān)的技術(shù)標(biāo)準(zhǔn)制定工作。例如,今年 8 月,第 28 屆國際人工智能聯(lián)合會議(IJCAI)在中國澳門隆重舉辦,期間召開了 IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第三次會議。IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)由微眾銀行發(fā)起,創(chuàng)新工場等數(shù)十家國際和國內(nèi)科技公司參與,是國際上首個針對人工智能協(xié)同技術(shù)框架訂立標(biāo)準(zhǔn)的項(xiàng)目。創(chuàng)新工場的科研團(tuán)隊(duì)深度參與到聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)的制定過程中,希望為 AI 技術(shù)在真實(shí)場景下的安全性、可用性以及保護(hù)數(shù)據(jù)安全、保護(hù)用戶隱私貢獻(xiàn)自己的力量。
雷鋒網(wǎng) AI 科技評論報(bào)道
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章