暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

本文作者：余快

2020-08-26 18:20

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導(dǎo)語：“認(rèn)知人工智能必須要理解人的意圖，懂因果，可解釋?！?

2020 年 8 月 7 日，第五屆全球人工智能與機器人峰會（CCF-GAIR 2020）在深圳正式開幕。

CCF-GAIR 2020 峰會由中國計算機學(xué)會（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）聯(lián)合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。

作為中國最具影響力和前瞻性的前沿科技活動之一，CCF-GAIR 大會已經(jīng)度過了四次精彩而又輝煌的歷程。在大會第二天的「視覺智能?城市物聯(lián)」專場上，暗物智能聯(lián)合創(chuàng)始人&CEO林倞博士，分享了暗物智能在人工智能前沿技術(shù)與產(chǎn)業(yè)化方面的思考與實踐。

林倞指出，目前很多成功的人工智能應(yīng)用大部分還是依賴于大數(shù)據(jù)計算泛式，需要針對各種復(fù)雜的場景收集多樣化的數(shù)據(jù)，使得其成本一直居高不下；另一方面，這些算法對噪聲比較敏感。因此，林倞認(rèn)為，即便對于被廣泛研究和應(yīng)用的感知層的智能，尤其是計算機視覺，目前系統(tǒng)還有很大的局限性，一是成本問題，二是穩(wěn)定性、魯棒性并沒有達到或真正超越人的水平。

其次，林倞認(rèn)為，視覺跟語言的大部分理解是依靠想象和推測的，并不是依靠大數(shù)據(jù)的感知，因而AI系統(tǒng)自下而上的感知智能和自上而下的認(rèn)知智能不可分割，必須統(tǒng)一在一個計算過程中。

最后，大量實驗表明，目前AI的智力水平不足12個月大的嬰兒，無法推測他人意圖，缺乏可解釋性。這引出林倞的第三個觀點，認(rèn)知人工智能必須要理解人的意圖，懂因果，可解釋。

基于這些情況，林倞介紹提出的五層認(rèn)知架構(gòu)，通過統(tǒng)一的人工智能操作系統(tǒng)和具有場景定義、任務(wù)描述能力的編程語言，實現(xiàn)高自然度人機交互。進一步的，林倞介紹該架構(gòu)在教育行業(yè)的應(yīng)用實踐以及在游戲、金融等相關(guān)行業(yè)的拓展。

以下是林倞現(xiàn)場演講的全部內(nèi)容，雷鋒網(wǎng)作了不改變原意的編輯與整理：

林倞：非常感謝CCF-GAIR平臺，我在2017年就作為嘉賓參加過論壇的分享，三年之后再來又見到很多老朋友。這次我主要從人工智能技術(shù)發(fā)展的角度來談?wù)劗a(chǎn)業(yè)化的新機遇，特別是目前備受關(guān)注的認(rèn)知推理技術(shù)；另一方面，我也著重介紹跨模態(tài)AI能力在產(chǎn)業(yè)中的實踐落地。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖1. 人工智能發(fā)展現(xiàn)狀

首先，現(xiàn)在的人工智能發(fā)展到什么階段了呢？根據(jù)阿里巴巴達摩院2020年的科技趨勢報告，人工智能在“聽、說、看”等感知智能領(lǐng)域已經(jīng)達到或超越了人類水準(zhǔn)，但在需要外部知識、邏輯推理或者領(lǐng)域遷移等認(rèn)知智能領(lǐng)域還處于初級階段。對于這個趨勢的判斷我認(rèn)為是對的，但是從技術(shù)及產(chǎn)業(yè)應(yīng)用的角度來看，其實并沒有這么樂觀。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖2. 大數(shù)據(jù)-小任務(wù)的研究范式

以計算機視覺為例，目前大部分成功的AI/CV應(yīng)用是依賴于大數(shù)據(jù)統(tǒng)計的研究范式。前沿的自監(jiān)督/無監(jiān)督以及神經(jīng)網(wǎng)絡(luò)搜索等算法，本質(zhì)上還是依賴于大規(guī)模標(biāo)注/未標(biāo)注的數(shù)據(jù)，擬合數(shù)以億計的參數(shù)，學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)以及其模型參數(shù)（參考于圖2）。另外，為了使得學(xué)習(xí)得到的模型能夠泛化到不同場景，需要為每一類物體，搜集大量的例子（涵蓋各種形狀、攝像頭視角、材質(zhì)、顏色、花紋、光照條件、遮擋等）并進行人工標(biāo)注，每當(dāng)遇到新樣例或者新物體出現(xiàn)的時候，則一直重復(fù)這個過程，這也導(dǎo)致人工智能的應(yīng)用成本居高不下?，F(xiàn)有很多公司宣稱在一些任務(wù)上指標(biāo)達到驚人的99%，或者說已經(jīng)達到甚至超過人類，基本都是通過這種方式實現(xiàn)的。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖3.行人重識別隨機噪聲干擾系統(tǒng)

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖4.干擾前后行人再識別系統(tǒng)召回圖像示例

我們再看另一個例子，我們今年發(fā)表在CVPR上的工作，在行人再識別(Person Re-ID)問題中驗證AI模型的魯棒性 (如圖3)。我們在訓(xùn)練好的行人再識別的模型中隨機地增加干擾信號并觀察其對性能的影響。我們發(fā)現(xiàn)，目前宣稱達到或者超越人類的行人再識別算法，其精度從宣稱的99%降到1.4%，降幅超過90%。如圖4所示，我們可視化部分干擾前后的檢索圖像，綠色框是在加入干擾之前目前行人再識別系統(tǒng)給出的最相似圖像，其相似度是非常高的，但是在加入干擾之后，則召回的都是在外觀特征上差異非常大的圖像。

上述例子說明，即使是對于感知層的任務(wù)，例如計算機視覺，目前的AI/CV 算法的應(yīng)用依舊存在較大的局限性。其一是成本非常高，其二是算法的穩(wěn)定性和魯棒性遠沒有達到人類的水平。

我們再看一個比較有趣的例子。1944年Heider-Simmel提出了一個著名的視覺認(rèn)知實驗：給定一個抽象的動圖，把三個幾何體帶入進行想象，大的三角形表示男人，小三角形表示女人，小圓點代表小孩，我們需要從動圖中思考，他們在哪里？發(fā)生了什么？根據(jù)這些幾何體簡單的運動，人類可以從中感受到豐富的人物、性格、意圖等社會屬性。這說明人類基于自身認(rèn)知，可以根據(jù)簡單的視覺信息推理出背后更豐富的邏輯和因果信息。

另一方面，通過腦科學(xué)研究發(fā)現(xiàn)，人的大腦皮層感知區(qū)和認(rèn)知推理區(qū)域是不可分割的，其中，大概有1%的區(qū)域處理客觀的視覺感知，而有10倍于此的區(qū)域根據(jù)視覺感知的信息進行自頂而下的推理。由此可見，人類對視覺和語言的理解，大部分是依賴于想象和推測，而不是依靠于大數(shù)據(jù)感知。因此，我認(rèn)為，感知智能和認(rèn)知智能不可分割，必須統(tǒng)一在一個計算過程中。人腦是這樣，未來的AI系統(tǒng)也是如此。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖5. 基于知識圖的精細化物體識別和視覺問答推理

基于上述觀察和討論，目前產(chǎn)學(xué)各界提出一個新的研究思路：在深度表達學(xué)習(xí)的基礎(chǔ)上，引入知識圖譜以及基于圖的推理，就能進一步實現(xiàn)認(rèn)知智能。現(xiàn)有的很多白皮書以及產(chǎn)業(yè)報告都認(rèn)同這個研究思路，我們團隊基于這個研究思路也做了非常多嘗試，例如，我們團隊把知識圖推理和深度表達學(xué)習(xí)結(jié)合在一起，實現(xiàn)精細化的物體識別和大規(guī)模物體檢測，論文分別發(fā)表于IJCAI 2018和NIPS 2018；也通過構(gòu)建常識規(guī)則庫，促進視覺問答推理任務(wù)。盡管這些方法采用了更接近人類的認(rèn)知模式，也取得不錯的效果，這類系統(tǒng)還是距離我們理想中的認(rèn)知AI有較大的差距。

早期神經(jīng)和心理學(xué)實驗表明，12個月大的嬰兒就能夠理解父母或者親人的意圖，也能通過手指的方式去表達意圖。而這種能力是目前的AI系統(tǒng)所欠缺的：既無法理解人類或者服務(wù)對象的意圖，也無法解釋識別或者決策背后的目的和邏輯。所以如何實現(xiàn)高自然度的人機協(xié)同與互動一直是困擾我們的難題，在產(chǎn)業(yè)應(yīng)用中落地起來也很不容易。

美國國防高級研究計劃局(Defense Advanced Research Projects Agency，DARPA)發(fā)布XAI計劃(如圖6)，計劃指出，目前人工智能研究是通過大數(shù)據(jù)的學(xué)習(xí)來實現(xiàn)，當(dāng)我們得到AI的結(jié)果后，對于為什么會有這樣的結(jié)果、什么時候會更好、什么時候會失敗、我們能不能信賴AI等一系列問題，用戶并不知曉。也就是說，目前的人工智能系統(tǒng)，遠沒有達到可解釋和可信賴的階段。針對這些問題，我們團隊已經(jīng)開展了較長時間的研究了，其實DARPA展示未來的“Explainable Model”(圖6下半部分)就是DMAI創(chuàng)始人朱松純教授的研究成果。該模型不僅可以預(yù)測任務(wù)的結(jié)果，還可以進一步知道得到該結(jié)果的原因、知道在什么情況下模型可以成功預(yù)測以及什么情況下會錯誤預(yù)測等,相關(guān)的工作發(fā)表在去年的《科學(xué)》子刊上。這也引出了第三個觀點，認(rèn)知人工智能必須要理解人的意圖，懂因果，可解釋。

圖6. 可解釋可信賴的人工智能系統(tǒng)

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖7. 暗物智能科技公司團隊成員

這里順便介紹一下我們團隊，由朱松純教授領(lǐng)銜創(chuàng)立的暗物智能科技DMAI， 2017年底在美國洛杉磯成立，2018年搬遷至廣州，目前在中國廣州和美國洛杉磯都有研發(fā)中心。公司致力于推進“小數(shù)據(jù)、大任務(wù)”的研究范式，探索人工智能在認(rèn)知層面的新突破，實現(xiàn)真正的高自然度的人機交互和協(xié)同。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖8. DMAI陪伴機器人原型系統(tǒng)

圖8是我們公司研發(fā)的第一個陪伴機器人原型系統(tǒng)，這個樣機于2017年底研發(fā)出第一個版本，可以通過豐富的方式跟人交互，能看到、能聽懂、能回復(fù)、甚至能知道計算數(shù)學(xué)背后的因果邏輯，并且跟用戶進行多種方式的交互。目前這個產(chǎn)品已經(jīng)通過多種形式和渠道在中國和美國市場逐步落地應(yīng)用了。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖9. DMAI五層認(rèn)知架構(gòu)

在這樣的人機交互協(xié)作的背后，就是DMAI提出的五層認(rèn)知架構(gòu)，如圖9所示。最底層是IoT物聯(lián)網(wǎng)層，包括傳感器和控制部件，主要實現(xiàn)音視頻信息獲取以及交互指令輸出和執(zhí)行；往上第二層是感知層，包括基于機器學(xué)習(xí)的音視頻多模態(tài)分析，可以分析包括人臉人體屬性/行為、手勢動作、物體類別、語音轉(zhuǎn)錄信息等；第三層是進一步的推理調(diào)度層，包括場景和任務(wù)定義、任務(wù)調(diào)度和規(guī)劃、以及邏輯推理等相關(guān)算法；第四層是知識和意圖建模層，為第三層的邏輯推理和任務(wù)調(diào)度提供額外的知識支撐；第五層則是更高的人類常識和社會價值層?；谶@個架構(gòu)，我們打造了相應(yīng)的人工智能操作系統(tǒng)及編程語言，并且延展出在不同的應(yīng)用場景中的產(chǎn)品和解決方案。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖10. DMAI新一代人工智能操作系統(tǒng)

首先，從操作系統(tǒng)角度來說，底層的Windows、Linux、Android，他們管理的是計算機的資源，包括軟件和硬件，提供的是計算機的圖形化服務(wù)。而對于人工智能操作系統(tǒng)來說，其主要的目的是針對特定領(lǐng)域任務(wù)，實現(xiàn)不同類型的AI能力的自動化調(diào)度，例如集成調(diào)度視覺、語音、文字以及相關(guān)運動控制等AI能力(資源)，在特定的應(yīng)用場景下實現(xiàn)多模態(tài)的人機協(xié)作與交互，比如虛擬教師、個人助理方面的應(yīng)用中都有很多這類場景。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖11. DMAI描述知識、任務(wù)、價值體系的AI編程語言

除了調(diào)度系統(tǒng)本身以外，怎么去定義一個領(lǐng)域的任務(wù)以及實現(xiàn)一個任務(wù)的流程，是另外一個難題。為此，我們做了另外一件事情，設(shè)計一個描述知識、任務(wù)、價值體系的AI編程語言DMPL。目前的人工智能系統(tǒng)一直在強調(diào)算法、算力、以及數(shù)據(jù)，我們認(rèn)為更重要的是場景以及面向場景的任務(wù)，如果拋開場景和任務(wù)談AI算法，是不切實際的。假如我需要描述一個場景或者任務(wù)，可以通過DMPL編程語言以及我們的開發(fā)平臺，把場景和任務(wù)相關(guān)的模型、場景、價值以及流程定義且描述出來，最后部署集成到人工智能操作系統(tǒng)，通過操作系統(tǒng)的調(diào)度和智能分析算法運行。

綜上所述，為推進高自然度人機協(xié)作為導(dǎo)向的人工智能，實現(xiàn)小數(shù)據(jù)、大任務(wù)的研究范式，我們研發(fā)和設(shè)計了兩個基礎(chǔ)平臺：第一個是具有調(diào)度能力的綜合人工智能能力的平臺；第二個是能定義場景、描述任務(wù)的編程語言。我們平臺可以支持多平臺的部署方式，計算能力可以根據(jù)實際需要放在云上或者端上，實現(xiàn)云端融合的計算，以支撐不同的應(yīng)用。

在平臺研發(fā)和設(shè)計過程中，我們也一直在探索怎么把認(rèn)知人工智能及多模態(tài)人工交互技術(shù)應(yīng)用于具體的產(chǎn)業(yè)實踐中。針對這個問題，我們公司選擇的賽道是教育，特別是自適應(yīng)、個性化的陪伴型教育。通過廣泛的調(diào)研和分析，我們對教育行業(yè)有以下幾點的總結(jié)：

第一，教育對真正的強交互人工智能提出了很大的挑戰(zhàn)，教育行業(yè)的核心是能夠像老師一樣教育和輔導(dǎo)學(xué)生，幫助老師提高教學(xué)效率和協(xié)助提高學(xué)生的學(xué)習(xí)興趣和效能，這需要依托于高自然度強交互的AI能力。對此，我們研發(fā)學(xué)齡前兒童個性化、自適應(yīng)的陪伴式學(xué)習(xí)，該產(chǎn)品已經(jīng)在美國落地了，就是陪小孩學(xué)習(xí)英語和數(shù)學(xué)的桌面機器人；

第二，教育對高度智能化認(rèn)知推理智能提出了很大挑戰(zhàn)，針對中小學(xué)生的自動化講題、輔導(dǎo)和批改可以更大程度降低老師和家長的工作負(fù)擔(dān)，對提升學(xué)生學(xué)習(xí)積極性也有很大幫助。對此，我們研發(fā)集講題、輔導(dǎo)和批改為一體的學(xué)習(xí)服務(wù)平臺，通過構(gòu)建中小學(xué)知識體系，并基于該知識體系研發(fā)類腦推理系統(tǒng)，實現(xiàn)全自動、標(biāo)準(zhǔn)化、自適應(yīng)地題目批改和講解；

第三，現(xiàn)在的線上教育行業(yè)發(fā)展非?？?，如何針對多模態(tài)音視頻信息，有效分析老師和學(xué)生教學(xué)情況，形成對教情學(xué)情的分析，對規(guī)范化和促進線上教學(xué)，至關(guān)重要。為此，我們研發(fā)AI互動在線教育平臺，該平臺融合多模態(tài)AI技術(shù)，打造全方位、跨平臺的AI可視化教學(xué)分析系統(tǒng)。

接下來我們詳細闡述，如何把我們的人工智能操作系統(tǒng)和編程語言應(yīng)用到上述教育行業(yè)幾個垂直化的產(chǎn)業(yè)實踐：

我們第一款產(chǎn)品是諳心學(xué)伴，如圖12，這是一款家庭陪伴教育終端，這款產(chǎn)品目前在美國亞馬遜賣了數(shù)萬套，是美國排名第一的電子類教育產(chǎn)品，該產(chǎn)品用到豐富的多模態(tài)分析算法，包括人臉識別、人臉表情/屬性分析、道具/卡片識別、以及語音識別等，其中核心模塊和軟件也通過與企業(yè)合作的形式逐步在國內(nèi)市場展開銷售。我們在產(chǎn)品開發(fā)和體驗過程中看到，人工智能操作系統(tǒng)并不是針對單點AI算法非常高的識別率，例如，對道具的識別做到99.0%或99.5%實際上沒有太明顯的區(qū)別，關(guān)鍵是以任務(wù)為導(dǎo)向，智能化地調(diào)度各個AI算法，把用戶體驗做到極致。為了切實推進產(chǎn)品化落地，我們也投入了很多成本做非核心AI能力的產(chǎn)品，包括原創(chuàng)生產(chǎn)很多動畫內(nèi)容，以及設(shè)計很多認(rèn)知啟發(fā)、思維引導(dǎo)的體驗。這是我們的第一個例子，通過人機交互的方式改善幼兒語言學(xué)、啟蒙學(xué)的教學(xué)。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖12. DMAI諳心學(xué)伴，家庭陪伴教育終端

我們公司第二款產(chǎn)品是針對中小學(xué)教育市場，集解題、講題、輔導(dǎo)、批改為一體的學(xué)習(xí)服務(wù)平臺。為此，我們首先對中小學(xué)教育知識體系進行結(jié)構(gòu)化建模，其次，我們研究教學(xué)過程的理解和描述，并設(shè)計類腦運算的系統(tǒng)，做到在不依賴于題庫的情況下自動化推理其解題過程。圍繞教學(xué)任務(wù)，我們還研究中英文和公式的識別和結(jié)構(gòu)化解析、語音識別理解以及針對高自然度語音合成等智能算法。其次，該平臺還支持智能講題，通過動畫提示、語音/文字引導(dǎo)等多種方式，協(xié)助學(xué)生梳理其解析思路和邏輯。最后，該平臺在一些易錯點和難點上實現(xiàn)個性化講解和輔導(dǎo)，即根據(jù)學(xué)生的掌握情況，自適應(yīng)選擇解題和講題過程，實現(xiàn)自適應(yīng)教學(xué)?；趶娊换I的自動化解析和講題，可以降低老師和家長的工作負(fù)擔(dān)，以及彌補優(yōu)質(zhì)師資缺失的問題，是AI進入教育產(chǎn)業(yè)的核心價值。

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020

圖13. DMAI集解題、講題、輔導(dǎo)、批改為一體的學(xué)習(xí)服務(wù)平臺

我們看到很多講AI的應(yīng)用，雖然有很多刷臉、支付、安全類的，但并沒有解決太多的問題，幾十年來沒有這些東西也沒什么，不能刷臉可以用指紋，可以用密碼。但是AI真正能體現(xiàn)價值，能替代人部分智能的能力，或者說延展人的能力，這才是最有價值的，我們覺得關(guān)注智慧城市，應(yīng)該關(guān)注它的主體，關(guān)注每一個人，所以我們公司一直希望提升人類的福祉，以智慧生活為導(dǎo)向。

因此，我們公司除了在教育行業(yè)落地以外，我們也基于認(rèn)知AI的能力形成綜合的AI解決方案，并在金融、游戲和電競等方向做了延展。今年，我們跟一家主板上市企業(yè)吉比特做了一個案例：游戲NPC智腦平臺。該平臺以人工智能操作系統(tǒng)和編程語言為基礎(chǔ)，具體場景任務(wù)定義和智能算法調(diào)度的能力，使得“智腦”NPC具有更加擬人化的思考、交互、和行動能力。具體地，NPC以生存目標(biāo)為驅(qū)動，會因價值觀而異，能自主思考和行動，自主選擇演化路線，能夠理解人類語言并與玩家進行自動化交互。這是我們今年做的初步嘗試，我覺得未來以認(rèn)知推理和多模態(tài)分析為基礎(chǔ)的人工智能技術(shù)，會應(yīng)用在很多領(lǐng)域的應(yīng)用場景。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機互動產(chǎn)業(yè)化｜CCF-GAIR 2020