美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

本文作者：劉偉

2019-07-16 12:01

專(zhuān)題：CCF-GAIR 2019

導(dǎo)語(yǔ)：AI要真正落地為人所用，必須要有另外一個(gè)“AI”的支撐，其中其中A代表Automation（自動(dòng)化），I代表Interpreation（可解釋性）。

雷鋒網(wǎng) AI 掘金志按：7 月 12 日-7 月 14 日，2019 第四屆全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR 2019）于深圳正式召開(kāi)。峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，深圳市人工智能與機(jī)器人研究院協(xié)辦。

在大會(huì)第三天的〖智能商業(yè)專(zhuān)場(chǎng)〗，阿里巴巴集團(tuán)副總裁、CEO助理肖利華，京東零售首席科學(xué)家兼技術(shù)副總裁胡魯輝，美國(guó)德州農(nóng)工大學(xué)數(shù)據(jù)挖掘?qū)嶒?yàn)室主任胡俠，蘇寧零售技術(shù)研究院院長(zhǎng)王俊杰，TCL研究院（香港）研究所總經(jīng)理俞大海，擴(kuò)博智能CTO柯嚴(yán)先后登臺(tái)發(fā)表精彩演講，分享了各自對(duì)智能商業(yè)的理解與實(shí)踐。

其中美國(guó)德州農(nóng)工大學(xué)數(shù)據(jù)挖掘?qū)嶒?yàn)室主任胡俠教授以《增強(qiáng)人工？促進(jìn)智能？？》為主題，分享了他在深度學(xué)習(xí)可解釋性與自動(dòng)機(jī)器學(xué)習(xí)方面的最新研究成果。

胡俠教授表示，AI要真正落地為人所用，必須要有另外一個(gè)“AI”的支撐，其中其中A代表Automation（自動(dòng)化），I代表Interpreation（可解釋性）。

他指出，深度學(xué)習(xí)的發(fā)展給各行各業(yè)帶來(lái)了巨大的便利，但如果解決不了深度學(xué)習(xí)算法的可解釋性問(wèn)題，它的價(jià)值就會(huì)大大受限。

比如在用深度學(xué)習(xí)處理醫(yī)保騙保問(wèn)題時(shí)，光分析出哪一樁理賠可能存在問(wèn)題還不夠，還必須精準(zhǔn)定位出上千頁(yè)的理賠文件中究竟是哪一頁(yè)出了問(wèn)題，這樣才能幫助專(zhuān)家快速符合，這就需要算法的可解釋性。

同時(shí)，自動(dòng)機(jī)器學(xué)習(xí)也是行業(yè)目前非常熱門(mén)的方向。它主要有兩重價(jià)值：一是幫助沒(méi)有很強(qiáng)數(shù)據(jù)科學(xué)背景的用戶更好地利用AI這一工具；二是幫助專(zhuān)業(yè)的數(shù)據(jù)科學(xué)家提高效率，畢竟現(xiàn)實(shí)生活中千變?nèi)f化，光靠科學(xué)家應(yīng)付不過(guò)來(lái)。

以下是胡俠教授的全部演講內(nèi)容，雷鋒網(wǎng)做了不改變?cè)獾恼砼c編輯：

深度學(xué)習(xí)算法的可解釋性

報(bào)告開(kāi)始前先給大家講一個(gè)故事。兩年前，一位叫Ali Rahimi的谷歌研究員在機(jī)器學(xué)習(xí)頂會(huì)NIPS上獲得了“Test of Time”論文獎(jiǎng)?！癟est of Time”論文獎(jiǎng)是NIPS為過(guò)去十年發(fā)表的論文中的最優(yōu)者頒發(fā)的獎(jiǎng)項(xiàng)，可以說(shuō)分量十足。當(dāng)時(shí)，Ali Rahimi在頒獎(jiǎng)典禮上發(fā)表演講，將深度學(xué)習(xí)比作煉金術(shù)，指出了這項(xiàng)技術(shù)的缺陷

在歐洲歷史上，煉金術(shù)和占星術(shù)一樣，都屬于神學(xué)的范疇。所以Ali Rahimi把深度學(xué)習(xí)比作煉金術(shù)，是一種非常嚴(yán)厲的抨擊。

Ali Rahimi抨擊深度學(xué)習(xí)的主要論據(jù)是，深度學(xué)習(xí)算法缺乏可解釋性。算法的可解釋性為什么如此重要呢？我將用幾個(gè)行業(yè)案例來(lái)說(shuō)明。

先說(shuō)保險(xiǎn)行業(yè)。我們跟美國(guó)最大的一家保險(xiǎn)公司合作，希望用人工智能技術(shù)做反欺詐。因?yàn)樵诿绹?guó)保險(xiǎn)業(yè)，一些小診所的醫(yī)生會(huì)聯(lián)合病人騙保。我們的做法是用人工智能分析某個(gè)理賠案例跟其他案例在特征上是否有顯著不同，如果有則說(shuō)明它存在欺詐的風(fēng)險(xiǎn)，我們會(huì)將它移交給專(zhuān)家復(fù)核。

這件事的難點(diǎn)在于，理賠涉及的文檔多達(dá)上千頁(yè)，復(fù)核難度非常大。所以我們必須讓算法精準(zhǔn)定位出究竟是哪一頁(yè)文檔存在問(wèn)題，這樣算法才有意義。

再比如醫(yī)院場(chǎng)景。假如人工智能系統(tǒng)預(yù)測(cè)病人得了糖尿病，卻說(shuō)不出依據(jù)是什么，病人肯定不會(huì)買(mǎi)單，醫(yī)生也無(wú)法對(duì)癥下藥采取措施。

還有自動(dòng)駕駛。前兩年自動(dòng)駕駛汽車(chē)出了不少事故，這是一件很?chē)?yán)肅的事情。我們必須對(duì)自動(dòng)駕駛系統(tǒng)進(jìn)行檢查，分析這個(gè)軟件是怎么寫(xiě)成的，為什么它會(huì)在事故發(fā)生的瞬間做出錯(cuò)誤判斷。要回答這些問(wèn)題，就必須依靠算法的可解釋性。

深度學(xué)習(xí)算法的可解釋性非常復(fù)雜。因?yàn)樗哪繕?biāo)（分類(lèi)、排序）、模型（CNN、RNN、CF）和數(shù)據(jù)類(lèi)型（文本數(shù)據(jù)、圖片數(shù)據(jù)）都很豐富。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

我們?cè)谏疃葘W(xué)習(xí)算法的可解釋性方面做了大量工作，總結(jié)出了三大解決方向：

一是從模型架構(gòu)入手。傳統(tǒng)的深度學(xué)習(xí)架構(gòu)缺乏可解釋性，但我們可以對(duì)它進(jìn)行修改，增加可解釋性的元素。基于這種方法，你可以根據(jù)自身業(yè)務(wù)靈活調(diào)整模型，但它對(duì)模型設(shè)計(jì)能力的要求也比較高，而且每來(lái)一個(gè)新任務(wù)，都需要重新設(shè)計(jì)模型。

二是重新設(shè)計(jì)一套驗(yàn)證模型。很多時(shí)候我已經(jīng)有了一個(gè)模型，運(yùn)行效果非常好，那么我就不需要去改動(dòng)它，而是重新設(shè)計(jì)一個(gè)模型去對(duì)它進(jìn)行驗(yàn)證。比如在醫(yī)院場(chǎng)景中。醫(yī)生診斷糖尿病的思路就相當(dāng)于獨(dú)立于算法外的驗(yàn)證模型。

三是去解釋預(yù)測(cè)的對(duì)象本身。比如一個(gè)得了病，我們需要去定義的是他本身，而不是判定他得病的過(guò)程。大家有興趣可以去搜索《Techniques for Interpretable Machine Learning》這篇論文。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

下面舉例說(shuō)明怎么做可解釋的CNN模型。下面這張幻燈片的圖片里有一頭大象和一匹斑馬，我們想知道CNN模型是如何運(yùn)作的，它是根據(jù)圖片中的哪些部分判斷出誰(shuí)是大象誰(shuí)是斑馬的。

解決這個(gè)問(wèn)題主要有兩項(xiàng)挑戰(zhàn)：一是怎么找出圖片中的重點(diǎn)（大象和斑馬），我們很容易就能判斷，但機(jī)器不是；二是圖片中的哪些部分使系統(tǒng)識(shí)別了大象或辦法。

為了解決這些問(wèn)題，我們提出了遮罩的辦法，即把圖片中的某些部分去掉，分析它對(duì)系統(tǒng)輸出結(jié)果產(chǎn)生了多大的影響。比如我們把關(guān)于大象部分的圖片去掉，對(duì)結(jié)果影響巨大，這就說(shuō)明它是圖片中非常重要的部分。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

我們很快將推出一個(gè)叫做XDeep的軟件包，里面包含了目前市場(chǎng)上比較重要的深度學(xué)習(xí)可解釋性方案。我上面提到的三種方案，在里面都有開(kāi)源代碼供大家嘗試。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

自動(dòng)機(jī)器學(xué)習(xí)

前面介紹了“人工”的部分，即深度學(xué)習(xí)可解釋性的重要性，下面再講講“智能”的部分，即自動(dòng)機(jī)器學(xué)習(xí)。

自動(dòng)機(jī)器學(xué)習(xí)是所有大廠都在密切關(guān)注的話題，比如谷歌就正在大力推廣它的Automated系統(tǒng)。在座很多人都聽(tīng)說(shuō)過(guò)自動(dòng)機(jī)器學(xué)習(xí)的概念，我簡(jiǎn)單介紹下它在各個(gè)行業(yè)的應(yīng)用。

自動(dòng)機(jī)器學(xué)習(xí)在金融、醫(yī)療、零售等領(lǐng)域都有廣泛的應(yīng)用，它只需要少量數(shù)據(jù)就能迅速輸出結(jié)果。雖然結(jié)果的準(zhǔn)確性可能比不過(guò)專(zhuān)業(yè)人士，但至少在某些任務(wù)上是旗鼓相當(dāng)?shù)摹?/p>

自動(dòng)機(jī)器學(xué)習(xí)一是允許你在某個(gè)方向上進(jìn)行快速?lài)L試；二是可以讓你在這個(gè)方向有比較好的基礎(chǔ)，不必從頭開(kāi)始研究。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

比如在零售領(lǐng)域，商品推薦通常有兩種做法：一是不分品類(lèi)，把所有商品混在一起，做一個(gè)協(xié)同過(guò)濾系統(tǒng)；二是針對(duì)商品大類(lèi)做更精細(xì)化的推薦。后者的效果顯然優(yōu)于前者，但工作量也更大，有了自動(dòng)機(jī)器學(xué)習(xí)，問(wèn)題便迎刃而解。

再比如我們跟LG合作的案例。LG的中央空調(diào)中有三個(gè)很重要的指標(biāo)，控制著空調(diào)的運(yùn)行狀態(tài)，把它們?cè)O(shè)置在一個(gè)合適的值，就能提高空調(diào)的能效和使用壽命。但空調(diào)的安裝位置不同，外界的環(huán)境也在不斷變化，這三個(gè)指標(biāo)對(duì)應(yīng)的最佳數(shù)值也是變化的。我們不可能安排工程師一天到晚守著它，還好自動(dòng)機(jī)器學(xué)習(xí)可以解決這個(gè)問(wèn)題?，F(xiàn)在LG的空調(diào)只需要安裝好就行，不必人工再去管理了。

通過(guò)上面兩個(gè)案例，我們可以總結(jié)出自動(dòng)機(jī)器學(xué)習(xí)的兩大優(yōu)勢(shì)：一是能讓沒(méi)有很強(qiáng)數(shù)據(jù)科學(xué)背景的用戶更好地利用這一工具；二是可以幫助專(zhuān)業(yè)的數(shù)據(jù)科學(xué)家提高效率，畢竟現(xiàn)實(shí)生活中千變?nèi)f化，光靠科學(xué)家應(yīng)付不過(guò)來(lái)。

當(dāng)然，如果你的業(yè)務(wù)提升0.1%的準(zhǔn)確率就能帶來(lái)上億元收入，那么自動(dòng)機(jī)器學(xué)習(xí)對(duì)你就沒(méi)有那么重要，因?yàn)槟阃耆梢怨腿澜缱顑?yōu)秀的人來(lái)做。

自動(dòng)機(jī)器學(xué)習(xí)同樣可以從類(lèi)型（AutoFE、AutoMHL、AutoDL）、技術(shù)路線（BO、RL、EA）和框架（AutoKeras、AutoSklearn）幾個(gè)維度來(lái)衡量。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

簡(jiǎn)單介紹下我們是如何實(shí)現(xiàn)AutoDL的，主要分三個(gè)步驟：

一是用訓(xùn)練中的歷史數(shù)據(jù)更新替代模型。自動(dòng)深度學(xué)習(xí)無(wú)外乎要解決兩個(gè)問(wèn)題：一是確定搜索空間，二是確定搜索方法；也就是在哪搜、怎么搜的問(wèn)題?，F(xiàn)有的方法主要有遺傳算法和強(qiáng)化學(xué)習(xí)，但這兩種算法都要多次搜索才能取得比較理想的效果。

二是生成新的架構(gòu)用于評(píng)估。

三是評(píng)估新的架構(gòu)，決定下一步搜哪里，如此循環(huán)，不斷地去嘗試。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

我們?cè)谶@個(gè)過(guò)程中引入了一項(xiàng)叫做貝葉斯優(yōu)化的技術(shù)，它只需要極少量數(shù)據(jù)就能取得很好的效果，在藥物研發(fā)等諸多領(lǐng)域都具備顯著優(yōu)勢(shì)。

另外，即使我們已經(jīng)確定了用某個(gè)算法，訓(xùn)練的過(guò)程還是非常慢；如果能充分利用歷史上訓(xùn)練好的模型就能加速這一進(jìn)程。為此，我們開(kāi)發(fā)了一個(gè)叫做Autokeras的自動(dòng)深度學(xué)習(xí)系統(tǒng)。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

AutoKeras自去年七八月份發(fā)布以來(lái)廣受歡迎，很多人在用。兩個(gè)月前AutoKeras已經(jīng)和谷歌Keras團(tuán)隊(duì)正式合并，目前正在做基于Keras的優(yōu)化，很快就有新版本出來(lái)。

由于精力有限，我們的首要目標(biāo)是基于現(xiàn)有的任務(wù)做好優(yōu)化，真正把它應(yīng)用到企業(yè)級(jí)的系統(tǒng)當(dāng)中。同時(shí)我們也希望能和大公司合作，開(kāi)發(fā)面向更多任務(wù)的應(yīng)用。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

AutoKeras之外我們還做了一個(gè)叫做AutoKaggle的軟件包。我們做這個(gè)軟件包是因?yàn)镵aggle上有豐富的數(shù)據(jù)資源，代表了很多現(xiàn)實(shí)中的應(yīng)用場(chǎng)景。

我們希望在AutoKeras的深度學(xué)習(xí)之外，也嘗試做Automated的機(jī)器學(xué)習(xí)，覆蓋不同類(lèi)型和形態(tài)的數(shù)據(jù)。因?yàn)槲覀冊(cè)趯?shí)驗(yàn)中發(fā)現(xiàn)，深度學(xué)習(xí)并不是放之四海而皆準(zhǔn)的工具，在很多任務(wù)中，傳統(tǒng)的機(jī)器學(xué)習(xí)算法反而效率更高，效果也更好。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019

最后我想用下圖中的公式來(lái)結(jié)束今天的演講。這里我提出了一個(gè)AI POW的概念，POW在科學(xué)計(jì)算中相當(dāng)于乘方的概念，也就是說(shuō)AI之上還有一個(gè)AI。人工智能要真正落地為人所用，就必須有另外一個(gè)AI支撐，其中A代表Automation（自動(dòng)化），I代表Interpreation（可解釋性）。希望在大家的共同努力下，人工智能能在各行各業(yè)落地開(kāi)花。

美國(guó)德州農(nóng)工大學(xué)胡俠教授：AI落地開(kāi)花如何翻過(guò)“可解釋性”和“自動(dòng)化”兩座大山丨CCF-GAIR 2019