0
本文作者: 劉偉 | 2019-07-16 12:01 | 專題:CCF-GAIR 2019 |
雷鋒網 AI 掘金志按:7 月 12 日-7 月 14 日,2019 第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦。
在大會第三天的〖智能商業(yè)專場〗,阿里巴巴集團副總裁、CEO助理肖利華,京東零售首席科學家兼技術副總裁胡魯輝,美國德州農工大學數據挖掘實驗室主任胡俠,蘇寧零售技術研究院院長王俊杰,TCL研究院 (香港)研究所總經理俞大海,擴博智能CTO柯嚴先后登臺發(fā)表精彩演講,分享了各自對智能商業(yè)的理解與實踐。
其中美國德州農工大學數據挖掘實驗室主任胡俠教授以《增強人工? 促進智能??》為主題,分享了他在深度學習可解釋性與自動機器學習方面的最新研究成果。
胡俠教授表示,AI要真正落地為人所用,必須要有另外一個“AI”的支撐,其中其中A代表Automation(自動化),I代表Interpreation(可解釋性)。
他指出,深度學習的發(fā)展給各行各業(yè)帶來了巨大的便利,但如果解決不了深度學習算法的可解釋性問題,它的價值就會大大受限。
比如在用深度學習處理醫(yī)保騙保問題時,光分析出哪一樁理賠可能存在問題還不夠,還必須精準定位出上千頁的理賠文件中究竟是哪一頁出了問題,這樣才能幫助專家快速符合,這就需要算法的可解釋性。
同時,自動機器學習也是行業(yè)目前非常熱門的方向。它主要有兩重價值:一是幫助沒有很強數據科學背景的用戶更好地利用AI這一工具;二是幫助專業(yè)的數據科學家提高效率,畢竟現實生活中千變萬化,光靠科學家應付不過來。
以下是胡俠教授的全部演講內容,雷鋒網做了不改變原意的整理與編輯:
報告開始前先給大家講一個故事。兩年前,一位叫Ali Rahimi的谷歌研究員在機器學習頂會NIPS上獲得了“Test of Time”論文獎?!癟est of Time”論文獎是NIPS為過去十年發(fā)表的論文中的最優(yōu)者頒發(fā)的獎項,可以說分量十足。當時,Ali Rahimi在頒獎典禮上發(fā)表演講,將深度學習比作煉金術,指出了這項技術的缺陷
在歐洲歷史上,煉金術和占星術一樣,都屬于神學的范疇。所以Ali Rahimi把深度學習比作煉金術,是一種非常嚴厲的抨擊。
Ali Rahimi抨擊深度學習的主要論據是,深度學習算法缺乏可解釋性。算法的可解釋性為什么如此重要呢?我將用幾個行業(yè)案例來說明。
先說保險行業(yè)。我們跟美國最大的一家保險公司合作,希望用人工智能技術做反欺詐。因為在美國保險業(yè),一些小診所的醫(yī)生會聯合病人騙保。我們的做法是用人工智能分析某個理賠案例跟其他案例在特征上是否有顯著不同,如果有則說明它存在欺詐的風險,我們會將它移交給專家復核。
這件事的難點在于,理賠涉及的文檔多達上千頁,復核難度非常大。所以我們必須讓算法精準定位出究竟是哪一頁文檔存在問題,這樣算法才有意義。
再比如醫(yī)院場景。假如人工智能系統(tǒng)預測病人得了糖尿病,卻說不出依據是什么,病人肯定不會買單,醫(yī)生也無法對癥下藥采取措施。
還有自動駕駛。前兩年自動駕駛汽車出了不少事故,這是一件很嚴肅的事情。我們必須對自動駕駛系統(tǒng)進行檢查,分析這個軟件是怎么寫成的,為什么它會在事故發(fā)生的瞬間做出錯誤判斷。要回答這些問題,就必須依靠算法的可解釋性。
深度學習算法的可解釋性非常復雜。因為它的目標(分類、排序)、模型(CNN、RNN、CF)和數據類型(文本數據、圖片數據)都很豐富。
我們在深度學習算法的可解釋性方面做了大量工作,總結出了三大解決方向:
一是從模型架構入手。傳統(tǒng)的深度學習架構缺乏可解釋性,但我們可以對它進行修改,增加可解釋性的元素?;谶@種方法,你可以根據自身業(yè)務靈活調整模型,但它對模型設計能力的要求也比較高,而且每來一個新任務,都需要重新設計模型。
二是重新設計一套驗證模型。很多時候我已經有了一個模型,運行效果非常好,那么我就不需要去改動它,而是重新設計一個模型去對它進行驗證。比如在醫(yī)院場景中。醫(yī)生診斷糖尿病的思路就相當于獨立于算法外的驗證模型。
三是去解釋預測的對象本身。比如一個得了病,我們需要去定義的是他本身,而不是判定他得病的過程。大家有興趣可以去搜索《Techniques for Interpretable Machine Learning》這篇論文。
下面舉例說明怎么做可解釋的CNN模型。下面這張幻燈片的圖片里有一頭大象和一匹斑馬,我們想知道CNN模型是如何運作的,它是根據圖片中的哪些部分判斷出誰是大象誰是斑馬的。
解決這個問題主要有兩項挑戰(zhàn):一是怎么找出圖片中的重點(大象和斑馬),我們很容易就能判斷,但機器不是;二是圖片中的哪些部分使系統(tǒng)識別了大象或辦法。
為了解決這些問題,我們提出了遮罩的辦法,即把圖片中的某些部分去掉,分析它對系統(tǒng)輸出結果產生了多大的影響。比如我們把關于大象部分的圖片去掉,對結果影響巨大,這就說明它是圖片中非常重要的部分。
我們很快將推出一個叫做XDeep的軟件包,里面包含了目前市場上比較重要的深度學習可解釋性方案。我上面提到的三種方案,在里面都有開源代碼供大家嘗試。
前面介紹了“人工”的部分,即深度學習可解釋性的重要性,下面再講講“智能”的部分,即自動機器學習。
自動機器學習是所有大廠都在密切關注的話題,比如谷歌就正在大力推廣它的Automated系統(tǒng)。在座很多人都聽說過自動機器學習的概念,我簡單介紹下它在各個行業(yè)的應用。
自動機器學習在金融、醫(yī)療、零售等領域都有廣泛的應用,它只需要少量數據就能迅速輸出結果。雖然結果的準確性可能比不過專業(yè)人士,但至少在某些任務上是旗鼓相當的。
自動機器學習一是允許你在某個方向上進行快速嘗試;二是可以讓你在這個方向有比較好的基礎,不必從頭開始研究。
比如在零售領域,商品推薦通常有兩種做法:一是不分品類,把所有商品混在一起,做一個協(xié)同過濾系統(tǒng);二是針對商品大類做更精細化的推薦。后者的效果顯然優(yōu)于前者,但工作量也更大,有了自動機器學習,問題便迎刃而解。
再比如我們跟LG合作的案例。LG的中央空調中有三個很重要的指標,控制著空調的運行狀態(tài),把它們設置在一個合適的值,就能提高空調的能效和使用壽命。但空調的安裝位置不同,外界的環(huán)境也在不斷變化,這三個指標對應的最佳數值也是變化的。我們不可能安排工程師一天到晚守著它,還好自動機器學習可以解決這個問題?,F在LG的空調只需要安裝好就行,不必人工再去管理了。
通過上面兩個案例,我們可以總結出自動機器學習的兩大優(yōu)勢:一是能讓沒有很強數據科學背景的用戶更好地利用這一工具;二是可以幫助專業(yè)的數據科學家提高效率,畢竟現實生活中千變萬化,光靠科學家應付不過來。
當然,如果你的業(yè)務提升0.1%的準確率就能帶來上億元收入,那么自動機器學習對你就沒有那么重要,因為你完全可以雇全世界最優(yōu)秀的人來做。
自動機器學習同樣可以從類型(AutoFE、AutoMHL、AutoDL)、技術路線(BO、RL、EA)和框架(AutoKeras、AutoSklearn)幾個維度來衡量。
簡單介紹下我們是如何實現AutoDL的,主要分三個步驟:
一是用訓練中的歷史數據更新替代模型。自動深度學習無外乎要解決兩個問題:一是確定搜索空間,二是確定搜索方法;也就是在哪搜、怎么搜的問題?,F有的方法主要有遺傳算法和強化學習,但這兩種算法都要多次搜索才能取得比較理想的效果。
二是生成新的架構用于評估。
三是評估新的架構,決定下一步搜哪里,如此循環(huán),不斷地去嘗試。
我們在這個過程中引入了一項叫做貝葉斯優(yōu)化的技術,它只需要極少量數據就能取得很好的效果,在藥物研發(fā)等諸多領域都具備顯著優(yōu)勢。
另外,即使我們已經確定了用某個算法,訓練的過程還是非常慢;如果能充分利用歷史上訓練好的模型就能加速這一進程。為此,我們開發(fā)了一個叫做Autokeras的自動深度學習系統(tǒng)。
AutoKeras自去年七八月份發(fā)布以來廣受歡迎,很多人在用。兩個月前AutoKeras已經和谷歌Keras團隊正式合并,目前正在做基于Keras的優(yōu)化,很快就有新版本出來。
由于精力有限,我們的首要目標是基于現有的任務做好優(yōu)化,真正把它應用到企業(yè)級的系統(tǒng)當中。同時我們也希望能和大公司合作,開發(fā)面向更多任務的應用。
AutoKeras之外我們還做了一個叫做AutoKaggle的軟件包。我們做這個軟件包是因為Kaggle上有豐富的數據資源,代表了很多現實中的應用場景。
我們希望在AutoKeras的深度學習之外,也嘗試做Automated的機器學習,覆蓋不同類型和形態(tài)的數據。因為我們在實驗中發(fā)現,深度學習并不是放之四海而皆準的工具,在很多任務中,傳統(tǒng)的機器學習算法反而效率更高,效果也更好。
最后我想用下圖中的公式來結束今天的演講。這里我提出了一個AI POW的概念,POW在科學計算中相當于乘方的概念,也就是說AI之上還有一個AI。人工智能要真正落地為人所用,就必須有另外一個AI支撐,其中A代表Automation(自動化),I代表Interpreation(可解釋性)。希望在大家的共同努力下,人工智能能在各行各業(yè)落地開花。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章