0
| 本文作者: 劉偉 | 2018-07-03 16:16 | 專題:2018 CCF-GAIR 全球人工智能與機器人峰會 |

雷鋒網(wǎng)按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。
雷鋒網(wǎng) CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容,提供 1 個主會場和 11 個專場(仿生機器人專場,機器人行業(yè)應(yīng)用專場,計算機視覺專場,智能安全專場,金融科技專場,智能駕駛專場,NLP 專場,AI+ 專場,AI 芯片專場,IoT 專場,投資人專場)的豐富平臺,意欲給三界參會者從產(chǎn)學(xué)研多個維度,呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會議內(nèi)容與現(xiàn)場體驗。
大會最后一天的AI+專場匯聚了美國德州農(nóng)工大學(xué)數(shù)據(jù)挖掘?qū)嶒炇抑魅巍⒂嬎銠C學(xué)院終身教職系列助理教授胡俠,永輝云計算聯(lián)合創(chuàng)始人兼CTO胡魯輝,乂學(xué)教育首席科學(xué)家崔煒,中興力維首席技術(shù)官曹友盛,清華大學(xué)未來實驗室博士后、博云視覺聯(lián)合創(chuàng)始人高峰等重量級嘉賓。他們就各自在零售、教育、安防、藝術(shù)等領(lǐng)域的人工智能探索與實踐做了精彩分享。
其中,胡俠教授作為開場嘉賓,發(fā)表了題為“Human-Centric Machine Learning”的精彩演講。
胡俠教授表示,機器學(xué)習(xí)要被各行各業(yè)普遍接受和應(yīng)用,前提是要具有可解釋性。
賦予機器學(xué)習(xí)可解釋性是一個非常難的問題。第一,可解釋性沒有明確的定義,可能是系統(tǒng)的可解釋性,也可能是預(yù)測結(jié)果的可解釋性,甚至可能是系統(tǒng)中某一個部分的可解釋性。第二,如果做深度學(xué)習(xí)的可解釋工作,現(xiàn)有的深度學(xué)習(xí)系統(tǒng)千千萬,我們沒辦法對每一個系統(tǒng)都做。第三,讓機器學(xué)習(xí)系統(tǒng)具有可解釋性,必須大量HCI、Visualization專家跨學(xué)科合作,是一項巨大的挑戰(zhàn)。
為解決這個問題,胡俠教授提出,將性能強大、不可解釋的深度學(xué)習(xí)系統(tǒng)學(xué)到的知識,遷移到性能較弱但可解釋的淺度學(xué)習(xí)系統(tǒng)中。
除了機器學(xué)習(xí)的可解釋性,自動機器學(xué)習(xí)也是業(yè)界關(guān)注的重點。在這方面,胡俠教授帶領(lǐng)的團隊也做了很多工作。
他們挑選了約300個UCI的數(shù)據(jù),重新采樣形成了4000個數(shù)據(jù)。然后把能找到的20多個分類的package全部應(yīng)用到這4000個數(shù)據(jù)上去,觀察效果如何。新的數(shù)據(jù)進來后,他們就找出矩陣中和新數(shù)據(jù)最像的Dataset,將這個Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這種方法,將機器學(xué)習(xí)效果提升了很多。
以下是胡俠教授的全部分享內(nèi)容,雷鋒網(wǎng)做了不改變原意的整理與編輯:
感謝雷鋒網(wǎng)的邀請!今天是大會最后一天,很高興看到臺下還有這么多人傾聽我的演講。
今天主要想給大家介紹一個概念——Human-Centric,以及它如何在機器學(xué)習(xí)領(lǐng)域落地。機器學(xué)習(xí)大家已經(jīng)談?wù)摰暮芏嗔?,今天我想介紹什么是基于用戶的機器學(xué)習(xí)。
基于用戶的機器學(xué)習(xí)主要分兩方面:一、機器學(xué)習(xí)的入口。機器學(xué)習(xí)廣泛應(yīng)用于各行各業(yè),但要用好一個機器學(xué)習(xí)系統(tǒng),把效果提升上去,就必須要有數(shù)據(jù)科學(xué)的背景。這大大阻礙了機器學(xué)習(xí)在各行各業(yè)的落地前景。二、數(shù)據(jù)的入口。如何做好自動的機器學(xué)習(xí),即給定一個數(shù)據(jù),系統(tǒng)自動推薦相應(yīng)的深度學(xué)習(xí)算法,這是我想講的第二個問題。
機器學(xué)習(xí)或深度學(xué)習(xí)被各行各業(yè)接受,前提是要具有可解釋性。什么叫做可解釋性?下面用幾個例子來說明。
第一個例子是醫(yī)療健康領(lǐng)域。如果一位病人去醫(yī)院檢查,醫(yī)生告訴他,“機器學(xué)習(xí)系統(tǒng)推算你三個月后會得糖尿病,五個月后會得癌癥,但我們也不知道為什么”,病人和病人家屬不會認可,甚至醫(yī)生也不敢用這個系統(tǒng)。所以我們必須知道機器學(xué)習(xí)系統(tǒng)是怎么工作的。為什么病人會得糖尿???是因為血糖過高還是CT掃描中出現(xiàn)了腫瘤?
第二個例子是自動駕駛行業(yè)?,F(xiàn)在的自動駕駛還無法完全離開陪駛員,每隔一段時間就需要陪駛員把控一下方向盤。我們要理解這次bug,理解機器學(xué)習(xí)系統(tǒng)和視覺系統(tǒng)出了什么問題。只有這樣才能不斷提高自動駕駛的效率和準確率,最后真正實現(xiàn)自動駕駛。
再舉個風(fēng)控的例子。我們跟美國最大的醫(yī)療保險公司之一UnitedHealth合作了一個項目。美國很多醫(yī)生和病人會聯(lián)合起來騙保險公司的錢。我們希望通過異常檢測,檢測出這些醫(yī)生和病人的異常行為。但即使我們找出了這些異常行為并把它交給保險公司,后者也很難進行人為篩選。(我們的系統(tǒng)準確率做不到100%,所以還需要人為篩選。)如果保險公司決定起訴或采取其他進一步?jīng)Q策,就必須理解為什么這個醫(yī)生或病人會被檢測出來。但是每個醫(yī)生和病人的案例文檔都超過百頁,非常難以理解。如何將這一百多頁文檔濃縮成一頁,明確指出他們?yōu)槭裁打_保,就顯得十分重要。
還有一個例子,大家可以看看下面這張圖片。

圖片中上面是浣熊的照片,下面是小熊貓的照片,系統(tǒng)把浣熊錯認成了小熊貓,為什么?我們可以看到,浣熊的形象很像小熊貓,而且它有一個很強的特征——露出了紅色的舌頭。這是小熊貓非常喜歡做的動作,所以系統(tǒng)把它誤認為小熊貓。如果我們理解系統(tǒng)是怎么工作的,就可以對其進行人為干預(yù),提高系統(tǒng)的學(xué)習(xí)效果。
怎么賦予機器學(xué)習(xí)可解釋性,這是一個非常難的問題。第一,可解釋性沒有明確的定義,可能是系統(tǒng)的可解釋性,也可能是預(yù)測結(jié)果的可解釋性,甚至可能是系統(tǒng)中某一個部分的可解釋性。第二,如果做深度學(xué)習(xí)的可解釋工作,現(xiàn)有的深度學(xué)習(xí)系統(tǒng)千千萬,我們沒辦法對每一個系統(tǒng)都做。第三,讓機器學(xué)習(xí)系統(tǒng)具有可解釋性,必須大量HCI、Visualization專家跨學(xué)科合作,是一項巨大的挑戰(zhàn)。

下面介紹我們的一個設(shè)想,這個想法非常簡單。我們有深度學(xué)習(xí)系統(tǒng),它很強大,可以做很多預(yù)測;我們也有淺度學(xué)習(xí)系統(tǒng),它比較簡單且具備可解釋性,但預(yù)測精度不如深度學(xué)習(xí)系統(tǒng)。我們的想法就是,將深度學(xué)習(xí)系統(tǒng)學(xué)到的知識遷移到淺度學(xué)習(xí)系統(tǒng)中。我們將深度學(xué)習(xí)系統(tǒng)稱作老師模型,淺度學(xué)習(xí)系統(tǒng)稱作學(xué)生模型,通過Soft labels把二者結(jié)合起來。
給大家介紹兩個案例:
一、怎么做好CNN的可解釋性工作。下圖中有兩個目標——斑馬和大象,傳統(tǒng)目標檢測就可以發(fā)現(xiàn)這兩個部分。但我們做預(yù)測和分類時,希望系統(tǒng)不僅能區(qū)分斑馬和大象,還能標注出大象和斑馬的部分,分別放到對應(yīng)的分類里。我們的論文和系統(tǒng)已經(jīng)上線,大家感興趣可以查一下。

二、假新聞的分類,這個話題在中、美兩國都很受關(guān)注。假新聞檢測本身并不是我們的重點,我們的研究重點是讓你知道為什么某條新聞會被判定成假新聞。我們有很多新聞內(nèi)容和新聞相關(guān)信息,新聞內(nèi)容包括的常用詞匯和相應(yīng)的語法信息,新聞相關(guān)信息包括是誰說的、什么時候發(fā)表的、在哪個刊物發(fā)表、聚焦什么話題等。我們希望借此提供更多可解釋性,了解一條新聞為什么會被判定為假新聞。
除了機器學(xué)習(xí)的可解釋性,自動機器學(xué)習(xí)也是業(yè)界關(guān)注的重點。這方面,學(xué)術(shù)界無法跟Google競爭,所以我們只做了其中一個很小的點。
介紹我們的研究成果前,先簡要介紹一下什么叫做自動的機器學(xué)習(xí)。
深度學(xué)習(xí)系統(tǒng)涉及大量Primitivs,沒有非常強的數(shù)據(jù)科學(xué)背景很難訓(xùn)練出好的深度學(xué)習(xí)系統(tǒng),也很難應(yīng)用好。我們的愿景是人人都可以用得起深度學(xué)習(xí)系統(tǒng)。
下圖是最原始、最簡單的機器學(xué)習(xí)系統(tǒng)。我們有一組數(shù)據(jù),想知道它是文本還是數(shù)值,具體是用Text mining、Classification還是Regression。如果用Classification,效果還不錯,系統(tǒng)就會推薦給你。這是最原始的現(xiàn)有產(chǎn)品能實現(xiàn)的功能,給定一些數(shù)據(jù)后可以推薦相應(yīng)的系統(tǒng)給大家。

這方面我們也做了相應(yīng)的工作。我們挑選了約300個UCI的數(shù)據(jù),重新采樣形成了4000個數(shù)據(jù)。我們的做法很簡單,把能找到的20多個分類的package全部應(yīng)用到這4000個數(shù)據(jù)上去,看效果怎么樣。這樣一來形成了4000×20的矩陣,我就大略知道什么樣的分類算法在怎樣的數(shù)據(jù)上會取得什么樣的效果。新進來一個數(shù)據(jù)后,我們就找出矩陣中和它最像的Dataset,將這個Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這個工作,效果提升了很多。

剛才介紹了非常原始、基礎(chǔ)的自動機器學(xué)習(xí)系統(tǒng)。我們正在做的工作是研究怎樣做好神經(jīng)結(jié)構(gòu)的搜索。有了數(shù)據(jù)后,系統(tǒng)可以自動推薦一個相應(yīng)的深度學(xué)習(xí)結(jié)構(gòu)給該數(shù)據(jù)。在沒有資源,沒有大量深度學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家的情況下,這樣一個結(jié)構(gòu)或許可以初步滿足初創(chuàng)公司、社會學(xué)科和醫(yī)生的數(shù)據(jù)探索需求。
具體怎么做呢?第一步,我們要根據(jù)相應(yīng)模型,通過遺傳算法或者強化學(xué)習(xí)來做。這一步非常耗時耗力。
第二步,有了結(jié)構(gòu)后,還要從頭開始訓(xùn)練這個深度學(xué)習(xí)系統(tǒng),這樣它才能應(yīng)用到相應(yīng)的工作中去。

無論第一步的遺傳算法、強化學(xué)習(xí),還是第二步的從頭開始訓(xùn)練深度學(xué)習(xí)系統(tǒng),都非常耗時耗力。一個簡單的datasets我們都要幾天才能完成。
有了深度學(xué)習(xí)系統(tǒng)的原始結(jié)構(gòu)后,還可以將它變寬、變深、加速,讓它的速度更快。

我們采用了Bayesian Optimization替代傳統(tǒng)強化學(xué)習(xí)和遺傳算法,讓這一步變得比較快。

我們所有的學(xué)習(xí)都是基于上一步,所以第二步也能讓速度非常快。我可以把時間從原始的幾天壓縮到一個小時內(nèi)。你給定一個數(shù)據(jù),我們很快就能推薦相應(yīng)的深度學(xué)習(xí)結(jié)構(gòu)給你。
下圖展示了我們一個月前發(fā)布的package,我們稱它Auto-Keras。大家有興趣可以嘗試一下。

現(xiàn)場有很多企業(yè)界的朋友,所以我也分享下我們實驗室跟企業(yè)合作的經(jīng)驗。這里主要以異常檢測為例,這方面我們做了大量可解釋性的工作。比如我們跟阿里巴巴合作檢測異常購買行為。阿里巴巴沉淀了大量購買歷史記錄,如果是不良商家和用戶,他的行為就會產(chǎn)生異常,系統(tǒng)很容易就能夠檢測出來。但系統(tǒng)的準確率做不到100%,如果無緣無故封錯用戶的賬號,就會流失大量用戶,所以在不確定的情況下,我們需要額外雇傭人員審核用戶,這時候就需要可解釋性。
我們還跟全球最大的空調(diào)公司之一合作。美國很多家庭安裝了中央空調(diào),價值小一萬美金,非常昂貴。如果等到你感覺不到空調(diào)制冷的時候再修就晚了,還不如重新買一個?,F(xiàn)在的中央空調(diào)都部署了大量傳感器,先是一個小部件壞了,用戶感覺不出來;接著會引發(fā)小系統(tǒng)到整個系統(tǒng)的崩潰。如果我們能在較早的階段檢測出異常,就能減小損失。異常檢測也需要可解釋性,因此我們在指揮系統(tǒng)方面做了大量工作。
此外,我們跟蘋果合作,一起檢測系統(tǒng)入侵,準確率還是做不到100%。舉一個簡單的例子,我們發(fā)現(xiàn)檢測結(jié)果中有人前一秒還在北京,下一秒就在別的地方訪問系統(tǒng)。我們認為這是異常,把結(jié)果提交到蘋果運營團隊,結(jié)果他們告訴我,這是一個VPN在操作。所以一定要有可解釋性,異常檢測才能在各個行業(yè)的不同任務(wù)中落地。
以上是我的全部分享內(nèi)容,謝謝大家。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章