丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
AI+ 正文
發(fā)私信給劉偉
發(fā)送

0

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

導(dǎo)語:機器學(xué)習(xí)要被各行各業(yè)普遍接受和應(yīng)用,前提是要具有可解釋性。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

雷鋒網(wǎng)按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。

雷鋒網(wǎng) CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容,提供 1 個主會場和 11 個專場(仿生機器人專場,機器人行業(yè)應(yīng)用專場,計算機視覺專場,智能安全專場,金融科技專場,智能駕駛專場,NLP 專場,AI+ 專場,AI 芯片專場,IoT 專場,投資人專場)的豐富平臺,意欲給三界參會者從產(chǎn)學(xué)研多個維度,呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會議內(nèi)容與現(xiàn)場體驗。

大會最后一天的AI+專場匯聚了美國德州農(nóng)工大學(xué)數(shù)據(jù)挖掘?qū)嶒炇抑魅巍⒂嬎銠C學(xué)院終身教職系列助理教授胡俠,永輝云計算聯(lián)合創(chuàng)始人兼CTO胡魯輝,乂學(xué)教育首席科學(xué)家崔煒,中興力維首席技術(shù)官曹友盛,清華大學(xué)未來實驗室博士后、博云視覺聯(lián)合創(chuàng)始人高峰等重量級嘉賓。他們就各自在零售、教育、安防、藝術(shù)等領(lǐng)域的人工智能探索與實踐做了精彩分享。

其中,胡俠教授作為開場嘉賓,發(fā)表了題為“Human-Centric Machine Learning”的精彩演講。

胡俠教授表示,機器學(xué)習(xí)要被各行各業(yè)普遍接受和應(yīng)用,前提是要具有可解釋性。

賦予機器學(xué)習(xí)可解釋性是一個非常難的問題。第一,可解釋性沒有明確的定義,可能是系統(tǒng)的可解釋性,也可能是預(yù)測結(jié)果的可解釋性,甚至可能是系統(tǒng)中某一個部分的可解釋性。第二,如果做深度學(xué)習(xí)的可解釋工作,現(xiàn)有的深度學(xué)習(xí)系統(tǒng)千千萬,我們沒辦法對每一個系統(tǒng)都做。第三,讓機器學(xué)習(xí)系統(tǒng)具有可解釋性,必須大量HCI、Visualization專家跨學(xué)科合作,是一項巨大的挑戰(zhàn)。

為解決這個問題,胡俠教授提出,將性能強大、不可解釋的深度學(xué)習(xí)系統(tǒng)學(xué)到的知識,遷移到性能較弱但可解釋的淺度學(xué)習(xí)系統(tǒng)中。

除了機器學(xué)習(xí)的可解釋性,自動機器學(xué)習(xí)也是業(yè)界關(guān)注的重點。在這方面,胡俠教授帶領(lǐng)的團隊也做了很多工作。

他們挑選了約300個UCI的數(shù)據(jù),重新采樣形成了4000個數(shù)據(jù)。然后把能找到的20多個分類的package全部應(yīng)用到這4000個數(shù)據(jù)上去,觀察效果如何。新的數(shù)據(jù)進來后,他們就找出矩陣中和新數(shù)據(jù)最像的Dataset,將這個Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這種方法,將機器學(xué)習(xí)效果提升了很多。

以下是胡俠教授的全部分享內(nèi)容,雷鋒網(wǎng)做了不改變原意的整理與編輯:

感謝雷鋒網(wǎng)的邀請!今天是大會最后一天,很高興看到臺下還有這么多人傾聽我的演講。

今天主要想給大家介紹一個概念——Human-Centric,以及它如何在機器學(xué)習(xí)領(lǐng)域落地。機器學(xué)習(xí)大家已經(jīng)談?wù)摰暮芏嗔?,今天我想介紹什么是基于用戶的機器學(xué)習(xí)。

基于用戶的機器學(xué)習(xí)主要分兩方面:一、機器學(xué)習(xí)的入口。機器學(xué)習(xí)廣泛應(yīng)用于各行各業(yè),但要用好一個機器學(xué)習(xí)系統(tǒng),把效果提升上去,就必須要有數(shù)據(jù)科學(xué)的背景。這大大阻礙了機器學(xué)習(xí)在各行各業(yè)的落地前景。二、數(shù)據(jù)的入口。如何做好自動的機器學(xué)習(xí),即給定一個數(shù)據(jù),系統(tǒng)自動推薦相應(yīng)的深度學(xué)習(xí)算法,這是我想講的第二個問題。

機器學(xué)習(xí)的可解釋性

機器學(xué)習(xí)或深度學(xué)習(xí)被各行各業(yè)接受,前提是要具有可解釋性。什么叫做可解釋性?下面用幾個例子來說明。

第一個例子是醫(yī)療健康領(lǐng)域。如果一位病人去醫(yī)院檢查,醫(yī)生告訴他,“機器學(xué)習(xí)系統(tǒng)推算你三個月后會得糖尿病,五個月后會得癌癥,但我們也不知道為什么”,病人和病人家屬不會認可,甚至醫(yī)生也不敢用這個系統(tǒng)。所以我們必須知道機器學(xué)習(xí)系統(tǒng)是怎么工作的。為什么病人會得糖尿???是因為血糖過高還是CT掃描中出現(xiàn)了腫瘤?

第二個例子是自動駕駛行業(yè)?,F(xiàn)在的自動駕駛還無法完全離開陪駛員,每隔一段時間就需要陪駛員把控一下方向盤。我們要理解這次bug,理解機器學(xué)習(xí)系統(tǒng)和視覺系統(tǒng)出了什么問題。只有這樣才能不斷提高自動駕駛的效率和準確率,最后真正實現(xiàn)自動駕駛。

再舉個風(fēng)控的例子。我們跟美國最大的醫(yī)療保險公司之一UnitedHealth合作了一個項目。美國很多醫(yī)生和病人會聯(lián)合起來騙保險公司的錢。我們希望通過異常檢測,檢測出這些醫(yī)生和病人的異常行為。但即使我們找出了這些異常行為并把它交給保險公司,后者也很難進行人為篩選。(我們的系統(tǒng)準確率做不到100%,所以還需要人為篩選。)如果保險公司決定起訴或采取其他進一步?jīng)Q策,就必須理解為什么這個醫(yī)生或病人會被檢測出來。但是每個醫(yī)生和病人的案例文檔都超過百頁,非常難以理解。如何將這一百多頁文檔濃縮成一頁,明確指出他們?yōu)槭裁打_保,就顯得十分重要。

還有一個例子,大家可以看看下面這張圖片。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

圖片中上面是浣熊的照片,下面是小熊貓的照片,系統(tǒng)把浣熊錯認成了小熊貓,為什么?我們可以看到,浣熊的形象很像小熊貓,而且它有一個很強的特征——露出了紅色的舌頭。這是小熊貓非常喜歡做的動作,所以系統(tǒng)把它誤認為小熊貓。如果我們理解系統(tǒng)是怎么工作的,就可以對其進行人為干預(yù),提高系統(tǒng)的學(xué)習(xí)效果。

怎么賦予機器學(xué)習(xí)可解釋性,這是一個非常難的問題。第一,可解釋性沒有明確的定義,可能是系統(tǒng)的可解釋性,也可能是預(yù)測結(jié)果的可解釋性,甚至可能是系統(tǒng)中某一個部分的可解釋性。第二,如果做深度學(xué)習(xí)的可解釋工作,現(xiàn)有的深度學(xué)習(xí)系統(tǒng)千千萬,我們沒辦法對每一個系統(tǒng)都做。第三,讓機器學(xué)習(xí)系統(tǒng)具有可解釋性,必須大量HCI、Visualization專家跨學(xué)科合作,是一項巨大的挑戰(zhàn)。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

下面介紹我們的一個設(shè)想,這個想法非常簡單。我們有深度學(xué)習(xí)系統(tǒng),它很強大,可以做很多預(yù)測;我們也有淺度學(xué)習(xí)系統(tǒng),它比較簡單且具備可解釋性,但預(yù)測精度不如深度學(xué)習(xí)系統(tǒng)。我們的想法就是,將深度學(xué)習(xí)系統(tǒng)學(xué)到的知識遷移到淺度學(xué)習(xí)系統(tǒng)中。我們將深度學(xué)習(xí)系統(tǒng)稱作老師模型,淺度學(xué)習(xí)系統(tǒng)稱作學(xué)生模型,通過Soft labels把二者結(jié)合起來。

給大家介紹兩個案例:

一、怎么做好CNN的可解釋性工作。下圖中有兩個目標——斑馬和大象,傳統(tǒng)目標檢測就可以發(fā)現(xiàn)這兩個部分。但我們做預(yù)測和分類時,希望系統(tǒng)不僅能區(qū)分斑馬和大象,還能標注出大象和斑馬的部分,分別放到對應(yīng)的分類里。我們的論文和系統(tǒng)已經(jīng)上線,大家感興趣可以查一下。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

二、假新聞的分類,這個話題在中、美兩國都很受關(guān)注。假新聞檢測本身并不是我們的重點,我們的研究重點是讓你知道為什么某條新聞會被判定成假新聞。我們有很多新聞內(nèi)容和新聞相關(guān)信息,新聞內(nèi)容包括的常用詞匯和相應(yīng)的語法信息,新聞相關(guān)信息包括是誰說的、什么時候發(fā)表的、在哪個刊物發(fā)表、聚焦什么話題等。我們希望借此提供更多可解釋性,了解一條新聞為什么會被判定為假新聞。

自動機器學(xué)習(xí)

除了機器學(xué)習(xí)的可解釋性,自動機器學(xué)習(xí)也是業(yè)界關(guān)注的重點。這方面,學(xué)術(shù)界無法跟Google競爭,所以我們只做了其中一個很小的點。

介紹我們的研究成果前,先簡要介紹一下什么叫做自動的機器學(xué)習(xí)。

深度學(xué)習(xí)系統(tǒng)涉及大量Primitivs,沒有非常強的數(shù)據(jù)科學(xué)背景很難訓(xùn)練出好的深度學(xué)習(xí)系統(tǒng),也很難應(yīng)用好。我們的愿景是人人都可以用得起深度學(xué)習(xí)系統(tǒng)。

下圖是最原始、最簡單的機器學(xué)習(xí)系統(tǒng)。我們有一組數(shù)據(jù),想知道它是文本還是數(shù)值,具體是用Text mining、Classification還是Regression。如果用Classification,效果還不錯,系統(tǒng)就會推薦給你。這是最原始的現(xiàn)有產(chǎn)品能實現(xiàn)的功能,給定一些數(shù)據(jù)后可以推薦相應(yīng)的系統(tǒng)給大家。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

這方面我們也做了相應(yīng)的工作。我們挑選了約300個UCI的數(shù)據(jù),重新采樣形成了4000個數(shù)據(jù)。我們的做法很簡單,把能找到的20多個分類的package全部應(yīng)用到這4000個數(shù)據(jù)上去,看效果怎么樣。這樣一來形成了4000×20的矩陣,我就大略知道什么樣的分類算法在怎樣的數(shù)據(jù)上會取得什么樣的效果。新進來一個數(shù)據(jù)后,我們就找出矩陣中和它最像的Dataset,將這個Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這個工作,效果提升了很多。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

剛才介紹了非常原始、基礎(chǔ)的自動機器學(xué)習(xí)系統(tǒng)。我們正在做的工作是研究怎樣做好神經(jīng)結(jié)構(gòu)的搜索。有了數(shù)據(jù)后,系統(tǒng)可以自動推薦一個相應(yīng)的深度學(xué)習(xí)結(jié)構(gòu)給該數(shù)據(jù)。在沒有資源,沒有大量深度學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家的情況下,這樣一個結(jié)構(gòu)或許可以初步滿足初創(chuàng)公司、社會學(xué)科和醫(yī)生的數(shù)據(jù)探索需求。

具體怎么做呢?第一步,我們要根據(jù)相應(yīng)模型,通過遺傳算法或者強化學(xué)習(xí)來做。這一步非常耗時耗力。

第二步,有了結(jié)構(gòu)后,還要從頭開始訓(xùn)練這個深度學(xué)習(xí)系統(tǒng),這樣它才能應(yīng)用到相應(yīng)的工作中去。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

無論第一步的遺傳算法、強化學(xué)習(xí),還是第二步的從頭開始訓(xùn)練深度學(xué)習(xí)系統(tǒng),都非常耗時耗力。一個簡單的datasets我們都要幾天才能完成。

有了深度學(xué)習(xí)系統(tǒng)的原始結(jié)構(gòu)后,還可以將它變寬、變深、加速,讓它的速度更快。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

我們采用了Bayesian Optimization替代傳統(tǒng)強化學(xué)習(xí)和遺傳算法,讓這一步變得比較快。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

我們所有的學(xué)習(xí)都是基于上一步,所以第二步也能讓速度非常快。我可以把時間從原始的幾天壓縮到一個小時內(nèi)。你給定一個數(shù)據(jù),我們很快就能推薦相應(yīng)的深度學(xué)習(xí)結(jié)構(gòu)給你。

下圖展示了我們一個月前發(fā)布的package,我們稱它Auto-Keras。大家有興趣可以嘗試一下。

美國德州農(nóng)工大學(xué)胡俠教授:機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

現(xiàn)場有很多企業(yè)界的朋友,所以我也分享下我們實驗室跟企業(yè)合作的經(jīng)驗。這里主要以異常檢測為例,這方面我們做了大量可解釋性的工作。比如我們跟阿里巴巴合作檢測異常購買行為。阿里巴巴沉淀了大量購買歷史記錄,如果是不良商家和用戶,他的行為就會產(chǎn)生異常,系統(tǒng)很容易就能夠檢測出來。但系統(tǒng)的準確率做不到100%,如果無緣無故封錯用戶的賬號,就會流失大量用戶,所以在不確定的情況下,我們需要額外雇傭人員審核用戶,這時候就需要可解釋性。

我們還跟全球最大的空調(diào)公司之一合作。美國很多家庭安裝了中央空調(diào),價值小一萬美金,非常昂貴。如果等到你感覺不到空調(diào)制冷的時候再修就晚了,還不如重新買一個?,F(xiàn)在的中央空調(diào)都部署了大量傳感器,先是一個小部件壞了,用戶感覺不出來;接著會引發(fā)小系統(tǒng)到整個系統(tǒng)的崩潰。如果我們能在較早的階段檢測出異常,就能減小損失。異常檢測也需要可解釋性,因此我們在指揮系統(tǒng)方面做了大量工作。

此外,我們跟蘋果合作,一起檢測系統(tǒng)入侵,準確率還是做不到100%。舉一個簡單的例子,我們發(fā)現(xiàn)檢測結(jié)果中有人前一秒還在北京,下一秒就在別的地方訪問系統(tǒng)。我們認為這是異常,把結(jié)果提交到蘋果運營團隊,結(jié)果他們告訴我,這是一個VPN在操作。所以一定要有可解釋性,異常檢測才能在各個行業(yè)的不同任務(wù)中落地。

以上是我的全部分享內(nèi)容,謝謝大家。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說