丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
AI+ 正文
發(fā)私信給劉偉
發(fā)送

0

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

導(dǎo)語:機(jī)器學(xué)習(xí)要被各行各業(yè)普遍接受和應(yīng)用,前提是要具有可解釋性。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

雷鋒網(wǎng)按:2018 全球人工智能與機(jī)器人峰會(CCF-GAIR)在深圳召開,峰會由中國計(jì)算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺。

雷鋒網(wǎng) CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容,提供 1 個(gè)主會場和 11 個(gè)專場(仿生機(jī)器人專場,機(jī)器人行業(yè)應(yīng)用專場,計(jì)算機(jī)視覺專場,智能安全專場,金融科技專場,智能駕駛專場,NLP 專場,AI+ 專場,AI 芯片專場,IoT 專場,投資人專場)的豐富平臺,意欲給三界參會者從產(chǎn)學(xué)研多個(gè)維度,呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會議內(nèi)容與現(xiàn)場體驗(yàn)。

大會最后一天的AI+專場匯聚了美國德州農(nóng)工大學(xué)數(shù)據(jù)挖掘?qū)嶒?yàn)室主任、計(jì)算機(jī)學(xué)院終身教職系列助理教授胡俠,永輝云計(jì)算聯(lián)合創(chuàng)始人兼CTO胡魯輝,乂學(xué)教育首席科學(xué)家崔煒,中興力維首席技術(shù)官曹友盛,清華大學(xué)未來實(shí)驗(yàn)室博士后、博云視覺聯(lián)合創(chuàng)始人高峰等重量級嘉賓。他們就各自在零售、教育、安防、藝術(shù)等領(lǐng)域的人工智能探索與實(shí)踐做了精彩分享。

其中,胡俠教授作為開場嘉賓,發(fā)表了題為“Human-Centric Machine Learning”的精彩演講。

胡俠教授表示,機(jī)器學(xué)習(xí)要被各行各業(yè)普遍接受和應(yīng)用,前提是要具有可解釋性。

賦予機(jī)器學(xué)習(xí)可解釋性是一個(gè)非常難的問題。第一,可解釋性沒有明確的定義,可能是系統(tǒng)的可解釋性,也可能是預(yù)測結(jié)果的可解釋性,甚至可能是系統(tǒng)中某一個(gè)部分的可解釋性。第二,如果做深度學(xué)習(xí)的可解釋工作,現(xiàn)有的深度學(xué)習(xí)系統(tǒng)千千萬,我們沒辦法對每一個(gè)系統(tǒng)都做。第三,讓機(jī)器學(xué)習(xí)系統(tǒng)具有可解釋性,必須大量HCI、Visualization專家跨學(xué)科合作,是一項(xiàng)巨大的挑戰(zhàn)。

為解決這個(gè)問題,胡俠教授提出,將性能強(qiáng)大、不可解釋的深度學(xué)習(xí)系統(tǒng)學(xué)到的知識,遷移到性能較弱但可解釋的淺度學(xué)習(xí)系統(tǒng)中。

除了機(jī)器學(xué)習(xí)的可解釋性,自動(dòng)機(jī)器學(xué)習(xí)也是業(yè)界關(guān)注的重點(diǎn)。在這方面,胡俠教授帶領(lǐng)的團(tuán)隊(duì)也做了很多工作。

他們挑選了約300個(gè)UCI的數(shù)據(jù),重新采樣形成了4000個(gè)數(shù)據(jù)。然后把能找到的20多個(gè)分類的package全部應(yīng)用到這4000個(gè)數(shù)據(jù)上去,觀察效果如何。新的數(shù)據(jù)進(jìn)來后,他們就找出矩陣中和新數(shù)據(jù)最像的Dataset,將這個(gè)Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這種方法,將機(jī)器學(xué)習(xí)效果提升了很多。

以下是胡俠教授的全部分享內(nèi)容,雷鋒網(wǎng)做了不改變原意的整理與編輯:

感謝雷鋒網(wǎng)的邀請!今天是大會最后一天,很高興看到臺下還有這么多人傾聽我的演講。

今天主要想給大家介紹一個(gè)概念——Human-Centric,以及它如何在機(jī)器學(xué)習(xí)領(lǐng)域落地。機(jī)器學(xué)習(xí)大家已經(jīng)談?wù)摰暮芏嗔?,今天我想介紹什么是基于用戶的機(jī)器學(xué)習(xí)。

基于用戶的機(jī)器學(xué)習(xí)主要分兩方面:一、機(jī)器學(xué)習(xí)的入口。機(jī)器學(xué)習(xí)廣泛應(yīng)用于各行各業(yè),但要用好一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),把效果提升上去,就必須要有數(shù)據(jù)科學(xué)的背景。這大大阻礙了機(jī)器學(xué)習(xí)在各行各業(yè)的落地前景。二、數(shù)據(jù)的入口。如何做好自動(dòng)的機(jī)器學(xué)習(xí),即給定一個(gè)數(shù)據(jù),系統(tǒng)自動(dòng)推薦相應(yīng)的深度學(xué)習(xí)算法,這是我想講的第二個(gè)問題。

機(jī)器學(xué)習(xí)的可解釋性

機(jī)器學(xué)習(xí)或深度學(xué)習(xí)被各行各業(yè)接受,前提是要具有可解釋性。什么叫做可解釋性?下面用幾個(gè)例子來說明。

第一個(gè)例子是醫(yī)療健康領(lǐng)域。如果一位病人去醫(yī)院檢查,醫(yī)生告訴他,“機(jī)器學(xué)習(xí)系統(tǒng)推算你三個(gè)月后會得糖尿病,五個(gè)月后會得癌癥,但我們也不知道為什么”,病人和病人家屬不會認(rèn)可,甚至醫(yī)生也不敢用這個(gè)系統(tǒng)。所以我們必須知道機(jī)器學(xué)習(xí)系統(tǒng)是怎么工作的。為什么病人會得糖尿???是因?yàn)檠沁^高還是CT掃描中出現(xiàn)了腫瘤?

第二個(gè)例子是自動(dòng)駕駛行業(yè)?,F(xiàn)在的自動(dòng)駕駛還無法完全離開陪駛員,每隔一段時(shí)間就需要陪駛員把控一下方向盤。我們要理解這次bug,理解機(jī)器學(xué)習(xí)系統(tǒng)和視覺系統(tǒng)出了什么問題。只有這樣才能不斷提高自動(dòng)駕駛的效率和準(zhǔn)確率,最后真正實(shí)現(xiàn)自動(dòng)駕駛。

再舉個(gè)風(fēng)控的例子。我們跟美國最大的醫(yī)療保險(xiǎn)公司之一UnitedHealth合作了一個(gè)項(xiàng)目。美國很多醫(yī)生和病人會聯(lián)合起來騙保險(xiǎn)公司的錢。我們希望通過異常檢測,檢測出這些醫(yī)生和病人的異常行為。但即使我們找出了這些異常行為并把它交給保險(xiǎn)公司,后者也很難進(jìn)行人為篩選。(我們的系統(tǒng)準(zhǔn)確率做不到100%,所以還需要人為篩選。)如果保險(xiǎn)公司決定起訴或采取其他進(jìn)一步?jīng)Q策,就必須理解為什么這個(gè)醫(yī)生或病人會被檢測出來。但是每個(gè)醫(yī)生和病人的案例文檔都超過百頁,非常難以理解。如何將這一百多頁文檔濃縮成一頁,明確指出他們?yōu)槭裁打_保,就顯得十分重要。

還有一個(gè)例子,大家可以看看下面這張圖片。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

圖片中上面是浣熊的照片,下面是小熊貓的照片,系統(tǒng)把浣熊錯(cuò)認(rèn)成了小熊貓,為什么?我們可以看到,浣熊的形象很像小熊貓,而且它有一個(gè)很強(qiáng)的特征——露出了紅色的舌頭。這是小熊貓非常喜歡做的動(dòng)作,所以系統(tǒng)把它誤認(rèn)為小熊貓。如果我們理解系統(tǒng)是怎么工作的,就可以對其進(jìn)行人為干預(yù),提高系統(tǒng)的學(xué)習(xí)效果。

怎么賦予機(jī)器學(xué)習(xí)可解釋性,這是一個(gè)非常難的問題。第一,可解釋性沒有明確的定義,可能是系統(tǒng)的可解釋性,也可能是預(yù)測結(jié)果的可解釋性,甚至可能是系統(tǒng)中某一個(gè)部分的可解釋性。第二,如果做深度學(xué)習(xí)的可解釋工作,現(xiàn)有的深度學(xué)習(xí)系統(tǒng)千千萬,我們沒辦法對每一個(gè)系統(tǒng)都做。第三,讓機(jī)器學(xué)習(xí)系統(tǒng)具有可解釋性,必須大量HCI、Visualization專家跨學(xué)科合作,是一項(xiàng)巨大的挑戰(zhàn)。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

下面介紹我們的一個(gè)設(shè)想,這個(gè)想法非常簡單。我們有深度學(xué)習(xí)系統(tǒng),它很強(qiáng)大,可以做很多預(yù)測;我們也有淺度學(xué)習(xí)系統(tǒng),它比較簡單且具備可解釋性,但預(yù)測精度不如深度學(xué)習(xí)系統(tǒng)。我們的想法就是,將深度學(xué)習(xí)系統(tǒng)學(xué)到的知識遷移到淺度學(xué)習(xí)系統(tǒng)中。我們將深度學(xué)習(xí)系統(tǒng)稱作老師模型,淺度學(xué)習(xí)系統(tǒng)稱作學(xué)生模型,通過Soft labels把二者結(jié)合起來。

給大家介紹兩個(gè)案例:

一、怎么做好CNN的可解釋性工作。下圖中有兩個(gè)目標(biāo)——斑馬和大象,傳統(tǒng)目標(biāo)檢測就可以發(fā)現(xiàn)這兩個(gè)部分。但我們做預(yù)測和分類時(shí),希望系統(tǒng)不僅能區(qū)分斑馬和大象,還能標(biāo)注出大象和斑馬的部分,分別放到對應(yīng)的分類里。我們的論文和系統(tǒng)已經(jīng)上線,大家感興趣可以查一下。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

二、假新聞的分類,這個(gè)話題在中、美兩國都很受關(guān)注。假新聞檢測本身并不是我們的重點(diǎn),我們的研究重點(diǎn)是讓你知道為什么某條新聞會被判定成假新聞。我們有很多新聞內(nèi)容和新聞相關(guān)信息,新聞內(nèi)容包括的常用詞匯和相應(yīng)的語法信息,新聞相關(guān)信息包括是誰說的、什么時(shí)候發(fā)表的、在哪個(gè)刊物發(fā)表、聚焦什么話題等。我們希望借此提供更多可解釋性,了解一條新聞為什么會被判定為假新聞。

自動(dòng)機(jī)器學(xué)習(xí)

除了機(jī)器學(xué)習(xí)的可解釋性,自動(dòng)機(jī)器學(xué)習(xí)也是業(yè)界關(guān)注的重點(diǎn)。這方面,學(xué)術(shù)界無法跟Google競爭,所以我們只做了其中一個(gè)很小的點(diǎn)。

介紹我們的研究成果前,先簡要介紹一下什么叫做自動(dòng)的機(jī)器學(xué)習(xí)。

深度學(xué)習(xí)系統(tǒng)涉及大量Primitivs,沒有非常強(qiáng)的數(shù)據(jù)科學(xué)背景很難訓(xùn)練出好的深度學(xué)習(xí)系統(tǒng),也很難應(yīng)用好。我們的愿景是人人都可以用得起深度學(xué)習(xí)系統(tǒng)。

下圖是最原始、最簡單的機(jī)器學(xué)習(xí)系統(tǒng)。我們有一組數(shù)據(jù),想知道它是文本還是數(shù)值,具體是用Text mining、Classification還是Regression。如果用Classification,效果還不錯(cuò),系統(tǒng)就會推薦給你。這是最原始的現(xiàn)有產(chǎn)品能實(shí)現(xiàn)的功能,給定一些數(shù)據(jù)后可以推薦相應(yīng)的系統(tǒng)給大家。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

這方面我們也做了相應(yīng)的工作。我們挑選了約300個(gè)UCI的數(shù)據(jù),重新采樣形成了4000個(gè)數(shù)據(jù)。我們的做法很簡單,把能找到的20多個(gè)分類的package全部應(yīng)用到這4000個(gè)數(shù)據(jù)上去,看效果怎么樣。這樣一來形成了4000×20的矩陣,我就大略知道什么樣的分類算法在怎樣的數(shù)據(jù)上會取得什么樣的效果。新進(jìn)來一個(gè)數(shù)據(jù)后,我們就找出矩陣中和它最像的Dataset,將這個(gè)Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這個(gè)工作,效果提升了很多。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

剛才介紹了非常原始、基礎(chǔ)的自動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)。我們正在做的工作是研究怎樣做好神經(jīng)結(jié)構(gòu)的搜索。有了數(shù)據(jù)后,系統(tǒng)可以自動(dòng)推薦一個(gè)相應(yīng)的深度學(xué)習(xí)結(jié)構(gòu)給該數(shù)據(jù)。在沒有資源,沒有大量深度學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家的情況下,這樣一個(gè)結(jié)構(gòu)或許可以初步滿足初創(chuàng)公司、社會學(xué)科和醫(yī)生的數(shù)據(jù)探索需求。

具體怎么做呢?第一步,我們要根據(jù)相應(yīng)模型,通過遺傳算法或者強(qiáng)化學(xué)習(xí)來做。這一步非常耗時(shí)耗力。

第二步,有了結(jié)構(gòu)后,還要從頭開始訓(xùn)練這個(gè)深度學(xué)習(xí)系統(tǒng),這樣它才能應(yīng)用到相應(yīng)的工作中去。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

無論第一步的遺傳算法、強(qiáng)化學(xué)習(xí),還是第二步的從頭開始訓(xùn)練深度學(xué)習(xí)系統(tǒng),都非常耗時(shí)耗力。一個(gè)簡單的datasets我們都要幾天才能完成。

有了深度學(xué)習(xí)系統(tǒng)的原始結(jié)構(gòu)后,還可以將它變寬、變深、加速,讓它的速度更快。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

我們采用了Bayesian Optimization替代傳統(tǒng)強(qiáng)化學(xué)習(xí)和遺傳算法,讓這一步變得比較快。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

我們所有的學(xué)習(xí)都是基于上一步,所以第二步也能讓速度非???。我可以把時(shí)間從原始的幾天壓縮到一個(gè)小時(shí)內(nèi)。你給定一個(gè)數(shù)據(jù),我們很快就能推薦相應(yīng)的深度學(xué)習(xí)結(jié)構(gòu)給你。

下圖展示了我們一個(gè)月前發(fā)布的package,我們稱它Auto-Keras。大家有興趣可以嘗試一下。

美國德州農(nóng)工大學(xué)胡俠教授:機(jī)器學(xué)習(xí)的可解釋性與自動(dòng)機(jī)器學(xué)習(xí) | CCF-GAIR 2018

現(xiàn)場有很多企業(yè)界的朋友,所以我也分享下我們實(shí)驗(yàn)室跟企業(yè)合作的經(jīng)驗(yàn)。這里主要以異常檢測為例,這方面我們做了大量可解釋性的工作。比如我們跟阿里巴巴合作檢測異常購買行為。阿里巴巴沉淀了大量購買歷史記錄,如果是不良商家和用戶,他的行為就會產(chǎn)生異常,系統(tǒng)很容易就能夠檢測出來。但系統(tǒng)的準(zhǔn)確率做不到100%,如果無緣無故封錯(cuò)用戶的賬號,就會流失大量用戶,所以在不確定的情況下,我們需要額外雇傭人員審核用戶,這時(shí)候就需要可解釋性。

我們還跟全球最大的空調(diào)公司之一合作。美國很多家庭安裝了中央空調(diào),價(jià)值小一萬美金,非常昂貴。如果等到你感覺不到空調(diào)制冷的時(shí)候再修就晚了,還不如重新買一個(gè)?,F(xiàn)在的中央空調(diào)都部署了大量傳感器,先是一個(gè)小部件壞了,用戶感覺不出來;接著會引發(fā)小系統(tǒng)到整個(gè)系統(tǒng)的崩潰。如果我們能在較早的階段檢測出異常,就能減小損失。異常檢測也需要可解釋性,因此我們在指揮系統(tǒng)方面做了大量工作。

此外,我們跟蘋果合作,一起檢測系統(tǒng)入侵,準(zhǔn)確率還是做不到100%。舉一個(gè)簡單的例子,我們發(fā)現(xiàn)檢測結(jié)果中有人前一秒還在北京,下一秒就在別的地方訪問系統(tǒng)。我們認(rèn)為這是異常,把結(jié)果提交到蘋果運(yùn)營團(tuán)隊(duì),結(jié)果他們告訴我,這是一個(gè)VPN在操作。所以一定要有可解釋性,異常檢測才能在各個(gè)行業(yè)的不同任務(wù)中落地。

以上是我的全部分享內(nèi)容,謝謝大家。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說