0
本文作者: 汪思穎 | 2019-06-24 17:47 |
在第一期「論道 AI 安全與倫理」圓滿召開(kāi)之后,在思想火花的碰撞與激蕩下,AI Time 第二期如約而至。第二期以「論道自動(dòng)機(jī)器學(xué)習(xí)和可解釋機(jī)器學(xué)習(xí)」為主題,現(xiàn)場(chǎng)嘉賓針對(duì)多個(gè)問(wèn)題,如自動(dòng)機(jī)器學(xué)習(xí)(AutoML)和可解釋機(jī)器學(xué)習(xí)(Explainable ML)的區(qū)別、各自?xún)?yōu)劣、未來(lái)發(fā)展等展開(kāi)精彩討論。接下來(lái),雷鋒網(wǎng) AI 科技評(píng)論將選取嘉賓的真知灼見(jiàn),讓大家在這場(chǎng)思辨會(huì)中對(duì) autoML 和 Explainable ML 增添一份了解,對(duì)他們的差異有更深入的認(rèn)識(shí)。
延續(xù)第一期的大咖陣容,這期的嘉賓也是或已經(jīng)功成名就的學(xué)者,或拿獎(jiǎng)到手軟的青年才俊,或業(yè)界的資深專(zhuān)家。他們分別為美國(guó)伊利諾伊大學(xué)芝加哥分校 (UIC) 特聘教授俞士綸、美國(guó)密歇根大學(xué)梅俏竹教授、北京大學(xué)的王立威教授、百度高級(jí)研究員李興建。以下便是此次研討會(huì)的精彩內(nèi)容。
王立威:對(duì) AutoML 的簡(jiǎn)單介紹
對(duì)于機(jī)器學(xué)習(xí),大家可能有所了解,給你一些數(shù)據(jù),然后得到一個(gè)識(shí)別圖像的分類(lèi)器,或者語(yǔ)言翻譯器。在機(jī)器學(xué)習(xí)過(guò)程中會(huì)運(yùn)用到很多模型,涉及到一些超參數(shù)。在過(guò)去,這些模型的設(shè)計(jì)和超參數(shù)的調(diào)節(jié),全都是根據(jù)人的經(jīng)驗(yàn)積累,AutoML 的想法是把模型設(shè)計(jì)、超參數(shù)的調(diào)節(jié)全部變成一種自動(dòng)的學(xué)習(xí)過(guò)程,而不借助人的經(jīng)驗(yàn)。
這里可以用數(shù)學(xué)公式來(lái)定義,簡(jiǎn)單來(lái)說(shuō),對(duì)于你給定的一個(gè)任務(wù),希望機(jī)器能夠自動(dòng)學(xué)習(xí)模型的結(jié)構(gòu)和設(shè)置,并能達(dá)到最優(yōu)層級(jí)。舉個(gè)例子,過(guò)去大家用得比較多的是 ResNet 或者 DesNet,這些網(wǎng)絡(luò)結(jié)構(gòu)都是通過(guò)經(jīng)驗(yàn),人為設(shè)計(jì)出來(lái)的。現(xiàn)在談到 AutoML,我們希望網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)變成一個(gè)優(yōu)化問(wèn)題,由機(jī)器學(xué)習(xí)出來(lái)。
我的學(xué)生把深度學(xué)習(xí)的調(diào)參叫做煉丹,我相信真正做過(guò)這件事情的人都有同感。古代的術(shù)士去煉丹,火候要掌握到什么程度,需要多長(zhǎng)時(shí)間,這些都憑長(zhǎng)期的經(jīng)驗(yàn)積累。當(dāng)我們把這件事情變成機(jī)器自動(dòng)的過(guò)程,自己去找到最優(yōu)的超參數(shù),而不是人在那兒煉丹,這應(yīng)該是 AutoML 非常大的意義。
另外,傳統(tǒng)的一些網(wǎng)絡(luò)由人為設(shè)計(jì),它們結(jié)構(gòu)簡(jiǎn)單,具有對(duì)稱(chēng)性,看起來(lái)很規(guī)則。但是現(xiàn)在,完全可以用學(xué)習(xí)的方式,來(lái)學(xué)出網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),學(xué)到的結(jié)構(gòu)可能極其復(fù)雜,但從效果上來(lái)說(shuō),針對(duì)一些具體問(wèn)題,這個(gè)網(wǎng)絡(luò)可能要比人為設(shè)計(jì)的網(wǎng)絡(luò)效果明顯要高。
梅俏竹:可解釋機(jī)器學(xué)習(xí)與自動(dòng)機(jī)器學(xué)習(xí)并不矛盾
自動(dòng)機(jī)器學(xué)習(xí)與可解釋機(jī)器學(xué)習(xí)并不矛盾。全自動(dòng)的機(jī)器學(xué)習(xí),可以具有可解釋性,可解釋機(jī)器學(xué)習(xí)也可以是自動(dòng)的。
考慮一個(gè)簡(jiǎn)單的問(wèn)題,在做診斷時(shí),一個(gè)強(qiáng)大的機(jī)器學(xué)習(xí)診斷系統(tǒng)能夠讀 X 光片,能夠判斷出患者是否患病。但是我們不僅要做診斷,還要把診斷結(jié)果描述給患者聽(tīng),最終讓病患接受醫(yī)生的建議。
在這個(gè)流程里面,如果用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,數(shù)據(jù)(即 X 光片)已經(jīng)給到,AutoML 能夠自動(dòng)學(xué)出該用什么樣的網(wǎng)絡(luò)以及超參數(shù),然后做出決定。但這里存在一個(gè)問(wèn)題,醫(yī)生能不能接受?如果醫(yī)生都很難接受,那病人就更難接受了,因?yàn)槲医忉尣磺宄槭裁丛\斷為這個(gè)病。
可解釋機(jī)器學(xué)習(xí)就是想解決這個(gè)問(wèn)題,它會(huì)告訴我為什么出現(xiàn)這種診斷結(jié)果。他會(huì)站在醫(yī)生和病人的角度,告訴他們自己希望了解的內(nèi)容。這是可解釋性機(jī)器學(xué)習(xí)的愿景,與自動(dòng)機(jī)器學(xué)習(xí)并不矛盾,可解釋性是建立信任人與 AI 的信任的必然路徑。
百度高級(jí)研究員李興建:從產(chǎn)業(yè)界講 AutoML
人腦的結(jié)構(gòu),其實(shí)經(jīng)歷了上億年的進(jìn)化,優(yōu)質(zhì)的品種得到保留,劣質(zhì)的品種逐步被淘汰。研究人員在神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)方面也做了類(lèi)似的實(shí)驗(yàn),從一些結(jié)構(gòu)簡(jiǎn)單、效果比較差的網(wǎng)絡(luò)開(kāi)始,通過(guò)不斷進(jìn)化的方式,來(lái)觀察神經(jīng)網(wǎng)絡(luò)模式的變化,最后通過(guò)大量的計(jì)算,演化出效果非常好的網(wǎng)絡(luò)。這是比較早的關(guān)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的探索?,F(xiàn)在比較主流的,像基于進(jìn)化算法、強(qiáng)化學(xué)習(xí)或者可微結(jié)構(gòu)的算法都是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的主要方法。
百度在生成對(duì)抗網(wǎng)絡(luò)(GAN)的結(jié)構(gòu)上也做了一些搜索,我們針對(duì)上采樣進(jìn)行了結(jié)構(gòu)搜索,最后發(fā)現(xiàn)搜索出來(lái)的 GAN 比人設(shè)計(jì)的網(wǎng)絡(luò)更穩(wěn)定,并且生成的效果更好。另一個(gè)實(shí)踐是比較形象的應(yīng)用,我們對(duì)頭像風(fēng)格遷移的任務(wù)模型進(jìn)行搜索,使用多個(gè) auto encoder 進(jìn)行疊加,最后發(fā)現(xiàn)這樣的多尺度特征融合只需要非常少的操作和連接,就可以達(dá)到同樣甚至更好的效果。
這是企業(yè)做的一些基礎(chǔ)性工作,另外在產(chǎn)品和服務(wù)里,也有一些應(yīng)用,比如百度正在使用 AutoML,利用精度更高或速度更快的模型來(lái)為大家提供在線服務(wù)。除了算法方面的自動(dòng)化,還有很多流程上的自動(dòng)化,最終將產(chǎn)生一個(gè)從算法到流程全自動(dòng)化的工具包。
王立威:在很多問(wèn)題里,可解釋性是很片面的
我說(shuō)說(shuō)我的一個(gè)看法,這是從另外一個(gè)視角。大家可以看看下面這張 PPT,這是可解釋機(jī)器學(xué)習(xí)的愿景。
這張圖里,我們希望神經(jīng)網(wǎng)絡(luò)識(shí)別出一只貓,對(duì)貓的判斷是它有皮毛和爪子。再深入一點(diǎn),請(qǐng)解釋什么是皮毛和爪子,你馬上就會(huì)發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)不能解釋。我的觀點(diǎn)是,在很多問(wèn)題里,可解釋性是很片面的,大部分問(wèn)題本質(zhì)上不可解釋。
在過(guò)去大概三四年里,我做了很多和醫(yī)療相關(guān)的機(jī)器學(xué)習(xí)問(wèn)題,剛才幾位嘉賓和主持人都談到醫(yī)療里的可解釋是一個(gè)很重要的訴求,但是在我過(guò)去三四年的經(jīng)驗(yàn)積累里,我發(fā)現(xiàn)只有在最開(kāi)始階段,當(dāng)醫(yī)生還不完全信任人工智能系統(tǒng)的時(shí)候,可解釋可能是有必要的,一旦醫(yī)生信任了這一系統(tǒng),系統(tǒng)性能達(dá)到甚至超過(guò)醫(yī)生,可解釋性就不再是一個(gè)很必要的問(wèn)題。
醫(yī)療里大量的問(wèn)題和貓的問(wèn)題一樣,你去拍 X 光片,認(rèn)為這個(gè)地方有可能是肺癌,給出的解釋是看到這個(gè)地方有毛刺和空洞,但是請(qǐng)解釋毛刺、空洞分別是什么定義。之所以今天的人工智能、機(jī)器學(xué)習(xí)會(huì)在一些性能上超越人類(lèi),正是因?yàn)樵谶@些我們很難解釋?zhuān)踔潦遣豢山忉尩奶卣魃?,他們做的遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)。
再說(shuō)一說(shuō)為什么剛才說(shuō)的皮毛和爪子不可解釋。將貓分解為皮毛和爪子來(lái)識(shí)別,這是大大可以壓縮的模型。但本質(zhì)上可能不存在一個(gè)能用簡(jiǎn)短語(yǔ)言描述的模型,來(lái)非常清楚地判斷是不是皮毛,這時(shí)候就不可解釋了,因?yàn)榻忉屢欢ㄒ苡煤?jiǎn)短的語(yǔ)言描述出來(lái)。假如我用一個(gè)包含一億參數(shù)的模型表述出來(lái)的神經(jīng)網(wǎng)絡(luò)能夠判斷是不是皮毛,這也是一種解釋?zhuān)皇沁@種解釋太復(fù)雜了,人沒(méi)有辦法理解。
以上便是我對(duì)可解釋的一個(gè)看法,我們不一定非要追求可解釋?zhuān)枰茨懿荒芙忉尅?/strong>
對(duì) AutoML 技術(shù)層面上的一些看法
俞士綸:AutoML 在一些比較容易的事情上還是比較可靠的,比如當(dāng)輸入全是圖片,但是真正涉及到比較復(fù)雜的問(wèn)題就比較難了。比如做交通預(yù)測(cè),從一個(gè)點(diǎn)到另外一個(gè)點(diǎn)需要花多少時(shí)間,這里有歷史數(shù)據(jù),有實(shí)時(shí)數(shù)據(jù),另外還涉及到天氣數(shù)據(jù),還有一些源自社交網(wǎng)站的文本數(shù)據(jù)。最后需要看怎樣把各種不同的數(shù)據(jù)融合在一起,涉及到的東西太多,像這種復(fù)雜的問(wèn)題,還是不可能完全自動(dòng)化。
王立威:ACL2019 有一篇很有名的 paper,計(jì)算了各種模型所產(chǎn)生的計(jì)算量和碳排放,這是從社會(huì)的角度來(lái)看這種技術(shù)。
對(duì)于一些企業(yè)來(lái)說(shuō),盡管不是很懂 AutoML 的原理,但是也會(huì)用這種自動(dòng)的方式去搜索有助于業(yè)務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)。最后可以看看云計(jì)算的花費(fèi),會(huì)有一家企業(yè)愿意花幾十萬(wàn)甚至上百萬(wàn)美元去搜索一個(gè)很好的網(wǎng)絡(luò)結(jié)構(gòu)嗎?這樣付出的成本可能比最后掙的錢(qián)還多。
我支持 AutoML 這個(gè)大方向,在一些不需要用人力的地方,我們用機(jī)器,但是我們要限制盲目的搜索,以減少消耗,將人為設(shè)計(jì)和自動(dòng)學(xué)習(xí)兩者有機(jī)結(jié)合。
AutoML&Explainable ML 未來(lái)之路
王立威:稍微談?wù)勛詣?dòng)機(jī)器學(xué)習(xí)和可解釋機(jī)器學(xué)習(xí)的未來(lái)之路,我覺(jué)得機(jī)器學(xué)習(xí)比較擅長(zhǎng)的是底層信號(hào)(圖像、語(yǔ)音或者文本數(shù)據(jù))的分類(lèi)與檢測(cè)任務(wù),在知識(shí)層面比較欠缺。如果在未來(lái)想讓 AutoML 變得非常自動(dòng)化,實(shí)際上需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)有更高層面的理解,同樣,我們所謂的解釋通常都是依據(jù)人的知識(shí)在做一些解釋?zhuān)?strong>我認(rèn)為自動(dòng)機(jī)器學(xué)習(xí)和可解釋機(jī)器學(xué)習(xí)未來(lái)的發(fā)展與機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展將會(huì)很一致,向更高層的知識(shí)提高。
梅俏竹:我認(rèn)為自動(dòng)機(jī)器學(xué)習(xí)和可解釋機(jī)器學(xué)習(xí)并不矛盾,這兩者可以結(jié)合。如果為了全自動(dòng),把人類(lèi)的經(jīng)驗(yàn)全部拋開(kāi),用極大量的資源去做,這肯定是一種浪費(fèi),而且效果不好;另外,也不能說(shuō)為了讓神經(jīng)網(wǎng)絡(luò)可以讓人理解,就非要在理解這個(gè)層面糾結(jié),大家對(duì)理解的定義各不相同。
PS:小小地預(yù)告,AI Time 第三期將在一周之后繼續(xù)開(kāi)展,議題為《知識(shí)圖譜》,歡迎大家報(bào)名參加,與嘉賓自由輕松地交流,探討科學(xué)的本質(zhì),激發(fā)出更多學(xué)術(shù)靈感。后續(xù),雷鋒網(wǎng) AI 科技評(píng)論也將附上報(bào)名鏈接。
雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。