UC 伯克利優(yōu)化理論教授談深度學(xué)習(xí)：為了可解釋性，我們可能需要犧牲一些模型表現(xiàn)

本文作者：楊曉凡

編輯：郭奕欣

2018-01-19 11:33

導(dǎo)語：“許多不同問題的數(shù)學(xué)形式都是一樣的，我自己都覺得驚訝”

雷鋒網(wǎng) AI 科技評論按：在人工智能的浪潮之下，以深度學(xué)習(xí)為首的機(jī)器學(xué)習(xí)方法迅速席卷了各個(gè)領(lǐng)域，給許多問題帶來了全新的解決方案（當(dāng)然同時(shí)也帶來了新的問題等待解決）。

除了我們熟悉的 CV、NLP 之外，優(yōu)化理論、運(yùn)籌學(xué)也和深度學(xué)習(xí)之間互相產(chǎn)生著聯(lián)系和影響。近日我們就采訪了來自 UC 伯克利大學(xué)電子工程和計(jì)算機(jī)學(xué)院以及工業(yè)工程和運(yùn)籌學(xué)學(xué)院教授 Laurent El Ghaoui，聽聽看他對這些領(lǐng)域的見解。

（* 本文由雷鋒網(wǎng) AI 科技評論記者李宗仁、楊曉凡共同完成）

UC 伯克利優(yōu)化理論教授談深度學(xué)習(xí)：為了可解釋性，我們可能需要犧牲一些模型表現(xiàn)

根據(jù)個(gè)人主頁介紹，Laurent El Ghaoui 教授的研究方向包括魯棒優(yōu)化、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)（重點(diǎn)在于稀疏性）以及新聞媒體的統(tǒng)計(jì)分析。教授也著有《優(yōu)化模型（Optimization Models）》、《優(yōu)化模型與應(yīng)用（Optimization models and applications）》等專著。我們很想知道教授對優(yōu)化問題有哪些感悟、在他看來機(jī)器學(xué)習(xí)學(xué)習(xí)方法和傳統(tǒng)優(yōu)化方法之間又有哪些聯(lián)系和區(qū)別。以下為采訪全文。

雷鋒網(wǎng) AI 科技評論：您的研究領(lǐng)域包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)和算法優(yōu)化，您的研究和應(yīng)用經(jīng)驗(yàn)也很豐富。您最近在研究什么呢？有什么進(jìn)展或者突破嗎？

Ghaoui 教授：近期我們在探索深度學(xué)習(xí)模型，這很有挑戰(zhàn)性因?yàn)樗懿环€(wěn)定，訓(xùn)練也需要很多時(shí)間和很多數(shù)據(jù)。許多深度學(xué)習(xí)研究中關(guān)注的都是模型，我們關(guān)注的也是如何改進(jìn)出更好的模型。比如從數(shù)據(jù)的角度看，深度學(xué)習(xí)模型選用什么樣的架構(gòu)才是對的、網(wǎng)絡(luò)應(yīng)該有多少層、每個(gè)層應(yīng)該做什么。我們也在開發(fā)一些新方法，我覺得很興奮。雖然我們的研究還沒有結(jié)束，但是我覺得這將會成為一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的完全不同的方法，很有可能會更穩(wěn)定、更容易訓(xùn)練、訓(xùn)練起來更快、不同的數(shù)據(jù)層之間的并行化程度更高等等，同時(shí)還有潛力根據(jù)數(shù)據(jù)決定什么是最好的架構(gòu)。這讓我很興奮，我還不是很確定它能成，但是我希望下個(gè)季度里我們能做出一些突破。

雷鋒網(wǎng) AI 科技評論：您也參與過很多不同領(lǐng)域的應(yīng)用，比如房屋、能源、金融、政治，您能橫跨這么多領(lǐng)域，有什么方法論或者秘訣嗎？

Ghaoui 教授：我確實(shí)參與過很多不同的領(lǐng)域，不過這沒什么秘訣，就是 AI 技術(shù)本身驅(qū)動著我而已。我舉個(gè)例子吧，我曾經(jīng)和零售巨頭 Walmart 合作過，幫他們根據(jù)購買需求優(yōu)化商品價(jià)格。我研究了這個(gè)問題，發(fā)現(xiàn)它和根據(jù)用電需求預(yù)測第二天所需的發(fā)電量是同一個(gè)問題。這兒沒什么秘訣，這些問題的數(shù)學(xué)形式總是一樣的，我甚至覺得很奇怪為什么是一樣的。完全不同的角度、不同的行業(yè)、不同的問題，但是 AI 模型總是一模一樣。我很驚訝，這里沒有隱藏的秘密，但它就是這樣的情況。這就是 AI 的力量。在背后支撐的不是我自己知識，而是事情就是這樣的。到了某個(gè)程度以后，所有的問題看起來都是完全一樣的，一樣的技術(shù)，同一回事。

雷鋒網(wǎng) AI 科技評論：這個(gè)時(shí)代的數(shù)據(jù)在爆炸般增長，這也會給統(tǒng)計(jì)分析帶來越來越大的挑戰(zhàn)。根據(jù)您的研究經(jīng)驗(yàn)，您覺得我們都有哪些方法可以應(yīng)對這些挑戰(zhàn)？

Ghaoui 教授：這件事很有意思。在這里，針對這個(gè)問題我想說 AI 的速度非常重要，夠快才能幫助人類實(shí)時(shí)地理解數(shù)據(jù)，而不是像現(xiàn)在的深度學(xué)習(xí) AI 那樣，訓(xùn)練一個(gè) AI 有時(shí)候可以花 30 天的時(shí)間。所以我們需要做的下一步就是實(shí)時(shí)化。并且我覺得，為了達(dá)到這個(gè)目標(biāo)，我們需要和硬件之間建立好的互動、并且有好的硬件架構(gòu)才行。為了當(dāng)大規(guī)模 AI 可以實(shí)時(shí)運(yùn)行，需要軟硬件協(xié)同設(shè)計(jì)，需要和硬件有更好的整合。現(xiàn)在人們用服務(wù)器組成云服務(wù)、用 GPU 等等，就覺得這個(gè)問題解決了，其實(shí)并不是這樣的。訓(xùn)練模型需要的時(shí)間還是太長了，我們需要走向下一個(gè)階段。

雷鋒網(wǎng) AI 科技評論：在機(jī)器學(xué)習(xí)模型的應(yīng)用中，結(jié)果的可解釋性是一個(gè)非常重要的方面。有沒有辦法改善機(jī)器學(xué)習(xí)模型的可解釋性？

Ghaoui 教授：這對我來說也是一個(gè)非常重要的問題。雖然我的演講中沒有提到它，但我覺得它同樣是目前的 AI 模型面臨的巨大挑戰(zhàn)之一。經(jīng)常來說，模型是一個(gè)黑盒子，它不會告訴你為什么判斷這個(gè)病人有這個(gè)疾病、或者這個(gè)司機(jī)是一個(gè)好司機(jī)或者壞司機(jī)、或者應(yīng)不應(yīng)該貸款給這個(gè)人。我覺得未來，為了讓人類和機(jī)器之間有更好的互動，我們有必要理解為什么機(jī)器做出了這些決定。當(dāng)前的 AI 很成功，比如在翻譯方面就是。它不會告訴我為什么把這個(gè)單詞翻譯成了另一個(gè)單詞，我自己不關(guān)心為什么，別的人也沒人關(guān)心。只要翻譯出的結(jié)果是好的，它就可以繼續(xù)是一個(gè)完全的黑盒子、完全復(fù)雜的系統(tǒng)，我也看不清、你也看不清，這都沒什么問題。但是對于某些任務(wù)，尤其是醫(yī)療保健中，我們需要了解基于這張大腦的圖像就判斷了這個(gè)人有沒有癌癥的原因是什么，AI 需要有能力說“它在這兒，而且我把它和這個(gè)和那個(gè)做了對比”。

所以可解釋性非常重要。但是現(xiàn)在的機(jī)器學(xué)習(xí)模型并不擅長被解釋，所以我認(rèn)為可解釋性應(yīng)當(dāng)有限于模型的選擇，因?yàn)檫@樣起碼可以有更好的解釋性。有一些模型是關(guān)注于解釋性的；有一些模型可能不那么復(fù)雜、沒有那么多的預(yù)定義，但是更好解釋。它們能告訴你做出決定是因?yàn)檫@個(gè)這個(gè)那個(gè)原因、是因?yàn)檫@五個(gè)特征，等等，所以這筆貸款沒有通過。

雷鋒網(wǎng) AI 科技評論：稀疏性、正則化和魯棒性之間有什么聯(lián)系嗎？能否給我們講一個(gè)您處理它們的故事？

Ghaoui 教授：這和剛才說的關(guān)于可解釋性的是一回事。我覺得如果 AI 模型中的規(guī)則太復(fù)雜了，那輕微改變圖像就會導(dǎo)致模型做出錯(cuò)誤的預(yù)測也是很自然的事情。這就是深度學(xué)習(xí)中缺乏魯棒性的體現(xiàn)。很多人都在研究這個(gè)問題，我覺得這對我的意義就是我們必須回到更簡單的模型上去，很高的表現(xiàn)如果很脆弱那也是沒有用的。輸入發(fā)生輕微的變化，模型表現(xiàn)就會變成零。所以我覺得我們不應(yīng)該僅僅關(guān)注高的模型表現(xiàn)，我們應(yīng)當(dāng)關(guān)注的是穩(wěn)定前提下的表現(xiàn)、是可靠的表現(xiàn)，不能太脆弱。

雷鋒網(wǎng) AI 科技評論：您也是航空航天領(lǐng)域的一名優(yōu)秀教師，這和 AI 領(lǐng)域之間也挺遠(yuǎn)的。這其中有什么聯(lián)系嗎？

Ghaoui 教授：我們前面討論過的一些想法，比如嘗試幫沃爾瑪解決問題、嘗試幫銀行解決問題等等，到了最后所有的模型都是一樣的，而且和駕駛飛機(jī)穿過一片霧非常相似。起飛、落地、穿過霧所有這些我的論文中研究的駕駛類型，實(shí)際上都和向未來做一筆投資有著一樣的數(shù)學(xué)模型。因?yàn)槠渲芯褪怯羞@些相似性，是同樣的問題、有著同樣的方程形式?，F(xiàn)在我已經(jīng)老了，1990 年代我年輕的時(shí)候航天還是當(dāng)時(shí)的熱門領(lǐng)域?，F(xiàn)在沒人想著它了，每個(gè)人想的都是 AI。當(dāng)時(shí)這就是我的起點(diǎn)，實(shí)際上它和 AI 很接近，所有這些問題都很相似。

雷鋒網(wǎng) AI 科技評論：您能介紹一些魯棒優(yōu)化的現(xiàn)實(shí)應(yīng)用嗎？

Ghaoui 教授：這其實(shí)不完全是屬于 AI 領(lǐng)域的技術(shù)。對我來說它是 AI 技術(shù)，不過它不是關(guān)于預(yù)測、判斷圖像或者其它什么東西的，它的重點(diǎn)在于控制。那么，魯棒優(yōu)化是一種你不需要完全清楚模型的樣子就能對它進(jìn)行控制的方法。比如你想做一筆投資，你就需要知道你所投資的商品在未來的價(jià)格是怎么樣的。在魯棒優(yōu)化中，你不需要確切知道接下來會發(fā)生什么，而這恰恰是實(shí)際生活中經(jīng)常出現(xiàn)的情況。在現(xiàn)實(shí)中，你從來都不知道未來會發(fā)生什么，所以你不應(yīng)該用機(jī)器學(xué)習(xí)預(yù)測未來會發(fā)生什么，而且還認(rèn)為它做出的預(yù)測是完美無缺的。這就好像，我在濃霧天里開車，如今的 AI 就好比透過濃霧看到路向一邊轉(zhuǎn)彎了，然后我就信任我的 AI 模型做出的預(yù)測，閉上眼睛，沿著預(yù)測出的彎去開。我們最好能夠記得，未來發(fā)生的事情可能會有誤差，你不是完全明白的，所以你今天做出的決定也必須要加入到考量中，因?yàn)槟悴⒉荒艽_切知道未來是什么樣的。對于 AI 來說，你也不應(yīng)該完全信任它的預(yù)測。

雷鋒網(wǎng) AI 科技評論：您這次來到中國的主要目的是什么？有什么您很感興趣的東西嗎？

Ghaoui 教授：我想說，我對這個(gè)積極為未來投資的國家非常著迷。這種特性也不只中國有，全世界都看得到，這是現(xiàn)代社會的一個(gè)積極建設(shè)力量。對于外國人來說，中國很值得敬仰，我也希望其它國家可以多和中國積極互動，我自己也會積極參與。我自己的目標(biāo)是通過我的公司、實(shí)驗(yàn)室等等一些建設(shè)性力量在學(xué)界和產(chǎn)業(yè)界展開合作、做出成果，希望能夠傳遞到我這一顆建設(shè)性的心。

雷鋒網(wǎng) AI 科技評論：在您之間的演講中，您曾經(jīng)說過即便是今天，工程和社會科學(xué)之間也有一些隔閡，尤其是在學(xué)術(shù)界。您對于在工程和社會科學(xué)之間建立新的互動模式有什么想法嗎？

Ghaoui 教授：沒錯(cuò)，在有了現(xiàn)代科技和 AI 之后，我們完全有可能用不同的辦法測量社會問題。我自己最喜歡的角度是通過文本。很多人都識字、很多人都知道如何閱讀文本。那你要如何處理知識、處理大量的文本、從文本里提取知識呢，我覺得這其中就是日常社會和 AI 之間的聯(lián)系的很好體現(xiàn)。舉個(gè)例子，我不懂中文，不過我們有翻譯技術(shù)。但是如果我有很多很多的文章，我也沒辦法把它們?nèi)糠g了再一個(gè)一個(gè)看。這件事還是太艱巨了，即便把許多中文文檔翻譯成了許多英文文檔，還是很難做。所以我認(rèn)為 AI 發(fā)展的下一步不僅僅是要翻譯，它還需要能壓縮、能總結(jié)，這樣我只需要閱讀 10 條新聞就好，而不是閱讀一百萬條。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點(diǎn)滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章

UC 伯克利優(yōu)化理論教授談深度學(xué)習(xí)：為了可解釋性，我們可能需要犧牲一些模型表現(xiàn)

UC 伯克利優(yōu)化理論教授談深度學(xué)習(xí)：為了可解釋性，我們可能需要犧牲一些模型表現(xiàn)