0
本文作者: 我在思考中 | 2022-11-14 10:22 |
作者 | AI 科技評論
編輯 | 陳彩嫻
隨著算力的日益提高和研究的不斷積累,深度學(xué)習(xí)的發(fā)展已經(jīng)走向應(yīng)用,給各行各業(yè)帶來了深刻的影響。如何從模型的設(shè)計和部署兩方面讓 AI 更加向善,這是構(gòu)建深度學(xué)習(xí)工具和使用工具的人都需要考慮的問題。
在這樣的背景下,三位圖靈獎獲得者 Raj Reddy、Yoshua Bengio、Yann LeCun 和 2011 年 ACM 計算獎得主 Sanjeev Arora,以及多位學(xué)者,在今年九月舉辦的第九屆海德堡獲獎?wù)哒搲蠋砹艘粓鲫P(guān)于深度學(xué)習(xí)的應(yīng)用與影響的討論。
Yann LeCun:我覺得有一個很籠統(tǒng)的定義,即通過組裝那些函數(shù)沒有被完全定義的組塊來組裝一個機器,然后通過使用梯度下降最小化某種目標函數(shù)來解決這些函數(shù)。
這個籠統(tǒng)的定義適用于很多情況,不僅僅是神經(jīng)網(wǎng)絡(luò),并且可能還與上世紀 50 年代的單一處理(single processing)和模式識別有共通之處。
這些年來,深度學(xué)習(xí)的概念已經(jīng)有所演變,也的確有人提議重新予以命名。可微分編程(differentiable programming)這個概念可以被泛化地理解為深度學(xué)習(xí),其含義是編寫一個程序,其中函數(shù)調(diào)用不被完全定義,而是在訓(xùn)練中加以調(diào)整。
Sanjeev Arora:我以前研究算法和計算復(fù)雜性,大約在 2011 年,就在深度學(xué)習(xí)爆發(fā)的前一年,我轉(zhuǎn)向了機器學(xué)習(xí)。
LeCun 剛才談到的范式是,你有一個成本函數(shù)(cost fucntion),并在過程中加以調(diào)整,這就是深度學(xué)習(xí)。問題是,成本函數(shù)并不能真正確定神經(jīng)網(wǎng)絡(luò)所做的事情,從相同的成本函數(shù)中,你也可以獲得其他很多東西。所以這種范式并不總是受到認可?,F(xiàn)在它在理論上已經(jīng)被證明了,其實是算法的隱式偏差。
目前我們還不清楚最底層發(fā)生了什么,所以我認為,如果僅使用成本函數(shù)來推理深度網(wǎng)絡(luò),可能是錯誤的,我們需要更多地了解黑箱內(nèi)部所發(fā)生的事情。理想情況下,我們?yōu)榇诵枰粋€更廣泛的關(guān)于訓(xùn)練算法的隱式偏見的理論。因為訓(xùn)練算法、架構(gòu)和成本函數(shù)組合在一起,才帶來了我們所看到的結(jié)果。我們并未掌握完整的理論,但這種理論是十分重要的,因為當前我們使用深度學(xué)習(xí)的主要方式是在無標簽數(shù)據(jù)的情況下訓(xùn)練模型,然后泛化到其他任務(wù)。這種方式不適用于任何現(xiàn)有的理論框架。所以我們必須真正深入黑箱。
Shakir Mohamed:我們有兩種理解機器學(xué)習(xí)的方式。一種是關(guān)于使用訓(xùn)練、算法、架構(gòu)和成本函數(shù);另一種是將機器學(xué)習(xí)理解為創(chuàng)建一個模型。模型是一種描述世界的方式,包括數(shù)據(jù)是如何生成的、我們?nèi)绾斡^察數(shù)據(jù)、我們期望看到什么樣的預(yù)測,這種方式我稱之為「推理」(inference)。
如何將數(shù)據(jù)轉(zhuǎn)化為更新參數(shù)的方式?對于任何推理方法,研究統(tǒng)計或概率的人通常使用的一種方法是最大似然。對于我們所使用的任何一種模型結(jié)構(gòu),都可得到一種算法。深度學(xué)習(xí)的魔力在于基于組合性、遞歸性、架構(gòu)深度、特定類型的損失函數(shù)、梯度下降算法,對特定類型的模型進行特定的選擇。
所以我認為,那些對概率感興趣、做推理思考的人應(yīng)該把分解作為其分析工具,即對于以下問題做分解:你正在建立的是什么模型?為什么要建立這個模型?將數(shù)據(jù)轉(zhuǎn)化為見解的推理過程是什么?你實際使用的算法是什么?
對于所有這些問題中的每一個,你都可以將其視為一個對象,對其做分析、做理論研究或是實證檢驗?;蛘吣阋部梢詫⑵浞旁谝黄鹧芯俊?/span>
我認為這種模型非常有用,它將機器學(xué)習(xí)理解為一個廣泛的領(lǐng)域。機器學(xué)習(xí)并不僅僅是獲取數(shù)據(jù)、跑代碼、使用 scikit-learn、做一些預(yù)測,要關(guān)心我們真正在做的是什么。
Yoshua Bengio:我非常同意 Shakir 和 Sanjeev 的觀點。我想強調(diào)的是,我們需要對我們在各種深度學(xué)習(xí)實現(xiàn)和架構(gòu)中投入的歸納偏差有更多有意識的理解。理想情況下,在設(shè)計階段,我們應(yīng)當考慮函數(shù)或分布空間中的偏好是什么,并將這些偏好引入到目標函數(shù)之外的學(xué)習(xí)中。這對設(shè)計下一代深度學(xué)習(xí)系統(tǒng)也有意義。
深度學(xué)習(xí)經(jīng)常被吐槽的一個點是它的推理能力。有一種觀點認為,深度學(xué)習(xí)不能像人類那樣做真正的推理,因為人類使用的是大腦中的某些神經(jīng)網(wǎng)絡(luò)。我同意,但我相信,可以通過引入歸納偏差,將結(jié)構(gòu)融入這些架構(gòu)和對象中,從而引發(fā)類似于人類的推理。
提問:我從事自動駕駛系統(tǒng)和自動駕駛汽車方面的工作,我有兩個問題,一是機器學(xué)習(xí)技術(shù)的可轉(zhuǎn)化性,另一個問題是如何把由感知系統(tǒng)產(chǎn)生的具體知識與符號知識聯(lián)系起來?自動駕駛汽車如何避免感知系統(tǒng)錯誤,比如變化的交通燈。這不會發(fā)生在人類身上,人有常識,有一個外部世界的模型可以將感官信息與符號知識聯(lián)系起來。
Yann LeCun:我回答第二個問題。將原始數(shù)據(jù)、感官數(shù)據(jù)轉(zhuǎn)換為符號表示或者符號類別或序列。這就是深度學(xué)習(xí)擅長的。但它仍然不完美,因為它可能非常脆弱,因為通常如果它通過監(jiān)督運行的訓(xùn)練,它將被訓(xùn)練用于特定任務(wù)。而就在這個任務(wù)之外,它不會工作得特別好。
我們還不太清楚我們是如何讓深度學(xué)習(xí)系統(tǒng)做推理的,目前有很多研究,實際上我寫了一篇關(guān)于觀點論文,幾個月前放在了網(wǎng)上,試圖解決讓推理與深度學(xué)習(xí)相兼容的問題。
因為深度學(xué)習(xí)是一種非常強大的技術(shù),我們需要讓機器去學(xué)習(xí)世界模型并獲得常識。
Yoshua Bengio:我確實認為有可能將符號知識與我們從數(shù)據(jù)中提取的知識聯(lián)系起來,例如設(shè)計不同的架構(gòu),并且將推理作為其中的重要組成部分。
深度神經(jīng)網(wǎng)絡(luò)的競爭力在于,我們將多個層和模塊組合起來,并開始有了注意力機制,但還需要更多動態(tài)組合,正確的知識或者是高級知識,甚至是符號知識需要被組合起來去做推理,這是未來我們利用注意力機制的一種路徑,不過這仍是一個非常開放的問題。
Sanjeev Arora:Yoshua 你談到了自治系統(tǒng),好像這些系統(tǒng)是在許多時間段或在無限的時間里運行,但我們還不清楚是否對系統(tǒng)的決策做出持續(xù)性的解釋,因為它是一個動態(tài)程序。而人類擁有解釋這些決策的所有捷徑,誰知道這些捷徑是否有用?
Yoshua Bengio:你在不同的國家只能靠左行駛或靠右行駛,我們可以對符號規(guī)則做類似的處理。
Sanjeev Arora:是的,但還有一個問題是,當你說到動態(tài)決策時,并沒有簡潔的解釋來理解為什么它是正確的。
Been Kim:以某種方式將符號邏輯與深度學(xué)習(xí)架構(gòu)相結(jié)合,對于解釋能力和可解釋性方面的研究非常有用。但我認為,我們有一個錯誤的假設(shè),即在我們的世界中,存在于人類身上的符號足以理解復(fù)雜的自動駕駛汽車和其他復(fù)雜系統(tǒng)。在這種假設(shè)下,問題就變成了如果我們要將這個復(fù)雜的神經(jīng)網(wǎng)絡(luò)正在做的事近似為對我們有意義的符號,這種近似是否足夠好?我們?nèi)绾闻袛嗨螘r不夠好?為什么會失敗?如果失敗了,它會告訴我們?nèi)绾涡迯?fù)嗎?我認為這是一個非常重要的問題。
提問:請問 Bengio 教授,您提到了推理和歸納偏差的必要性,我個人更多是在適應(yīng)不同模態(tài)的空間中處理歸納偏差,我想知道您在這方面是怎么做的。
Yoshua Bengio:我們在人類推理中看到的一些歸納偏差涵蓋了這樣一個事實:當我們在高層次上進行推理時,我們在建立概念之間的因果關(guān)系、概念之間的關(guān)系,并形成一個非常稀疏的圖(graph)。如果我丟下一個球,它就會落在地面上,像這樣非常準確的預(yù)測是在高層次上的,涉及的變量很少,這就跟你在像素級別上能夠執(zhí)行的操作非常不同。
此外,在這個高層次上,我們重復(fù)使用這些概念和組件來形成新的序列、新的意義,我們還不知道如何做好重用動態(tài)和重組,但我們可以將這種歸納偏差設(shè)計到神經(jīng)網(wǎng)絡(luò)中。
人類高層次理解的另一個方面是因果關(guān)系,因果關(guān)系在分布泛化和我們關(guān)于意圖的思考方面起作用,意圖也就是人類想要做的事情以及在高層次上與干預(yù)相關(guān)的行為,所以這跟強化學(xué)習(xí)有很多關(guān)聯(lián)。我們還需要做更多的工作,去將歸納偏差它們整合到架構(gòu)和訓(xùn)練對象中。
人類擅長推論和推理,但我們并不是完美的推理機器,理解我們失敗的推理模式也很重要。我們或許可以從生物學(xué)中獲取線索,幫助我們探索如何將這些歸納偏差引入神經(jīng)網(wǎng)絡(luò)。
提問:自成立以來,ICLR 的開放式同行評審方法都非常特殊,這對于 AI 領(lǐng)域?qū)W術(shù)研究發(fā)展是否產(chǎn)生了影響?ICLR 最早的大會主席 Yoshua 和 Yann 都在這里,我們先從 Yann 開始。
Yann LeCun:2000 年底到 2010 年初,當時人們謹慎地討論該怎么正確地進行同行評審,計算機科學(xué)會議的同行評審頗有些隨機,但這不能怪罪于執(zhí)行同行評審的人,因為這就是它的本質(zhì),而且這個領(lǐng)域的快速發(fā)展也決定了這一點,大多數(shù)人在領(lǐng)域內(nèi)的經(jīng)驗都是有限的,所以大多數(shù)審稿人有時會是博士生,有時是碩士生。他們更多是要找出一篇論文的缺點而非優(yōu)點,而且不得不拒絕很多論文,我們很多人都為此感到內(nèi)疚。
我跟 Yoshua 已經(jīng)討論了幾次,論文或預(yù)印本與在出版機構(gòu)或評審機構(gòu)之間的壟斷關(guān)系已經(jīng)被打破,所以任何評審機構(gòu),無論是會議還是期刊,都可以評審任何論文,并且任何論文也都可以請求評審機構(gòu)進行評審。如果您想要獲取見解和評論,同行評審就像是一個開放的市場,準確度、預(yù)測性或信譽度,對評審機構(gòu)都有提升作用。
我在我的網(wǎng)站上寫了一篇關(guān)于這個的文章,并在馬薩諸塞大學(xué)阿默斯特分校和 David McCallum 討論,他正在做 OpenReview 的工作,OpenReview 相當于是一個實施同行評審的基礎(chǔ)設(shè)施。
根據(jù)pin實體的準確度或預(yù)測性,或者類似的東西或它們的信譽度來提升審查實體。所以我在我的網(wǎng)站上寫了一篇關(guān)于這個的文章,然后開始和大衛(wèi)麥卡勒姆討論你。U mass,amherst,因為它正在開展公開審查,公開審查基本上是可用于實施這些想法的基礎(chǔ)設(shè)施。
2013 年,我們停止了運行了十年的 wrokshop,并開始啟動 ICLR。我們詢問 OpenReview 我們能不能實施同行評審系統(tǒng),實際上并不可能實施整個系統(tǒng),但我們?nèi)〉昧艘恍┏晒Α?/span>
重要的是,評審是開放的,所以評審人會寫評論,并被所有人看到,提交的論文也是所有人可見。這不是雙盲,而是單盲,官方審稿人是匿名的,但是任何人都可以選擇在自己的名下為所有論文寫評論。
有一位對這個過程感興趣的社會心理學(xué)家進行了一項調(diào)查,比如詢問人們與經(jīng)典模式相比會更喜歡這種模式嗎?他們都回答是的,這個結(jié)論非常明確。
但最終當其他人組織 ICLR 時,我們并不能去告訴程序委員會該如何組織會議,因為他們是志愿的角色。所以評審過程又逐漸地越來越接近于更傳統(tǒng)的模式,除了 OpenReview 得以保留。
而現(xiàn)在,其他會議也都轉(zhuǎn)換到這種模式,包括 NeurIPs 和 ICML,我認為這是一個進步。在開放性的另一個方面,我認為 Yoshua 和我對激發(fā) AI 社區(qū)研究的的快速發(fā)表產(chǎn)生了重大影響。有這樣一句話:早發(fā)表,多發(fā)表。論文可能有錯誤,但是沒關(guān)系,有機會糾正。
提問:Yoshua,結(jié)合你在 ICLR 的經(jīng)驗,對于那些除了自己的研究之外還參與組織工作的年輕研究人員,你有什么要做和不要做的建議?
Yoshua Bengio:我先就 Yann 的回答再補充一些背景。機器學(xué)習(xí)研究者社區(qū)幾十年來在開放科學(xué)和開放出版方面一直是積極分子,我和 Yann 一直在推動 ICLR。
在 1999 年左右,《機器學(xué)習(xí)期刊》(Machine Learning Journal)的委員會發(fā)生了一場小革命,委員會成員和研究者包括我自己在內(nèi)都在推動更多的開放獲取,但是談判并沒有成功,委員會的很大一部分成員離開了。我們創(chuàng)辦了現(xiàn)在機器學(xué)習(xí)旗艦期刊——The Journal of Machine Learning Research (JMLR),是社區(qū)管理的非營利組織。
有時科學(xué)上的需要和科學(xué)家尋求的真理價值觀以及為社會做一些積極的事情,并不總是與利潤最大化相一致。我認為有理想的年輕人,例如發(fā)起 Climate Change AI (CCAI) 的小組,在會議上申請組織研討會,通常是年輕人新群體將精力投入到這些事情中。有時他們可以自己創(chuàng)辦一個會議,要做到這一點需要付出工作和努力,需要召集一大批關(guān)心這個話題的人。
Yann LeCun:谷歌學(xué)術(shù)顯示,自 2013 年以來,ICLR 在所有出版機構(gòu)影響力排名中已經(jīng)位列第七位,領(lǐng)先于 PNAS,這是非常了不起的,這要歸功于完全開放的評審過程。
提問:現(xiàn)在模型越來越大、越來越復(fù)雜,而大模型會消耗更多的能量和資源。隨著時間的推移,這會導(dǎo)致氣候越來越糟糕,而且模型似乎不會停止變大。在嘗試構(gòu)建更高效的模型時,是否有任何工具、程序或其他措施來防止這種情況發(fā)生呢?
Sanjeev Arora:我們可以從訓(xùn)練和部署兩方面來看,在部署階段,我們可以使模型更加緊湊,但在訓(xùn)練方面,我們確實傾向于把模型做得越來越大。
Yann LeCun:其實分三類,有研究培訓(xùn)、生產(chǎn)培訓(xùn)以及部署。部署是迄今為止最大的能源消耗源。有一篇非常有趣的論文,是谷歌的員工做出了某種預(yù)測,預(yù)測關(guān)于在谷歌這樣的在線服務(wù)中花費在 AI 上的能源與其他所有能源的比例是多少。事實上比例不是很大。所以能源消耗的數(shù)字正在變大,但它變大的速度不是很快。目前,這個數(shù)字大概是 15 - 20%,而且不會超出這個范圍,因為受到了經(jīng)濟的限制,而且所有那些大公司都在能源上花費了大量的錢,這意味著他們有巨大的動力去節(jié)省能源。
Been Kim:蒸餾是一個可以關(guān)注的關(guān)鍵詞。蒸餾可以將復(fù)雜網(wǎng)絡(luò)變得更小、更易于理解、更稀疏。稀疏網(wǎng)絡(luò)也是一個值得關(guān)注的關(guān)鍵詞。而且我還想補充一下,在制作、部署模型的時候,在像谷歌這樣的公司中,簡化模型這一點是非常重要的。因為模型越復(fù)雜就越難維護,更難理解,即便對我們來說也很難。因此,我們一直在努力把模型做得更好、更簡單。
Yann LeCun:有非常龐大的工程師團隊投入所有精力去做這個工作,他們的努力使得部署中的推理更加高效。
提問:有一個相關(guān)的問題是,我們?nèi)绾未_保有相關(guān)的激勵措施使人工智能的進步能夠直接解決氣候危機方面的問題?
Shannon Vallor:我認為有必要考慮一下,當我們還不能將 AI 用于所有事情的時候,我們要使用 AI 來優(yōu)先解決什么問題?氣候危機的加速速度比預(yù)期的要快,影響正變得比預(yù)期的更嚴重。所以我認為我們需要確保對人工智能應(yīng)用和部署的投資激勵與應(yīng)對氣候危機的需要相稱 。
Yann LeCun:谷歌 Alphabet 和我在使用人工智能應(yīng)對氣候變化方面有合作過一些項目。例如我們做了一個開放式協(xié)作項目,其想法是使用人工智能來找出有效地將氫與氧從水中分離出來的方法。
只要能有效地大規(guī)模儲存能量,我們就有了應(yīng)對氣候變化的解決方案。我們可以用太陽能電池板覆蓋一個小沙漠,用水產(chǎn)出氫氣后,將能量以甲烷的形式運送到需要的地方。從此我們將不再需要化石燃料。該項目僅活躍了大約一年,但它是一個任何人都可以參與的開放項目。我認為人工智能在材料科學(xué)和化學(xué)中的應(yīng)用非常有前景。
Yoshua Bengio:我們的確采取了某些措施,但正如 Shannon 所說,這些措施還不夠。要解決這個問題的話,必須要由政府來推出政策。能夠解決這個問題的不是個人,甚至不是個別公司,而是政府。只有政府能在地球的層面上用最理想的方式做到。我們需要鼓勵政府。而且這么做不僅僅是因為氣候,我在傳染病、醫(yī)療等領(lǐng)域也遇到過類似的問題。
視頻鏈接:https://www.youtube.com/watch?v=dyOxLRr_Zbs
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。