丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

本文作者: 我在思考中 2021-12-16 11:12 專題:GAIR 2021
導語:算法的基本原理、性質與中國文化之間究竟有何聯(lián)系?
香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

算法受到自然界和人類生活的啟發(fā),是科技的一部分。由于計算機已被廣泛用于解決人類的日常問題,算法在快速發(fā)展,對人類和自然界的算法思考也變得普遍。那么,算法的基本原理、性質與中國文化之間究竟有何聯(lián)系?

作者 | 杏花

編輯 | 青暮

12月9日,第六屆全球人工智能與機器人大會(GAIR 2021)在深圳正式開幕,140余位產學領袖、30位Fellow聚首,從AI技術、產品、行業(yè)、人文、組織等維度切入,以理性分析與感性洞察為軸,共同攀登人工智能與數字化的浪潮之巔。

大會次日,香港科技大學(廣州)教授,IEEE/AAAS Fellow熊輝教授發(fā)表了題為《人工智能算法中的人性和社會性》的演講,從算法的人文及社會意義層面進行了探討。熊教授結合《易經》中的“不易”、“簡易”以及“變易”思想對算法在促進人類社會發(fā)展、創(chuàng)新中的作用進行了解讀。

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

熊輝教授

在此次演講中,熊教授向與會者分享了一些關于算法中人性和社會性的個人想法,闡述了算法的基本原理、性質與我們熟知的課堂知識、日常經驗和中國文化之間的聯(lián)系。

例如,對于GAN算法中的判別器,熊輝教授是這樣解釋的:

“就好比有個非常好的老師指導學生學習的內容和學習的方向?!?/span>

再如對不同聚類方法特點的形象描述:

“分層級的聚類就像資本主義的市場經濟,它在早期和中期會產生一些問題,這些問題還會逐漸累積;K-means是社會主義,兼顧公平但在一些問題上不符合現實。有沒有辦法把兩種方法的優(yōu)點融合起來呢?這就是我們的‘中國特色社會主義’?!?/span>

以及用易經中乾卦的爻辭解釋來講算法的“中庸之道”:

“九五是飛龍在天,古代帝王說自己是九五之尊,因為九五卦是至高點,九六就是亢龍有悔。(我們做算法做到)飛龍在天就完美了,再往上就是Overfitting(過擬合),往下就是Underfitting(欠擬合)。”

熊輝教授的講解生動易懂,娓娓道來,贏得在座掌聲不斷。

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

熊輝教授現為香港科學技術大學(廣州)講席教授,人工智能學域主任;曾在學術休假期間擔任百度研究院副院長并主管5個實驗室。

熊教授獲得的部分榮譽包括AAAS Fellow、IEEE Fellow、ACM杰出科學家、中國教育部長江講座教授、中國國家基金委-海外及港澳學者合作研究基金、哈佛商業(yè)評論2018年“拉姆·查蘭管理實踐獎”-全場大獎、ICDM-2011最佳研究論文獎、和AAAI-2021最佳論文獎。

以下是演講全文,AI科技評論做了不改變原意的整理:


1

GAN與師生

今天演講的主題是《人工智能算法中的人性和社會性》。此前一年,我一直在美國。這期間,我將人工智能的很多經典算法進行了審視與回顧,以人性和社會性的角度反思了這些算法與人類的關系,感慨良多,于是整理成報告與大家分享。

感謝我之前指導過的17位學生(有一位今年畢業(yè),照片沒放PPT上),他們現在大多都在學術界從事研究工作。前三位都已獲得終身教授的榮譽,也有一些學生在工業(yè)界,還有些在創(chuàng)業(yè)。

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

首先,作為引子我先介紹GAN算法。

我們知道,對抗生成學習方法可以產生很多虛擬數據,比如人臉。此外,GAN還在其他場景中發(fā)揮作用,比如"時光機",當我們給出一個人18歲的照片,GAN算法可以預測這個人年老時的樣子。

在百度期間,我們進行了一些有趣的工作,例如,走失兒童的問題前些年較為嚴重,近年已大幅減少,因為天眼系統(tǒng)日趨成熟。但天眼系統(tǒng)還未普遍應用的時候,走失兒童的找回是個大問題。當兒童走失且若干年沒有回家,其樣貌會隨年齡發(fā)生改變。

我們的系統(tǒng)可以根據孩子童年的照片,生成如今的樣子,然后將當前生成的樣貌進入公安系統(tǒng)數據庫中比對查找。鎖定一些范圍的人群后,再進行DNA的測試比對,從而找到走失兒童。這種應用十分有效,并且具有人性和社會意義。

這種算法和人性甚至社會性有何關聯(lián)?我想先介紹兩個概念。

我們在進行監(jiān)督學習時,有兩種思路,一種是Discriminative,即差異性的、差分式的方法。還有一種是Generative,即生成式的。下面我們舉例來理解這兩種方法的差異所在。

假設一個場景中有兩個外國人,如何判斷他們是否在使用韓語?

按照Discriminative的思路,我們可以找一些韓劇,觀察演員的發(fā)音和語氣。當我們大概知道韓語的發(fā)音模式時,再去聽這兩位外國人的對話,便可以判別他們是否使用韓語。雖然我們不知道談話內容,但可以快速判別口語種類。

還有一種是生成式的方法,在同樣的場景中,為了判別兩位交流者所使用的語言是否為韓語,我們可以報班學習,學會后就可以判斷這兩位外國人說的是否為韓語,此外還可以對談話內容加以理解。

這兩種方法各有利弊,前者更為快速,后者則需要我們付出時間和精力進行系統(tǒng)的學習。那么,是否有一種學習方式融合兩者的優(yōu)勢呢?生成式學習便是這樣的方法,這也是其最顯著的優(yōu)勢之一。

但這和我們的人生有何關系?

站在個人的層面,我們也需要一個很好的判別器。不同的人有不同的經歷和選擇,有些人成功有些人失敗,主要在于他們使用的判別器。這個辨別器告訴個體在什么時候應該進行怎樣的生成式學習。

也就是說,我們需要一個良好的導師。好的導師能讓我們走在光明大道上;不好的導師則放任我們自由生成,甚至走在錯誤的生成式學習道路上。

人生在世,就像進行一次漫長的生成式學習。如果我們有一個好的生成式判別器,這個判別器可以是導師、偶像、家長、甚至是我們追逐的對手。因此,對抗學習融合了生成式和判別式學習的優(yōu)點,它總是在尋找一個極佳的判別器,讓我們走在正確的軌道上,讓我們的資源用在正確的方向上。算法之所以有用,很大程度上是因為它從生活中來,抽象了我們的經驗和哲理。


2

AI與易經

當我站在一個比較系統(tǒng)的宏觀角度來觀察所有的算法時,我用易經的理論對它們進行了梳理,將它們分成三個主要類別:不易、簡易和變易。這里,我們所說的"易"是指變化。

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

“簡易”,就是我們常說的大道至簡,可以幫助我們洞悉事物的本質。事物的本質就是“不易”,是萬事萬物中恒定不變的東西。

比如,我曾在百度做過一項開發(fā),幫助我拿到了哈佛評論的獎勵。在這個智能化專業(yè)系統(tǒng)中,我涉足的是人力資源領域。其實學習人力資源并不困難,它只是一個行業(yè)知識基礎,任何行業(yè)都有其"不易"的東西。

但如果我們的方法不對,學習可能會很難。我們需要把握住人力資源中恒定不變的那些"根本性知識樹"。比如對企業(yè)、對團隊、對個人的管理。如何把握這些根本性的東西,就是我們學習的難點。

我們的算法都可以從這些角度出發(fā)對問題進行審視。比如,對于監(jiān)督式學習,如果想訓練一個蘋果香蕉的分類器,這之所以在技術上是可行的,主要是因為蘋果和香蕉分別有著它們特有的、恒定不變的根本屬性。

如果香蕉整天變化,算法就沒法對其進行預測和識別。我們的算法主要是捕獲這些不變的"根本"。只有捕獲到這些,才能實現目標任務。

比如,我曾在百度進行員工的離職分析。一些HR問我這個事情是否具有可預測性?我說肯定可以,因為它有不變的根本——當我們準備離職時,心就不在公司了,工作狀態(tài)就會發(fā)生變化。工作狀態(tài)改變時,一定會在數據上表現出來。如果能抓住這個根本,就能預測離職。

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

很多人都覺得CNN不具備可解釋性。但是從更高層級來說,黑盒一樣的CNN也有其不變的根本。

例如手寫字母的識別,對于一個X,我們可能根據心情、疲勞和習慣把X寫成各種姿態(tài),但機器判斷的時候,其實都可以發(fā)現一些共性的東西,比如圖中的紅色和黃色小塊,就算手法、字跡不同,它們也會恒定出現。這些就是Kernel(核心),即不變的根本。

CNN的任務就是去捕獲這些Kernel,一旦捕獲住,不論字體寫成什么樣,有這些Kernel在,CNN都可以將其識別。

這就是通過"簡易"尋找不變特性的過程。這個例子中,卷積計算就是"簡易",目的是捕獲"不易"。但由于隨機性,一些Kernel的表現并不完美,因此就要進行一些模糊化的Pooling操作。Max Pooling也是一種"簡易",目的是讓“不易”凸顯出來,讓Kernel更顯眼。

所以,傳統(tǒng)的CNN-Pooling組合背后的原理就是通過"簡易"尋找"不易"的過程。機器學習另一個常用的工具是集成學習,它的意義是什么呢?

舉例來說,一位VIP病人想知道自己是否罹患某種疾病,這時醫(yī)院會召集多位臨床專家共同探討病情,并通過投票給出最終診斷結果。在很多機器學習競賽時,我們都會用集成學習來提升算法效果。這其實就是民主投票,讓多數人認可的結果作為最終輸出。

這樣的民主投票好處很明顯。比如我有25個基分類器,每個分類器的誤差都是0.35,那么集成學習能將誤差降至0.06。

但集成學習也是有前提的。想讓集成學習的投票成立,每個基礎分類器都必須獨立。即每個人的決策都必須不受他人影響。

第二個前提是,每個基分類器都要足夠聰明。每個人對事物的認識起碼要優(yōu)于隨機猜測,這就是投票機制的民主基礎。所以一人一票并不一定是好的機制,不談前提的投票,就是耍流氓。

這兩個前提的必要性可以從數學上證明。

因此,從社會學的角度,投票之前要先看人口結構。如果人口結構太差,那投票就相當于讓一堆隨機猜測甚至低于隨機猜測的基分類器投票,其結果會更糟。只有在"足夠聰明"的人群中進行投票才是有意義的。

如何判斷人群是否足夠聰明呢?可以看人群中是否有足夠數量的中產階級,且每個人都要有獨立的思考能力和選擇投票的權利。

所以,算法和社會的運轉形態(tài)一樣。

有時我會感慨,和懂算法的人溝通十分順暢,因為可以類比。只要我們認可算法的證明過程,將其應用于社會與人生,就無需贅言。

上面我們介紹了“不易”,接下來說“簡易”。

“簡易”包含很多東西,比如注意力機制(Attention)、聚類(Clustering)、規(guī)則化(Regularization)等等。它們都是“簡易”的過程,目的是讓我們聚焦到事物的本質——“不易”。

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

近年,我們一直在說大數據,但不意味著數據越多越好。大數據帶來最好的提升是讓其"不易"的本質更容易被捕獲。但如何捕獲這些本質呢?

比如,聚類是最簡單的“簡易”方法之一,將相似的東西組合在一起,再轉化成一些優(yōu)化問題,讓類間的差異最大化,類內的誤差最小化。這可以幫助我們進行知識的總結,而總結有助于我們理解。舉一個簡單的例子:

公司有5000萬個客戶,老板讓我們分析這5000萬個用戶處于怎樣的生態(tài)。我們通過聚類分析,可以將他們分類:第一類對錢不在乎。他們可能會買兩張同個運營商的卡,還都買了無限流量的套餐,而且就擺著不用。這樣的用戶在公司眼中是最好的,因為他們付了最貴的代價,卻占用最少的資源。

還有一類是需要公司賠錢的用戶。他們會最大限度利用套餐中的服務,100分鐘的通話肯定用到99.99為止。這樣的用戶會給公司的運維造成較大的負擔。

進行了這樣的聚類后,就能對用戶歸類并分別管理。這個例子的目的是說“簡易”的意義。簡易有兩種方法,一個是分層次的,一個是Partitional聚類。分層的方法主要是產生分層的聚類理解。

它的好處是不用預先設定聚類結果的數量,而且有利于自然形態(tài)最終態(tài)的形成。這很像原始資本主義的市場經濟,讓企業(yè)自由競爭,互相吞并,不強加干涉,這就是一個自然的狀態(tài)和結果。

它的缺點是什么呢?由于缺乏全局的指導(損失函數),它在早期和中期會產生一些問題,這些問題還會逐漸累積。這就是分層次的聚類方法的問題。

相對應的,我們一看K-means,就覺得像最初的社會主義形態(tài)。在這里我們首先需要一個中央全權負責周圍的統(tǒng)治,并且規(guī)定好最終的簇數量,然后再按最優(yōu)函數進行分配。

但其問題在于什么?比如我們國家,漢族人口占到90%以上,但我們卻說有56個民族,在使用K-means進行民族劃分時,就會有很多漢族人被分成壯族、苗族、維吾爾族人等等,這就不符合現實。

因此,分層級的聚類和K-means的方法各有利弊,能否將其融合起來呢?

這就是我們的“中國特色社會主義”,既能兼顧市場經濟的靈活性,又能融合社會主義的大局領導力。

在算法中,為了克服不同數據的規(guī)模和密度差異,我們會首先將目標數量定高,然后發(fā)揮K-means的公平性特點,保證每個小類中的對象聚于一堂,這就是"兼顧公平的市場經濟"。

每個小類再使用分層次的方法進行市場競爭,讓它們自由融合吞并,最終大類和小類會呈現更好的、更自然的分布。

除了中國,北歐也將資本主義進行了改良。他們的改良資本主義也是將分層級和K-means的思路進行兼容??偟膩碚f,社會和科學相輔相成、相互借鑒和促進交叉。

但話說回來,“簡易”必然帶來信息的缺失。信息丟失可能帶來一些問題,比如“簡易”后,原本三維的信息映射到二維空間,我們看到二維信息時很可能會"浮想翩翩"。因為它的信息本不完整,比如圖中的男女,我們看這張圖總覺得他們之間有點什么問題,但當恢復成三維的樣子,卻發(fā)現他們毫無瓜葛。

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

這提示我們不要在“簡易”時丟掉了“不易”。最后講“變易”,這里面的代表性算法是強化學習。

我們都聽說過內卷,這里有兩個概念,一個是Exploitation,中文就是內卷。為什么有內卷?是因為我們每個人都想活在自己的舒適區(qū),不愿破圈。當很多人都不愿破圈,就形成了內卷。

為了避免內卷,我們要做Exploration,就是去破圈。比如,在給學生尋找研究方向時,我說推薦系統(tǒng)領域已經有內卷的趨勢了,我們突破一下,去做人力資源的人才推薦。因此,同樣是做推薦算法,研發(fā)傳統(tǒng)推薦的人和我們沒有競爭,人力資源的研究人員也跟我們沒有關系,這就找到了新的天地,避免了內卷。

當我們開辟了一個新領域時,就像挖了一個坑,很多人也想涌進來分一杯羹。但不怕,我們繼續(xù)開辟新領域即可。

因此為了避免內卷,我們要在Exploration和Exploitation之間找到有機的平衡。這個平衡是什么呢?就是強化學習算法。

強化學習算法首先有兩個本體,一個是Agent,另一個是環(huán)境。Agent能感知環(huán)境的狀態(tài),之后可以采取一些動作,比如砍樹。當樹砍光,環(huán)境變差,就會通過Reward來懲罰Agent。如此一來,人類就知道樹砍多了環(huán)境就變差了。因此,不僅不要砍樹,還要去植樹,從而形成一個循環(huán)。人類不斷感知環(huán)境并采取行動,這就是強化學習算法。

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

強化學習的優(yōu)點在于,它能在錯誤中學習,不斷試錯迭代,在內卷和探索之間取得很好的平衡。

算法其實很美,人類一直在藝術和科學之間進行拔河。例如,微積分。如果我們想估計一條曲線下的面積,微積分會進行近似。但不論多精確,都會有差異。那么這個差異就可以用藝術彌補。這也是不同機器學習煉丹師效率的差異核心所在。有的人可能上手一天就能完成任務,有的人可能三個月也束手無措。

其根本原因在于"藝術感"上的差異,后者缺乏一點"感覺",即那種看山是山,看山不是山的inside-out的經驗和大局觀的藝術感。只有當我們了解了算法中的人性和社會性,才能發(fā)揮算法的藝術性。

此外,做算法一定要有"中庸之道"。機器學習需要在偏差(Bias)和方差(Variance)之間取得平衡。前者會導致過擬合,后者則欠擬合。

那么,機器學習的"中庸之道"是什么意思?我們不論使用早停、L1/L2損失都是為了達到Bias和Variance之間的最優(yōu)點。這就像易經的"乾卦",它分為前卦后卦、內卦外卦。

我們知道初九叫做潛龍勿用,意思是我們在學習時不要朝三暮四,就安心學習。學完之后,我們可以初出茅廬,顯龍在田,小試牛刀,就像很多老師努力獲得“優(yōu)秀青年”稱號。之后有人可能開始得瑟,這時就會進入九三。我們應該做到終日潛潛,也就是小心謹慎,避免槍打出頭鳥。

有的人可能一輩子都在下卦,上不到上卦。此時一部分人能夠從九三跨越到九四。九四再往上就是飛龍在天。很多古代帝王說自己是九五之尊,因為九五卦是至高點,九六就是亢龍有悔,比如袁世凱,他非要稱帝,就物極必反,遺臭萬年。

所以,“飛龍在天”就到完美了,再往上一步,就過擬合了,再往下可能就處于欠擬合的狀態(tài)。因此,如果想真正做好算法的應用,一定要把領域知識和專業(yè)知識結合,明白什么是“不易”。領域知識能告訴我們“不易”是什么、在哪里,然后做到藝術和哲學的有機平衡。

雷峰網(公眾號:雷峰網)雷峰網


雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

香港科技大學(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說