丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

本文作者: 叢末 2018-09-14 09:58
導語:關(guān)于 N 維數(shù)據(jù),物理學告訴我們:低維空間只能觀察到高維空間在本維度的投影。既然我們本身的維度無法增加,那么就只能想辦法把數(shù)據(jù)的維度降低了。

相信大多數(shù)人都已經(jīng)接觸過數(shù)據(jù)可視化——Excel 隨便畫一張表就是了。眾所周知,二維數(shù)據(jù)可視化很容易,條形圖、餅狀圖等等,我們在初中就已經(jīng)學過了。那么三維數(shù)據(jù)呢?可能有些接觸到音頻產(chǎn)品的朋友會說瀑布圖,很好。而 N 維數(shù)據(jù)呢?物理學告訴我們:低維空間只能觀察到高維空間在本維度的投影。既然我們本身的維度無法增加,那么就只能想辦法把數(shù)據(jù)的維度降低了。

數(shù)據(jù)降維的基本原理是將樣本點從輸入空間通過線性或非線性變換映射到一個低維空間,從而獲得一個關(guān)于原數(shù)據(jù)集緊致的低維表示。它一方面可以解決“維數(shù)災難”,緩解“信息豐富、知識貧乏”現(xiàn)狀,降低復雜度;另一方面可以更好地認識和理解數(shù)據(jù)。

 截止到目前,數(shù)據(jù)降維的方法很多。我們可以從不同的角度入手進行不同的分類,主要分類方法有:根據(jù)數(shù)據(jù)的特性可以劃分為線性降維和非線性降維;根據(jù)是否考慮和利用數(shù)據(jù)的監(jiān)督信息可以劃分為無監(jiān)督降維、有監(jiān)督降維和半監(jiān)督降維;根據(jù)保持數(shù)據(jù)的結(jié)構(gòu)可以劃分為全局保持降維、局部保持降維和全局與局部保持一致降維等等。

近日,在雷鋒網(wǎng) AI 研習社公開課上,澳大利亞國立大學信息技術(shù)專業(yè)學生陳陟原就分享了數(shù)據(jù)降維與可視化的相關(guān)內(nèi)容。公開課回放視頻網(wǎng)址:http://www.mooc.ai/open/course/526

陳陟原:澳大利亞國立大學信息技術(shù)專業(yè)學生?,F(xiàn)在在北京大學做國際暑期教學助理。曾加入雷鋒字幕組翻譯過 CS231n 斯坦福李飛飛計算機視覺課程和 CS224n 自然語言處理。

分享主題:數(shù)據(jù)降維與可視化

分享大綱:

? 高維數(shù)據(jù)實例&高緯度空間模型

? 維數(shù)災難&降維為什么如此重要

? 常用的線性和非線性降維方法

雷鋒網(wǎng) AI 研習社將其分享內(nèi)容整理如下:

我是陳陟原,澳大利亞國立大學信息技術(shù)專業(yè),目前方向是高性能計算,現(xiàn)在在北京大學做國際暑期教學助理。曾加入雷鋒字幕組翻譯過 CS231n 斯坦福李飛飛計算機視覺課程和 CS224n 自然語言處理。今天要跟大家分享的是流行學習:數(shù)據(jù)降維與可視化。

我前段時間去了一次上海,見了一下之前關(guān)系很好的學長以及一些澳國立的校友。

在和他們吃飯的時候我們討論了很多工作方面的問題。其中有一個在銀行工作的學長就跟我說起現(xiàn)在 BI 如何如何啊,數(shù)據(jù)可視化怎樣怎樣啊。

這也是為什么今天我想跟大家聊聊數(shù)據(jù)可視化。這里雖然我已經(jīng)假設大家都有機器學習背景,但考慮到現(xiàn)在全民機器學習,這里應該也還有非計算機、數(shù)學專業(yè)的聽眾,他們沒有足夠的基礎(chǔ),因此今天的講座不會很深,我只是跟大家淺顯的介紹一下。有什么問題也歡迎大家課后與我聯(lián)系,也可以在網(wǎng)上找一些更深入的資料。

我在這里用了網(wǎng)上找的一張圖,題目是大家可能都會比較感興趣的——智能手機出貨量。

 陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

在這張圖當中,橫軸是月份(時間),縱軸就是出貨量。它是一個十分完美的數(shù)據(jù)可視化例子,這樣的圖相信大家兩分鐘能做一堆。

所以,我想也沒什么要跟大家分享得了,本次講座到此圓滿結(jié)束,感謝大家的參與。希望大家能繼續(xù)支持雷鋒,繼續(xù)支持 AI 研習社。

--當然,這是不可能的。

子曰:「一個好的講座,應該從視頻開始」。雖然說現(xiàn)在講座已經(jīng)開始 2 分鐘了,但也不算太晚。

這個視頻其實有五年的歷史了,是當時 IBM 為了宣傳智慧星球制作的,可見他們這種全民機器學習開始的時間有多早。我很希望大家都聽懂了這個視頻,因為我也沒有找到字幕。

該視頻主要介紹了 IBM 的機器學習如何提高這家面包店的銷量——重點是,數(shù)據(jù)。

對于面包店來說,影響銷量的因素有很多。比如說,外面的溫度、濕度、降雨量——僅僅是天氣就已經(jīng)不止三個維度了,還有堵車情況(出門晚了來不及吃早飯),甚至世界杯的成績都會對它產(chǎn)生影響。所以,我們要畫一張怎么樣的圖來把這么多維度的東西都扔進去呢? 陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

上面這張圖最左邊是零維,點。后面依次為:一維,線;二維,面;三維,體。而最后的這個四維,叫正方……正方什么來著?反正,它叫什么不重要,重要的是它是四維的。我不知道有沒有人看過《三體》,它最后一本書中對四維有一些描述。這是個不存在于三維空間的角度,既然不存在,我們也不可能看得到而只能去想象。

大家記住這點就夠了,有人讓你做個面包店銷量的可視化,你就甩他一臉這種圖,說:你自個兒去想象吧。

說正經(jīng)的,就為了畫張表就搞一堆機器學習算法?北京六院要不要了解一下?

這里雖然我已經(jīng)假設大家都有機器學習背景,但考慮到現(xiàn)在全民機器學習,這里應該也還有非計算機、數(shù)學專業(yè)的聽眾,他們沒有足夠的基礎(chǔ),所以我還是要簡單介紹一下維數(shù)災難,想要更深入地學習的同學,也可以進一步在網(wǎng)上搜尋相關(guān)資料。

我們知道維數(shù)越高精確度越高,比如天氣預報會包括溫度、濕度以及風向、風力、降雨量……至少經(jīng)驗告訴我們,這樣的天氣預報精度是會更高的。那么是不是可以進行延展,認為對于所有情況來說,維數(shù)都越高越好呢?

首先我們看一下圖,圖上是一堆汪和喵,我們該怎么把它們分類出來呢?看上去不太好分類。

 

 陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

那我們稍稍做一下擴展,多加一個維度,圖就有了兩個特征,即兩個維度。

陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會?

雖然這樣看起來分類效果也算不錯了,但還可以更好嗎?

陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

那么再多加一個特征呢?

 陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

嗯,完美。雖然可能看上去有些不是很直觀哈。聽我口令,變

陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

嗯,非常不錯,完美的將喵和汪們分開了。

陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

看到上面這張圖,Hmmmm 這似乎有些不對啊。嗯你沒猜錯,過擬合了。我相信大家都知道什么是過擬合,也都清楚為什么我們那么討厭過擬合,這里不再贅述。

而除此之外,我們還有一個更加令人難受的東西,如果你學過 kNN 的話那你肯定知道——維度災難。

很多算法都基于一個重要的基本假設:任意樣本附近任意小的距離內(nèi)總能找到一個訓練樣本,即訓練樣本的采樣密度足夠大,也稱為「密采樣」,才能保證分類性。

我們知道,維度增長是指數(shù)級的。10x10 的正方形用一百個樣本就能填滿,10x10x10x10 的四維體就需要一萬個。2009 年的 KDD Challenge 就找了 15000 個維度,你有再大的樣本量也是十分稀疏的。

除了上面兩點之外,還有一點極其重要,那么就是距離。我們知道,在高維空間下不同樣本對之間的距離的差別與我們熟知的三維空間有很大的不同。這里我們做一個簡單的證明:

在一個 d 維空間當中,超球體的體積是這樣的:  陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會,超正方體的體積則是這樣的:陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會。當我們有無窮多個維度時,也即 d 趨近于無窮時,超球體與超正方體的體積比會很不幸:陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會。

這個故事告訴我們,高維空間當中幾乎所有數(shù)據(jù)都會遠離中心,兩個關(guān)聯(lián)很強的數(shù)據(jù)對之間的距離可能比你想象當中要大很多,在此情況之下,距離函數(shù)失去了意義。

所以,我們的目標是—降低維度。

該怎么降低維度呢?

相信看過《三體》的人都清楚:流形學習。在繼續(xù)進行到數(shù)據(jù)降維的操作之前,這里我先簡單介紹一下流行。

這張圖上,有一個碗、一個杯子和一個甜甜圈。

 陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

我們首先引入一個「同胚」的概念。什么樣的東西是同胚的呢?

通過連續(xù)變換(拉伸、彎曲、撕裂或者粘合)之后能變成一樣的兩個或多個物體,這些物體就是同胚的。在這個例子當中,杯子和甜甜圈中間都有一個圈,所以它們是同胚的。

然后我們再引入一個「虧格」的概念,以實的閉曲面為例,虧格 g 就是曲面上洞眼的個數(shù),虧格數(shù)相同的物體就是同胚的。在這個例子中,碗的虧格為 0,而杯子和甜甜圈的虧格都為 1,所以杯子和甜甜圈是同胚的。

這里我們?yōu)槭裁刺岬搅餍文??它是指我們可以假設這些東西都是隨意變化的。比如說,要把玻璃、塑料碗揉成一個杯子的形狀,也是有困難的。

所以說這跟降維有什么關(guān)系?我們再來看一張圖。

 陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

這個是地球。而我們都知道一個歐式空間當中的球體,是三維的。

 陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

這個則是地圖,就是把球體鋪平后的樣子。

所以說,球面是幾維的呢?看這個圖就知道——二維。原本表達我們的位置需要三個變量,這么一來就只需要兩個了,即我們成功將維度降低為兩個。

所謂流形學習,就是假設在歐式空間當中存在這樣一個流形,它可以把維度降低下來。這里再提一下,一個 d 維的流形,即任意點處局部同胚于歐氏空間,對于地球上的任意一點,我們在地面看到的都是平的,我們就可以認為它局部同胚于歐式空間,這是一個二維的東西。

接下來,我們正式討論流行學習算法。

首先是線性流行學習算法。這里我們一共會討論兩種算法:無監(jiān)督的 PCA,與監(jiān)督的 LDA。

第一種算法是 PCA,即主成分學習(Principal Component Analysis),它借助于一個正交變換,將其分量相關(guān)的原隨機向量轉(zhuǎn)化成其分量不相關(guān)的新隨機向量,這在代數(shù)上表現(xiàn)為將原隨機向量的協(xié)方差陣變換成對角形陣,在幾何上表現(xiàn)為將原坐標系變換成新的正交坐標系,使之指向樣本點散布最開的 p 個正交方向,然后對多維變量系統(tǒng)進行降維處理,使之能以一個較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通過構(gòu)造適當?shù)膬r值函數(shù),進一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。

簡單來說,就是通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。PCA 則是指找出數(shù)據(jù)里最主要的方面,用數(shù)據(jù)里最主要的方面來代替原始數(shù)據(jù)。而 PCA 算法則主要從線性的協(xié)方差角度去找較好的投影方式。

另外一個常用的算法是 LDA,即線性判別分析(Linear Discriminant Analysis)。和 PCA 不同,LDA 是根據(jù)類別的標注關(guān)注分類能力。所以說 LDA 降維是直接和類別的個數(shù) k 相關(guān)的,也不保證投影到的坐標系是正交的。

假設我們的原始數(shù)據(jù)是 d 維的,一共有 k 個類別。PCA 可以選擇的維度范圍是 1--d,而 LDA 跟維度關(guān)系不大,監(jiān)督學習主要關(guān)注標簽,它可選擇降到的維度范圍是 1--k-1(類別數(shù)-1)。這給 LDA 造成了使用方面的限制,比如說類別為 3,那就無法讓它降到 3 維,類比為 10,最多是能讓它降到 9 維。但是在大多數(shù)情況下,LDA 的降維效率要比 PCA 稍微高一些。

剛剛講到維數(shù)災難的時候,第三點(距離問題)沒有仔細提。

在降維的時候,我們通常通過投影方式降維,然而很多數(shù)據(jù)在獲取低維度的投影過程中,會丟失很多數(shù)據(jù),尤其是距離信息,即原始距離的數(shù)據(jù),在降維以后會產(chǎn)生新的變化。比如歐氏空間的原本距離為 10,降維之后,就變成 8 了,而在另一個維數(shù)中的數(shù)據(jù)還可能變成 2 了,這就會導致降維后的結(jié)果不夠收斂,因而分類效果也降低——這是由于線性降維的線性原理所導致的。

因此我們就只能通過非線性流形學習來解決這個問題。關(guān)于非線性流形學習,我只會簡要介紹 T-SNE(t-distributed Stochastic Neighbor Embedding)算法。

T-SNE 算法將數(shù)據(jù)點之間的相似度轉(zhuǎn)換為概率,它通過原始空間和嵌入空間的聯(lián)合概率的 Kullback-Leibler(KL)散度來評估可視化效果的好壞,也就是說用有關(guān) KL 散度的函數(shù)作為 loss 函數(shù),然后通過梯度下降最小化 loss 函數(shù),最終獲得收斂結(jié)果。

簡單來說,就是原始空間中的相似度由高斯聯(lián)合概率表示,嵌入空間的相似度由「學生 t 分布」表示。至于為什么我們愿意使用 T-SNE?就是因為它的表現(xiàn)效果特別好——它主要關(guān)注數(shù)據(jù)的局部結(jié)構(gòu),同時,這也會導致它的時間和空間復雜度都非常高。

接下來,我們對線性降維和非線性降維做一個簡要的對比。

 陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

上圖為四種算法降維出來的效果。右下角這個 fa,是因子分析(剛剛我們沒有講到),它也是一種線性降維。

從整張對比圖,我們可以看到,線性降維和非線性降維的區(qū)別是非常大的,其中,T-SNE 的降維效果要好很多。

一般我們都會先通過線性降維(如 PCA)降一下,降完以后再用 T-SNE,這樣就能平衡一下時間、空間復雜度的消耗以及降維效果。

使用 LDA 降維實際上也是這樣,先使用 PCA 降維,再使用 LDA 降維,因為(我們這里也可以看到)LDA 的降維效果確實要比 PCA 好一些。

今天的知識點就講到這里,以后我還會就這個話題與大家展開更加深入的分享,歡迎大家繼續(xù)關(guān)注。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)) AI 研習社社區(qū)觀看。關(guān)注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

陳陟原:數(shù)據(jù)降維與可視化| AI 研習社第 53 期猿桌會

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說