0
本文作者: sanman | 2018-04-24 18:10 |
雷鋒網(wǎng)AI研習(xí)社按:斯坦福大學(xué)的CS231n主要介紹卷積神經(jīng)網(wǎng)絡(luò)相關(guān)的深度學(xué)習(xí)知識(shí),課程從算法的公式到實(shí)踐進(jìn)行了全面的介紹。基于該課程的三場(chǎng)實(shí)戰(zhàn)分享直播課近期在AI研習(xí)社上線。
在雷鋒網(wǎng)的AI研習(xí)社直播課上,張智偉,李振,陳閩川三位老師分別為大家?guī)?lái)了使用TensorFlow實(shí)現(xiàn)DQN實(shí)戰(zhàn)、深入講解圖像分類和網(wǎng)絡(luò)優(yōu)化以及AI視覺(jué)芯片共三場(chǎng)干貨滿滿的直播。該課程結(jié)合CS231n課程同時(shí)將課程內(nèi)容與應(yīng)用領(lǐng)域連接起來(lái),讓大家可以真正的學(xué)會(huì)如何應(yīng)用深度學(xué)習(xí)。
以下是嘉賓分享內(nèi)容:
本次分享的內(nèi)容主要集中在CS231n第十四課——Deep Reinforcement Learning。首先回顧深度學(xué)習(xí)的幾大分支。
什么是強(qiáng)化學(xué)習(xí)?強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。強(qiáng)化學(xué)習(xí)有兩個(gè)主體,agent和environment,每個(gè)時(shí)間節(jié)點(diǎn),agent會(huì)輸出一個(gè)action并傳送個(gè)環(huán)境,環(huán)境會(huì)產(chǎn)生下一個(gè)狀態(tài)以及產(chǎn)生一個(gè)獎(jiǎng)勵(lì)并輸入agent,從而構(gòu)成閉合的循環(huán)。
用數(shù)學(xué)來(lái)描述這個(gè)過(guò)程就是馬爾可夫決策過(guò)程(MDP),馬爾可夫決策過(guò)程(Markov Decision Process, MDP)也具有馬爾可夫性,與上面不同的是MDP考慮了動(dòng)作,即系統(tǒng)下個(gè)狀態(tài)不僅和當(dāng)前的狀態(tài)有關(guān),也和當(dāng)前采取的動(dòng)作有關(guān)。MDP實(shí)際上是一個(gè)五元組,由五個(gè)元素組成。
什么是Q-Learning?Q為動(dòng)作效用函數(shù)(action-utility function),用于評(píng)價(jià)在特定狀態(tài)下采取某個(gè)動(dòng)作的優(yōu)劣,可以將之理解為智能體(Agent)的大腦。Q-Learning的核心是貝爾曼方程,它給我們的啟示是我們可以用下一時(shí)刻的最佳Q值函數(shù)表示當(dāng)前的最佳Q值函數(shù)。這樣就可以迭代的求貝爾曼方程。
在深度學(xué)習(xí)的背景下,我們可以用神經(jīng)網(wǎng)絡(luò)擬合出最佳Q函數(shù)。有了神經(jīng)網(wǎng)絡(luò)該如何優(yōu)化它的函數(shù)呢?還是要用到貝爾曼方程。
接下來(lái)給大家解讀一下DQN算法,主要分為六個(gè)部分,對(duì)我們比較有用的包含在第二部分和第四部分。
這篇論文我總結(jié)了有三個(gè)亮點(diǎn)。一是replay memory,二是訓(xùn)練網(wǎng)絡(luò)與計(jì)算標(biāo)簽的網(wǎng)絡(luò)分離,三是網(wǎng)絡(luò)結(jié)構(gòu)。
介紹完三個(gè)亮點(diǎn),我們?cè)賮?lái)看一下算法流程。
講了論文,我們開(kāi)始自己使用TensorFlow來(lái)實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)。主要用的庫(kù)包括TensorFlow、numpy(數(shù)組)、pil(基礎(chǔ)圖像操作)、gym(openai開(kāi)源的庫(kù))、random。
最后把代碼鏈接發(fā)給大家,如有疑問(wèn)可以看源碼:https://github.com/BigJerry/TooNaive/blob/master/DQN/DQN.py
首先還是普及一下深度學(xué)習(xí)的基本概念,然后再給大家介紹一下我今天分享的思路,并介紹一些我個(gè)人的關(guān)于應(yīng)用的意見(jiàn)。
接下來(lái)給大家分享一下我個(gè)人對(duì)圖像分類的一些理解與思路。
首先是任務(wù)分析,任務(wù)分析主要包括任務(wù)的基本情況和數(shù)據(jù)的基本情況。
確定好任務(wù)之后是選擇合適的網(wǎng)絡(luò),這里我建議大家可以選擇已經(jīng)被驗(yàn)證的比較好的網(wǎng)絡(luò),不要急著寫自己的網(wǎng)絡(luò)。網(wǎng)絡(luò)選完接著就是平臺(tái)選擇,個(gè)人建議還是選一些比較容易入手,用的人比較多,資源又豐富的平臺(tái)。
選定平臺(tái)后就可以進(jìn)行預(yù)訓(xùn)練,準(zhǔn)備數(shù)據(jù)庫(kù)。然后就是比較關(guān)鍵的內(nèi)容即網(wǎng)絡(luò)的訓(xùn)練、測(cè)試與優(yōu)化,這些內(nèi)容我跟大家分享一下我個(gè)人的技巧。
上面介紹的網(wǎng)絡(luò)優(yōu)化中我還想分享一些其他的技巧。我們應(yīng)優(yōu)先解決影響最大的問(wèn)題,即從錯(cuò)誤樣本里抽取一定數(shù)量的樣本并進(jìn)行分類,先解決最容易糾正的。我們還可以用表格記錄嘗試的的情況。
這些就是我今天全部的分享。
首先我介紹一下自己的學(xué)習(xí)經(jīng)歷,我碩士畢業(yè)之后主要從事芯片的電子設(shè)計(jì)自動(dòng)化的工作,主要負(fù)責(zé)芯片的物理設(shè)計(jì),包括芯片的布局布線,還有芯片的自動(dòng)化流程的開(kāi)發(fā)。這些經(jīng)歷對(duì)我進(jìn)入AI行業(yè)有一定幫助。
之后我學(xué)習(xí)過(guò)一些斯坦福公開(kāi)課比如CS231n,吳恩達(dá)的機(jī)器學(xué)習(xí),以及Coursera的并行計(jì)算編程等。我自己也看了一些書(shū),比如周志華的機(jī)器學(xué)習(xí)等。我這次主要想分享一些我轉(zhuǎn)行的經(jīng)歷,以及我的一些觀點(diǎn)和視角。
首先我想從畢加索的畫說(shuō)起。
畢加索作為二十世紀(jì)最杰出的畫家之一,他曾經(jīng)說(shuō)過(guò)一句話“我畫的不是事物的表象,而是不能用肉眼看出的本質(zhì)”。介紹畢加索和CS231n有什么關(guān)系呢?我覺(jué)得畢加索的畫風(fēng)類似于深度學(xué)習(xí)的特征提取。
他從事物的線條逐漸抽象不斷提取特征十分類似卷積神經(jīng)網(wǎng)絡(luò)中圖像識(shí)別、圖像理解的過(guò)程。
接下來(lái)我想介紹一下分割遷移,我覺(jué)得學(xué)習(xí)應(yīng)該以興趣為導(dǎo)向,我剛開(kāi)始接觸深度學(xué)習(xí)的時(shí)候?qū)︼L(fēng)格遷移非常感興趣。圖片的風(fēng)格遷移的例子如下。
風(fēng)格遷移的思路是用深度學(xué)習(xí)學(xué)到的特征中的統(tǒng)計(jì)信息(分布)描述圖像風(fēng)格。在卷積網(wǎng)絡(luò)中使用不同的層來(lái)提取不同的特征。
自己動(dòng)手試一下實(shí)現(xiàn)風(fēng)格遷移可以更加感覺(jué)到學(xué)習(xí)的趣味。接下來(lái),我介紹一下經(jīng)典的神經(jīng)網(wǎng)絡(luò)的框架結(jié)構(gòu)。主要包括LeNet、ResNet等。
下面我們主要介紹一下深度學(xué)習(xí)對(duì)芯片行業(yè)的影響,目前比較火熱的商業(yè)場(chǎng)景包括消費(fèi)電子、安防監(jiān)控、自動(dòng)駕駛汽車和云計(jì)算。現(xiàn)在比較大的的芯片公司如下。
最后我也希望國(guó)內(nèi)在這波AI浪潮中可以出現(xiàn)世界級(jí)的芯片公司。在此引用一段谷歌研究員吳軍的話:“一百多年來(lái),總有一些公司很幸運(yùn)的、有意識(shí)或無(wú)意識(shí)的站在技術(shù)革命的浪尖之上。對(duì)于一個(gè)弄潮的年輕人來(lái)說(shuō),最幸運(yùn)的,莫過(guò)于趕上一波大潮?!?/p>
雷鋒網(wǎng)認(rèn)為目前AI發(fā)展正處于鼎盛時(shí)期,三位老師都從實(shí)踐的角度向大家展示了CS231n涉及的內(nèi)容。希望我們的課程可以給大家一些啟發(fā)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。