0
本文作者: 楊曉凡 | 2017-07-20 07:58 |
雷鋒網(wǎng) AI 科技評(píng)論按:蘋(píng)果一出手就要解決人工智能的瓶頸問(wèn)題,野心不可謂不大,但是效果也不可謂不好,最近的一篇機(jī)器學(xué)習(xí)方面的論文就巧妙地解決了訓(xùn)練數(shù)據(jù)收集方面的大問(wèn)題,不僅已經(jīng)被CVPR2017收錄,剛剛上線的Apple Machine Learning Journal(機(jī)器學(xué)習(xí)日記)網(wǎng)站上的第一篇博文也就是這篇論文的介紹。
7月19日剛剛上線的“蘋(píng)果機(jī)器學(xué)習(xí)日記”網(wǎng)站,相比其它硅谷IT公司的 AI 研究院 Blog 可謂是姍姍來(lái)遲,大家等待蘋(píng)果正式加入知識(shí)開(kāi)放、動(dòng)作迅速的 AI 研究大家庭已經(jīng)很久了。不過(guò)讓人欣喜的是,第一篇博文就能幫苦于沒(méi)有大量訓(xùn)練數(shù)據(jù)的研究者們解決不小的麻煩。雷鋒網(wǎng) AI 科技評(píng)論對(duì)論文的主要內(nèi)容介紹如下。
對(duì)于現(xiàn)階段的各種人工智能來(lái)說(shuō),用數(shù)據(jù)對(duì)它們進(jìn)行訓(xùn)練是一個(gè)必不可少的環(huán)節(jié),而且數(shù)據(jù)的質(zhì)量會(huì)極大地影響人工智能的表現(xiàn)。比如以4:1擊敗李世石的 AlphaGo 是用海量的人類(lèi)棋譜訓(xùn)練的,李世石當(dāng)時(shí)也評(píng)價(jià) AlphaGo 的棋風(fēng)有一些人類(lèi)的影子;而接近兩個(gè)月前以 3:0 戰(zhàn)勝柯潔的 AlphaGo Master 版就是用海量的 AlphaGo 高質(zhì)量自我對(duì)局訓(xùn)練的,去年拋出“狂言”的柯潔今年只能甘拜下風(fēng)。
圍棋之外還有一個(gè)典型的人工智能應(yīng)用是圖像識(shí)別,人工智能要先學(xué)習(xí)過(guò)成千上萬(wàn)張人類(lèi)分好的、已經(jīng)標(biāo)注過(guò)“貓”的貓咪照片,才能學(xué)會(huì)識(shí)別其它圖片里的貓。業(yè)內(nèi)訓(xùn)練圖像識(shí)別系統(tǒng)一般用的都是一百萬(wàn)張級(jí)別的帶標(biāo)注圖像,而財(cái)大氣粗的谷歌上周剛剛雄辯地證明了如果用別人的300倍那么多的圖像(3億張),可以讓識(shí)別正確率進(jìn)一步上升。只是如此數(shù)量的圖像已經(jīng)沒(méi)辦法讓人類(lèi)親自標(biāo)注了,谷歌也是用了各種手段才湊出了這么多的圖像。
“湊更多的圖像”,或者說(shuō)數(shù)據(jù)增補(bǔ),有一種常見(jiàn)的方法是設(shè)計(jì)一個(gè)圖像模擬器,讓它仿照手里已有的、分好類(lèi)的真實(shí)圖像,生成同類(lèi)的圖像,新生成的圖像就還是帶有標(biāo)注的,可以用于人工智能模型的訓(xùn)練。這種方法的成本就比人低多了,但是用圖像模擬器生成的圖像往往不如原有的圖像真實(shí),訓(xùn)練出的模型效果就不理想。
所以蘋(píng)果的機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì)就琢磨了,既然我能輕松地生成帶有標(biāo)注的圖像,然后它們的真實(shí)性不夠好,那我直接在這些圖像的基礎(chǔ)上提高真實(shí)性行不行呢?整篇論文要解決的就是這個(gè)問(wèn)題。
基于提高真實(shí)性的思路,他們仿照GANs(對(duì)抗性生成式網(wǎng)絡(luò))的模式,設(shè)計(jì)了一種提高圖像真實(shí)性的美化網(wǎng)絡(luò)。這種美化網(wǎng)絡(luò)里包含一個(gè)“美化器” R 和一個(gè)“鑒別器” D,美化器要想辦法把現(xiàn)有的生成的圖像變得更真實(shí),然后把經(jīng)過(guò)這種美化以后的圖像拿給鑒別器看;鑒別器則掌握著一批真實(shí)圖像,參考真實(shí)圖像鑒別美化以后的圖像是不是真的。
美化器的目的是輸出更真實(shí)的圖像來(lái)騙過(guò)鑒別器,讓它分不出來(lái)真?zhèn)?;鑒別器則要不斷提高自己的姿勢(shì)水平,不能被美化器騙過(guò)了。這兩個(gè)角色會(huì)交替更新,美化器輸出的圖像越來(lái)越逼真,鑒別器的鑒別能力也水漲船高。最終等到鑒別器怎么都區(qū)分不出來(lái)真實(shí)的圖像和美化后的圖像了,這個(gè)美化網(wǎng)絡(luò)就學(xué)習(xí)完成了。
如圖是美化網(wǎng)絡(luò)的示意圖,圖像模擬器生成的圖像經(jīng)過(guò)美化器 R 的處理以后變得更真實(shí)了,鑒別器 D 起到促進(jìn)美化器 R 進(jìn)化的作用。
蘋(píng)果論文中的美化網(wǎng)絡(luò)范式與 GANs 有類(lèi)似之處,都是利用鑒別器 D 的對(duì)抗性促進(jìn)網(wǎng)絡(luò)輸出圖像質(zhì)量的提升;不過(guò) GANs 是使用一個(gè)生成器 G 從輸入向量完全生成一張新圖像,蘋(píng)果論文的美化網(wǎng)絡(luò)中把生成器 G 換成了美化器 R,只是對(duì)已有圖像做一些美化調(diào)整。
另一方面,蘋(píng)果的機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì)提出這種美化網(wǎng)絡(luò)的目的既然是為了降低“湊圖像”的成本,他們可沒(méi)有忘了把降低成本的目的執(zhí)行到底。還記得剛才我們說(shuō)鑒別者網(wǎng)絡(luò)要手握一批真實(shí)圖像做參考嗎,假如這批用作參考的真實(shí)圖像也全都是有標(biāo)注的,這部分人工費(fèi)就還是要出。能不能把這筆錢(qián)也省了呢?蘋(píng)果的研究員們告訴你,能!鑒別器參考用的圖像可以是沒(méi)有標(biāo)注的!
提高真實(shí)性的想法很好,要怎么引導(dǎo)美化網(wǎng)絡(luò)的學(xué)習(xí)從而得到理想的效果呢?蘋(píng)果的研究員們動(dòng)了這些小心思
關(guān)鍵點(diǎn)1:用新設(shè)計(jì)的鑒別器避免圖像出現(xiàn)瑕疵
以往基于 GANs 的研究中,由于生成器 G 和鑒別器 D 之間是一面對(duì)抗一面交替迭代更新的,這就會(huì)導(dǎo)致生成器 G 傾向于過(guò)分強(qiáng)化圖像中的某一些特征,鑒別器 D 也跟著去重點(diǎn)關(guān)注這些特征,結(jié)果就會(huì)造成像素的漂移、在圖像中形成瑕疵。這些瑕疵最終會(huì)成為網(wǎng)絡(luò)學(xué)習(xí)結(jié)果的一部分,就降低了輸出圖像的真實(shí)性。
由于蘋(píng)果論文的美化網(wǎng)絡(luò)同樣具有“邊對(duì)抗邊交替迭代更新”的特點(diǎn),GANs 上出現(xiàn)的這個(gè)問(wèn)題也很容易出現(xiàn)在美化網(wǎng)絡(luò)里。蘋(píng)果的研究員們仔細(xì)研究以后對(duì)傳統(tǒng)的鑒別器 D 做了一些調(diào)整,它不再像以往的方法那樣對(duì)圖像進(jìn)行整體鑒別,而是把整幅圖像看作許多小塊,然后分別對(duì)所有小塊的像素特征進(jìn)行分類(lèi),然后統(tǒng)計(jì)每個(gè)塊的對(duì)抗失真損失;圖像偏離真實(shí)圖像越遠(yuǎn),損失就越大。這種圖像分割的做法雖然限制了鑒別器的感受野和識(shí)別容量,但是對(duì)圖像細(xì)節(jié)的關(guān)注更多、更平均,對(duì)它對(duì)抗的美化器從每幅美化后的圖像接收到的對(duì)抗失真損失反饋也是多個(gè)局部值的總和,從而能夠獲得更大的提升,訓(xùn)練后生成圖像的效果更好。
關(guān)鍵點(diǎn)2:要保持圖像的標(biāo)注
美化網(wǎng)絡(luò)美化之后的圖像是要作為別的模型的訓(xùn)練數(shù)據(jù)的,那么如何保證美化前后的圖像對(duì)應(yīng)的標(biāo)注保持不變呢?以這篇論文中所使用的數(shù)據(jù)庫(kù)為例,圖像中眼睛注視的角度在美化前后不能有明顯變化,不然就前功盡棄了。
為了保持圖像標(biāo)注,蘋(píng)果的研究員們讓網(wǎng)絡(luò)把美化前后的圖像進(jìn)行對(duì)比,根據(jù)兩幅圖像間的區(qū)別設(shè)立一個(gè)“自我正則L1損失”(self-regularization L1 loss)項(xiàng);圖像間區(qū)別越大,損失項(xiàng)就越大。
這樣,上文提到的“局部對(duì)抗性失真損失”、與這項(xiàng)“自我正則L1損失”組合起來(lái),構(gòu)成了學(xué)習(xí)過(guò)程的優(yōu)化目標(biāo):讓這兩項(xiàng)損失的組合最小。這樣網(wǎng)絡(luò)輸出的圖像就又有高真實(shí)度,又能夠保持標(biāo)注不變。
關(guān)鍵點(diǎn)3:給鑒別器加上記憶功能
抽象一點(diǎn)講,模擬器生成+美化器美化后的圖像并不是真正的真實(shí)圖像,但是只要這樣的圖像的特征分布與真實(shí)圖像的特征分布相同,鑒別器就區(qū)分不出來(lái),就達(dá)到了引導(dǎo)美化網(wǎng)絡(luò)學(xué)習(xí)的目的了。
理論上,以往 GANs 模型中的鑒別器手握著真實(shí)圖像,它就知道真實(shí)圖像的特征分布(目標(biāo)分布),只要生成器拿給鑒別器的圖像不符合真實(shí)圖像的分布,它就能夠辨認(rèn)出來(lái)。但是目前的水平上實(shí)際很容易發(fā)生的一件事是,生成器生成的圖像符合的是另一個(gè)完全不同的新分布,然后與之對(duì)抗的鑒別器不得不學(xué)到一個(gè)與之臨近的分布才能進(jìn)行鑒別,這樣的后果就是鑒別器不能保證總是讓生成器生成的分布更靠近目標(biāo)分布。兩者邊對(duì)抗邊進(jìn)化的效果很差,就像如下左圖那樣。
利用歷史圖像幫助鑒別器提高的想法的示意圖,生成器和鑒別器的分布分別用橙色和淺藍(lán)色表示。圖示是簡(jiǎn)化版本,實(shí)際分布可能是復(fù)雜的、很少連成一片的
為了改善這個(gè)問(wèn)題,蘋(píng)果的研究人員們?cè)阼b別器中加入了一個(gè)歷史記憶的功能,讓它可以存儲(chǔ)生成器在以前的迭代過(guò)程中生成的圖片,這樣鑒別器就更不容易忘記圖像空間中它曾經(jīng)學(xué)過(guò)的區(qū)域。那么更強(qiáng)的鑒別器就可以幫助生成器更快地向著目標(biāo)分布前進(jìn),如上圖的右圖。
把這個(gè)想法再說(shuō)明白一點(diǎn),就是直到網(wǎng)絡(luò)的訓(xùn)練結(jié)束前,任意時(shí)刻、任意一張美化器美化出的圖像對(duì)鑒別器來(lái)說(shuō)其實(shí)都是“假圖像”,那么如果鑒別器從來(lái)都不會(huì)忘記自己曾經(jīng)認(rèn)出來(lái)過(guò)的假圖像,美化器也就“不得不”生成越來(lái)越真實(shí)的圖像。
這種想法在網(wǎng)絡(luò)中的實(shí)現(xiàn)也很簡(jiǎn)單,蘋(píng)果的研究人員們?cè)阼b別器中設(shè)置了一個(gè)隨機(jī)替換緩沖區(qū),其中存儲(chǔ)了更早的假圖像。鑒別器迭代時(shí)所用的 mini-batch 中有一半的圖像會(huì)來(lái)自這個(gè)緩沖區(qū),另一半來(lái)自生成器或者美化器當(dāng)前生成的圖像。這樣相每個(gè) mini-batch 中都包含一定數(shù)量的歷史圖像,經(jīng)過(guò)測(cè)試表明這樣的做法對(duì)訓(xùn)練過(guò)程有明顯的提升。
訓(xùn)練鑒別器 D 所用的每個(gè)mini-batch都同時(shí)含有當(dāng)前迭代的生成器生成的圖像和來(lái)自緩沖區(qū)的更早的假圖像
蘋(píng)果的研究人員們一并介紹了訓(xùn)練過(guò)程和其中的一些小技巧供其它的研究人員們參考
只用正則化損失項(xiàng)進(jìn)行初始化
上文提到,網(wǎng)絡(luò)的學(xué)習(xí)優(yōu)化目標(biāo)是“局部對(duì)抗性失真損失”與“自我正則L1損失”組合起來(lái)最小,不過(guò)初始化的階段只使用了“自我正則L1損失”以生成與輸入的生成圖像盡可能接近的圖像,美化器會(huì)逐漸生成輸入圖像的模糊版本。根據(jù)論文介紹,經(jīng)他們實(shí)驗(yàn)一般的美化器G需要迭代500到2000輪,然后再加入“局部對(duì)抗性失真損失”。(這時(shí)候鑒別器D還沒(méi)有參與訓(xùn)練)
每輪迭代中步驟數(shù)目不同
在每輪訓(xùn)練迭代中,蘋(píng)果的研究人員們對(duì)生成器和鑒別器使用的迭代步驟數(shù)目是不同的。對(duì)于需要用到深度數(shù)據(jù)的手部姿態(tài)估計(jì),生成器 G 每迭代2次,鑒別器 D 只迭代一次;在眼部注視方向預(yù)測(cè)的實(shí)驗(yàn)中,嘗試調(diào)優(yōu)的最終結(jié)果是,生成器 G 每迭代50次,鑒別器 D 才需要迭代一次。他們發(fā)現(xiàn)鑒別器的收斂速度比生成器更快,有部分原因來(lái)自鑒別器的訓(xùn)練批量大小。所以他們的調(diào)優(yōu)辦法是先把鑒別器的迭代次數(shù)鎖定為一次,然后從較小的數(shù)字開(kāi)始嘗試不同的生成器的迭代次數(shù),根據(jù)鑒別器的損失函數(shù)逐漸增加,調(diào)整至損失函數(shù)平衡。
這是訓(xùn)練中不同階段的鑒別器和生成器/美化器損失的圖示??梢钥吹?,鑒別器的損失一開(kāi)始很小,說(shuō)明它可以輕易地分辨美化后的圖像和真實(shí)的圖像。然后隨著訓(xùn)練進(jìn)行,鑒別者的損失逐漸上升,生成器的損失逐漸減小,輸出的圖像越來(lái)越真實(shí)。
隨著訓(xùn)練進(jìn)行,美化器的輸出不斷變化。一開(kāi)始是模糊的圖像,然后網(wǎng)絡(luò)逐漸學(xué)會(huì)了重現(xiàn)真實(shí)圖像中的細(xì)節(jié)
低學(xué)習(xí)速率;目視作為停止條件
蘋(píng)果的研究人員們發(fā)現(xiàn),用很小的學(xué)習(xí)速率(0.0001左右)學(xué)習(xí)很長(zhǎng)時(shí)間可以得到比較好的效果。他們猜想這種方法之所以效果不錯(cuò)可能是因?yàn)樯善骱丸b別器中的任意一個(gè)一旦有大的變化都會(huì)直接甩開(kāi)對(duì)方,學(xué)習(xí)就難以收斂。對(duì)于停止條件,他們則表示很難通過(guò)訓(xùn)練損失的值做判定,所以轉(zhuǎn)而選擇了保存訓(xùn)練過(guò)程中的所有圖片,然后在網(wǎng)絡(luò)輸出的圖片肉眼看起來(lái)與真實(shí)圖像非常相近的時(shí)候手工停止訓(xùn)練。
說(shuō)了這么多,網(wǎng)絡(luò)的效果到底怎么樣呢?當(dāng)然是很好啦。
首先是一個(gè)驗(yàn)證實(shí)驗(yàn),驗(yàn)證美化后的圖像能夠保留原有的標(biāo)注
蘋(píng)果的研究人員們?cè)诿阑昂蟮膱D像中逐個(gè)用橢圓把虹膜圈了出來(lái),然后計(jì)算出兩個(gè)橢圓的中心距。美化前后中心距的區(qū)別如下圖圖示。在對(duì)應(yīng)的生成圖像和美化后圖像間,用橢圓估計(jì)出的瞳孔位置變化相當(dāng)小,只有1.1+/-0.8像素而已,相對(duì)于55像素的眼寬是很小的距離。
然后是定性實(shí)驗(yàn),驗(yàn)證人類(lèi)肉眼能否區(qū)分美化后的圖像和真實(shí)圖像
為了評(píng)價(jià)美化后圖像的視覺(jué)質(zhì)量,蘋(píng)果的研究人員們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的用戶(hù)研究,他們讓一組被試者分辨圖像是真實(shí)的還是生成+美化后的。被試者們表示很難從真實(shí)圖像和美化后的圖像中找到區(qū)別。根據(jù)他們的綜合分析結(jié)果,10個(gè)被試者看了1000組測(cè)試圖像,其中只有517組正確地分辨出了真實(shí)圖像,這就表明被試者們不能可靠地分辨真實(shí)圖像和美化后的圖像。作為對(duì)比,當(dāng)每個(gè)被試者看10張美化前的生成圖像和10張真實(shí)圖像的時(shí)候,200組測(cè)試中有162組都能夠正確分辨出真實(shí)圖像。
最后是定量實(shí)驗(yàn),用不同的圖像訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,測(cè)試訓(xùn)練后模型的表現(xiàn)
用美化前后的生成圖片訓(xùn)練的模型做目視方向預(yù)測(cè)的結(jié)果對(duì)比。測(cè)試是用真實(shí)圖像進(jìn)行的。圖中曲線越高越好。
相比與用原始的生成圖像訓(xùn)練,用美化后的生成圖像訓(xùn)練的模型表現(xiàn)得到了提高。圖中有2點(diǎn)值得注意:1,用美化后的圖像訓(xùn)練比用原始的生成圖像訓(xùn)練的效果更好;2,如果用更多的生成數(shù)據(jù),模型的表現(xiàn)還可以得到進(jìn)一步提高。(比如同樣是用經(jīng)過(guò)美化的生成數(shù)據(jù),用4倍的數(shù)據(jù)訓(xùn)練,模型的表現(xiàn)又得到了大幅提高)
蘋(píng)果的研究人員們還拿出了另一項(xiàng)對(duì)比結(jié)果:基于同樣的數(shù)據(jù)集,借助生成圖像+美化進(jìn)行數(shù)據(jù)增補(bǔ)的方法,他們創(chuàng)下了識(shí)別錯(cuò)誤率的新記錄。
基于MPIIGaze數(shù)據(jù)集的目視方向預(yù)測(cè),不同方法的測(cè)試結(jié)果對(duì)比。[2]和[3]分別為來(lái)自CVPR2015的「 Appearance-based Gaze Estimation in the Wild」和來(lái)自ACM眼動(dòng)跟蹤研究與應(yīng)用2016的「 Learning an Appearance-based Gaze Estimator from One Million Synthesised Images」
這篇來(lái)自蘋(píng)果機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì)的論文已經(jīng)被頂級(jí)學(xué)術(shù)會(huì)議CVPR 2017(IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議)收錄,論文原文地址為 https://arxiv.org/abs/1612.07828 ,歡迎感興趣的讀者詳細(xì)查閱。CVPR2017即將于7月21到26日在夏威夷舉行,雷鋒網(wǎng) AI 科技評(píng)論也會(huì)派出記者親赴會(huì)議現(xiàn)場(chǎng)帶來(lái)全方位的報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。