丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給李尊
發(fā)送

1

如何評價Google最新發(fā)布的增強型風格遷移算法?

本文作者: 李尊 2016-10-28 18:42
導語:Google最新發(fā)布的增強型風格遷移算法用了哪些tricks?

Google最新發(fā)布了一種新的遷移網(wǎng)絡(來自其論文《A Learned Representation for Artistic Style》)同時學習多種風格的簡單方法,可以簡單地讓單個深度卷積風格遷移網(wǎng)絡(Deep Convolutional style Transfer Network)同時學習多種藝術風格。

這種方法能實現(xiàn)實時的風格插補(Style Interpolation),其不僅可以應用于靜態(tài)圖像,還可應用于視頻中。

如何評價Google最新發(fā)布的增強型風格遷移算法?

如上圖所示,在實際使用中用戶可使用13種不同的繪畫風格,通過滑塊調(diào)整這些風格的相對強度。多種風格實時結合到一起,最后得到一個輸出。

下圖是 4 種風格按不同比例結合的成果:

如何評價Google最新發(fā)布的增強型風格遷移算法?

與之前快速遷移風格的方法不同,這種同時建模多種風格的方法讓用戶能實時與風格遷移算法進行交互,而且可以基于多個風格的混合進行自由創(chuàng)造。

這讓我們想起了之前紅極一時的圖片應用Prisma,Google所推出的這種遷移網(wǎng)絡方法與之有哪些異同點呢?

Prisma

如何評價Google最新發(fā)布的增強型風格遷移算法?

Prisma應用基于論文A Neural Algorithm of Artistic Style中一種使用深度卷積神經(jīng)網(wǎng)絡(CNN)分類器的方法開發(fā)而來,其系統(tǒng)核心是利用神經(jīng)表征來進行分離,再組合隨機圖片的內(nèi)容和風格,以此來實現(xiàn)一個可用來描繪藝術圖像的算法。

該算法利用一個多層的卷積神經(jīng)網(wǎng)絡(CNN)抽象出給定繪畫作品里一些高級的隱藏特征用來模仿繪畫風格,并把這個繪畫風格應用到一個新的圖片上。此外,該算法會尋找一張給出該 CNN 的底層中同種類型激活(activation)的圖像,這些底層會獲取風格的輸入(寬筆觸和立體美感等等)。另外,該算法還會在更高層產(chǎn)生激活。

這項成果——《A Neural Algorithm of Artistic Style》首次提供了基于神經(jīng)網(wǎng)絡的風格遷移的概念證明,但是這種為單張圖像施加風格的方法對計算的要求很高。

Prisma 的CEO Alexei Moiseyenkov也曾提到,他們打算把應用從靜態(tài)圖片擴展到視頻領域,但這種拓展將主要有兩個挑戰(zhàn):

  1. 視頻的數(shù)據(jù)處理量比圖片更大,對計算能力的要求將顯著提升。

  2. 如何保持幀圖像在時間軸上的信息一致性,而不是單獨處理每一幀圖像。

目前最新版本的Prisma也能實現(xiàn)對視頻進行處理,但是由于手機計算能力的限制,其目前無法做到實時處理的效果。

如何評價Google最新發(fā)布的增強型風格遷移算法?

對于這個問題,我們有請教華南理工大學在讀博士研究生蔡博倫(主要研究方向是:機器學習、計算機視覺、圖像處理等)他表示:

Prisma是約束兩張圖片在cnn的中間層具有相同的表示,然后再反向傳導回去,是一個迭代收斂過程。

Google提出的遷移網(wǎng)絡是直接訓練一個Artistic Style network,它是一個end-to-end的網(wǎng)絡,只需前向、不需迭代,所以其可以做到實時的風格遷移。Prisma則是用了imagenet預先訓練好了的網(wǎng)絡(也是end-to-end的)。

另外,Prisma的技術屬于生成網(wǎng)絡的一種,是從Science 那篇BPL《Human-level concept learning through probabilistic program induction》)開始火起來的一個深度學習方向。Google的方法是工業(yè)上的好方法,Prisma的方法則在學術研究上會更有趣。

另外來自圖普科技的工程師認為:

Google此項技術所利用的網(wǎng)絡結構和Prisma所利用到的網(wǎng)絡結構幾乎是一樣的(卷積神經(jīng)網(wǎng)絡)。最大的不同就是這個網(wǎng)絡用了一個叫"Conditional Instance Normalization"的層來代替原網(wǎng)絡的"Batch Normalization"。


這篇文章的猜想是,其實把一張圖片轉(zhuǎn)變成多種風格,在計算上有很多相似的地方,而卷積層起到的作用是提取圖片的風格基本元素,而Normalization層的scale & shift參數(shù)對不同風格的轉(zhuǎn)換起著決定性的作用。所以N種風格轉(zhuǎn)換的卷積網(wǎng)絡,它們的卷積核是完全一樣的,唯一的不同就是Normalization層的scale & shift參數(shù)。


Google這篇文章雖然展示了不錯的結果,但是對背后原理的解釋還停留在猜想階段。

之前版本的Prisma將他們的模型放在云端,所以除了風格轉(zhuǎn)換的實際時間,還有網(wǎng)絡傳輸?shù)臅r間(Prisma的服務器應該在莫斯科)。最新的Prisma iOS版本可以實現(xiàn)離線風格轉(zhuǎn)換,原理是把模型下載到手機上,然后利用CPU計算,這樣每對一張圖片進行風格化需要6~7秒的時間。目前現(xiàn)有的技術可以都可以在GPU上做到實時,但是這依然是一個計算量非常大的工作(Prisma返回的圖片都是1080P)。


視頻風格化和圖片風格化的原理是一樣的,因為視頻本質(zhì)上就是一幀幀的圖片。第一代風格化技術很難用在視頻上的原因是因為利用這種方法即使是風格化一張圖片在GPU上都要非常長的時間。

鑒于上面兩位的分析有一定的分歧,雷鋒網(wǎng)另外咨詢了圖森科技的首席科學家,他表示,

“我的理解和圖普的基本一致,之前Google也有至少兩三個style transfer工作也都是只要前向傳播不需要迭代?!保ɡ卒h網(wǎng)注:Google之前就有至少兩三個style transfer工作也都是只要前向傳播不需要迭代,所以這個原因很有可能不是它此次“其可以做到實時的風格遷移?!钡年P鍵)。

另外,《我是如何用TensorFlow 做出屬于自己的Prisma的?》的作者牟中強則表示:


小結:

從各方的評論及反饋來看,相較于Prisma,Google最新發(fā)布的增強型風格遷移算法與其相比有相同點,也有不同點。

相同點

  • 都是基于論文《A Neural Algorithm of Artistic Style》改進而來。

  • 所利用到的網(wǎng)絡結構幾乎是一樣的(卷積神經(jīng)網(wǎng)絡)。

  • 視頻本質(zhì)上就是一幀幀的圖片,兩者都可以做到。

不同點

  • 最大的不同就是這個網(wǎng)絡用了一個叫"Conditional Instance Normalization"的層來代替原網(wǎng)絡的"Batch Normalization"。

  • N種風格轉(zhuǎn)換的卷積網(wǎng)絡,它們的卷積核是完全一樣的,唯一的不同就是Normalization層的scale & shift參數(shù)。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

如何評價Google最新發(fā)布的增強型風格遷移算法?

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說